Jan
FEB
Mar
26
2008
2009
2010
1 capture
26 Feb 09 - 26 Feb 09
Close
Help
Edit
Attach
P
rintable
r14 - 05 Feb 2009 - 13:14:57 -
JiriChudoba
You are here:
TWiki
>
FZU Web
>
TWikiUsers
>
JiriChudoba
>
VSadmin
---+ Poznamky o provoznich udalostech na farme Golias ---++ 200902 * 4.2. Opetovny vypadek jedne klimatizacni jednotky kratce pred pulnoci. Zatim nespraveno. Vypnuta cast dorje. ---++ 200901 * 31.1. Kratce pred pulnoci vypadek jedne klimatizacni jednotky. Opraveno 2.2. Cast uzlu jsme 2.2. (pred opravou) odstavili. * 26.1. Problem se strojem hpv2 (nedostatek pameti) zpusobil kratky vypadek sluzeb: vysoky load na hpv2, PBS server golias neodpovidal na qstat, nepublikovaly se spravne udaje pres BDII. Vyreseno rebootem. * 14.1. Behem stehovani iDataPlex z garaze do serverovny se zjistilo, ze zasilka prisla poskozena, viz http://hpv2.farm.particle.cz/idataplex/ iDataPlex odvezli zpet do garaze, vyrizuje se reklamace. ---++ 200810 * 27.10. pad NFS serveru storage4, SAM testy neprochazely, vyreseno rebootem * 9.10. odvezen jeden server Sun Fire V890 (soucast LUNA) z RC05 * 8.10. odstehovan prazdny rack RC06 (zhruba ve 13:00) ---++ 200809 * 29.9. hardwarova zavada golias155 (totalni vypadek, ani nesviti zadna kontrolka), oprava objednana na 30.9. 10:00. * 3.9. ztrata sitoveho spojeni mezi FZU a svetem, neslo ani spojeni z farmy. Pricinou byla zavada na centralnim routeru. Tomas Fiala ho behem dne vymenil. Lokalni ulohy na farme nebyly ovlivneny. ---++ 200808 * 7.8. restart PBS serveru, zatuhl zrejme pod vlivem mnoha volani qstat ze stroje hpv2. Ulohy nebyly ztraceny. ---++ 200807 * 29.7. Upgrade PBS na verzi 9.2. * 23.7. Pad PBS, z neznameho duvodu. Nebyly provadeny zadne administratorske zasahy ani nebyl zaznamenan vypadek site. Vzhledem k planovane reinstalaci PBS na novou verzi jsme priciny padu dele nezkoumali. Uzivatelske ulohy ztraceny. * 4.7. Zmeny v DPM poolech, zmenseni poctu atlas pool tak, aby se mohly zvetsit space tokens. Heppool1 ma nyni kapacitu 11.86 TB. ---++ 200806 * 27.6. Pri pridani dalsiho (testovaciho) WN golias199 do PBS server spadl. Po delsim boji se opet rozebehl, konkretni priciny padu nejsou jasne. Ulohy byly zruseny a uzivatele je museli znovu poslat. * 18.6. Vyprseni certifikatu DPM disk pool goliasx98, padaji ATLAS SAM SE testy. Zazadano o novy, do nagiosu doplnena kontrola platnosti certifikatu pro goliasx98 a se4. Automaticke varovani o vyprseni bylo dle ragistracni autority zasilano na adresu svecj zavinac fzu.cz. ---++ 200805 * 31.5. 11:00 CE golias25 prestal publikovat udaje, bylo to kvuli zaplnenemu disku na / partition. Disk procisten do 2 hodin od hlaseni problemu. Automaticke varovani na zaplneny disk neprislo kvuli chybe v parsovacim programu (bude odstranena). Logy budou presunuty na jinou partition, tim by tento problem jiz nemel nastat. * 28.5. asi 19:30 - problemy PBS serveru. Zpusobene vypadkem (hlasenym) site mezi .fzu.cz a farm.particle.cz. D0 joby a joby posilane pres grid byly zabity. Problemy prestaly po znovuobnoveni provozu 29.5. v 2:00, ale az do dopoledne zustalo mnoho WN ve stavu offline. Duvodem je zrejme chybejici sekundarni DNS server v domene farmy - bude nainstalovan. * 27.5. oprava a reinstalace 2 BL35p (golias126 a golias133). Vecer opet hw problem s golias133. * 26.5. server golias preinstalovan na SL5.1. Vecer PBS opet funkcni. * 23.5. 3:35 - pad PBS. Duvody nezname. Mozna chyba v glibc (podle TK). * 22.5. reinstalace nejstarsich WN lp1000r - prechod na LDAP * 22.5. oprava klimatizace. Vymena zvlhcovacich nadob, cena celkem 10 kKc. Predchozi vymena probehla v lednu 2008 * 15.5. asi 16:30 - problemy PBS serveru vedouci k jeho padu, opetovny pad 16.5. brzy rano. Duvod neni potvrzen, pravdepodobne to zpusobila oprava uzlu golias133, ktery po rebootovani zahltil DHCP server zadostmi o IP adresu. -- FZU.JiriChudoba - 30 Jun 2008
Edit
|
Attach
|
P
rintable
|
V
iew topic
|
Backlinks:
We
b
,
A
l
l Webs
|
H
istory
:
r16
<
r15
<
r14
<
r13
<
r12
|
More topic actions...
FZU
Log In
or
Register
FZU Web
Create New Topic
Index
Search
Changes
Notifications
Statistics
Preferences
Webs
ATLAS
AUGER
FZU
ILC
Sandbox
TWiki
VS
Copyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback