12.2. Vymena tri starych 80 cm sirokych racku cislo 10 az 12 za 4 racky o siri 60 cm. Vypadek trval do 13.2. Pri teto prilezitosti probehl i update serveru storage2 (david) na novy OS. NFS mounty ze storage2 byly dostupne az od pondeli 16.2. Dale se presunul hlavni CE z fyzickeho stroje golias25 (stary HP LP1000r) na virtualni stroj na novem hw (DL360), jmeno golias25 mu zustalo. Presun fw ze samostatneho stroje (DL360) na Cisco switch.
6.2. Problem s klimatizaci byl nalezen v odpadnich nadobach v obou jednotkach. Nevim, co presne udelali, ze to ted funguje, ale pry bude zapotrebi nadoby opet vymenit.
4.2. Opetovny vypadek jedne klimatizacni jednotky kratce pred pulnoci. Zatim nespraveno. Vypnuta cast dorje.
200901
31.1. Kratce pred pulnoci vypadek jedne klimatizacni jednotky. Opraveno 2.2. Cast uzlu jsme 2.2. (pred opravou) odstavili.
26.1. Problem se strojem hpv2 (nedostatek pameti) zpusobil kratky vypadek sluzeb: vysoky load na hpv2, PBS server golias neodpovidal na qstat, nepublikovaly se spravne udaje pres BDII. Vyreseno rebootem.
14.1. Behem stehovani iDataPlex z garaze do serverovny se zjistilo, ze zasilka prisla poskozena, viz http://hpv2.farm.particle.cz/idataplex/ iDataPlex odvezli zpet do garaze, vyrizuje se reklamace.
200810
27.10. pad NFS serveru storage4, SAM testy neprochazely, vyreseno rebootem
9.10. odvezen jeden server Sun Fire V890 (soucast LUNA) z RC05
8.10. odstehovan prazdny rack RC06 (zhruba ve 13:00)
200809
29.9. hardwarova zavada golias155 (totalni vypadek, ani nesviti zadna kontrolka), oprava objednana na 30.9. 10:00.
3.9. ztrata sitoveho spojeni mezi FZU a svetem, neslo ani spojeni z farmy. Pricinou byla zavada na centralnim routeru. Tomas Fiala ho behem dne vymenil. Lokalni ulohy na farme nebyly ovlivneny.
200808
7.8. restart PBS serveru, zatuhl zrejme pod vlivem mnoha volani qstat ze stroje hpv2. Ulohy nebyly ztraceny.
200807
29.7. Upgrade PBS na verzi 9.2.
23.7. Pad PBS, z neznameho duvodu. Nebyly provadeny zadne administratorske zasahy ani nebyl zaznamenan vypadek site. Vzhledem k planovane reinstalaci PBS na novou verzi jsme priciny padu dele nezkoumali. Uzivatelske ulohy ztraceny.
4.7. Zmeny v DPM poolech, zmenseni poctu atlas pool tak, aby se mohly zvetsit space tokens. Heppool1 ma nyni kapacitu 11.86 TB.
200806
27.6. Pri pridani dalsiho (testovaciho) WN golias199 do PBS server spadl. Po delsim boji se opet rozebehl, konkretni priciny padu nejsou jasne. Ulohy byly zruseny a uzivatele je museli znovu poslat.
18.6. Vyprseni certifikatu DPM disk pool goliasx98, padaji ATLAS SAM SE testy. Zazadano o novy, do nagiosu doplnena kontrola platnosti certifikatu pro goliasx98 a se4. Automaticke varovani o vyprseni bylo dle ragistracni autority zasilano na adresu svecj zavinac fzu.cz.
200805
31.5. 11:00 CE golias25 prestal publikovat udaje, bylo to kvuli zaplnenemu disku na / partition. Disk procisten do 2 hodin od hlaseni problemu. Automaticke varovani na zaplneny disk neprislo kvuli chybe v parsovacim programu (bude odstranena). Logy budou presunuty na jinou partition, tim by tento problem jiz nemel nastat.
28.5. asi 19:30 - problemy PBS serveru. Zpusobene vypadkem (hlasenym) site mezi .fzu.cz a farm.particle.cz. D0 joby a joby posilane pres grid byly zabity. Problemy prestaly po znovuobnoveni provozu 29.5. v 2:00, ale az do dopoledne zustalo mnoho WN ve stavu offline. Duvodem je zrejme chybejici sekundarni DNS server v domene farmy - bude nainstalovan.
27.5. oprava a reinstalace 2 BL35p (golias126 a golias133). Vecer opet hw problem s golias133.
26.5. server golias preinstalovan na SL5.1. Vecer PBS opet funkcni.
23.5. 3:35 - pad PBS. Duvody nezname. Mozna chyba v glibc (podle TK).
22.5. reinstalace nejstarsich WN lp1000r - prechod na LDAP
22.5. oprava klimatizace. Vymena zvlhcovacich nadob, cena celkem 10 kKc. Predchozi vymena probehla v lednu 2008
15.5. asi 16:30 - problemy PBS serveru vedouci k jeho padu, opetovny pad 16.5. brzy rano. Duvod neni potvrzen, pravdepodobne to zpusobila oprava uzlu golias133, ktery po rebootovani zahltil DHCP server zadostmi o IP adresu.
Copyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors. Ideas, requests, problems regarding TWiki? Send feedback