r16 - 24 Feb 2009 - 13:45:39 - JiriChudobaYou are here: TWiki  >  FZU Web > TWikiUsers > JiriChudoba > VSadmin

Poznamky o provoznich udalostech na farme Golias

200902

  • 12.2. Vymena tri starych 80 cm sirokych racku cislo 10 az 12 za 4 racky o siri 60 cm. Vypadek trval do 13.2. Pri teto prilezitosti probehl i update serveru storage2 (david) na novy OS. NFS mounty ze storage2 byly dostupne az od pondeli 16.2. Dale se presunul hlavni CE z fyzickeho stroje golias25 (stary HP LP1000r) na virtualni stroj na novem hw (DL360), jmeno golias25 mu zustalo. Presun fw ze samostatneho stroje (DL360) na Cisco switch.
  • 6.2. Problem s klimatizaci byl nalezen v odpadnich nadobach v obou jednotkach. Nevim, co presne udelali, ze to ted funguje, ale pry bude zapotrebi nadoby opet vymenit.
  • 4.2. Opetovny vypadek jedne klimatizacni jednotky kratce pred pulnoci. Zatim nespraveno. Vypnuta cast dorje.

200901

  • 31.1. Kratce pred pulnoci vypadek jedne klimatizacni jednotky. Opraveno 2.2. Cast uzlu jsme 2.2. (pred opravou) odstavili.
  • 26.1. Problem se strojem hpv2 (nedostatek pameti) zpusobil kratky vypadek sluzeb: vysoky load na hpv2, PBS server golias neodpovidal na qstat, nepublikovaly se spravne udaje pres BDII. Vyreseno rebootem.
  • 14.1. Behem stehovani iDataPlex z garaze do serverovny se zjistilo, ze zasilka prisla poskozena, viz http://hpv2.farm.particle.cz/idataplex/ iDataPlex odvezli zpet do garaze, vyrizuje se reklamace.

200810

  • 27.10. pad NFS serveru storage4, SAM testy neprochazely, vyreseno rebootem
  • 9.10. odvezen jeden server Sun Fire V890 (soucast LUNA) z RC05
  • 8.10. odstehovan prazdny rack RC06 (zhruba ve 13:00)

200809

  • 29.9. hardwarova zavada golias155 (totalni vypadek, ani nesviti zadna kontrolka), oprava objednana na 30.9. 10:00.
  • 3.9. ztrata sitoveho spojeni mezi FZU a svetem, neslo ani spojeni z farmy. Pricinou byla zavada na centralnim routeru. Tomas Fiala ho behem dne vymenil. Lokalni ulohy na farme nebyly ovlivneny.

200808

  • 7.8. restart PBS serveru, zatuhl zrejme pod vlivem mnoha volani qstat ze stroje hpv2. Ulohy nebyly ztraceny.

200807

  • 29.7. Upgrade PBS na verzi 9.2.
  • 23.7. Pad PBS, z neznameho duvodu. Nebyly provadeny zadne administratorske zasahy ani nebyl zaznamenan vypadek site. Vzhledem k planovane reinstalaci PBS na novou verzi jsme priciny padu dele nezkoumali. Uzivatelske ulohy ztraceny.
  • 4.7. Zmeny v DPM poolech, zmenseni poctu atlas pool tak, aby se mohly zvetsit space tokens. Heppool1 ma nyni kapacitu 11.86 TB.

200806

  • 27.6. Pri pridani dalsiho (testovaciho) WN golias199 do PBS server spadl. Po delsim boji se opet rozebehl, konkretni priciny padu nejsou jasne. Ulohy byly zruseny a uzivatele je museli znovu poslat.
  • 18.6. Vyprseni certifikatu DPM disk pool goliasx98, padaji ATLAS SAM SE testy. Zazadano o novy, do nagiosu doplnena kontrola platnosti certifikatu pro goliasx98 a se4. Automaticke varovani o vyprseni bylo dle ragistracni autority zasilano na adresu svecj zavinac fzu.cz.

200805

  • 31.5. 11:00 CE golias25 prestal publikovat udaje, bylo to kvuli zaplnenemu disku na / partition. Disk procisten do 2 hodin od hlaseni problemu. Automaticke varovani na zaplneny disk neprislo kvuli chybe v parsovacim programu (bude odstranena). Logy budou presunuty na jinou partition, tim by tento problem jiz nemel nastat.
  • 28.5. asi 19:30 - problemy PBS serveru. Zpusobene vypadkem (hlasenym) site mezi .fzu.cz a farm.particle.cz. D0 joby a joby posilane pres grid byly zabity. Problemy prestaly po znovuobnoveni provozu 29.5. v 2:00, ale az do dopoledne zustalo mnoho WN ve stavu offline. Duvodem je zrejme chybejici sekundarni DNS server v domene farmy - bude nainstalovan.
  • 27.5. oprava a reinstalace 2 BL35p (golias126 a golias133). Vecer opet hw problem s golias133.
  • 26.5. server golias preinstalovan na SL5.1. Vecer PBS opet funkcni.
  • 23.5. 3:35 - pad PBS. Duvody nezname. Mozna chyba v glibc (podle TK).
  • 22.5. reinstalace nejstarsich WN lp1000r - prechod na LDAP
  • 22.5. oprava klimatizace. Vymena zvlhcovacich nadob, cena celkem 10 kKc. Predchozi vymena probehla v lednu 2008
  • 15.5. asi 16:30 - problemy PBS serveru vedouci k jeho padu, opetovny pad 16.5. brzy rano. Duvod neni potvrzen, pravdepodobne to zpusobila oprava uzlu golias133, ktery po rebootovani zahltil DHCP server zadostmi o IP adresu.

-- JiriChudoba - 30 Jun 2008

Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r16 < r15 < r14 < r13 < r12 | More topic actions
 
Powered by TWiki
This site is powered by the TWiki collaboration platformCopyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback