r8 - 23 Feb 2009 - 08:07:03 - JanaUhlirovaYou are here: TWiki  >  VS Web > VsServiceData

Poznámky o provozních událostech na SGI clusteru Dorje

200902

  • 21.2. Diskové pole znovu chybuje. Jeden z disků se odpojil a data byla opět poškozena.
  • 20.2. Odpojení diskového pole, spuštění xfs_repair. Bohužel jsou zničeny stovky souborů, postiženými jsou dva uživatelé a root. Kompilátory znovu nainstalovány, ale tentokrát přímo na ui.
  • 19.2. Zasunutí dvou nových hot spare disků do diskového pole do slotů 10. Objevuje se nestability dat na diskovém poli. (Např. přestává fungovat kompilátor icc ).
  • 13.2. Přetrvávají problémy s klimatizací, zůstávají vypnuté blady v IRU1 a 2.
  • 12.2. V důsledku výměny tří širších racků za čtyři užší a přesunu hardwaru v levé části serverovny je klastr Dorje odpojen pouze od sítě, zůstává připojen k napájení. Jsou vypnuté všechny blady v IRU1, 2 a 3.
  • 10.2. Daří se obnovit nefunkční infiniband vypnutím a zapnutím celého IRU3 a následným restartem ib0 a ib1.
  • 5.2. V poledne přestává fungovat jedna z infiniband sítí. Vzniká otázka, zda-li je infiniband citlivý na zvýšení okolní teploty.
  • 4.2. Opetovny vypadek klimatizacni jednotky pozde v noci, dle grafu kratce po 23. hodine. Vypiname pocitace v IRU 1 a 2.

200901

  • 31.1. V noci ze soboty na nedeli (z 31.1 na 1.2.) doslo k vypadku jedne klimatizacni jednotky. Teplota stoupala na teplomeru u racku 14 z obvyklych 24 az na 30 stupnu. 2.2. jsme vypnuli 3 IRU (1, 2 a 3). Kratce pote byla klimatizce zase spustena. Po vypnuti IRU 3 prestala fungovat komunikace pres Infiniband. Ukazalo se, ze service node je pomoci ib pripojen nejen k IRU 0, ale i k IRU 3. Priste tedy budeme vypinat jen uzly, celou IRU nechame zapnutou (vetraky se zustanou tocit).

200812

  • 22.12. Částečné vypnutí Dorje přes vánoční svátky (IRU1, 2 a 3). IRU0 zůstává k dispozici pro testování.
  • 18.12. Technici z SGI vyměnili motherboard bladu r1i2n3. (Tento blade se v předchozích dnech nepodařilo vzdáleně zprovoznit).

200811

  • 27.11. Předávání clusteru - 2. část
  • 24.11. Technici z SGI instalují kompilátory a příslušné matematické knihovny.
  • 20.11. Začíná předávání clusteru - 1. část
  • 5.11. Technici z SGI dokončili fyzickou instalaci clusteru. Rack už je na svém místě. Měření teploty v racku při plném výkonu všech strojů. Zdá se, že kvůli chlazení nebude potřeba přemístit 2 IRU do vedlejšího racku, jak se původně předpokládalo.
  • 4.11. Měření teploty v racku při nezatížených strojích.
  • 3.11. Technici z SGI provedli základní fyzickou instalaci clusteru. Stroje zapnuli, spustili desetiminutový test a potom je nechali běžet naprázdno. Zatím zůstávají všechny 4 IRU v originálním racku. Rack ještě není usazen na své definitivní místo.

200810

  • 30.10. Dodávka SGI clusteru. Vzhledem k poměrně velkým rozměrům zásilky nebylo jednoduché dostat zabalený rack do serverovny. Dále se ukázalo, že jsou potřeba tři speciální třífázové konektory místo původně plánovaných dvou. Bude také třeba změnit rozložení plných a vyříznutých dlaždic v podlaze.

-- JanaUhlirova - 04 Nov 2008

Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r8 < r7 < r6 < r5 < r4 | More topic actions
 
Powered by TWiki
This site is powered by the TWiki collaboration platformCopyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback