Difference: VsServiceData (1 vs. 8)

Revision 823 Feb 2009 - FZU.JanaUhlirova

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

200902

Added:
>
>
  • 21.2. Diskové pole znovu chybuje. Jeden z disků se odpojil a data byla opět poškozena.
  • 20.2. Odpojení diskového pole, spuštění xfs_repair. Bohužel jsou zničeny stovky souborů, postiženými jsou dva uživatelé a root. Kompilátory znovu nainstalovány, ale tentokrát přímo na ui.
  • 19.2. Zasunutí dvou nových hot spare disků do diskového pole do slotů 10. Objevuje se nestability dat na diskovém poli. (Např. přestává fungovat kompilátor icc ).
  • 13.2. Přetrvávají problémy s klimatizací, zůstávají vypnuté blady v IRU1 a 2.
 
  • 12.2. V důsledku výměny tří širších racků za čtyři užší a přesunu hardwaru v levé části serverovny je klastr Dorje odpojen pouze od sítě, zůstává připojen k napájení. Jsou vypnuté všechny blady v IRU1, 2 a 3.
Changed:
<
<
  • 10.2. Daří se obnovit nefunkční infiniband vypnutím a zapnutím celého IRU3 a následným restartem ib0 a ib1.
>
>
  • 10.2. Daří se obnovit nefunkční infiniband vypnutím a zapnutím celého IRU3 a následným restartem ib0 a ib1.
 
  • 5.2. V poledne přestává fungovat jedna z infiniband sítí. Vzniká otázka, zda-li je infiniband citlivý na zvýšení okolní teploty.
  • 4.2. Opetovny vypadek klimatizacni jednotky pozde v noci, dle grafu kratce po 23. hodine. Vypiname pocitace v IRU 1 a 2.

Revision 712 Feb 2009 - FZU.JanaUhlirova

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

200902

Added:
>
>
  • 12.2. V důsledku výměny tří širších racků za čtyři užší a přesunu hardwaru v levé části serverovny je klastr Dorje odpojen pouze od sítě, zůstává připojen k napájení. Jsou vypnuté všechny blady v IRU1, 2 a 3.
  • 10.2. Daří se obnovit nefunkční infiniband vypnutím a zapnutím celého IRU3 a následným restartem ib0 a ib1.
  • 5.2. V poledne přestává fungovat jedna z infiniband sítí. Vzniká otázka, zda-li je infiniband citlivý na zvýšení okolní teploty.
 
  • 4.2. Opetovny vypadek klimatizacni jednotky pozde v noci, dle grafu kratce po 23. hodine. Vypiname pocitace v IRU 1 a 2.

200901

Revision 605 Feb 2009 - FZU.JiriChudoba

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

Added:
>
>

200902

  • 4.2. Opetovny vypadek klimatizacni jednotky pozde v noci, dle grafu kratce po 23. hodine. Vypiname pocitace v IRU 1 a 2.

200901

  • 31.1. V noci ze soboty na nedeli (z 31.1 na 1.2.) doslo k vypadku jedne klimatizacni jednotky. Teplota stoupala na teplomeru u racku 14 z obvyklych 24 az na 30 stupnu. 2.2. jsme vypnuli 3 IRU (1, 2 a 3). Kratce pote byla klimatizce zase spustena. Po vypnuti IRU 3 prestala fungovat komunikace pres Infiniband. Ukazalo se, ze service node je pomoci ib pripojen nejen k IRU 0, ale i k IRU 3. Priste tedy budeme vypinat jen uzly, celou IRU nechame zapnutou (vetraky se zustanou tocit).
 

200812

  • 22.12. Částečné vypnutí Dorje přes vánoční svátky (IRU1, 2 a 3). IRU0 zůstává k dispozici pro testování.

Revision 505 Jan 2009 - FZU.JanaUhlirova

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

Added:
>
>

200812

  • 22.12. Částečné vypnutí Dorje přes vánoční svátky (IRU1, 2 a 3). IRU0 zůstává k dispozici pro testování.
  • 18.12. Technici z SGI vyměnili motherboard bladu r1i2n3. (Tento blade se v předchozích dnech nepodařilo vzdáleně zprovoznit).
 

200811

Revision 425 Nov 2008 - FZU.JanaUhlirova

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

200811

Changed:
<
<
  • 20.11. Začíná předávání klastru.
>
>
  • 27.11. Předávání clusteru - 2. část
  • 24.11. Technici z SGI instalují kompilátory a příslušné matematické knihovny.
  • 20.11. Začíná předávání clusteru - 1. část
 
  • 5.11. Technici z SGI dokončili fyzickou instalaci clusteru. Rack už je na svém místě. Měření teploty v racku při plném výkonu všech strojů. Zdá se, že kvůli chlazení nebude potřeba přemístit 2 IRU do vedlejšího racku, jak se původně předpokládalo.
  • 4.11. Měření teploty v racku při nezatížených strojích.
  • 3.11. Technici z SGI provedli základní fyzickou instalaci clusteru. Stroje zapnuli, spustili desetiminutový test a potom je nechali běžet naprázdno. Zatím zůstávají všechny 4 IRU v originálním racku. Rack ještě není usazen na své definitivní místo.

Revision 320 Nov 2008 - FZU.JiriChudoba

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

200811

Added:
>
>
  • 20.11. Začíná předávání klastru.
 
  • 5.11. Technici z SGI dokončili fyzickou instalaci clusteru. Rack už je na svém místě. Měření teploty v racku při plném výkonu všech strojů. Zdá se, že kvůli chlazení nebude potřeba přemístit 2 IRU do vedlejšího racku, jak se původně předpokládalo.
  • 4.11. Měření teploty v racku při nezatížených strojích.
  • 3.11. Technici z SGI provedli základní fyzickou instalaci clusteru. Stroje zapnuli, spustili desetiminutový test a potom je nechali běžet naprázdno. Zatím zůstávají všechny 4 IRU v originálním racku. Rack ještě není usazen na své definitivní místo.

Revision 206 Nov 2008 - FZU.JanaUhlirova

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

200811

Changed:
<
<
  • 5.11. Technici z SGI dokončují fyzickou instalaci clusteru.
  • 4.11. Probíhá měření teploty v racku: vpředu, vzadu, nahoře a dole při nezatížených strojích.
>
>
  • 5.11. Technici z SGI dokončili fyzickou instalaci clusteru. Rack už je na svém místě. Měření teploty v racku při plném výkonu všech strojů. Zdá se, že kvůli chlazení nebude potřeba přemístit 2 IRU do vedlejšího racku, jak se původně předpokládalo.
  • 4.11. Měření teploty v racku při nezatížených strojích.
 
  • 3.11. Technici z SGI provedli základní fyzickou instalaci clusteru. Stroje zapnuli, spustili desetiminutový test a potom je nechali běžet naprázdno. Zatím zůstávají všechny 4 IRU v originálním racku. Rack ještě není usazen na své definitivní místo.

200810

Changed:
<
<
  • 30.10. Dodávka SGI clusteru. Vzhledem k poměrně velkým rozměrům zásilky není jednoduché dostat zabalený rack do serverovny. Dále se ukazuje, že jsou potřeba tři speciální třífázové konektory místo původně plánovaných dvou. Bude také třeba změnit i rozložení plných a vyříznutých čtverců v podlaze.
>
>
  • 30.10. Dodávka SGI clusteru. Vzhledem k poměrně velkým rozměrům zásilky nebylo jednoduché dostat zabalený rack do serverovny. Dále se ukázalo, že jsou potřeba tři speciální třífázové konektory místo původně plánovaných dvou. Bude také třeba změnit rozložení plných a vyříznutých dlaždic v podlaze.
 

-- JanaUhlirova - 04 Nov 2008

Revision 104 Nov 2008 - FZU.JanaUhlirova

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="WebHome"

Poznámky o provozních událostech na SGI clusteru Dorje

200811

  • 5.11. Technici z SGI dokončují fyzickou instalaci clusteru.
  • 4.11. Probíhá měření teploty v racku: vpředu, vzadu, nahoře a dole při nezatížených strojích.
  • 3.11. Technici z SGI provedli základní fyzickou instalaci clusteru. Stroje zapnuli, spustili desetiminutový test a potom je nechali běžet naprázdno. Zatím zůstávají všechny 4 IRU v originálním racku. Rack ještě není usazen na své definitivní místo.

200810

  • 30.10. Dodávka SGI clusteru. Vzhledem k poměrně velkým rozměrům zásilky není jednoduché dostat zabalený rack do serverovny. Dále se ukazuje, že jsou potřeba tři speciální třífázové konektory místo původně plánovaných dvou. Bude také třeba změnit i rozložení plných a vyříznutých čtverců v podlaze.

-- JanaUhlirova - 04 Nov 2008

 
This site is powered by the TWiki collaboration platformCopyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback