Poznámky o provozních událostech na SGI clusteru Dorje
200902
21.2. Diskové pole znovu chybuje. Jeden z disků se odpojil a data byla opět poškozena.
20.2. Odpojení diskového pole, spuštění xfs_repair. Bohužel jsou zničeny stovky souborů, postiženými jsou dva uživatelé a root. Kompilátory znovu nainstalovány, ale tentokrát přímo na ui.
19.2. Zasunutí dvou nových hot spare disků do diskového pole do slotů 10. Objevuje se nestability dat na diskovém poli. (Např. přestává fungovat kompilátor icc ).
13.2. Přetrvávají problémy s klimatizací, zůstávají vypnuté blady v IRU1 a 2.
12.2. V důsledku výměny tří širších racků za čtyři užší a přesunu hardwaru v levé části serverovny je klastr Dorje odpojen pouze od sítě, zůstává připojen k napájení. Jsou vypnuté všechny blady v IRU1, 2 a 3.
10.2. Daří se obnovit nefunkční infiniband vypnutím a zapnutím celého IRU3 a následným restartem ib0 a ib1.
5.2. V poledne přestává fungovat jedna z infiniband sítí. Vzniká otázka, zda-li je infiniband citlivý na zvýšení okolní teploty.
4.2. Opetovny vypadek klimatizacni jednotky pozde v noci, dle grafu kratce po 23. hodine. Vypiname pocitace v IRU 1 a 2.
200901
31.1. V noci ze soboty na nedeli (z 31.1 na 1.2.) doslo k vypadku jedne klimatizacni jednotky. Teplota stoupala na teplomeru u racku 14 z obvyklych 24 az na 30 stupnu. 2.2. jsme vypnuli 3 IRU (1, 2 a 3). Kratce pote byla klimatizce zase spustena. Po vypnuti IRU 3 prestala fungovat komunikace pres Infiniband. Ukazalo se, ze service node je pomoci ib pripojen nejen k IRU 0, ale i k IRU 3. Priste tedy budeme vypinat jen uzly, celou IRU nechame zapnutou (vetraky se zustanou tocit).
200812
22.12. Částečné vypnutí Dorje přes vánoční svátky (IRU1, 2 a 3). IRU0 zůstává k dispozici pro testování.
18.12. Technici z SGI vyměnili motherboard bladu r1i2n3. (Tento blade se v předchozích dnech nepodařilo vzdáleně zprovoznit).
200811
27.11. Předávání clusteru - 2. část
24.11. Technici z SGI instalují kompilátory a příslušné matematické knihovny.
20.11. Začíná předávání clusteru - 1. část
5.11. Technici z SGI dokončili fyzickou instalaci clusteru. Rack už je na svém místě. Měření teploty v racku při plném výkonu všech strojů. Zdá se, že kvůli chlazení nebude potřeba přemístit 2 IRU do vedlejšího racku, jak se původně předpokládalo.
4.11. Měření teploty v racku při nezatížených strojích.
3.11. Technici z SGI provedli základní fyzickou instalaci clusteru. Stroje zapnuli, spustili desetiminutový test a potom je nechali běžet naprázdno. Zatím zůstávají všechny 4 IRU v originálním racku. Rack ještě není usazen na své definitivní místo.
200810
30.10. Dodávka SGI clusteru. Vzhledem k poměrně velkým rozměrům zásilky nebylo jednoduché dostat zabalený rack do serverovny. Dále se ukázalo, že jsou potřeba tři speciální třífázové konektory místo původně plánovaných dvou. Bude také třeba změnit rozložení plných a vyříznutých dlaždic v podlaze.
Copyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors. Ideas, requests, problems regarding TWiki? Send feedback