Dokumentace pro uživatele SGI clusteru Dorje
Veškeré dotazy a problémy spojené s clusterem
Dorje zasílejte výhradně na e-mailovou adresu
fzu zavináč rt3.cesnet.cz.
Upozornění:
Ve čtvrtek 19.2. se objevila
nestabilita dat na diskovém poli. V pátek 20.2. bylo diskové pole odpojeno, provedl se
xfs_repair. Bohužel se poškodily stovky souborů včetně kompilátorů.
Kompilátory byly znovu nainstalovány, ale tentokrát přímo na
ui.dorje.fzu.cz. Cesta ke kompilátorům
icc a
ifort už není
/data/sw/intel ale
/opt/intel . V sobotu 21.2. opět diskové pole chybuje. Problém se řeší s techniky z SGI.
Obsah:
1. Základní informace
1.1 Název clusteru
dorje [:dordže:] - z tibetštiny, rituální žezlo, v překladu Diamantový klín, doslovně Pán kamene
1.2 Struktura clusteru
1. Hardwarové vybavení
Cluster je založen na systému
SGI Altix ICE 8200. Skládá se ze 4
IRU (
Individual Rack Unit ) a několika serverů pro správu a řízení clusteru.
- Každý IRU obsahuje 16 výpočetních uzlů - bladů. Výpočetní uzly jsou dvou-procesorové s procesory typu Intel Xeon Quad-Core (E5420 @ 2.50GHz). Celkem je tedy v clusteru k dispozici 64 výpočetních uzlů, tj. celkem 128 procesorů, tj. 512 jader. Všechny 4 IRU jsou umístěny v jednom racku o velikosti 42U.
- Leader node ( Rack Leader Controller ) – server, který monitoruje a řídí tok dat mezi výpočetními uzly v rámci jednoho racku
- Admin node ( System Admin Controller ) – server určený pro správu celého clusteru
- Login node ( Login/Storage Gateway Node ) – server určený pro login uživatelů
Všechny výpočetní uzly jsou zapojeny do dvou nezávislých
InfiniBand sítí. Jedna síť je určena pro přesuny dat mezi výpočetními uzly, druhá je vyhrazena pro
MPI komunikaci při běhu paralelních úloh.
Jednotlivé výpočetní uzly jsou bezdiskové.
Centrální datová oblast je vytvořena polem
SGI IS-220 o velikosti
6TB (18 x 400GB).
Horní část předních dveří racku SGI
Pohled do nitra SGI racku.
2. Softwarové vybavení
- Operační systém SUSE Linux Enterprise Server verze 10 ( SLES 10 ) se softwarovým rozšířením SGI Pro Pack verze 5
- Překladače Fortran 90/95, C/C++, MKL knihovny, MPI knihovny
- Frontový systém Torque verze 2.3.6
Zpět
2. Nový uživatel
2.1 Zřízení uživatelského účtu
Účet bude zřízen pouze na základě žádosti schválené Pavlem Jelínkem, Pavlem Novákem nebo Františkem Mácou a zaslané na e-mailovou adresu
fzu zavináč rt3.cesnet.cz.
Zpět
2.2 Přihlašování uživatele
Uživatel se přihlašuje pouze na
login node uživatelským jménem a heslem stejnými jako na subcluster David:
ssh ui.dorje.fzu.cz
Při prvním přihlášení se vygenerují
ssh klíče, které zajišťují přenos dat mezi výpočetními uzly a login nodem. Tyto klíče nesmí uživatel změnit ani vymazat!!!
Zpět
3. Kompilace programu
Kompilátory
icc a
ifort jsou nyní nainstalovány přímo na
ui.dorje.fzu.cz v adresáři
/opt/intel.
- ifort bez matematických knihoven lze použít například s těmito parametry:
ifort -assume buffered_io -static-intel -O3 -xHost -mtune=pentium4 -align -pad -fp-model fast=1 -ipo
- MKL knihovny lze přilinkovat například následovně:
-O2 -funroll-loops -mtune=pentium4 -assume byterecl -align -pad -static-intel -o <program.x> <program.f>
-Bstatic -L/data/sw/intel/mkl/10.1.0.015/lib/em64t -lmkl_lapack -lmkl_em64t -lguide
- Program s OpenMPI lze sestavit např.
- pomocí linkeru mpif90. Vzhledem k tomu, že knihovny MPI jsou nainstalované pouze dynamicky, je třeba ještě přidat -Bdynamic
- normálně s ifortem a na konec řádky připsat
-Bdynamic -L/usr/mpi/openmpi-1.2-2/intel/lib64 -lmpi_f90 -lmpi_f77 -lmpi -lopen-rte -lopen-pal
Většinou je potřeba ještě dodat:
-I/usr/mpi/openmpi-1.2-2/intel/include
- Před spuštěním programu s MPI je nutné inicializovat moduly - jinak se objeví chybové hlášení, že nejsou knihovny k linkováni:
source /etc/profile.d/modules.csh
module load openmpi_intel
Procerory se alokují PBS příkazem
#PBS -l nodes=1:ppn=8
a program se spustí například:
mpirun -np 8
Zpět
4. Zadávání úloh
4.1. Frontový systém Torque
Na clusteru Dorje je nainstalován frontový systém
Torque (
Terascale Open-source Resource and QUEue manager ) - opensourceová verze systému
PBS. Příkazy jsou v podstate shodné s příkazy používanými v
PBS (např.
qstat,
qdel, ... ).
Základní rozdíl je v zadávání požadavků v příkazu
qsub. Parametr
-l se zadává starší syntaxí
nodes=...:ppn=... ( Novější syntaxe pomocí tzv. chunků
select=... nefunguje).
qsub -q <fronta> -l nodes=...:ppn=... <skript>
Zpět
4.2 Typy front
V současné době je pro uživatele k dispozici pouze fronta
batch.
Zpět
5. Seznam uživatelů clusteru Dorje
User ID |
|
hapala |
Prokop Hapala |
chlan |
Vojtěch Chlan |
jelen |
Pavel Jelínek |
kratky |
Michal Krátký |
maca |
František Máca |
novakp |
Pavel Novák |
ondracek |
Martin Ondráček |
rusz |
Jan Rusz |
sipr |
Ondřej Šipr |
uhlirova |
Jana Uhlířová |
Aktualizace seznamu 18.2.2009
Zpět
--
JanaUhlirova - 04 Nov 2008