r16 - 23 Feb 2009 - 08:36:41 - JanaUhlirovaYou are here: TWiki  >  VS Web > VsDokumentace > VsDorje

Dokumentace pro uživatele SGI clusteru Dorje

Veškeré dotazy a problémy spojené s clusterem Dorje zasílejte výhradně na e-mailovou adresu fzu zavináč rt3.cesnet.cz.

Upozornění:

Ve čtvrtek 19.2. se objevila nestabilita dat na diskovém poli. V pátek 20.2. bylo diskové pole odpojeno, provedl se xfs_repair. Bohužel se poškodily stovky souborů včetně kompilátorů. Kompilátory byly znovu nainstalovány, ale tentokrát přímo na ui.dorje.fzu.cz. Cesta ke kompilátorům icc a ifort už není /data/sw/intel ale /opt/intel . V sobotu 21.2. opět diskové pole chybuje. Problém se řeší s techniky z SGI.

Obsah:

1. Základní informace

1.1 Název clusteru

dorje [:dordže:] - z tibetštiny, rituální žezlo, v překladu Diamantový klín, doslovně Pán kamene

dorje_small.jpg

1.2 Struktura clusteru

1. Hardwarové vybavení

Cluster je založen na systému SGI Altix ICE 8200. Skládá se ze 4 IRU ( Individual Rack Unit ) a několika serverů pro správu a řízení clusteru.

  • Každý IRU obsahuje 16 výpočetních uzlů - bladů. Výpočetní uzly jsou dvou-procesorové s procesory typu Intel Xeon Quad-Core (E5420 @ 2.50GHz). Celkem je tedy v clusteru k dispozici 64 výpočetních uzlů, tj. celkem 128 procesorů, tj. 512 jader. Všechny 4 IRU jsou umístěny v jednom racku o velikosti 42U.
  • Leader node ( Rack Leader Controller ) – server, který monitoruje a řídí tok dat mezi výpočetními uzly v rámci jednoho racku
  • Admin node ( System Admin Controller ) – server určený pro správu celého clusteru
  • Login node ( Login/Storage Gateway Node ) – server určený pro login uživatelů

Všechny výpočetní uzly jsou zapojeny do dvou nezávislých InfiniBand sítí. Jedna síť je určena pro přesuny dat mezi výpočetními uzly, druhá je vyhrazena pro MPI komunikaci při běhu paralelních úloh.

Jednotlivé výpočetní uzly jsou bezdiskové. Centrální datová oblast je vytvořena polem SGI IS-220 o velikosti 6TB (18 x 400GB).

Horní část předních dveří racku SGI

dveřeSGI.jpg

Pohled do nitra SGI racku.

uvnitřSGI.jpg

2. Softwarové vybavení

  • Operační systém SUSE Linux Enterprise Server verze 10 ( SLES 10 ) se softwarovým rozšířením SGI Pro Pack verze 5
  • Překladače Fortran 90/95, C/C++, MKL knihovny, MPI knihovny
  • Frontový systém Torque verze 2.3.6

Zpět

2. Nový uživatel

2.1 Zřízení uživatelského účtu

Účet bude zřízen pouze na základě žádosti schválené Pavlem Jelínkem, Pavlem Novákem nebo Františkem Mácou a zaslané na e-mailovou adresu fzu zavináč rt3.cesnet.cz.

Zpět

2.2 Přihlašování uživatele

Uživatel se přihlašuje pouze na login node uživatelským jménem a heslem stejnými jako na subcluster David:

ssh ui.dorje.fzu.cz

ALERT! Při prvním přihlášení se vygenerují ssh klíče, které zajišťují přenos dat mezi výpočetními uzly a login nodem. Tyto klíče nesmí uživatel změnit ani vymazat!!!

Zpět

3. Kompilace programu

Kompilátory icc a ifort jsou nyní nainstalovány přímo na ui.dorje.fzu.cz v adresáři /opt/intel.

  • ifort bez matematických knihoven lze použít například s těmito parametry:

ifort -assume buffered_io -static-intel -O3 -xHost -mtune=pentium4 -align -pad -fp-model fast=1 -ipo

  • MKL knihovny lze přilinkovat například následovně:

-O2 -funroll-loops -mtune=pentium4 -assume byterecl -align -pad -static-intel -o <program.x> <program.f>

-Bstatic -L/data/sw/intel/mkl/10.1.0.015/lib/em64t -lmkl_lapack -lmkl_em64t -lguide

  • Program s OpenMPI lze sestavit např.
    • pomocí linkeru mpif90. Vzhledem k tomu, že knihovny MPI jsou nainstalované pouze dynamicky, je třeba ještě přidat -Bdynamic
    • normálně s ifortem a na konec řádky připsat

-Bdynamic -L/usr/mpi/openmpi-1.2-2/intel/lib64 -lmpi_f90 -lmpi_f77 -lmpi -lopen-rte -lopen-pal

Většinou je potřeba ještě dodat: -I/usr/mpi/openmpi-1.2-2/intel/include

  • Před spuštěním programu s MPI je nutné inicializovat moduly - jinak se objeví chybové hlášení, že nejsou knihovny k linkováni:

source /etc/profile.d/modules.csh

module load openmpi_intel

Procerory se alokují PBS příkazem

#PBS -l nodes=1:ppn=8

a program se spustí například:

mpirun -np 8

Zpět

4. Zadávání úloh

4.1. Frontový systém Torque

Na clusteru Dorje je nainstalován frontový systém Torque ( Terascale Open-source Resource and QUEue manager ) - opensourceová verze systému PBS. Příkazy jsou v podstate shodné s příkazy používanými v PBS (např. qstat, qdel, ... ).

Základní rozdíl je v zadávání požadavků v příkazu qsub. Parametr -l se zadává starší syntaxí nodes=...:ppn=... ( Novější syntaxe pomocí tzv. chunků select=... nefunguje).

qsub -q <fronta> -l nodes=...:ppn=... <skript>

Zpět

4.2 Typy front

V současné době je pro uživatele k dispozici pouze fronta batch.

Zpět

5. Seznam uživatelů clusteru Dorje

User ID
hapala Prokop Hapala
chlan Vojtěch Chlan
jelen Pavel Jelínek
kratky Michal Krátký
maca František Máca
novakp Pavel Novák
ondracek Martin Ondráček
rusz Jan Rusz
sipr Ondřej Šipr
uhlirova Jana Uhlířová

Aktualizace seznamu 18.2.2009

Zpět

-- JanaUhlirova - 04 Nov 2008

Show attachments Hide attachments
Topic attachments
I Attachment Action Size Date Who Comment
jpgjpg dorje_small.jpg manage 8.8 K 05 Nov 2008 - 21:58 JanaUhlirova Rituální žezlo
jpgjpg dvereSGInahore.jpg manage 54.9 K 24 Nov 2008 - 14:22 JanaUhlirova Horní část předních dveří racku
jpgjpg uvnitrSGI_.jpg manage 35.8 K 24 Nov 2008 - 13:25 JanaUhlirova SGI rack - pohled dovnitř
Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r16 < r15 < r14 < r13 < r12 | More topic actions
 
Powered by TWiki
This site is powered by the TWiki collaboration platformCopyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback