r28 - 05 Jan 2009 - 20:38:26 - JanaUhlirovaYou are here: TWiki  >  VS Web > VsDokumentace > VsDavid

Dokumentace pro uživatele subclusteru David

Pro snažší komunikaci s uživateli byl zaveden RT (Request Tracking) system . Proto veškeré dotazy a problémy spojené s farmou Goliáš zasílejte výhradně na e-mailovou adresu fzu zavináč rt3.cesnet.cz .

Upozornění:

ALERT! Dne 19.11.2008 byl definitivně vypnut server prak2.farm.particle.cz.

Ke stažení

Obsah:

1. Základní informace

1.1 Nový uživatel

Ve farmě Goliáš je vyčleněna skupina výpočetních serverů, které slouží ke strukturním výpočtům, neformálně označovaná jako David. Pro uživatele Davida je k dispozici potřebný SW, zejména kompilátory Portland a Intel, knihovny MKL, obyčejná a paralelizovaná verze, a prostředí MPI. Kdo chce na Davidu počítat, musí být předem domluven s některým z vedoucích výzkumných skupin FZÚ, což jsou nyní Pavel Jelínek, Pavel Novák a František Máca. S jejich svolením si může požádat o účet. Vyplněnou žádost o zřízení účtu je třeba v papírové formě zaslat na sekretariát Sekce fyziky elementárních částic FZÚ. Pro urychlení celé procedury je možné žádost poslat faxem (fax: 286 585 443) a originál doručit do čtrnácti dnů.

Zpět

1.2 První přihlášení

Jakmile obdržíte e-mailem potvrzení o zřízení účtu, postupujte následovně:

1. Připojte se na stroj golias.farm.particle.cz a potom na ui2.farm.particle.cz nebo prak3.farm.particle.cz a pomocí povelu passwd si změňte heslo.

2. Používáte-li shell bash, přidejte si do souboru .bash_profile ve svém domácím adresáři řádku . /raid2_david/SW/david.sh

Používáte-li shell tcsh, přidejte si do souboru .login ve svém domácím adresáři řádku source /raid2_david/SW/david.csh

3. Vytvořte si adresář /raid2_david/scratch/<vaše jméno>

Poté vám bude už automaticky vytvořen adresář /raid2_david/home/<vaše jméno>

4. Pošlete mail se subjektem "sub david" na adresu david . Tím budete přidáni do debatního klubu david. Mail musí mít jako zpáteční adresou vaši mailovou adresu, a ta musí končit @fzu.cz.

Tím se stanete plnoprávným uživatelem/uživatelkou subclusteru David.

Zpět

2. Datové prostory

  • Domácí adresář /home je vidět ze všech výpočetních uzlů. Domácí adresář je zálohován systémem Legato Net Worker. Jestliže ztratíte soubor a chcete si ho obnovit, zalogujte se na ui2 nebo prak3 a odtud bez hesla

ssh storage5

a zde v prostředí X11

nwrecover &

Dostanete grafické GUI k obnově. Podrobné informace naleznete zde. Alternativně můžete požádat Jana Švece, aby vám obnovu udělal.

Domácí adresář je v péči farmy Goliáš a základní kvóta je zde 2GB. Kvóty administruje Jan Švec a Tomáš Kouba. Další informace o kvótách jsou zde.

  • Sdílený pracovní prostor /raid2_david/scratch je vidět ze všech výpočetních uzlů. Tento prostor slouží k ukládání velkých dočasných dat, zejména mezivýsledků výpočtů. Prostor je dostatečně velký a není kvótován. Při využívání tohoto prostoru se laskavě chovejte ukázněně a nepotřebná data po sobě mažte. Sdílený scratch není zálohován a v případě jeho zaplnění mohou starší data bez výstrahy zmizet (dva měsíce a víc).

  • Sdílený zálohovaný prostor /raid2_david/home je kvótován, základní kvóta je 50GB. Tuto kvótu nelze zvětšit, naopak je možné, že v případě většího využití tohoto prostoru bude nutné kvóty zmenšit. Kvóty spravuje Michal Krátký. Prostor /raid2_david/home je zálohován každodenním zrcadlením na jiný stroj. Případnou obnovu souborů vám na požádání udělá rovněž Michal Krátký.

  • Lokální pracovní prostor /scratch je na každém výpočetním uzlu. Tento prostor z jiných uzlů pochopitelně není vidět, což omezuje jeho použitelnost při paralelních výpočtech. Je vhodné ho při výpočtech maximálně využívat, protože je k němu rychlejší přístup než do sdílených prostorů a nezatěžuje síť.

ALERT! Na všech výpočetních uzlech jsou v pracovním adresáři /scratch automaticky promazávány všechny soubory, od jejichž posledního přístupu uběhlo více než 10 dní ( atime přesáhl 240 hodin).

Zpět

3. Zadávání úloh do fronty

3.1 Typy front

V současné době existují pro subcluster David dvě fronty: fronta solid a fronta isolid.

3.1.1 Fronta solid

Tato fronta je určena pro časově náročnější úlohy.

3.1.2 Fronta isolid

Pro frontu isolid byly vyhrazeny dva výpočetní uzly: golias117 a golias118, t.j. celkem 8 procesorů.

Tato fronta je určena pouze pro kratší úlohy, tzn. pro úlohy, které nepřesáhnout časový limit 10 hodin. Přes den by zde měly běžet především interaktivní úlohy, překlady a ladění programů. Po 22:00 je možné spustit na volných procesorech delší úlohu. Úloha ale musí skončit před 8:00 následujícího dne. V žádném případě nesmí být úloha zadána, pokud by měla ve frontě čekat (status Q).

Zpět

3.2 Zadávání úloh

Výpočetní úloha (job) je v zásadě shell skript, který si předem připravíte a potom zadáte do fronty povelem qsub. Základní informace o zadávání úloh a zjišťování jejich stavu jsou v základním návodu ( Dokumentace pro uživatele farmy Goliáš ). Pro vážné zájemce je ke stažení uživatelská příručka PBSProUserGuide 9.2 .

Základní způsob, jak zadat úlohu k výpočtu tedy je

qsub -q solid <váš skript>

nebo

qsub -q isolid <váš skript>

ALERT! Hodnoty cput a walltime uvedené v informacích o dané úloze ( např. v příkazu qstat ) neodpovídají skutečným hodnotám. Je třeba si je příslušným multiplikátorem přepočítat. Podrobnosti zde .

Typ stroje Multiplikátor
golias117 - golias133 (bl35p Opteron 280) 1.76
golias151 - golias162 (bl465c Opteron 2220) 2.3

Zpět

3.3 Víceprocesorové úlohy

Pro paralelní výpočty je vhodné využít systém MPI. Návod najdete zde.

Zpět

3.4 Úlohy náročné na paměť

Úlohy náročné na paměť by uživatel měl spouštět na samostatném výpočetním uzlu. Rezervování uzlu se zadává v příkazu qsub specifikací -l place=excl. Na daném uzlu tedy poběží jedna jediná úloha i v případě, že nejsou obsazené všechny procesory.

qsub -q solid -l select=1:ncpus= <počet procesorů> -l place=excl <váš skript>

Zpět

4. Skripty pro subcluster David

Uživatelé občas mají pocit, že nevědí, proč jejich úloha čeká ve frontě, místo aby počítala. Pro zlepšení orientace uživatelů v okamžitém stavu zdrojů byly pro uživatele Davida vytvořeny následující pomocné prostředky.

  • /raid2_david/SW/lib/worker_nodes - soubor, který obsahuje seznam všech výpočetních uzlů farmy Goliáš a jejich základní vlastnosti. Tento soubor je generován každou noc osaháváním skutečného stavu. Najdete-li ho náhodou prázdný, oznamte to laskavě Janě Uhlířové.

  • solid_nodes - vypíše seznam 64-bitových výpočetních uzlů určených pro subcluster David

  • solid_nodes_off - vypíše seznam výpočetních uzlů, které jsou v daném okamžiku down, unknown, offline

  • solid_occu - vypíše informace o výpočetních uzlech, které jsou v daném okamžiku plně nebo částečně vytížené

  • solid_free - vypíše informace o výpočetních uzlech, které jsou v daném okamžiku zcela nebo částečně volné

  • solid_wait - vypíše všechny úlohy, které čekají ve frontě solid nebo isolid (úlohy se statutem Q). U první čekající úlohy jsou uvedené podrobnější informace (majitel, datum a čas zadání do fronty, požadovaný počet výpočetních uzlů a procesorů a důvod, proč se úloha nespustila).

V současné době existují pro subcluster David dvě fronty: solid a isolid. V důsledku toho jsou skripty solid_nodes, solid_occu a solid_free spustitelné

  • bez parametru - souhrnné informace
  • s parametrem - informace o jednotlivých frontách
    • -s (fronta solid)
    • -i (fronta isolid)

Skript solid_nodes_off se spouští bez parametru, naopak skript solid_wait se spouští vždy s parametrem.

Např.

solid_free -i vypíše volné výpočetní uzly fronty isolid

solid_occu -s vypíše obsazené výpočetní uzly fronty solid

Zpět

5. Grafy pro monitorování fronty solid a isolid

Pro monitorování fronty solid a isolid jsou k dispozici dvouhodinové, denní, týdenní a měsíční grafy. Grafy jsou vytvořené pomocí systému RRDTool a aktualizují se každých pět minut.

  • Graf č.1 - počet obsazených a volných procesorů ve frontě solid / isolid
  • Graf č.2 - počet běžících a čekajících úloh ve frontě solid / isolid
  • Graf č.3 - podrobnější rozpis obsazených procesorů ve frontě solid / isolid
    • Job-busy - procesory obsazené úlohami
    • Job-exclusive - procesory nedostupné z důvodu rezervace celého výpočetního uzlu pro jednu úlohu
    • Offline - procesory nedostupné z důvodu nastavení výpočetního uzlu do stavu offline (provádění testů, instalace nového softwaru apod.)
    • Down - procesory nedostupné z důvodu hardwarové závady na výpočetním uzlu

Odkazy na grafy jsou v následující tabulce:

Časový průběh Fronta _solid_ Fronta _isolid_
poslední 2 hodiny zde zde
posledních 24 hodin zde zde
posledních 7 dní zde zde
poslední 4 týdny zde zde

Zpět

6. Seznam uživatelů subclusteru David

User ID
cesar Cesar Gonzalez
chlan Vojtěch Chlan
drchal Václav Drchal
fuksa Jiří Fuksa
goykolov Dmitrij Goykolov
hapala Prokop Hapala
jelen Pavel Jelínek
kamien Wojciech Kaminski
knizek Karel Knížek
kotrla Miroslav Kotrla
kratky Michal Krátký
kudrnovj Josef Kudrnovský
maca František Máca
malekj Jiří Málek
mutombo Pingo Mutombo
novakmat Matyáš Novák
novakp Pavel Novák
ondracek Martin Ondráček
rusz Jan Rusz
shick Alexander Shick
sipr Ondřej Šipr
svab Jan Šváb
uhlirova Jana Uhlířová
vroz Vít Rozsíval

Poslední aktualizace seznamu 21.7.2008

Zpět

-- JanaUhlirova - 01 Jul 2008

Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r28 < r27 < r26 < r25 < r24 | More topic actions
 
Powered by TWiki
This site is powered by the TWiki collaboration platformCopyright &Š by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback