Dokumentace pro uživatele subclusteru David
Pro snažší komunikaci s uživateli byl zaveden
RT (Request Tracking) system . Proto veškeré dotazy a problémy spojené s farmou Goliáš zasílejte výhradně na e-mailovou adresu
fzu zavináč rt3.cesnet.cz .
Upozornění:
Dne 19.11.2008 byl definitivně vypnut server
prak2.farm.particle.cz.
Ke stažení
Obsah:
1. Základní informace
1.1 Nový uživatel
Ve farmě
Goliáš je vyčleněna skupina výpočetních serverů, které slouží ke strukturním výpočtům, neformálně označovaná jako
David. Pro uživatele Davida je k dispozici potřebný SW, zejména kompilátory
Portland a
Intel, knihovny
MKL, obyčejná a paralelizovaná verze, a prostředí
MPI. Kdo chce na Davidu počítat, musí být předem domluven s některým z vedoucích výzkumných skupin FZÚ, což jsou nyní Pavel Jelínek, Pavel Novák a František Máca. S jejich svolením si může požádat o účet. Vyplněnou
žádost o zřízení účtu je třeba v papírové formě zaslat na sekretariát Sekce fyziky elementárních částic FZÚ. Pro urychlení celé procedury je možné žádost poslat faxem (fax: 286 585 443) a originál doručit do čtrnácti dnů.
Zpět
1.2 První přihlášení
Jakmile obdržíte e-mailem potvrzení o zřízení účtu, postupujte následovně:
1. Připojte se na stroj
golias.farm.particle.cz a potom na
ui2.farm.particle.cz nebo
prak3.farm.particle.cz a pomocí povelu
passwd si změňte heslo.
2. Používáte-li
shell bash, přidejte si do souboru
.bash_profile ve svém domácím adresáři řádku
. /raid2_david/SW/david.sh
Používáte-li
shell tcsh, přidejte si do souboru
.login ve svém domácím adresáři řádku
source /raid2_david/SW/david.csh
3. Vytvořte si adresář
/raid2_david/scratch/<vaše jméno>
Poté vám bude už automaticky vytvořen adresář
/raid2_david/home/<vaše jméno>
4. Pošlete mail se subjektem
"sub david" na adresu
david . Tím budete přidáni do
debatního klubu david. Mail musí mít jako zpáteční adresou vaši mailovou adresu, a ta musí končit
@fzu.cz.
Tím se stanete plnoprávným uživatelem/uživatelkou subclusteru David.
Zpět
2. Datové prostory
- Domácí adresář /home je vidět ze všech výpočetních uzlů. Domácí adresář je zálohován systémem Legato Net Worker. Jestliže ztratíte soubor a chcete si ho obnovit, zalogujte se na ui2 nebo prak3 a odtud bez hesla
ssh storage5
a zde v prostředí
X11
nwrecover &
Dostanete grafické
GUI k obnově. Podrobné informace naleznete
zde. Alternativně můžete požádat Jana Švece, aby vám obnovu udělal.
Domácí adresář je v péči farmy Goliáš a základní kvóta je zde
2GB. Kvóty administruje Jan Švec a Tomáš Kouba. Další informace o kvótách jsou
zde.
- Sdílený pracovní prostor /raid2_david/scratch je vidět ze všech výpočetních uzlů. Tento prostor slouží k ukládání velkých dočasných dat, zejména mezivýsledků výpočtů. Prostor je dostatečně velký a není kvótován. Při využívání tohoto prostoru se laskavě chovejte ukázněně a nepotřebná data po sobě mažte. Sdílený scratch není zálohován a v případě jeho zaplnění mohou starší data bez výstrahy zmizet (dva měsíce a víc).
- Sdílený zálohovaný prostor /raid2_david/home je kvótován, základní kvóta je 50GB. Tuto kvótu nelze zvětšit, naopak je možné, že v případě většího využití tohoto prostoru bude nutné kvóty zmenšit. Kvóty spravuje Michal Krátký. Prostor /raid2_david/home je zálohován každodenním zrcadlením na jiný stroj. Případnou obnovu souborů vám na požádání udělá rovněž Michal Krátký.
- Lokální pracovní prostor /scratch je na každém výpočetním uzlu. Tento prostor z jiných uzlů pochopitelně není vidět, což omezuje jeho použitelnost při paralelních výpočtech. Je vhodné ho při výpočtech maximálně využívat, protože je k němu rychlejší přístup než do sdílených prostorů a nezatěžuje síť.
Na všech výpočetních uzlech jsou v pracovním adresáři
/scratch automaticky promazávány všechny soubory, od jejichž posledního přístupu uběhlo více než 10 dní (
atime přesáhl 240 hodin).
Zpět
3. Zadávání úloh do fronty
3.1 Typy front
V současné době existují pro subcluster David dvě fronty: fronta
solid a fronta
isolid.
3.1.1 Fronta solid
Tato fronta je určena pro časově náročnější úlohy.
3.1.2 Fronta isolid
Pro frontu
isolid byly vyhrazeny dva výpočetní uzly:
golias117 a
golias118, t.j. celkem 8 procesorů.
Tato fronta je určena pouze pro kratší úlohy, tzn. pro úlohy, které nepřesáhnout časový limit 10 hodin. Přes den by zde měly běžet především interaktivní úlohy, překlady a ladění programů. Po 22:00 je možné spustit na volných procesorech delší úlohu. Úloha ale musí skončit před 8:00 následujícího dne. V žádném případě nesmí být úloha zadána, pokud by měla ve frontě čekat (status Q).
Zpět
3.2 Zadávání úloh
Výpočetní úloha (
job) je v zásadě
shell skript, který si předem připravíte a potom zadáte do fronty povelem
qsub. Základní informace o zadávání úloh a zjišťování jejich stavu jsou v
základním návodu (
Dokumentace pro uživatele farmy Goliáš ). Pro vážné zájemce je ke stažení uživatelská příručka
PBSProUserGuide 9.2 .
Základní způsob, jak zadat úlohu k výpočtu tedy je
qsub -q solid <váš skript>
nebo
qsub -q isolid <váš skript>
Hodnoty
cput a
walltime uvedené v informacích o dané úloze ( např. v příkazu
qstat ) neodpovídají skutečným hodnotám. Je třeba si je příslušným multiplikátorem přepočítat. Podrobnosti
zde .
Typ stroje |
Multiplikátor |
golias117 - golias133 (bl35p Opteron 280) |
1.76 |
golias151 - golias162 (bl465c Opteron 2220) |
2.3 |
Zpět
3.3 Víceprocesorové úlohy
Pro paralelní výpočty je vhodné využít systém
MPI. Návod najdete
zde.
Zpět
3.4 Úlohy náročné na paměť
Úlohy náročné na paměť by uživatel měl spouštět na samostatném výpočetním uzlu. Rezervování uzlu se zadává v příkazu
qsub specifikací
-l place=excl. Na daném uzlu tedy poběží jedna jediná úloha i v případě, že nejsou obsazené všechny procesory.
qsub -q solid -l select=1:ncpus= <počet procesorů> -l place=excl <váš skript>
Zpět
4. Skripty pro subcluster David
Uživatelé občas mají pocit, že nevědí, proč jejich úloha čeká ve frontě, místo aby počítala. Pro zlepšení orientace uživatelů v okamžitém stavu zdrojů byly pro uživatele Davida vytvořeny následující pomocné prostředky.
- /raid2_david/SW/lib/worker_nodes - soubor, který obsahuje seznam všech výpočetních uzlů farmy Goliáš a jejich základní vlastnosti. Tento soubor je generován každou noc osaháváním skutečného stavu. Najdete-li ho náhodou prázdný, oznamte to laskavě Janě Uhlířové.
- solid_nodes - vypíše seznam 64-bitových výpočetních uzlů určených pro subcluster David
- solid_nodes_off - vypíše seznam výpočetních uzlů, které jsou v daném okamžiku down, unknown, offline
- solid_occu - vypíše informace o výpočetních uzlech, které jsou v daném okamžiku plně nebo částečně vytížené
- solid_free - vypíše informace o výpočetních uzlech, které jsou v daném okamžiku zcela nebo částečně volné
- solid_wait - vypíše všechny úlohy, které čekají ve frontě solid nebo isolid (úlohy se statutem Q). U první čekající úlohy jsou uvedené podrobnější informace (majitel, datum a čas zadání do fronty, požadovaný počet výpočetních uzlů a procesorů a důvod, proč se úloha nespustila).
V současné době existují pro subcluster David dvě fronty:
solid a
isolid. V důsledku toho jsou skripty
solid_nodes, solid_occu a
solid_free spustitelné
- bez parametru - souhrnné informace
- s parametrem - informace o jednotlivých frontách
- -s (fronta solid)
- -i (fronta isolid)
Skript
solid_nodes_off se spouští bez parametru, naopak skript
solid_wait se spouští vždy s parametrem.
Např.
solid_free -i vypíše volné výpočetní uzly fronty
isolid
solid_occu -s vypíše obsazené výpočetní uzly fronty
solid
Zpět
5. Grafy pro monitorování fronty solid a isolid
Pro monitorování fronty
solid a
isolid jsou k dispozici dvouhodinové, denní, týdenní a měsíční grafy. Grafy jsou vytvořené pomocí systému RRDTool a aktualizují se každých pět minut.
- Graf č.1 - počet obsazených a volných procesorů ve frontě solid / isolid
- Graf č.2 - počet běžících a čekajících úloh ve frontě solid / isolid
- Graf č.3 - podrobnější rozpis obsazených procesorů ve frontě solid / isolid
- Job-busy - procesory obsazené úlohami
- Job-exclusive - procesory nedostupné z důvodu rezervace celého výpočetního uzlu pro jednu úlohu
- Offline - procesory nedostupné z důvodu nastavení výpočetního uzlu do stavu offline (provádění testů, instalace nového softwaru apod.)
- Down - procesory nedostupné z důvodu hardwarové závady na výpočetním uzlu
Odkazy na grafy jsou v následující tabulce:
Zpět
6. Seznam uživatelů subclusteru David
User ID |
|
cesar |
Cesar Gonzalez |
chlan |
Vojtěch Chlan |
drchal |
Václav Drchal |
fuksa |
Jiří Fuksa |
goykolov |
Dmitrij Goykolov |
hapala |
Prokop Hapala |
jelen |
Pavel Jelínek |
kamien |
Wojciech Kaminski |
knizek |
Karel Knížek |
kotrla |
Miroslav Kotrla |
kratky |
Michal Krátký |
kudrnovj |
Josef Kudrnovský |
maca |
František Máca |
malekj |
Jiří Málek |
mutombo |
Pingo Mutombo |
novakmat |
Matyáš Novák |
novakp |
Pavel Novák |
ondracek |
Martin Ondráček |
rusz |
Jan Rusz |
shick |
Alexander Shick |
sipr |
Ondřej Šipr |
svab |
Jan Šváb |
uhlirova |
Jana Uhlířová |
vroz |
Vít Rozsíval |
Poslední aktualizace seznamu 21.7.2008
Zpět
--
JanaUhlirova - 01 Jul 2008