Desetiletí gridu

První dekádu tohoto tisíciletí označil Les Robertson z CERN na mezinárodní konferenci CHEP´’09 desetiletím gridu (viz AB 9/2009). Jestliže se před čtyřiceti lety vědcům v Kalifornii poprvé podařilo nastartovat předchůdce dnešního internetu, pak grid je jeho dalším vývojovým stupněm. Snad si mohu dovolit zjednodušení, že internet propojil svět hlavně uživatelsky směrem ven, zatímco grid ho zdrojově spojuje i směrem dovnitř. Mimo množství dalších lidí, kteří na tomto systému pracují, v CERN se jím zabývá sympatický mladý Čech, dr. Tomáš Kubeš z Fyzikálního ústavu AV ČR, v. v. i.

 15_1.jpg
Všechna fota:Marina Hužvárová, Akademický bulletin
Tomáš Kubeš provázel po některých pracovištích CERN delegaci novinářů z celého světa.

Laikovi by mohl CERN připadat jako nějaký univerzitní campus se spoustou mladých lidí, kteří tady pracují v různých – většinou velmi specializovaných – oborech. Jenže to nejzajímavější je uschováno pod zemí na téměř třicetikilometrovém okruhu. Asi jen málokdo ze zdejších pracovníků měl možnost poznat CERN tak důkladně jako vy. A to i díky tomu, že jste si zde původně vyhledal studentskou stáž, jejíž zásluhou se vám poštěstilo podívat se na nejrůznější místa. Jak se stane mladý člověk členem cernské komunity?
Nejprve jsem v CERN pracoval na relativně malém programu jako student v létě 2005. Pomáhal jsem při instalaci různých softwarových balíků, které se tady používají pro analýzu. Poté jsem zpracovával další malý program, jenž upravoval jejich konfigurační soubory. Ve školním roce 2006–2007 jsem tu působil jako „technical“ student na praxi, což v Čechách není běžné, ale já jsem díky podpoře vedoucího své diplomové práce mohl využít zdejší nabídky. Pracoval jsem v Technical Support (Technické služby), kde jsem měl na starosti různé věci a jednou z nich byla i digitalizace databáze mostových jeřábů a doplnění jejich fotografií. Měl jsem za úkol po celém CERN tato zařízení fotografovat, a tak jsem se podíval do nejrůznějších míst, do tunelu, do podzemí, dokonce i tam, kam zde ukládají radioaktivní odpad apod. Měl jsem štěstí, protože jsem tak získal dosti široký přehled.

Když už jste zmínil odpad – kolik ho vlastně vzniká a jak se s ním zachází?
Tady se velmi dbá na bezpečnost. Radioaktivního odpadu je minimálně; většinou se jedná o součástky z detektorů, které byly vystaveny částicím vznikajícím při srážkách, a proto mohou být trochu radioaktivní. Z bezpečnostních důvodů se všechno, co by byť jen mohlo být radioaktivní, měří, eviduje a uloží na relativně dlouhou dobu na místo, kam nikdo nesmí, aby měli úředníci naprostou jistotu, že se to nedostane nikam jinam. V tomto ohledu jsou zde skoro až paranoidní.

15_2.jpg
Zařízení pro testování supravodivých magnetů pro urychlovač LHC

Navštívila jsem CERN spolu se skupinou vědeckých novinářů z Evropy, Afriky a Latinské Ameriky. Přestože jsme pocházeli z nejrůznějšího prostředí, shodli jsme se na pocitu zvláštní „atomizace“ zdejších lidí...
CERN je neuvěřitelně složitý. Protíná se v něm tolik oborů! Zdejší pracovníci mají zcela konkrétní přehled o své práci, ale jen zběžnou představu o všem ostatním. Máme tu fyziky, kteří spočítali, co je potřeba, dále je tu spousta různých inženýrů, kteří toto obří zařízení postavili tak, aby dělalo, co si fyzikové přejí. Množství lidí tady na počítačích vyhodnocuje data pro fyziky, aby jim rozuměli. Ze zařízení totiž vyjdou elektronické signály, které musí programátoři zkonvertovat na něco, z čeho fyzikové odvodí fyziku.
Abych promluvil konkrétně za sebe – já pracuji na systému hlídajícím data, která vycházejí z detektoru ATLAS. Musejí projít první úrovní zpracování tak, aby byla přístupná všem fyzikům z celého světa. Mým úkolem je dohlížet, že zpracování běží správně. To znamená, že já sám data nezpracovávám, ale kontroluji počítače, které je zpracovávají. V případě, že by měly počítače problém a nepracovaly správně, musím zajistit, aby se to co nejrychleji dozvěděl ten, kdo umí chybu napravit.

Prozradím, že jste do Fyzikálního ústavu AV ČR nastoupil už během studií a orientoval se na téma, které v CERN právě „letělo“ – grid...
Od dokončení fakulty jsem v CERN, kde nyní pracuji pod vedením belgického šéfa ve zdejší skupině ATLAS Tier-0 development. Naše skupina musí zabezpečit, aby data získaná detektorem byla co nejrychleji přístupná vědcům na celém světě. Tier-0 představuje několik set počítačů, v nichž nepřetržitě běží několik tisíc úloh zpracovávajících nově získaná data a konvertujících je do formátů, které budou vhodné pro další fyzikální analýzu. Naším úkolem je zajistit, aby toto zpracování probíhalo spolehlivě, efektivně a pokud možno automaticky.

Ve výpočetním středisku FZÚ sídlí jedno z datových center CERN, takže díky vyhrazené datové lince mezi Tier-1 centrem FZK v Karlsruhe a centrem Tier-2 v Praze měli naši částicoví fyzikové možnost záhy získat data z unikátní srážky protonů v CERN. Ty objemy dat jsou asi nepředstavitelné...?
Ano, od nás (Tier-0) se data okamžitě šíří na všechna Tier-1 (11 velkých výpočetních center), odkud si je mohou stáhnout i naši vědci ve Fyzikálním ústavu (případně s nimi rovnou pracovat na Tier-1). Data se sbírají rychlostí 100–300 MB za vteřinu, to znamená, že se za den nasbírá kolem 20 TB syrových dat (Tier-0 provádí prvotní zpracování, katalogizaci a třídění).
Ke skromnému testování stačí data představující několik hodin nebo pár dní, na skutečnou analýzu však bude potřeba zpracovat data z několikaměsíčního měření. Pak se člověk snadno dostane k objemům úplně mimo svět běžných počítačů. Z nováčků, kteří sem přijdou a ptají se, zda si mohou na večer stáhnout nějaký film, si vždy dělám legraci, že v těch objemech, které tu běhají, je několik stažených DVD plivnutím do moře. Pirátské sdílení souborů (respektive jakékoli sdílení) je nicméně samozřejmě zakázáno, a protože má v síti charakteristický projev, IT oddělení takového delikventa většinou snadno najde a nekompromisně odstřihne.

15_4.jpg
Pohled do jedné z experimentálních hal v CERN

Dlouho očekávaný experiment vyvolal vlnu emocí a obav. Jak reagovali lidé v okolí CERN, v Ženevě? A jaká byla atmosféra přímo u vás?
V CERN zavládlo veliké nadšení, vědci se na tento okamžik těšili a netrpělivě jej očekávali. Nyní se konečně budou moci věnovat tomu, pro co celé zařízení téměř 20 let stavěli. S nadšením, že se urychlovač podařilo úspěšně spustit a zatím jde vše velmi hladce, se vrhají na první získaná data.
Běžní Ženevané se o CERN celkem nezajímají. Vědí, že odtamtud občas vycházejí „podivně vypadající lidé“ (může se to zdát jako klišé, ale v autobusu z letiště se většinou velmi snadno pozná, kdo jede až sem), ale také že CERN obrací na jejich město mnoho pozornosti (a přináší peníze). Za dobu svého pobytu jsem se nesetkal s tím, že by místním obyvatelům CERN vadil nebo se ho báli. Faktem však je, že většina z nich ani pořádně neví, čím se tu zabýváme. Nový generální ředitel zahájil poměrně intenzivní kampaň, aby zlepšil povědomí místních lidí o CERN. Na školách se pořádají přednášky, promítání filmů a podobně.

Pojďme si teď trochu blíže vysvětlit systém grid, jehož podstatou je, že využívá další počítače po světě…
Internet nyní spojuje všechny počítače na světě. Grid vytváří z počítačů participujících institucí a univerzit jeden homogenní celek, jeden obří superpočítač – je to něco jako propojení na vyšší úrovni, kdy je výpočetní výkon a úložný prostor transparentně sdílen a rozdíly v architekturách a konfiguraci jednotlivých strojů před uživatelem skryty.
Zde v CERN stojíme „u zdroje dat“, která upravujeme tak, aby je grid mohl přijmout. Data, která obsahuje grid, pak mohou zpracovávat vědci, aniž by si je museli stahovat k sobě. Pracují s nimi přímo v prostředí gridu a do svého počítače si stáhnou pouze výsledky analýzy. Díky tomu může každý pracovat s velkými objemy dat, aniž by musel mít svou privátní výpočetní farmu.

Dobře, to jsou obrovské objemy dat. Čím ještě se grid liší od internetu? Měl by zefektivnit počítačovou síť?
Internet udělal z běžného osobního počítače bránu do světa informací – z notebooku máme díky internetu přístup k neuvěřitelnému množství dat (ve kterých můžeme nebo nemusíme umět najít informace, jež potřebujeme). Pokud byste chtěli mít všechna data z internetu uložena lokálně, zaplnili byste několik domů pevnými disky, z nichž na většinu nikdy ani nepřistoupíte. Každý asi chápe, že toto není efektivní řešení. Přesto s výpočetním výkonem v současné době nakládáme podobně. Převážná část výkonu stolního počítače zůstává většinu doby nevyužita, využití procesoru kancelářského stroje se pohybuje pod 5 % (často kolem 1 %). Pointa gridu spočívá v tom, že nebude potřeba mít na stole nevyužitý výkonný počítač, ale budeme si moci podle potřeby z gridu koupit další výpočetní výkon stejně jako elektřinu; také ji kupujeme jen tehdy, když ji potřebujeme. Srozumitelnějším příkladem by byla třeba kontrola pravopisu, ne však taková jako dnes, kdy počítač pouze otrocky porovná slova se slovníkem, ale kontrola, kdy počítač textu skutečně porozumí a pochopí, o čem vypovídá, stejně jako to dělá odborník-korektor. Lze očekávat, že takový úkon bude výpočetně velmi náročný. Místo, abychom měli doma sto počítačů (nebo čekali hodinu a půl na ověření), tak si na konkrétní čas, kdy budeme kontrolu dělat, výkon sta počítačů koupíme. Obdobné je to s vědeckým výpočtem, na psaní zdrojového kódu stačí dokonce i net­book, ale na svižné provedení analýzy je potřeba ohromný výpočetní výkon.

15_3.jpg
Úspěšný společný evropský projekt CERN je nejrozsáhlejším výzkumným centrem částicové fyziky na světě. Leží na úpatí pohoří Jura na francouzsko--švýcarské hranici nedaleko Ženevy.

Neznamená to, že budou muset být počítače stále zapnuty? A může běžný počítač taková data vůbec přijmout?
Grid je stavěný na práci s výpočetními centry, kde jsou přístroje zapnuty nepřetržitě. Pointa je v tom, že výkon je díky gridu dostupný vědcům na celém světě, takže je téměř pořád někde někdo vzhůru, aby počítače využíval. Díky tomu je možné počítače využívat velice efektivně. Vědci se nemusejí starat, zda se jejich úloha bude řešit v jeho zemi nebo na opačné straně zeměkoule, protože se v prostředí gridu budou všechny počítače chovat stejně. Člověku tak postačí úplně jednoduchý terminál, aby mohl spustit výpočet, který zaměstná několik tisíc počítačů najednou. Protože samotná data na malý počítač vůbec nepůjdou, není potřeba ani velký disk, ani vysokorychlostní připojení. Z gridu – po analýze několika desítek TB dat – dostane vědec e-mail: „Higgsův boson nenalezen“; tedy ve skutečnosti dostane sadu výsledných statistik a záznamů o běhu programu, což však i tak představuje o několik řádů menší soubor. Stejně jako by po kontrole pravopisu dostal běžný uživatel návrhy na opravy a komentáře ke stylu a obsahu.

Uběhla poměrně dlouhá doba, co tento rozhovor „zrál v šuplíku“. Namísto k Ženevskému jezeru zavítalo během ní hodně „podivných lidí“ do CERN, jehož útrobami se nakonec povedlo úspěšně prohnat a srazit první várky protonů. Podle Tomáše Kubeše za tu dobu grid žádné změny nezaznamenal. Projekt už běží dlouho a jeho koncept je tudíž stabilní, nyní se hlavní úsilí zaměřuje na drobná zlepšení a úpravy na základě zkušeností získaných provozem. Věřme tedy, že teď pomůže vědcům vyhodnocovat data z detektoru ATLAS.

MARINA HUŽVÁROVÁ