Konference CHEP 2009 – data, gridy, oblaky a LHC
Pražské Kongresové centrum hostilo ve dnech 21.–27. března 2009 Mezinárodní konferenci CHEP 2009 – Computing in High Energy and Nuclear Physics. Sympozia z této série se pořádají každých 18 měsíců a soustřeďují se na témata z oblasti počítání a výpočetní techniky v jaderné fyzice a fyzice vysokých energií. Již sedmnáctého CHEP 2009 v pořadí se zúčastnilo 615 odborníků ze 41 zemí a na jeho uspořádání se podílely sdružení CESNET, Univerzita Karlova v Praze (Matematicko-fyzikální fakulta), pražské České vysoké učení technické (Fakulta jaderná a fyzikálně inženýrská) a dva ústavy Akademie věd – Fyzikální a Ústav jaderné fyziky.Účastníci konference představili ve formě ústních vystoupení nebo posterů na 500 příspěvků. S ohledem na tradici pořádat dopolední zasedání jako plenární a omezit počet odpoledních paralelních sekcí na šest nebo sedm se museli organizátoři vypořádat s nedostatkem kapacity pro ústní prezentace. Obdrželi totiž okolo 500 nabídek, zatímco v programu bylo místo jen pro 200 vystoupení; zbylých 300 příspěvků účastníci představili ve formě posterů vystavených vždy po stovce ve třech určených dnech.
Konferenci otevřel svým příspěvkem Sergio Bertolucci z CERN.
Foto: Archiv FZÚ
Množství příspěvků souviselo s různými stránkami připravovaných experimentů na urychlovači LHC v CERN, přehlédnout se ovšem nedaly ani příspěvky experimentů z dalších laboratoří po celém světě, jako jsou například Brookhavenská národní laboratoř, Fermilab a SLAC ve Spojených státech (kde fyzikové z experimentu BaBar stále pokračují v analýze dat, i když vlastní experiment už neprobíhá), KEK v Japonsku nebo DESY v Německu.
Konferenci předcházela pracovní porada k projektu Worldwide LHC Computing Grid (WLCG), jehož závěry na CHEP 2009 shrnul Harry Renshall z CERN. Mezi 228 účastníky porady byli rovnoměrně zastoupeni představitelé různě velkých gridových výpočetních center (Tier 1, T2 a T3). Aktéři tohoto jednání přednesli také plány každé z experimentálních skupin na LHC. Všechny zahrnují nějakou formu dalšího testování sběru dat a počítání před novým spuštěním LHC. Pozornost věnovali i skutečnosti, že LHC v tomto roce neplánuje zimní přestávku. Z diskuse vyplynulo, že v květnu nebo červnu 2009 se ve všech experimentálních skupinách současně uskuteční „zatěžkávací zkouška“ záznamu dat a jejich zpracování (Scale Testing for the Experimental Programme – STEP 2009). Účastníci shromáždění dospěli k závěru, že je třeba věnovat soustavnou pozornost stabilitě systémů, připravit se na 44 týdnů nepřetržité činnosti experimentů a pokračovat v započaté práci, která představuje dobrý start při přípravě analýzy fyzikálních dat.
Konferenci CHEP 2009 zahájili představitelé pořádajících organizací – prof. Jiří Drahoš, předseda Akademie věd ČR, prof. Václav Hampl, rektor Univerzity Karlovy, prof. Václav Havlíček, rektor ČVUT, a Ing. Jan Gruntorád, ředitel sdružení CESNET. Jednání otevřel Sergio Bertolucci, ředitel CERN pro výzkum a zpracování vědeckých dat. Pohovořil o uvedení LHC do provozu, o incidentu z 19. září 2008, o tom, jak postupuje oprava urychlovače a jaká jsou opatření, která mají zamezit podobným problémům, o plánech na opětovné spuštění LHC. Pozornost věnoval i výzkumu, jenž v současnosti probíhá ve Fermilab, tomu, jak CERN využije tyto výsledky při hledání Higgsova bosonu.
Les Robertson z CERN, který po dobu prvních šesti let vedl projekt WLCG, rozebral dosavadní výsledky a vysvětlil, jakým směrem bude vývoj směřovat v budoucnosti. První, velmi jednoduchý grid, byl představen na konferenci CHEP v Padově v roce 2000, což Robertsona přivedlo k tomu, aby první dekádu našeho století označil za „desetiletí gridu“. Systém prošel nezanedbatelným vývojem, standardizoval se a dozrál, a proto nyní nachází uplatnění v rostoucím počtu vědeckých i průmyslových aplikací. Další vývoj by podle něj měl směřovat k umísťování gridových center do míst, kde je levná energie, k většímu využití virtualizace při sdílení výpočetní kapacity. Poukázal také na potřebu soustředit pozornost k „oblakům“ (clouds) a vyjasnit, jaké je jejich postavení ve srovnání s gridy.
Grid – síťový systém počítačových farem v různých institucích na různých místech se systémem rozdělování úloh a dat (tzv. middleware). Systém na jedné straně dovoluje řešení úloh značně přesahujících kapacity jedné instituce, na druhé straně efektivně využívá prostředky, které každý účastník může dát k dispozici (viz také např. heslo grid computing ve Wikipedii).
Oblaky – „outsourcing“ v počítání. Podobně jako si sami zpravidla neopravujeme auto ani nepíšeme operační systém svých počítačů, nemusíme obhospodařovat prostředky na své výpočty, ale koupit si je. V této koncepci počítání jde již více o ekonomiku než o technickou realizaci. Jde o změnu přístupu, přirovnávanou k přechodu od jednotlivých generátorů elektřiny k zavedení elektrické sítě na počátku 20. století (viz také např. heslo cloud computing ve Wikipedii).
Téma využívání oblaků, které umožňují „pronajmout si“ výpočetní kapacitu a datový prostor, zaznělo na konferenci opakovaně. Kupříkladu experiment Belle v KEK pokusně využívá oblaky při Monte-Carlo simulacích potřebných při přípravě plánovaného experimentu SuperBelle. O jejich využití pro simulace uvažuje i experiment STAR v Brookhavenu. Také další z Robertsonových námětů pro budoucnost – virtualizace – byla po celý týden jedním ze žhavých témat a opakovaně se objevovala v nejrůznějších souvislostech.
Další pozoruhodná plenární vystoupení přednesli Neil Geddes z Rutherford Appleton Laboratory ve Velké Británii, Kors Bos z Nikhef v Holandsku a Ruth Pordesová z Fermilab, ředitelka amerického projektu Open Science Grid. Neil Geddes si položil otázku, zda WLCG („celosvětový grid pro LHC“) může splnit, co se od něj očekává. Dospěl k závěru, že může a ve skutečnosti už se mu to do značné míry daří. Kors Bos, jenž zastupoval také projekt ATLAS, porovnal přístupy různých experimentů na LHC k výpočetním záležitostem a poukázal na to, v čem jsou si podobné a v čem se naopak liší. Ruth Pordesová informovala o práci na vývoji gridů v USA, jejímž cílem je snadnější využívání a dostupnost pro širší okruh vědců a výzkumných pracovníků.
Konferenci podpořilo několik komerčních sponzorů: vedle jiných například IBM, Intel a Sun Microsystems. Část středečního dopoledního programu byla vyhrazena zástupcům těchto společností. IBM představila koncepci počítače, který poskytne výkonnou, efektivní a současným požadavkům odpovídající výpočetní kapacitu, představitel společnosti Intel se věnoval především snahám firmy zvyšovat výkonnost počítačů při snižování spotřeby energie. Hovořil i o přínosu spolupráce v rámci otevřeného partnerství s CERN. Intel chce tento problém řešit především zvyšováním energetické efektivity počítání (cestou zvyšování hustoty komponent, počtu jader, většího paralelismu apod.), neboť si uvědomuje, že spotřeba energie je významným omezujícím prvkem ve všech výpočetních odvětvích. Zástupce firmy Sun mluvil o tom, jak vytvářet budoucí moderní datová centra. Podle něj je současná koncepce instalace kabelů a dalších systémů v podlahách překonaná, namísto toho navrhuje „kontejnery“ či podobné „buněčné uspořádání“ se samostatným ve-stavěným chlazením, které tvoří modulární strukturu připojovanou rychlopřípojkami k přenosovým kanálům umístěným shora. Jiným tématem byla „zelená“ centra; v této souvislosti se zmínil o slunečních farmách v Abu Dhabi, jakož i o navrženém systému využívajícím pro chlazení volně dostupnou vodu oceánů v plovoucích výpočetních centrech umístěných na lodích.
Je vyloučené shrnout v krátké zprávě materiály ze sedmi současně probíhajících odpoledních paralelních sekcí. Některé nejvýznamnější body si však zmínku zaslouží. Programový nástroj pro vytváření a přístup k agendám konferencí a schůzí Indico, vyvinutý v CERN, používá přes 40 institucí a k dnešnímu dni pomohl zvládnout materiály pro neuvěřitelných 60 000 akcí. Závěr vyplývající ze 44 vystoupení a 76 posterů na téma gridový middleware je, že produkční gridy fungují, middleware je použitelný a také se využívá (postupně se standardizuje, v tomto směru zbývá ještě mnohé udělat). Využívá se taková přenosová kapacita sítě, jakou technické možnosti dovolují. Z příspěvků o distribuovaném počítání a analýze vyplývá, že od poslední konference CHEP pokročil vývoj uživatelských nástrojů pro analýzu, přičemž u jednotlivých experimentů LHC se objevují některé podobné přístupy. Hlavní důraz vědci kladou na správu dat a přístupové protokoly pro analýzu; po spuštění LHC budou zvláštní pozornost věnovat mechanismu ukládání dat.
Závěrečnou řeč a shrnutí konference přednesl Dario Barberis z INFN Janov a experimentu ATLAS, který vyhledal nejpoužívanější slova v abstraktech 500 zaslaných příspěvků. Nejvýše se umístilo slovo „data“, někdy ve spojení s výrazy „přístup“ (access), „správa“ (management) nebo „analýza“ (analysis). Zdůraznil také, že uživatelé volají po jednoduchém přístupu k datům, a proto by počítačoví specialisté měli poskytnout snadno použitelné nástroje, které by „odstínily“ složitosti a komplikace s gridem spojené. „Grid“ bylo pochopitelně další z velmi frekventovaných slov, zatímco termín „oblak“ se nedostal do první stovky, ačkoli se o oblacích intenzivně diskutovalo jak v plenárních vystoupeních, tak i v příspěvcích v paralelních sekcích. Barberis označil „výkon“ (performance) jako pojem charakterizující nejdůležitější téma konference – a to na všech úrovních, od jednotlivých počítačových programů až po výkon celého gridu. Za poněkud opomíjené, avšak důležité téma považuje problematiku sítí (networking), konkrétně například otázky rozdílného přístupu k digitálním prostředkům v různých zemích a reálné výkonnosti spojení. Jeho hlavní závěr byl, že na výkon se nepochybně soustředí vývojová práce v nejbližší budoucnosti a bude také hlavním tématem příští konference CHEP, která se uskuteční 17.–22. října 2010 v Taipei.
ALAN SILVERMAN, CERN
MILOŠ LOKAJÍČEK a JIŘÍ RAMEŠ, Fyzikální ústav AV ČR, v. v. i.,
JIŘÍ DOLEJŠÍ, Matematicko-fyzikální fakulta UK
10.9.2009