Ústav pro českou literaturu AV ČR Institute of Czech literature of the CAS
Obsah vašeho košíku

Nemáte žádné položky v košíku

Bibliografie v digitálním věku

Autor: GABRIELA ROMANOVÁ
Datum zveřejnění: 23. října 2023

Ve dnech 12.–14. října 2022 proběhl na půdě ÚČL mezinárodní workshop s názvem „Mutual Learning Workshop for Improving Cultural Heritage Bibliographical Data“. O hojnou účast se postarali nejen domácí návštěvníci, ale i členové DARIAH-ERIC Bibliographical Data Working Group (workshop samotný byl hlavním výstupem stejnojmenného interního grantu konsorcia DARIAH-ERIC). Třídenní akce byla věnována tématům jako produkce a zpracování bibliografických dat, využívání metadat a práce s nimi, převod metadat a kompatibilita různých formátů (MARC, Wikidata ad.), možnosti grafického zpracování bibliografických dat nebo zpřístupňování metadat v režimu open-access.

První den zahájila, po formálním otevření workshopu zástupcem ředitele ÚČL Michalem Kosákem, ředitelka konsorcia DARIAH Sally Chambersová on-line přednáškou o bibliografických datech jako zdroji výzkumu kulturního dědictví. Ve své prezentaci představila mezinárodní výzkumnou infrastrukturu DARIAH a podtrhla důležitost spolupráce a vzájemného sdílení dat, upozornila na možnosti digitálního úložiště EOSC (European Open Science Cloud) a vyhledávací platformy Europeana. Pozvala též všechny zúčastněné na příští výroční setkání členů konsorcia DARIAH, které se konalo v červnu roku 2023 v Budapešti.

Tomasz Umerle, zástupce vedoucí Polské literární bibliografie, provozované při Instytutu Badań Literackich Polské Akademie Nauk, a Vojtěch Malínek, vedoucí České literární bibliografie, představili jimi koordinovanou pracovní skupinu Bibliographical Data Working Group, kterou dnes tvoří již 40 členů zahrnujících zpracovatele a kurátory bibliografických dat, datové výzkumníky a IT specialisty a která organizuje setkání těchto členů, workshopy pro bibliografy a výzkumníky na poli digital humanities. Materiály k činnosti BDWG je možné zhlédnout na portálu Zenodo nebo youtube. Hlavním cílem této skupiny je rozvoj automatizace při zpracovávání bibliografických dat.

Úvodní blok příspěvků se věnoval detailnějším tématům, jež všechna spojovala problematika formálních pravidel pro zápis nejen uměleckých děl (FRBR) určených pro vytváření bibliografických záznamů v knihovních a vědeckých katalozích. Ve společném příspěvku Nanette Rissler-Pipka (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen) a José Calvo Tello (Göttingen State and University Library) hovořili o problémech, které by tento jednotný systém přinesl v případě, že by byl použit v katalozích Německé národní knihovny. Na několika příkladech uvedli, proč je nutné ho před zavedením ještě vylepšit. Zástupce Polské národní knihovny Kamil Pawlicki představil nový systém pro prezentaci informací o (literárních) dílech, který v nedávné době začala Polska Biblioteka Narodowa vytvářet, založený na extrakci údajů z konkrétních záznamů v katalogu a obohacení typologie. Ondřej Vimr (Ústav pro českou literaturu AV ČR) se zaměřil na informace o překladech v knihovních katalozích jako zdroji kvantitativního výzkumu bibliografických dat.

Blok příspěvků prvního dne zakončil Péter Király (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen) přednáškou o možných posunech významu informací, k nimž dochází na základě malé variability systémových popisných termínů. Doložil tak například, jak mohlo dojít k „Shakespearovu omylu“ s lokalizováním mořského pobřeží v českých zeměpisných šířkách.

Druhý den byl rozdělen do tří tematických bloků: automatizace při vytváření metadat, obohacování a rozšiřování metadat o klíčová slova a formální deskriptory a otevřená data, jejich propojování, využívání, modelování a zhodnocování.

Osma Suominen z National Library of Finland promluvil o nástroji pro automatické generování klíčových slov Annif, Agnieszka Mikołajczyk-Barełová (Voicelab.ai/Clarin) pohovořila o automatickém generování klíčových slov a jejich zpracování v národním korpusu Polish Open Science Metadata Corpus. Ioanna Grypariová (ATHENA Research Center) následně představila platformu OpenAIRE, sdružující data z více než 78 tisíc různých datasetů, na jejímž základě je možné propojovat a opakovaně zobrazovat data v režimu open-access.

Antoine Doucet (La Rochelle Université) představil projekt NewsEye, jehož cílem je automatická rekognice textu ve formátu OCR, jeho vyčištění a automatické generování klíčových slov. Podobný úkol řešil v rámci projektu Impresso výzkumný tým ze švýcarské Université de Lausanne a na workshopu jej představil Matteo Romanello. Márton Németh (National Széchényi Library) jako poslední z prezentujících v tomto tematickém bloku pohovořil o významu webarchivů a metadatových formátech v nich užívaných.

Závěrečný blok čtvrtečního jednání se věnoval wikidatům a jejich propojení s jinými databázemi nebo jejich použití jako základních datasetů pro kvantitativní výzkum — David Lindemann (University of the Basque Country) předvedl možnosti tvorby bibliografických záznamů na platformě wikidata a spolu s kolegyní Penny Labropoulouovou (ATHENA Research Center) prezentoval systém LexMeta, používaný pro tvorbu metadat k bibliografickým záznamům z prostředí lingvistické lexikografie. Giovanni Colavizza (University of Amsterdam) pak v závěrečném příspěvku dne přiblížil své kvantitativní výzkumy citací používaných ve Wikipedii.

Poslední den workshopu byl věnován jednotlivým případovým studiím a konkrétnímu výzkumu, který badatelé provádějí na základě vybraných bibliografických datasetů. Cezary Rosiński a Agnieszka Karlińská z Polské literární bibliografie představili výsledky projektu, v němž zkoumali dichotomii „město× venkov“ v polské národní literatuře, Mathilde Koskasová (National Library of France; IFLA) hovořila o potřebě zpřístupnění dat francouzské národní knihovny v režimu open-access a Ylva Sommerlandová ze Švédské národní knihovny ukázala nejrůznější možnosti, jak graficky znázornit výsledky výzkumu na základě metadat.

Závěrečná řeč Mikka Tolonena z finské University of Helsinki ještě jednou zdůraznila důležitost rozvoje programů umožňujících digitální zpracovávání bibliografií, zpřístupňování metadat na bázi veřejných datasetů, creative commons, open-access licencí a zásadní potřebu mezinárodní spolupráce v této oblasti.

Workshop svedl na jedno místo přední evropské odborníky na výzkum bibliografických dat a ukázal na široké možnosti jejich kvantitativního výzkumu. Prezentace z něj jsou k dispozici v portálu Zenodo v rámci kolekce „DARIAH Bibliographical Data Working Group“ a zájemci mohou zhlédnout nahrávky jednotlivých vystoupení na youtube kanálu České literární bibliografie.


Vychází v České literatuře 3/2023.

Tento článek podléhá licenci CC BY-NC-ND 4.0 Mezinárodní. Plný text licenčních podmínek