Ústav pro českou literaturu AV ČR dokončil po letech intenzivní práce Korpus českého verše. Veřejnosti jej literární vědci z Ústavu pro českou literaturu AV ČR představili 4. listopadu 2014. Prostřednictvím online aplikací a počítačového programu, který umí automaticky rozpoznávat druh verše, získávají uživatelé dosud netušené možnosti práce s téměř 1700 sbírkami české poezie 19. a počátku 20. století. Online aplikace jsou zdarma přístupné na webových stránkách Versologického týmu ÚČL. Jak uvedl ředitel ÚČL dr. Pavel Janáček, projekt, jehož počátky sahají až do roku 1996, je světově unikátní jak rozsahem, tak i zpracováním. „V kontextu našeho pracoviště jde oblast, kterou považujeme za excelentní; v odborných kruzích je označována jako digital humanities – disciplína, která propojuje humanitní vědy a informatiku. Prezentované výsledky jsou obrazem naší orientace na poskytování kvalitních a odborných informací české veřejnosti. Jen za poslední rok jsme na našich webových službách zaznamenali přes milion přístupů,“ dodal dr. Janáček.
V úvodu tiskové konference promluvil ředitel ÚČL Pavel Janáček.
Vlevo: Petr Plecháč a Robert Ibrahim z Versologického týmu
Korpus českého verše je lemmatizovaný, foneticky, morfologicky, metricky a stroficky anotovaný
korpus české poezie 19. a počátku 20. století. Ke každé slovní jednotce v korpusu je připojena
informace o jejím základním slovním tvaru (lemma), fonetickém přepisu a gramatických kategoriích, u
každého verše je určeno metrum (jamb, trochej…), rozsah (n-stopý), typ klauzule (mužská, ženská…) a metrický vzorec. (V současnosti jsou z hlediska
metriky anotovány pouze verše sylabotónické.) Na vyšších rovinách jsou anotovány rýmové dvojice,
resp.
n-tice a pevné formy (sonet, rondel…). V metrickém a strofickém popisu lze vyhledávat
prostřednictvím
Databáze českých meter, rovina lemmatizace je částečně zpřístupněna prostřednictvím
Frekvenčních slovníků, rýmové páry lze vyhledávat v aplikaci
Gunstick. KČV vychází z textů
České elektronické knihovny, která ovšem obsahuje duplicitní jednotky (opakovaný výskyt
básní v různých vydáních sbírky či sebraných spisech autora). Aby nedocházelo ke zbytečnému
zkreslování statistik, rozhodli se autoři do
Korpusu českého verše zahrnout vždy pouze nejstarší výskyt každé básně (soupis vyřazených
básní). Shoda mezi básněmi byla přitom určována na základě fonetického přepisu. Selekce by tedy
neměla být ovlivněna například odchylkami v interpunkci a zároveň by nemělo docházet k odstranění
přetisků, v nichž byly oproti staršímu znění provedeny (byť nepatrné) změny.
Během
Dne s Korpusem českého verše se v ÚČL se dále uskutečnila veřejná přednáška a křest
publikace
Báseň a počítač (Nakladatelství Academia, edice
Věda kolem nás)
. Přednáška, která byla součástí
Dne otevřených dveří (konaly se pod hlavičkou
Týdne vědy a techniky), představila projekt automatické analýzy verše – tj. výsledky
počítačového programu, který dokáže rozpoznat metrum českého verše. Přednášející předvedli využití
jednotlivých online aplikací (Databáze českých meter,
Eufonometr,
Gunstick,
Hex,
Frekvenční slovníky,
Cvičebnice). Posluchači se mj. dozvěděli, zda je v české poezii 19. století více jambů nebo
trochejů, o čem je na základě frekvenční analýzy slov Máchův
Máj, s čím rýmovali čeští básníci slovo láska nebo která česká báseň je
nejeufoničtější.
Korpus českého verše představil Petr Plecháč z Versologického týmu.
Robert Ibrahim pohovořil o nástrojích, které umožňují s korpusem pracovat.
Text a foto: Luděk Svoboda, Akademický bulletin