Previous Next
Líbám Tě a miluju, Ahojsk! GABRIELA ROMANOVÁ Editorský tým si vytyčil nelehký úkol sestavit publikaci dopisů, jež...
Matěj Václav Šteyer, hymnograf a katolík TOMÁŠ HAVELKA Matěji Václavu Šteyerovi, plodnému jezuitskému autorovi,...
Brána do světa české hrůzy JAKUB JARINA Sousloví český horor zpravidla vyvolává otázku, zda něco takového...

PETR PLECHÁČ

Lingvista Radek Čech, rumunský fyzik Ioan-Iovitz Popescu a německý lingvista slovenského původu Gabriel Altmann věnovali už básnickým textům v minulosti nemalou pozornost ve studiích publikovaných např. v časopisech Glottometrics, Glottotheory či Journal of Quantitative Linguistics. Jejich přístup je důsledně kvantitativní — jeho úkolem není primárně popis a klasifikace, ale formulace statisticky testovatelných hypotéz s ambicemi rozkrýt obecně platné jazykové zákony. Neprodejná publikace Metody kvantitativní analýzy (nejen) básnických textů (elektronická verze volně ke stažení na adrese http://oltk.upol.cz), která vychází v edici QFWFQ Katedry obecné lingvistiky Univerzity Palackého v Olomouci, si klade za cíl přiblížit postupy představené ve výše zmíněných studiích širšímu okruhu čtenářů: „Pokusili [jsme se] napsat knihu, která představí aktuální stav určité části textové kvantitativní lingvistiky v co možná nejpřijatelnější podobě, tudíž — až na malé výjimky — nepředpokládá u čtenáře žádné předchozí znalosti matematiky ani statistiky (kromě některých poznatků nabytých na střední škole)“ (s. 5).

Kniha je rozdělena do pěti kapitol (nepočítaje úvodní). První z nich představuje metodu měření tematické koncentrace textu založenou na výběru tematických slov, lemmat či tzv. hrebů. Jedná se o snadno srozumitelný a intuitivně uchopitelný postup: za tematické jednotky jsou označena autosémantika (nebo jinak definovaná množina jazykových jednotek), jejichž absolutní frekvence v daném textu převyšuje jejich pořadí ve frekvenční distribuci. (Např. jediným tematickým lemmatem prvního zpěvu Máchova Máje by byla dvanáctkrát se vyskytující láska, která je tak pátým nejfrekventovanějším lemmatem [12 > 5]). Tato koncepce v mnohém připomíná tzv. analýzu klíčových slov známou z prostředí korpusové lingvistiky (za klíčové je slovo/lemma označeno v případě, že jeho relativní frekvence v textu statisticky významně převyšuje jeho frekvenci v referenčním korpusu). Nezávislost analýzy tematických slov na referenčním korpusu přitom může být vnímána jak pozitivně, tak negativně — je sice nesporné, že pravděpodobnost výskytu různých jazykových jednotek se může diametrálně odlišovat, na druhou stranu výběr vhodného referenčního korpusu, který by toto reflektoval, může pro leckoho představovat nežádoucí subjektivní prvek.

Druhá kapitola je věnována slovnímu bohatství textu. Autoři zde představují pět různých metod umožňujících jeho kvantifikaci (index opakování slov, entropie, index R1, délka křivky, Giniho koeficient) a ukazují, že přesto že jednotlivé indexy vycházejí z různých charakteristik textu, jejich hodnoty velice silně korelují.

Další kapitola se zabývá měřením aktivity/deskriptivity textu, které vychází z obvyklého srovnání četností slovních jednotek reprezentujících aktivitu (V) a deskriptivitu (A). Na rozdíl od většiny přístupů autoři nedefinují koeficient aktivity jako prostý podíl Q = V / A, který může nabývat nepříliš dobře interpretovatelných hodnot <0; .>, ale normalizují ho do podoby Q = V / (V + A), tedy s možnými hodnotami <0; 1>. To jim dále umožňuje hodnoty zjištěné v jednotlivých textech klasifikovat, navzájem porovnávat a významnost rozdílů statisticky testovat. U klasifikace textů už ale, domnívám se, představuje absence referenčního korpusu jistou slabinu. Např. „signifikantní aktivita“ je definována následovně: „pro texty, které obsahují malý (tj. pomocí vzorce [5.9] lehce počitatelný) počet verb V a adjektiv A, testujeme hypotézu o vysoké aktivitě textu prostřednictvím binomického kritéria

tj. počítáme pravděpodobnost, s níž X je rovno nebo větší než pozorovaná hodnota V. […] Pokud jsou hodnoty vypočítané na základě vzorc[e] (5.9) […] menší než zvolená hladina významnosti (např. α [=] 0,05), tak mluvíme o textu vyjadřujícím signifikantně vysokou aktivitu“ (s. 69). Předpoklad, že rovnováhu aktivity a deskriptivity představuje hodnota Q = 0,5 (tj. text obsahující stejný počet sloves a adjektiv), který je v tomto testu obsažen, je ovšem sporný. Většina uměleckých textů bude patrně vykazovat Q > 0,5 (v beletristickém subkorpusu SYN2010 činí celkový poměr sloves a adjektiv zhruba 3 : 4) a je tedy otázkou (kterou by měly zodpovědět spíš percepční testy), neměla-li by tudíž při hodnocení aktivity být „laťka“ nastavena níže. (Není zcela zřejmé, zda autoři zařazují do množiny A skutečně pouze adjektiva a do množiny V všechna slovesa, anebo zda, jako v předchozí kapitole, zařazují do A „adjektiva, adverbia, kterými se odpovídá na otázku »jak«? a nominalizovaná adjektiva“ [s. 52] a do V „verba [kromě být, mít a modálních sloves moc, smět, muset] a deverbativní substantiva“ [ibid.]. V takovém případě by byl obecně poměr |A| : |V| zřejmě vyrovnanější.)

Čtvrtá kapitola je věnována proslulému Menzerath-Altmannovu zákonu (se sympatickou skromností je zde nazýván toliko Menzerathův), který vyjadřuje vztah mezi průměrnou délkou jednotek ze sousedících jazykových rovin: „čím delší je v jazyce nějaký konstrukt (např. slovo měřeno počtem slabik či morfémů), tím kratší jsou v průměru jeho konstituenty (v případě slova jde o slabiky či morfémy měřeny počtem fonémů)“ (s. 74). Platnost zákona je v této kapitole testována na vztahu délky verše (konstrukt) a délky slova (konstituent). Za příklad (stejně jako ve většině kapitol) slouží básně slovenské autorky Evy Bachletové. Dodejme, že se zde (stejně jako v celé knize) autoři nesnaží čtenáře ohromit zdánlivými „objevy“, ale k vlastním výsledkům přistupují kriticky: „Je patrné, že zjištěné hodnoty lze modelovat přímkou, přičemž rozptyl hodnot je relativně velký. Celková tendence může být vyjádřena vztahem S = -0,6092 + 3,0886 I. Determinační koeficient ovšem vykazuje nízkou hodnotu R2 = 0,41; předpokládáme, že nízká hodnota R2 je způsobena zejména tím, že se jedná o poezii psanou volným veršem, což autorovi dává mnohem větší možnost »uniknout« mechanismům řídícím distribuci délky slova než v textech neuměleckých“ (s. 80).

Poslední kapitola se zabývá možnostmi měření eufonie, která je zde pojatá jako nenáhodné opakování jakýchkoli hlásek (tedy bez obvyklého rozlišení na eufonii a kakofonii). To, zda jsou badatelem nalezená hlásková opakování skutečně nenáhodná, nebo zda se jedná pouze o důsledek omezeného repertoáru hlásek, je v literární vědě dlouho diskutovaným problémem (připomeňme např. Mukařovského rozbor Máje a následnou polemiku Jiřího Pechara). Autoři proto navrhují jednoduchý binomický test — pokud je ve verši obsahujícím K konsonantů některý z nich m-krát zopakován a pravděpodobnost m či více výskytů v K pokusech je při dané frekvenci konsonantu nižší než obvyklá hladina významnosti 0,05, je takové opakování považováno za nenáhodné. Identicky je pak řešena táž úloha pro n výskytů jednoho vokálu na V možných pozicích. Některé hlásky — jako např. dlouhé a krátké varianty týchž samohlásek či různé varianty fonému n — autoři shlukují do jedné kategorie, což je pochopitelné. Problém ale, dle mého názoru, nastává u slabikotvorných a neslabikotvorných variant téhož konsonantu. Shlukují-li autoři (s. 98) slabikotvorné i neslabikotvorné l do jedné konsonantické kategorie (totéž v případě r), dochází tím u veršů, které obsahují x slabikotvorných konsonantů, k posunu K + x a V - x. Obzvláště u analýzy sylabotónických či sylabických veršů, kde V představuje konstantu, na níž je celý versifikační systém založen, by tak mohlo docházet k nežádoucímu zkreslování. Otázkou rovněž zůstává, zda je vhodné definovat celkovou eufonickou hodnotu verše jako aritmetický průměr nenulových koeficientů v něm obsažených hlásek. Jinými slovy, v hypotetickém případě, kdy dva verše obsahují stejně výrazné opakování téže hlásky, přičemž druhý z nich obsahuje navíc i další, méně výrazné opakování jiné hlásky, je tímto eufonie druhého verše oslabována (průměr), nebo naopak (byť nepříliš výrazně) posilována (např. součet)? Obdobným způsobem jako eufonii se v závěru kapitoly autoři věnují i aliteraci na počátcích veršů.

Výše uvedené kritické připomínky by v žádném případě neměly zastínit, že Metody kvantitativní analýzy (nejen) básnických textů jsou nesmírně cennou a inspirativní publikací, a to nejen pro lingvisty a studenty lingvistických oborů, kterým je kniha primárně adresovaná, ale i pro literární vědce. Kvantitativní metody mají v české literární vědě (či alespoň v její části zabývající se básnickými texty) bohatou tradici, kterou stojí za to rozvíjet. (Dodejme, že tato tradice je v knize bohužel reflektována jen velmi okrajově. Publikace je sice opatřena bohatou kvantitativnělingvistickou bibliografií, literárněvědné studie jsou ovšem zmiňovány mírně řečeno selektivně; srov. např. souhrn „tradice kvantitativních analýz poezie“ [s. 5] nebo kritiku vágních definic eufonie v literární vědě, která přehlíží nejpodstatnější práci v této oblasti — Červenkovu rozsáhlou studii „Hlásková instrumentace“.) Kniha sice klade na čtenáře nemalé nároky — tvrzení, že „až na malé výjimky nepředpokládá u čtenáře žádné předchozí znalosti matematiky ani statistiky“ je přinejmenším nadnesené —, obecně ale představuje (a to zejm. ve srovnání s autorsky i tematicky spřízněným Úvodom do analýzy textov, Bratislava, Veda 2003) srozumitelný úvod do světa jasně formulovaných a verifikovatelných hypotéz o literárních textech. Všechny v knize představené postupy jsou výsledkem dlouholeté spolupráce tří výrazných (či jedněch z nejvýraznějších) osobností matematické lingvistiky. Jednotlivé metody, jak sami autoři píší, „mohou být modifikovány, vylepšeny, možná i některé odmítnuty jako neužitečné“ (s. 5), neměly by ale, dodejme, být badateli v daných oblastech v žádném případě ignorovány.

Radek Čech — Ioan-Iovitz Popescu — Gabriel Altmann: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc, Univerzita Palackého v Olomouci 2014. 135 stran.

Vyšlo v České literatuře 3/2015.