Monosti a meze gramatiky
četiny ve světle Českého národního korpusu (2003 - 2005)
Registrační číslo projektu: 405/03/0377
Záměrem projektu je vytyčit první kontury principiálně nového gramatického
popisu četiny, zaloeného na prohledávání a gramatické analýze velkých
a ánrově reprezentativních počítačových korpusů textů a na důkladném
studiu a vyhodnocování získaných nálezů.
Dnení jazyk se proti stavu
zachycenému v gramatikách změnil a dosavadní nemnohé české gramatiky
a syntaxe, které byly za celé 20. století publikovány (viz seznam
literatury v závěru tohoto zdůvodnění), jsou tedy dnes ji zčásti zastaralé,
zčásti podávají jen neúplný, často neexplicitní a někdy i rozporuplný přehled
a výklad i mnohých značně frekventovaných a neperiferních jevů morfologie a
syntaxe četiny, nemluvě o jevech méně centrálních a okrajových. Navíc
tyto gramatiky
nemohly vycházet z dostatečných dat a jejich výklad musel tudí být často nutně
subjektivní. O tom, e ani mnohé centrální a frekventované jevy české morfologie
a syntaxe nejsou dostatečně popsány či jejich výklad zcela schází i ve velké
akademické Mluvnici četiny, svědčí i poradenská zkuenost lingvistů z Ústavu
pro jazyk český AV ČR.
Záměrem tohoto projektu je konkrétně na bázi Českého národního korpusu
(viz níe):
(a) evidovat problémové jevy velmi či značně frekventované, které navzdory
tomu nebyly dosud v gramatikách představeny buď vůbec, anebo jen neúplně
či nahodile
nebo byl nahodile a s nedostatečným mnoství příkladů zhodnocen jejich systémový
a funkční status, nebo před existencí korpusů nebylo mono dané jevy studovat
v potřebném mnoství textů;
(b) evidovat i jevy málo frekventované, mezní a řídké nebo sporné, jejich
popis dosud buď zcela schází, anebo je neúplný, nahodilý či mylný vzhledem
k tomu,
e - ve srovnání s nynějími monostmi - vycházel z velmi omezeného jazykového
materiálu nebo je plodem subjektivního náhledu lingvistova;
(c) podat statistická data o evidovaných jevech a vyvodit z nich údaje o
jejich typičnosti nebo okazionalitě a o jejich stylové hodnotě;
(d) na základě této evidence vytvořit materiálovou a metodologicko-teoretickou
bázi pro budoucí velkou gramatiku četiny
Obecná charakteristika zamýleného projektu
Projekt je koncipován primárně jako strukturovaný týmový výzkum typických
monopolních i konkurenčních, včetně periferních gramatických forem
a struktur soudobé četiny vzhledem k tomu, jak jsou či nejsou obsaeny
v Českém národním korpusu, a to v jeho centrální a největí sloce,
nazvané SYN 2000 (dále ČNK), obsahující v současnosti 100 milionů slovních
forem. Jako doplňkové a korektivní korpusy budou vyuívány i ostatní
korpusy a anotované soubory textů soudobé četiny, zejména Praský
závislostní korpus a dalí.
Projekt je z tohoto hlediska zaměřen na výzkum a popis morfologie, slovotvorby
a syntaxe větné i nadvětné; nezahrnuje tedy výzkum a popis fonologie,
fonetiky a intonace, nebo tyto jevy nelze na dosavadních korpusech systematicky
studovat.
Institucionální, personální a technické vybavení projektu
Na projektu se kromě ÚJČ AV ČR podílejí i hlavní české univerzity a pět
univerzit zahraničních.
Účast předních zahraničních bohemistů z Německa, Anglie a Itálie, jmenovaných
v části A návrhu, je podstatným personálním aspektem projektu, a to z
následujících důvodů: (a) korpusově ji orientovaných českých gramatiků
nebo těch, kteří by se chtěli tímto směrem orientovat, není mnoho; (b)
lingvisté, kteří nejsou rodilými mluvčími jazyka, mají schopnost vidět
a odhalovat vlastnosti studovaného jazyka, které by mohly uniknout pozornosti
rodilých badatelů; (c) zahraniční bohemisté jmenovaní v návrhu jsou zkuení
a zanícení zkoumatelé českého jazyka a mají značné zkuenosti s korpusovou
lingvistikou a konkrétně i s vyhledáváním v ČNK.
Na projektu budou spolupracovat jak přední četí lingvisté, převáně
morfologové a syntaktikové, tak - pod jejich vedením - začínající lingvisté,
kteří mají zájem pracovat s velkými počítačovými korpusy a dobírat se
objektivních pravd o komunikativním fungování gramatických forem a struktur
soudobé psané četiny.
Bezprecedentnost korpusové orientace
Projekt je vzhledem k soustředěnosti velkého kolektivu lingvistů na výzkum
velkého počítačového korpusu (ten bude - nedojde-li k přeruení prací
pro nedostatek financí - v několika dalích letech pravděpodobně rozířen
o několik dalích stovek milionů slovních forem) v oblasti lingvistického
výzkumu bezprecedentním podnikem. Je to dáno u samotnou nedlouhou
a revoluční existencí korpusu, která projekt motivovala. Tato situace
je vak zároveň historicky jedinečnou moností prostřednictvím korpusu
získat velké mnoství takových poznatků o gramatické stavbě přirozeného
jazyka a textové distribuci jejích elementů, které se vymykaly dosavadním
monostem i představám lingvistů pracujících tradičními, avak před
existencí korpusu jedině monými metodami observačně-analytickými a/nebo
teoreticky deduktivními.
Korpusová lingvistika, do jejího oboru projekt spadá, spočívá ve výzkumu
rozsáhlých a relativně reprezentativních souborů textů různých ánrů
a stylů uloených v paměti počítače, a umoňuje tím nesrovnatelně hlubí
poznání přirozeného jazyka, jeho přirozeně se vyvinuvích a dále se vyvíjejících
pravidel, norem, tendencí, zákonitostí, ale i nepravidelností a rozporů,
ne to bylo v minulosti moné při lingvistových reflexích o jazyce, ne
vdy a vdy jen zčásti - podle lingvistova naturelu - opřených o výpisky
z psaných textů. Jakkoli těchto excerpt dokázali někteří výjimeční lingvisté
(J. Gebauer, V. milauer a jiní) s pomocí svých studentů nashromádit
veliké mnoství (také autor tohoto projektu má ve své sbírce tisíce dokladových
lístků) - to jistě nelze přehlíet -, ani oni neměli monost kdykoli
u kteréhokoli z tisíců dílčích gramatických jevů zjiovat či ověřovat
podmínky jeho textového a tím mnohdy i íře komunikativního fungování (by
lo pouze o komunikaci psanou). Rozsáhlé počítačové korpusy textů to
umoňují. Samozřejmě: nalezené doklady, jakkoli utříděné, musí lingvista
prostudovat a vyhodnotit. V konečné fázi je vdy třeba lingvistova
zhodnocení
a závěru.
Korpus poskytuje lingvistovi poprvé v historii monost podrobně
porovnat četnost výskytu vech gramatických struktur v textech desítek
básníků, stovek prozaiků,
tisíců urnalistů i příleitostných dopisovatelů novin a zjistit i nulové
výskyty struktur, které by bylo mono teoreticky předpokládat
nebo které jsou běné
v jiných jazycích.
Obecné metodologické aspekty projektu
Takto zamýlený projekt předpokládá spolupráci lingvistů ochotných provádět
rozsáhlé počítačové reere, čítající desítky, stovky a desetitisíce
dokladů mnoha (stovek a tisíců) dílčích gramatických jevů, tato mnoství
dokladů pozorně studovat, analyzovat a vyhodnocovat.
Tento výzkum ovem nelze provádět bez znalosti dosavadních poznatků a
postulátů o gramatice četiny. Ty bude naopak třeba respektovat jako
teoretické východisko výzkumu, při něm půjde i o to, dosavadní postuláty
a tvrzení analýzou nalezených dokladů potvrdit, doplnit, nebo vyvrátit.
I k tomu, k této iroce koncipované resumující teoretické práci je zapotřebí
spolupráce řady lingvistů, specialistů v dílčích oblastech české, obecné
i srovnávací gramatiky.
Pokud jde o návaznost projektu na dosavadní výsledky bádání o gramatice
četiny, základnou k tomu budou publikované gramatiky a syntaxe četiny
od Trávníčka, Havránka-Jedličky, milauera, Kopečného, Grepla-Karlíka,
akademická Mluvnice četiny, česko-německá srovnávací gramatika F. tíchy,
výsledky badatelské práce F. Danee a dalích předních českých gramatiků
a v neposlední řadě výsledky badatelské práce kolektivu Sgall-Hajičová-Panevová
(viz seznam literatury na konci tohoto zdůvodnění); tyto výsledky bádání
o gramatice četiny se právě analýzou korpusu zevrubně ověřují.
Pokud jde o obecné aspekty gramatiky, bude vyuito zejména skvělých výsledků
anglických korpusových gramatik. Pokud jde o gramatiky kontrastivní,
bude mono se mj. opřít o Česko-německou srovnávací gramatiku navrhovatele
projektu, která je v edičním plánu nakl. Argo pro rok 2002 a na které
autor pracoval posledních deset let, ani ovem měl k dispozici Český
národní korpus v té podobě, ve které existuje od r. 2000. Vechna tato
díla nijak nezkracují a nezjednoduují práci na chystaném projektu, o
jeho institucionálně-finanční podporu je ádáno. Naopak: tato díla neustále
nově a stále více vyjevují obrovskou variabilitu přirozeného jazyka,
která nejene plně nepodléhá libovůli a rozmarům individuálních mluvčích,
ale je naopak ovládána takovým mnostvím pravidel či pravidelností a
tendencí, které dosud sotva dokáeme dohlédnout či odhadnout.
Úkolem tříleté soustředěné práce týmu specialistů má být odhalit a popsat
pravidla a tendence hlavních problémových jevů i některých jevů okrajových,
periferních a řídkých, jejich studium bude preferováno, evidovat z tohoto
hlediska ve, na co korpus dokáe upozornit, a podat relativně úplný
(tj. ne výběrový a ne pouze příkladový) obraz reálné a realizovatelné
komunikativní existence studovaných gramatických jevů, a tím vyjevit
monosti a meze jejich pouití v komunikaci.
Specifické metodologicko-teoretické aspekty projektu
Zaměření výzkumu na konkurenční, problémové a periferní jevy české morfologie
a syntaxe větné i nadvětné bude metodologicky vázáno i na řeení teoretických
otázek vztahu úzus - norma - systém, parole - langue, typičnosti a okrajovosti,
toho, co je běné, obvyklé, normální, časté a naopak toho, co je méně běné
a řídké, neobvyklé či anomální. Tím jde zároveň o teoreticky pojatý vztah
centra a periférie jazykového systému. Zatímco pojmy centra a periférie byly
v Praské kole vázány spíe jen na oblast fonetiky a fonologie, popř. morfologie
a později té slovní zásoby, vztah centra a periférie v oblasti syntaxe,
které tvoří podstatnou část projektového záměru, byly dosud mnohde opomíjeny.
Takto koncipovaný projekt neznamená statické, mechanické a ryze pozitivistické
omezení na korpusová fakta získaná reeremi. Naopak: bezprecedentně
bohatá, reprezentativní, objektivní a neselektivní korpusová fakta
bude mono v mnoha
případech chápat jako reflexi saussurovského ´langue´, postulovaného
jako lingvistické abstraktum, a tato fakta umoní, aby se lingvista
neomezoval jen na svou introspekci
a na ní budované teoretické konstrukce, ale dovolí mu efektivněji a
kompetentněji klást a řeit teoretické otázky po statusu "langue potenciálního".
Konkurenční, problémové a periferní jevy české morfologie a syntaxe budou soustavně
sledovány v úplnosti jejich výskytu v korpusech četiny, zejména v ČNK, a budou
v úplnosti statisticky vyhodnocovány. Centrálním záměrem při tom je odliit
otevřené třídy gramatických jevů od tříd uzavřených a případy uzavřených tříd
prezentovat plnými výčty jejich prvků. Evidence problémových jevů bude otevřenou
základnou pro jejich dalí studium a popis.
Úseky projektu
Projekt bude mít tyto úseky:
A. Pojmenování a slovo
I. Soustavy tvarů slov (deklinační a konjugační paradigmata jmen a sloves
- vlastnosti
II. Významy tvarů slov (číslo substantiv; časové, vidové, modální a rodové
formy slovesa; slovesa zvratná)
III. Valence slova (slovesné vazby a jejich konkurence, valence substantiv
a adjektiv)
IV. Tvorba pojmenování (včetně víceslovných) a tvoření slov
B. Věta
I. Struktura jmenné skupiny (v rámci věty jednoduché)
II. Větné struktury nepodléhající slovosledu (struktury nelineární)
III. Spojování větných struktur (struktury souvětné)
IV. Transformace, nominalizace a hierarchizace větných struktur
V. Slovosled a aktuální členění
C. Hlavní aspekty sdělovací funkce jazyka a výstavby promluvy
Význam projektu pro praxi a výstup projektu
Zjitěná empirická fakta a zmíněné teoretické aspekty výzkumu, které
budou na tato empirická fakta vázány, povedou k praktickému vyuití
výsledků projektu: teoretické závěry spolu s objektivními nálezy, na
jejich základě a/nebo s ohledem na ně budou vyvozeny, poskytnou základnu
(a) pro argumenty při hodnotících soudech a preskriptivní činnosti
při poradenské a osvětové činnosti Ústavu pro jazyk český AV ČR i jiných
bohemistických jazykovědných pracovi; (b) pro tvorbu učebnic a gramatik
četiny pro Čechy i cizince.
Projekt je koncipován jako "gramatikotvorný" výzkum v tom smyslu,
e jeho výstupem bude popis a výklad předevím těch gramatických jevů
současné četiny, které jsou v dosavadním "gramatikopisectví" tradičně
známy a
prezentovány - explicite či implicite - jako problémové, hraniční,
mezní, a to jak z hlediska systémového, tj. z hlediska (stupně) gramatičnosti,
tak z hlediska komunikativního, tj. z hlediska (stupně) textové adekvátnosti
a komunikativní přijatelnosti.
V souboru studií, které budou publikovány v domácích i zahraničních časopisech
a sbornících, bude vzdělaným zájemcům (jakými jsou např. učitelé, novináři
a spisovatelé) poskytnuta soustava objektivně podloených výkladů o přirozeně
existujících a respektovaných i doporučovaných normách a pravidlech při výběru
tvarů slov a tvorbě sloených pojmenování, vět a celého textu. Objektivní údaje
budou zahrnovat - na rozdíl od dosavadních moností - i údaje o frekvenci,
stylu a textové distribuci gramatických elementů, jak budou doloeny zejména
v textech ČNK.
Bude vytvořena elektronická verze souborné studie, která bude mít
název totoný s názvem projektu a bude základním krokem k principiálně
novému gramatickému
zpracování četiny. Na tuto studii bude mono v budoucnu navázat při
práci na nové velké gramatice četiny vycházející materiálově i teoreticky
z rozsáhlých
textových "vzorků" daného stavu jazyka.
Základní referenční literatura:
1. Mluvnice a skladby četiny:
(uspořádáno chronologicky)
milauer, V. Novočeská skladba. 1. vyd. Praha 1947.
Trávníček, F.: Mluvnice spisovné četiny I, II. Praha 1951.
Havránek, B.-Jedlička, A.: Česká mluvnice. 1. vyd. Praha 1952.
Kopečný F.: Základy české skladby. SPN Praha 1958. Mluvnice četiny I-III. Praha: Academia, 1986-1987. Příruční mluvnice četiny. (kol. autorů ÚČJ FF MU). Praha: Lidové noviny,
1995.
Čechová, M. a kol: Četina-řeč a jazyk. Praha 1996.
Grepl. M.-Karlík, P.: Skladba četiny. Olomouc: Votobia, 1998.
tícha, F.: (v tisku) Česko-německá srovnávací gramatika. Praha: Argo,
2002
2. Kniní monografie
Běličová, H.: Sémantická struktura věty a kategorie pádu. Praha: Academia
1982.
Dane, F.: Věta a text. Praha: Academia 1985.
Dane, F.-Hlavsa, Z. a kol.: Větné vzorce v četině. Praha: Academia
1987.
Dane, F.-Dokulil, M.-Kuchař, J. a kol.: Tvoření slov v četině
II. Odvozování podstatných jmen. Praha: Academia 1967.
Dokulil, M.: Tvoření slov v četině I. Teorie odvozování slov. Praha:
Academia 1962.
Dvořák E.: Přechodníkové konstrukce v nové četině. Praha: UK 1983
Hajičová, E.: Negace a presupozice ve významové stavbě věty. Praha: Academia
1975.
Hrabě, V: Polovětné vazby a kondenzace "druhého sdělení" v rutině
a četině. Praha 1964.
Panevová, J.: Formy a funkce ve stavbě české věty. Praha: Academia 1980.
Piha, P.: Posesivní vztah v četině. Praha 1992.
Sgall, P.-Hajičová, E.-Buráňová, E.: Aktuální členění věty v
četině.
Praha: Academia 1980.
Sgall, P.-Hajičová, E.-Panevová, J.: The Meaning of the Sentence
in Its Semantic and Pragmatic Aspects. Prague, Academia a Dordrecht, Reidel
1986.
tícha, F.: Utváření a hierarchizace struktury větného znaku. Praha:
UK 1984.
Uhlířová, L.: Kníka o slovosledu. Praha: Academia 1987.
Zimová, L.: Způsoby vyjadřování větných členů v textu. Konkurence
pojmenování, pronominalizace a elize. Ústí nad Labem 1994.
Korpusově orientované studie:
Bémová A. et al. 1997: Anotace na analytické rovině. Technical Report
No. 4, UFAL/MFF UK.
Čermák, F. 1995: Jazykový korpus: Prostředek a zdroj poznání. SaS 56,
119-140.
Hajič J. 1998: Building a Syntactically Annotated Corpus: The Prague
Dependency Treebank. In: Issues of Valency and Meaning, red.E. Hajičová,
Praha: Karolinum 106 - 132.
Hajič, J.-Hajičová, E.-Panevová, J.-Sgall, P. 1998: Syntax v českém národním
korpusu, SaS 59, s.168-177.
Sgall, P.-Hajičová, E.-Panevová, J. 2000: Manuál pro tektogramatické
značkování, Tech. Report 7, UFAL/MFF.
tícha, F. 1997: Komputační korpusy a empirická gramatika. SaS 58, 26-34.
tícha F. 2001: Kritéria gramatičnosti (Korpus jako argument a inspirace).
Slovo a slovesnost, 62.