Monosti a meze gramatiky...

Oddělení gramatiky - Ústav pro jazyk český AV, v. v. i.

| Home | Navigace | Kontakt |

Language

Hledat

Přihlásit se

Projekty

Kapitoly z české gramatiky (2006-2008)

Monosti a meze gramatiky... (2003-2005)

Grammar & Corpora

Přístupné informace

Akce

Bibliografie

Nabídky

Aktuality

Aktuální informace

Aktuální úloky

Metodické pokyny

Databáze

Komentované vyhledávky

Editované nálezy

Terminologie

Diskusní fóra

Jazykové jevy

Korpus

Ostatní diskuse

Texty

Články a pracovní studie

Nápověda

Studie pro Kapitoly

Jiné texty

Zápisy

Administrace

Přepočítat databáze

Přidat uivatele

Editace kategorií

Monosti a meze gramatiky četiny ve světle Českého národního korpusu (2003 - 2005)

Registrační číslo projektu: 405/03/0377

Záměrem projektu je vytyčit první kontury principiálně nového gramatického popisu četiny, zaloeného na prohledávání a gramatické analýze velkých a ánrově reprezentativních počítačových korpusů textů a na důkladném studiu a vyhodnocování získaných nálezů.

Dnení jazyk se proti stavu zachycenému v gramatikách změnil a dosavadní nemnohé české gramatiky a syntaxe, které byly za celé 20. století publikovány (viz seznam literatury v závěru tohoto zdůvodnění), jsou tedy dnes ji zčásti zastaralé, zčásti podávají jen neúplný, často neexplicitní a někdy i rozporuplný přehled a výklad i mnohých značně frekventovaných a neperiferních jevů morfologie a syntaxe četiny, nemluvě o jevech méně centrálních a okrajových. Navíc tyto gramatiky nemohly vycházet z dostatečných dat a jejich výklad musel tudí být často nutně subjektivní. O tom, e ani mnohé centrální a frekventované jevy české morfologie a syntaxe nejsou dostatečně popsány či jejich výklad zcela schází i ve velké akademické Mluvnici četiny, svědčí i poradenská zkuenost lingvistů z Ústavu pro jazyk český AV ČR.

Záměrem tohoto projektu je konkrétně na bázi Českého národního korpusu (viz níe):

(a) evidovat problémové jevy velmi či značně frekventované, které navzdory tomu nebyly dosud v gramatikách představeny buď vůbec, anebo jen neúplně či nahodile nebo byl nahodile a s nedostatečným mnoství příkladů zhodnocen jejich systémový a funkční status, nebo před existencí korpusů nebylo mono dané jevy studovat v potřebném mnoství textů;

(b) evidovat i jevy málo frekventované, mezní a řídké nebo sporné, jejich popis dosud buď zcela schází, anebo je neúplný, nahodilý či mylný vzhledem k tomu, e - ve srovnání s nynějími monostmi - vycházel z velmi omezeného jazykového materiálu nebo je plodem subjektivního náhledu lingvistova;

(c) podat statistická data o evidovaných jevech a vyvodit z nich údaje o jejich typičnosti nebo okazionalitě a o jejich stylové hodnotě;

(d) na základě této evidence vytvořit materiálovou a metodologicko-teoretickou bázi pro budoucí velkou gramatiku četiny

Obecná charakteristika zamýleného projektu

Projekt je koncipován primárně jako strukturovaný týmový výzkum typických monopolních i konkurenčních, včetně periferních gramatických forem a struktur soudobé četiny vzhledem k tomu, jak jsou či nejsou obsaeny v Českém národním korpusu, a to v jeho centrální a největí sloce, nazvané SYN 2000 (dále ČNK), obsahující v současnosti 100 milionů slovních forem. Jako doplňkové a korektivní korpusy budou vyuívány i ostatní korpusy a anotované soubory textů soudobé četiny, zejména Praský závislostní korpus a dalí.

Projekt je z tohoto hlediska zaměřen na výzkum a popis morfologie, slovotvorby a syntaxe větné i nadvětné; nezahrnuje tedy výzkum a popis fonologie, fonetiky a intonace, nebo tyto jevy nelze na dosavadních korpusech systematicky studovat.

Institucionální, personální a technické vybavení projektu

Na projektu se kromě ÚJČ AV ČR podílejí i hlavní české univerzity a pět univerzit zahraničních.

Účast předních zahraničních bohemistů z Německa, Anglie a Itálie, jmenovaných v části A návrhu, je podstatným personálním aspektem projektu, a to z následujících důvodů: (a) korpusově ji orientovaných českých gramatiků nebo těch, kteří by se chtěli tímto směrem orientovat, není mnoho; (b) lingvisté, kteří nejsou rodilými mluvčími jazyka, mají schopnost vidět a odhalovat vlastnosti studovaného jazyka, které by mohly uniknout pozornosti rodilých badatelů; (c) zahraniční bohemisté jmenovaní v návrhu jsou zkuení a zanícení zkoumatelé českého jazyka a mají značné zkuenosti s korpusovou lingvistikou a konkrétně i s vyhledáváním v ČNK.

Na projektu budou spolupracovat jak přední četí lingvisté, převáně morfologové a syntaktikové, tak - pod jejich vedením - začínající lingvisté, kteří mají zájem pracovat s velkými počítačovými korpusy a dobírat se objektivních pravd o komunikativním fungování gramatických forem a struktur soudobé psané četiny.

Bezprecedentnost korpusové orientace

Projekt je vzhledem k soustředěnosti velkého kolektivu lingvistů na výzkum velkého počítačového korpusu (ten bude - nedojde-li k přeruení prací pro nedostatek financí - v několika dalích letech pravděpodobně rozířen o několik dalích stovek milionů slovních forem) v oblasti lingvistického výzkumu bezprecedentním podnikem. Je to dáno u samotnou nedlouhou a revoluční existencí korpusu, která projekt motivovala. Tato situace je vak zároveň historicky jedinečnou moností prostřednictvím korpusu získat velké mnoství takových poznatků o gramatické stavbě přirozeného jazyka a textové distribuci jejích elementů, které se vymykaly dosavadním monostem i představám lingvistů pracujících tradičními, avak před existencí korpusu jedině monými metodami observačně-analytickými a/nebo teoreticky deduktivními.

Korpusová lingvistika, do jejího oboru projekt spadá, spočívá ve výzkumu rozsáhlých a relativně reprezentativních souborů textů různých ánrů a stylů uloených v paměti počítače, a umoňuje tím nesrovnatelně hlubí poznání přirozeného jazyka, jeho přirozeně se vyvinuvích a dále se vyvíjejících pravidel, norem, tendencí, zákonitostí, ale i nepravidelností a rozporů, ne to bylo v minulosti moné při lingvistových reflexích o jazyce, ne vdy a vdy jen zčásti - podle lingvistova naturelu - opřených o výpisky z psaných textů. Jakkoli těchto excerpt dokázali někteří výjimeční lingvisté (J. Gebauer, V. milauer a jiní) s pomocí svých studentů nashromádit veliké mnoství (také autor tohoto projektu má ve své sbírce tisíce dokladových lístků) - to jistě nelze přehlíet -, ani oni neměli monost kdykoli u kteréhokoli z tisíců dílčích gramatických jevů zjiovat či ověřovat podmínky jeho textového a tím mnohdy i íře komunikativního fungování (by lo pouze o komunikaci psanou). Rozsáhlé počítačové korpusy textů to umoňují. Samozřejmě: nalezené doklady, jakkoli utříděné, musí lingvista prostudovat a vyhodnotit. V konečné fázi je vdy třeba lingvistova zhodnocení a závěru.

Korpus poskytuje lingvistovi poprvé v historii monost podrobně porovnat četnost výskytu vech gramatických struktur v textech desítek básníků, stovek prozaiků, tisíců urnalistů i příleitostných dopisovatelů novin a zjistit i nulové výskyty struktur, které by bylo mono teoreticky předpokládat nebo které jsou běné v jiných jazycích.

Obecné metodologické aspekty projektu

Takto zamýlený projekt předpokládá spolupráci lingvistů ochotných provádět rozsáhlé počítačové reere, čítající desítky, stovky a desetitisíce dokladů mnoha (stovek a tisíců) dílčích gramatických jevů, tato mnoství dokladů pozorně studovat, analyzovat a vyhodnocovat.

Tento výzkum ovem nelze provádět bez znalosti dosavadních poznatků a postulátů o gramatice četiny. Ty bude naopak třeba respektovat jako teoretické východisko výzkumu, při něm půjde i o to, dosavadní postuláty a tvrzení analýzou nalezených dokladů potvrdit, doplnit, nebo vyvrátit. I k tomu, k této iroce koncipované resumující teoretické práci je zapotřebí spolupráce řady lingvistů, specialistů v dílčích oblastech české, obecné i srovnávací gramatiky.

Pokud jde o návaznost projektu na dosavadní výsledky bádání o gramatice četiny, základnou k tomu budou publikované gramatiky a syntaxe četiny od Trávníčka, Havránka-Jedličky, milauera, Kopečného, Grepla-Karlíka, akademická Mluvnice četiny, česko-německá srovnávací gramatika F. tíchy, výsledky badatelské práce F. Danee a dalích předních českých gramatiků a v neposlední řadě výsledky badatelské práce kolektivu Sgall-Hajičová-Panevová (viz seznam literatury na konci tohoto zdůvodnění); tyto výsledky bádání o gramatice četiny se právě analýzou korpusu zevrubně ověřují.

Pokud jde o obecné aspekty gramatiky, bude vyuito zejména skvělých výsledků anglických korpusových gramatik. Pokud jde o gramatiky kontrastivní, bude mono se mj. opřít o Česko-německou srovnávací gramatiku navrhovatele projektu, která je v edičním plánu nakl. Argo pro rok 2002 a na které autor pracoval posledních deset let, ani ovem měl k dispozici Český národní korpus v té podobě, ve které existuje od r. 2000. Vechna tato díla nijak nezkracují a nezjednoduují práci na chystaném projektu, o jeho institucionálně-finanční podporu je ádáno. Naopak: tato díla neustále nově a stále více vyjevují obrovskou variabilitu přirozeného jazyka, která nejene plně nepodléhá libovůli a rozmarům individuálních mluvčích, ale je naopak ovládána takovým mnostvím pravidel či pravidelností a tendencí, které dosud sotva dokáeme dohlédnout či odhadnout.

Úkolem tříleté soustředěné práce týmu specialistů má být odhalit a popsat pravidla a tendence hlavních problémových jevů i některých jevů okrajových, periferních a řídkých, jejich studium bude preferováno, evidovat z tohoto hlediska ve, na co korpus dokáe upozornit, a podat relativně úplný (tj. ne výběrový a ne pouze příkladový) obraz reálné a realizovatelné komunikativní existence studovaných gramatických jevů, a tím vyjevit monosti a meze jejich pouití v komunikaci.

Specifické metodologicko-teoretické aspekty projektu

Zaměření výzkumu na konkurenční, problémové a periferní jevy české morfologie a syntaxe větné i nadvětné bude metodologicky vázáno i na řeení teoretických otázek vztahu úzus - norma - systém, parole - langue, typičnosti a okrajovosti, toho, co je běné, obvyklé, normální, časté a naopak toho, co je méně běné a řídké, neobvyklé či anomální. Tím jde zároveň o teoreticky pojatý vztah centra a periférie jazykového systému. Zatímco pojmy centra a periférie byly v Praské kole vázány spíe jen na oblast fonetiky a fonologie, popř. morfologie a později té slovní zásoby, vztah centra a periférie v oblasti syntaxe, které tvoří podstatnou část projektového záměru, byly dosud mnohde opomíjeny.

Takto koncipovaný projekt neznamená statické, mechanické a ryze pozitivistické omezení na korpusová fakta získaná reeremi. Naopak: bezprecedentně bohatá, reprezentativní, objektivní a neselektivní korpusová fakta bude mono v mnoha případech chápat jako reflexi saussurovského ´langue´, postulovaného jako lingvistické abstraktum, a tato fakta umoní, aby se lingvista neomezoval jen na svou introspekci a na ní budované teoretické konstrukce, ale dovolí mu efektivněji a kompetentněji klást a řeit teoretické otázky po statusu "langue potenciálního".

Konkurenční, problémové a periferní jevy české morfologie a syntaxe budou soustavně sledovány v úplnosti jejich výskytu v korpusech četiny, zejména v ČNK, a budou v úplnosti statisticky vyhodnocovány. Centrálním záměrem při tom je odliit otevřené třídy gramatických jevů od tříd uzavřených a případy uzavřených tříd prezentovat plnými výčty jejich prvků. Evidence problémových jevů bude otevřenou základnou pro jejich dalí studium a popis.

Úseky projektu

Projekt bude mít tyto úseky:

A. Pojmenování a slovo

I. Soustavy tvarů slov (deklinační a konjugační paradigmata jmen a sloves - vlastnosti
II. Významy tvarů slov (číslo substantiv; časové, vidové, modální a rodové formy slovesa; slovesa zvratná)
III. Valence slova (slovesné vazby a jejich konkurence, valence substantiv a adjektiv)
IV. Tvorba pojmenování (včetně víceslovných) a tvoření slov

B. Věta

I. Struktura jmenné skupiny (v rámci věty jednoduché)
II. Větné struktury nepodléhající slovosledu (struktury nelineární)
III. Spojování větných struktur (struktury souvětné)
IV. Transformace, nominalizace a hierarchizace větných struktur
V. Slovosled a aktuální členění

C. Hlavní aspekty sdělovací funkce jazyka a výstavby promluvy

Význam projektu pro praxi a výstup projektu

Zjitěná empirická fakta a zmíněné teoretické aspekty výzkumu, které budou na tato empirická fakta vázány, povedou k praktickému vyuití výsledků projektu: teoretické závěry spolu s objektivními nálezy, na jejich základě a/nebo s ohledem na ně budou vyvozeny, poskytnou základnu (a) pro argumenty při hodnotících soudech a preskriptivní činnosti při poradenské a osvětové činnosti Ústavu pro jazyk český AV ČR i jiných bohemistických jazykovědných pracovi; (b) pro tvorbu učebnic a gramatik četiny pro Čechy i cizince.

Projekt je koncipován jako "gramatikotvorný" výzkum v tom smyslu, e jeho výstupem bude popis a výklad předevím těch gramatických jevů současné četiny, které jsou v dosavadním "gramatikopisectví" tradičně známy a prezentovány - explicite či implicite - jako problémové, hraniční, mezní, a to jak z hlediska systémového, tj. z hlediska (stupně) gramatičnosti, tak z hlediska komunikativního, tj. z hlediska (stupně) textové adekvátnosti a komunikativní přijatelnosti.

V souboru studií, které budou publikovány v domácích i zahraničních časopisech a sbornících, bude vzdělaným zájemcům (jakými jsou např. učitelé, novináři a spisovatelé) poskytnuta soustava objektivně podloených výkladů o přirozeně existujících a respektovaných i doporučovaných normách a pravidlech při výběru tvarů slov a tvorbě sloených pojmenování, vět a celého textu. Objektivní údaje budou zahrnovat - na rozdíl od dosavadních moností - i údaje o frekvenci, stylu a textové distribuci gramatických elementů, jak budou doloeny zejména v textech ČNK.

Bude vytvořena elektronická verze souborné studie, která bude mít název totoný s názvem projektu a bude základním krokem k principiálně novému gramatickému zpracování četiny. Na tuto studii bude mono v budoucnu navázat při práci na nové velké gramatice četiny vycházející materiálově i teoreticky z rozsáhlých textových "vzorků" daného stavu jazyka.

Základní referenční literatura:

1. Mluvnice a skladby četiny:
(uspořádáno chronologicky)

milauer, V. Novočeská skladba. 1. vyd. Praha 1947.
Trávníček, F.: Mluvnice spisovné četiny I, II. Praha 1951.
Havránek, B.-Jedlička, A.: Česká mluvnice. 1. vyd. Praha 1952.
Kopečný F.: Základy české skladby. SPN Praha 1958.
Mluvnice četiny I-III. Praha: Academia, 1986-1987.
Příruční mluvnice četiny. (kol. autorů ÚČJ FF MU). Praha: Lidové noviny, 1995.
Čechová, M. a kol: Četina-řeč a jazyk. Praha 1996.
Grepl. M.-Karlík, P.: Skladba četiny. Olomouc: Votobia, 1998.
tícha, F.: (v tisku) Česko-německá srovnávací gramatika. Praha: Argo, 2002

2. Kniní monografie

Běličová, H.: Sémantická struktura věty a kategorie pádu. Praha: Academia 1982.
Dane, F.: Věta a text. Praha: Academia 1985.
Dane, F.-Hlavsa, Z. a kol.: Větné vzorce v četině. Praha: Academia 1987.
Dane, F.-Dokulil, M.-Kuchař, J. a kol.: Tvoření slov v četině II. Odvozování podstatných jmen. Praha: Academia 1967.
Dokulil, M.: Tvoření slov v četině I. Teorie odvozování slov. Praha: Academia 1962.
Dvořák E.: Přechodníkové konstrukce v nové četině. Praha: UK 1983
Hajičová, E.: Negace a presupozice ve významové stavbě věty. Praha: Academia 1975.
Hrabě, V: Polovětné vazby a kondenzace "druhého sdělení" v rutině a četině. Praha 1964.
Panevová, J.: Formy a funkce ve stavbě české věty. Praha: Academia 1980.
Piha, P.: Posesivní vztah v četině. Praha 1992.
Sgall, P.-Hajičová, E.-Buráňová, E.: Aktuální členění věty v četině. Praha: Academia 1980.
Sgall, P.-Hajičová, E.-Panevová, J.: The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Prague, Academia a Dordrecht, Reidel 1986.
tícha, F.: Utváření a hierarchizace struktury větného znaku. Praha: UK 1984.
Uhlířová, L.: Kníka o slovosledu. Praha: Academia 1987.
Zimová, L.: Způsoby vyjadřování větných členů v textu. Konkurence pojmenování, pronominalizace a elize. Ústí nad Labem 1994.

Korpusově orientované studie:

Bémová A. et al. 1997: Anotace na analytické rovině. Technical Report No. 4, UFAL/MFF UK.
Čermák, F. 1995: Jazykový korpus: Prostředek a zdroj poznání. SaS 56, 119-140.
Hajič J. 1998: Building a Syntactically Annotated Corpus: The Prague Dependency Treebank. In: Issues of Valency and Meaning, red.E. Hajičová, Praha: Karolinum 106 - 132.
Hajič, J.-Hajičová, E.-Panevová, J.-Sgall, P. 1998: Syntax v českém národním korpusu, SaS 59, s.168-177.
Sgall, P.-Hajičová, E.-Panevová, J. 2000: Manuál pro tektogramatické značkování, Tech. Report 7, UFAL/MFF.
tícha, F. 1997: Komputační korpusy a empirická gramatika. SaS 58, 26-34.
tícha F. 2001: Kritéria gramatičnosti (Korpus jako argument a inspirace). Slovo a slovesnost, 62.

O projektu

Řeitelský tým