Databáze lexikální zásoby češtiny 21. století

Hlavní menu

Aktuální informace

Struktura ústavu

Kontakty

Výzkumné projekty

Elektronické slovníky a jiná data

Publikace

Časopisy

Knihovna

Jazyková poradna

Dějiny ústavu

Odkazy

Volná místa

Jazykovědné sdružení

Verze pro tisk

Výzkumný záměr ÚJČ AV ČR, v. v. i.

AV0Z90610521

Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století

(2005 –2011)

S rozvojem informačních technologií vstoupila lingvistika – a s ní i slovníkářství – do nové vývojové fáze. Do nedávné doby byla materiálovou základnou pro tvorbu slovníků především data uložená na excerpčních lístcích (např. Lexikální archiv – I.–VI. vrstva). Tento materiál sloužil lexikografům pro vytvoření řady velkých slovníkových děl, např. Příručního slovníku jazyka českého (1935–1957), Slovníku spisovného jazyka českého (1960–1971) a Slovníku spisovné češtiny pro školu a veřejnost (1. vyd. 1978). Tento historicky unikátní lístkový lexikální materiál je postupně digitalizován díky péči úseku pro elektronizaci dat v rámci řady projektů, je tak je umožněn snadnější přístup k excerptům, a tím i jejich efektivnější využití (viz http://bara.ujc.cas.cz/psjc/).

Vedle lístkového archivu ÚJČ AV ČR, v. v. i., jsou dnes lexikografům k dispozici rovněž rozsáhlé materiálové zdroje v elektronické podobě, o něž lze opřít moderní lexikografické postupy. Jde zejména o textové korpusy vytvářené a spravované Ústavem Českého národního korpusu při FF UK a ve spolupráci s dalšími pracovišti; zdrojem cenných informací mohou být například i korpusy vznikající při Fakultě informatiky MU v Brně, na Matematicko-fyzikální fakultě UK v Praze aj. Cenný zdroj informací o nejnovějším vývoji české lexikální zásoby představuje ojedinělý Neologický archiv (pracovní název Archiv_1, 203 000 záznamů), který je soustavně budován od roku 1994 jako databáze elektronicky zpracovávaných excerpt (původně v rámci projektu GA ČR Popis nové slovní zásoby s využitím počítačové techniky, 1994–1996). Tato první část neologického materiálu dala vznik dvěma slovníkům nových slov Nová slova v češtině. Slovník neologizmů 1 (1998) a Nová slova v češtině. Slovník neologizmů 2 (2004) a rovněž sborníku statí Neologizmy v dnešní češtině (2005).

Další pokračování lexikálních sbírek ÚJČ AV ČR, v. v. i., představuje aktualizovaná excerpce zaměřená na dynamiku v oblasti lexikální zásoby.

Unikátní informace o územním rozvrstvení češtiny obsahuje rozsáhlý archiv dialektologický, jehož digitalizace již probíhá.

V rámci stávajícího výzkumného záměru usilujeme o vytvoření jednotného vyhledávacího prostředí, které by mělo integrovat v jeden funkční celek materiálové zdroje (stávající i nově budované) a dosavadní slovníková zpracování české slovní zásoby.

Nejdůležitějším úkolem oddělení současné lexikologie a lexikografie je vytvoření databáze lexikální zásoby moderní češtiny, která bude obsahovat dostatečné množství dat potřebných pro budoucí lexikografický popis slovního bohatství českého jazyka. V rámci tohoto výzkumného záměru by měla tato databáze dosáhnout kolem 100 000 lexikálních jednotek různého typu. Pro budoucí uživatele lexikální databáze (i pro uživatele budoucího slovníku) bude velmi cenná zejména její příkladová část. Zatímco v každém tištěném slovníku bylo zapotřebí omezit doklady na několik málo odpovídajících kontextů (vzhledem k nedostatku místa), možnosti počítačového zpracování dovolují uvádět a popisovat spojitelnost lexikálních jednotek explicitněji a v mnohem rozsáhlejší míře než dříve. Databázové zpracování rovněž umožní popis jazykových dat podle různých kritérií a propracovaný systém jejich vyhledávání pak usnadní přístup k lingvistickým informacím jak odborníkům, tak i širší veřejnosti.

Práce na výzkumném záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století byla rozvržena do sedmi let (2005–2011). V první fázi prací (2005-2008) jsme se soustředili na dva hlavní úkoly: 1. na elektronizaci materiálových sbírek ÚJČ AV ČR, v. v. i., a 2. na navržení vlastního softwarového nástroje a jádra databáze s názvem PRALED (Pražská lexikální databáze) ve spolupráci s Centrem zpracování přirozeného jazyka FI MU, programátoři A. Rambousek a A. Horák. Zpracovatelský software PRALED je navržen jako moderní lexikografická pracovní stanice s maximálním využitím informačních technologií: jeho vývoj dále pokračuje.

Na podzim roku 2007 začala druhá fáze prací, ve které již tuto databázi postupně naplňujeme požadovaným počtem lexikálních jednotek. Pro tuto obsahovou stránku lexikální databáze jsme zvolili název PRALEX (Pražský lexikon).

Po skončení stávajícího výzkumného záměru budou shromážděné lingvistické informace sloužit především jako utříděná materiálová základna budoucího nového lexikografického popisu, tj. pro tvorbu moderního výkladového slovníku češtiny v elektronické podobě, který bude nazván LEXIKON 21 (pro podrobnější informace viz sborník z konference Slovko 2007 Computer Treatment of Slavic and East European Languages, Tribun, Bratislava 2007 - srov. též www.lexiko.ujc.cas.cz).