LEXIKO - webové hnízdo o novodobé české slovní zásobě a výkladových slovnících

Home Přihlásit se Registrace

Výzkumný záměr

AV0Z90610521
Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století
(2005–2011)

Strategickým cílem výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (2005-2011), realizovaného v Ústavu pro jazyk český AV ČR, v. v. i., je komplexní příprava na tvorbu moderního výkladového slovníku. Na realizaci tohoto jedinečného projektu se podílí zejména oddělení současné lexikologie a lexikografie a úsek pro elektronizaci dat ve spolupráci s řadou dalších pracovišť.

Rozsáhlá spolupráce byla navázána především s Centrem zpracování přirozeného jazyka FI MU v Brně. Dále spolupracujeme s Ústavem teoretické a komputační lingvistiky FF UK a s Ústavem formální a aplikované lingvistiky MFF UK. Zvláště významným partnerem je též Ústav Českého národního korpusu při FF UK, spravující rozsáhlé textové korpusy SYN2000, SYN2005, SYN2006PUB a další.

Stávající výzkumný záměr naplňuje celkovou strategii ÚJČ AV ČR, v. v. i., budovat a postupně zpřístupňovat datovou základnu slovního bohatství českého jazyka tak, aby bylo možné jak její další rozšiřování, tak i optimální využití. Z tohoto pohledu usilujeme o přípravu existujících primárních a sekundárních zdrojů lexikálních dat pro jejich další využití na nové technologické úrovni – konkrétně jde o skenování a popis lexikálních sbírek (primárních zdrojů) a digitalizaci slovníků (sekundárních zdrojů), které na našem pracovišti postupně vznikaly v průběhu 20. století. Dalším významným úkolem je převedení už existujících elektronických sbírek na vyšší technologickou platformu. Cílem je postupné vytváření jednotného uživatelského prostředí spojujícího celou řadu dílčích databází, popisných (slovníky) i materiálových (excerpčních).

Od zahájení výzkumného záměru je těžištěm vědecké práce vytvoření lexikografické pracovní stanice (zpracovatelského softwaru) s názvem PRALED, specializované pro shromažďování a další zpracovávání lexikálních dat. Na jeho navržení a implementaci se podílí zejména Centrum zpracování přirozeného jazyka FI MU v Brně (programátoři A. Horák, A. Rambousek). Už při implementaci lexikografické pracovní stanice PRALED bylo zahájeno postupné naplňování jejího databázového jádra lexikograficky relevantními daty, tj. budování databáze PRALEX (Pražský lexikon) jako databáze slov, slovních tvarů a slovních spojení češtiny 21. století, která sice bude databází popisného typu, avšak integruje v sobě i některé rysy databází materiálových, zejména množství lexikograficky tříděných dokladů z korpusového materiálu. V rámci tohoto výzkumného záměru by měla databáze PRALEX obsáhnout kolem 100 000 lexikálních jednotek (slov, sousloví a frazémů, zkratek, vlastních jmen atp.). Po skončení současného výzkumného záměru budou shromážděné lingvistické informace sloužit jako východisko a materiálová základna pro zpracování moderního výkladového slovníku češtiny v elektronické podobě (LEXIKON 21) - pro podrobnější informace viz sborník z konference Slovko 2007 Computer Treatment of Slavic and East European Languages, Tribun, Bratislava 2007.

     Oddělení současné lexikologie a lexikografie ve spolupráci s úsekem pro elektronizaci dat usiluje rovněž o vytvoření řady pomocných slovníkových databází představujících uživatelům dříve publikované slovníky, nyní převedené do elektronické podoby. Při jejich vytváření je ovšem třeba respektovat nejen autorská práva, ale též licenční práva a zájmy nakladatelů, a proto zpřístupnění jednotlivých děl bude mít určitá omezení a diference podle typu uživatele. Bude sloužit zejména pro vyhledávání konkrétních informací potřebných k vědeckým či jiným nekomerčním účelům.
     V zájmu optimalizace jednotného vyhledávání bude třeba též sjednotit dosud vytvořená uživatelská prostředí (vyhledávače) různých elektronických podob historických i novějších slovníků a postupně je včlenit do nového, jednotícího systému. Vize univerzálního vyhledávače založeného na bázi sjednocení heslářů je zatím pracovně označována jako lemmarium. Krokem v tomto směru je propojení digitalizovaného lexikálního archivu ÚJČ AV ČR, v. v. i., s elektronickou podobou Příručního slovníku jazyka českého (viz http://bara.ujc.cas.cz/psjc/) a Databáze heslářů, která je dostupná z tohoto webového hnízda (http://lexiko.ujc.cas.cz/).
     Novým požadavkům je podřízeno též další budování materiálových sbírek oddělení současné lexikologie a lexikografie. V souladu s novými úkoly oddělení byla od r. 2006 neologická excerpce rozšířena o sledování projevů synchronní dynamiky lexikálního systému, nezachycených v dosavadních slovníkových dílech. Byla aktualizována též metodika práce – mnohem aktivněji se využívají elektronické textové archivy (NEWTON) a internetové zdroje. Specifickým úkolem je zabezpečení kompatibility databáze neologického materiálu (Archiv 1, 203 000 záznamů) s novým programovým vybavením pracoviště - počítá se s převedením dat a uživatelského rozhraní na flexibilnější platformu. Připravujeme též rozšíření excerpčních prací se zaměřením na odbornou slovní zásobu (výrazivo z různých oborů a oblastí lidské činnosti) v samostatné specializované databázi.

Specifická oblast práce, která si vyžádá patřičnou pozornost, je prezentace vědeckých výsledků pro širší veřejnost, a proto vedle už existujících webových stránek oddělení současné lexikologie a lexikografie bylo zprovozněno toto webové hnízdo.

Výzkumný záměr Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století ve své komplexnosti směřuje k vytvoření obsáhlého souboru lingvistických, zejména pak lexikálních dat, jejichž další využití bude mít zásadní vědecko–poznávací, dokumentační i národně a kulturně reprezentativní význam. V jeho rámci se v oblasti lexikologie a lexikografie vytvářejí metodické, metodologické a technologické předpoklady moderní výzkumné práce, zaměřené na přípravu nového výkladového slovníku češtiny. Plnění tohoto záměru přinese nejen specializované vědecké výsledky (databázi informací o české slovní zásobě), ale rovněž významně přispěje k lepší informovanosti naší i zahraniční veřejnosti o české lexikografické tradici i současném výzkumu slovní zásoby.

Webove hnizdo LEXIKO vzniká v rámci výzkumného záměru AV0Z90610521 Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (2005–2011).