Home Přihlásit se Registrace

Lexikální archiv a excerpce

Lexikální archiv (LA) byl využit při tvorbě všech ústavních výkladových slovníků a na jeho základě vznikla řada dalších domácích i zahraničních vědeckých prací. Systematicky je budován od r. 1911 do současnosti.
     Pravidla excerpce lexikálního materiálu souvisela především s přípravou konkrétního slovníku, ovšem měnila se i s rostoucím poznáním v oblasti lexikologie a lexikografie a v poslední době také díky novým technickým možnostem.



Lístkový lexikální archiv


Lístková část LA je diferencovaná podle etap, resp. časových období, v nichž vznikala jednotlivá slovníková díla. Základní, tzv. 1. materiál, LA sloužil jako východisko pro zpracování Příručního slovníku jazyka českého (PSJČ).
     Koncepce excerpčních prací byla od počátku pečlivě promyšlená. Kancelář slovníku jazyka českého vydala pro excerptory „Návod pro sběratele materiálu k „Slovníku jazyka českého“ (1911), který se časem rozrostl o opravy a dodatky. Sběr lexikálního materiálu pro PSJČ probíhal prostřednictvím lístkových výpisků zejména z umělecké literatury. Nezanedbatelné místo měla též excerpce literatury odborné, kromě toho byly výběrově excerpovány noviny, časopisy a překladová literatura. Kancelář slovníku stanovila pro excerpci jako dolní hranici r. 1770, díky čemuž se podařilo vypsat celé obrozenecké období. Excerpce zdrojů probíhala dvojím způsobem: byla rozdělena podle autorů a podle let.
     Podle autorů se postupovalo chronologicky. Od některých autorů byla vyexcerpována všechna jejich díla (např. František L. Čelakovský, Božena Němcová, Jan Neruda), přičemž se vypisovalo z prvních vydání jejich prací. U autorů, jejichž literární činnost byla obsáhlá a dlouholetá (Jaroslav Vrchlický, Alois Jirásek), se rozdělila jejich tvorba na několik období a každé toto období bylo excerpováno nezávisle na předešlém. Podle let se však vypsala pouze léta 1770–1878. Pro každý rok bylo vybráno 10–15 knih různého obsahu. Další roky se prováděla excerpce již jen podle jednotlivých autorů.
     Aby se zabránilo přílišnému narůstání materiálu, pracovali excerptoři s tzv. síty (u excerpce podle let). To byly abecední slovníky výrazů jednotlivých autorů (také s vysvětlením významů), které nebylo již třeba vypisovat. Např. spisy z let 1829–1854 se konfrontovaly se slovníkem Václava K. Klicpery, pro léta 1855–1878 byl tzv. sítem slovník výrazů obsažených v knize Babička Boženy Němcové (první vydání 1855). Tato kniha, podobně jako např. Lešetínský kovář Svatopluka Čecha či Máj Karla H. Máchy, byla excerpována totálně, to znamená, že se postupně vypisovala všechna slova v ní obsažená ve všech jejich významech. Další knihy, např. od Karla J. Erbena, Vítězslava Hálka, Jana Nerudy, Karla V. Raise a jiných, byly excerpovány tak, že každé slovo v nich obsažené se vypsalo v každém významu pouze jednou, tj. úplná excerpce. Kromě toho se praktikovala také částečná excerpce, při níž byla pominuta běžná slovní zásoba, a vypisovala se slova, významy a vazby řidčeji se vyskytující. A odtud není daleko k tzv. paběrkování, kdy se vybíraly a vypisovaly pouze jazykové zvláštnosti. Součástí lístkového archivu jsou i tzv. zrcadla – záznamy excerpovaných materiálů.
     Excerpční práci zajišťovali zejména externí spolupracovníci Kanceláře, kterými byli středoškolští učitelé, vysokoškolští studenti, ale i přední odborníci jednotlivých oborů, lingvisté (B. Havránek). Excerptoři si v Kanceláři vyzvedávali prázdné excerpční kartičky a odevzdávali je vyplněné. Jen pro zajímavost, za vyplněnou excerpční kartičku dostávali excerptoři 3-5 haléřů.

1. materiál LA.

Lístek obvykle obsahuje tyto údaje: heslo s udáním slovního druhu, podheslí (tj. vazbu nebo spojení, v němž se heslové slovo v citátu vyskytuje), citát s podtrženým heslovým slovem a bibliografický údaj.


     Když se v r. 1935 začalo s vydáváním PSJČ, měl LA reprezentativní soubor pěti a půl miliónů listků. „Pro srovnání je možno uvést, že Oxfordský slovník v té době (The Oxford English Dictionary on historical Principles, Oxford University Press, 1. vydání 1933) měl základnu asi pět miliónů excerpt.“ 1

     Na takto nastavený systém excerpce bylo navázáno i v dalších obdobích, kdy po druhé světové válce proběhla přeměna Kanceláře slovníku jazyka českéhoÚstav pro jazyk český. Po roce 1952 se přistoupilo k doplňování některých neúplných excerpcí autorů. Především se však v 50. letech začalo pracovat na koncepci nového výkladového slovníku, Slovníku spisovného jazyka českého (SSJČ). S ním souvisel vznik doplňkové excerpční řady lístkového LA. Jednalo se o tzv. 2. materiál, který byl od základního lexikálního materiálu oddělen v roce 1959. K přípravě SSJČ byl použit základní materiál a 2. materiál. Excerpta, která byla řazena do nové abecedy, vycházela ze zdrojů vzniklých po r. 1945. I nadále se vypisovalo hlavně z děl klasiků a postupovalo v duchu tehdejší teorie dobrého autora, kromě toho se excerpovalo i z literatury populárně-naučné, novin, časopisů, učebnic a jiných zdrojů. Pokračovalo se ve výše zmíněných excerpčních postupech, navíc se lexikální materiál získával tzv. speciální excerpcí. To znamená, že byl zachycován okruh slov, která jsou typická pro určitý vědní obor, oblast (hospodářství, politiku, kulturu), pro slang apod.

2. materiál LA


     3. materiál
lístkového LA (konec 50. a zač. 60. let 20. stol.) byl chystán pro budoucí slovník spisovného jazyka, pozdější Slovník spisovné češtiny pro školu a veřejnost (SSČ). Koncepce slovníku vycházela z praktického zaměření na širší veřejnost, proto se excerpce začala orientovat trochu jiným směrem, než bylo doposud obvyklé. Už se tolik netěžilo z umělecké literatury (z klasiků)2, ale lexikální materiál byl získáván ze všech funkčních stylů, především z publicistiky, dále z literatury odborné a popularizační. Zaznamenáván byl také běžně mluvený jazyk. Ten ale nebyl excerpován z přepsaných autentických nahrávek, dialogy byly vypisovány z prózy, dramat či z publicistiky (při poslechu rádia si excerptoři dělali poznámky). K shromažďování materiálu pro tento typ slovníku se dobře hodila excerpce speciální, ovšem pokračovalo se i v ostatních excerpčních postupech (excerpci úplné, excerpci částečné a v tzv. paběrkování). Je nutné dodat, že od 2. vrstvy materiálu se v podstatě lexikální doklady jen doplňovaly, protože jádro slovní zásoby bylo vyexcerpováno už v 1. základním lexikálním materiálu.
      4. a 5. materiál LA (z konce 60. let 20. stol. až do r. 1985) byl také využit při sestavování SSČ a měl sloužit i pro Slovník lexikálního standardu, který ke škodě zůstal jen ve fázi přípravných prací. V excerpční praxi bylo navázáno na dosavadní směr. Při úplné excerpci se však na rozdíl od dřívějších zvyklostí nepořizovaly výpisky z celých knih, ale jen z určité části, a to v rozsahu 3 000 lístků. Takovýto soubor slov byl dostatečně reprezentativní pro dílo autora. Do počátku 70. let min. stol. se z literatury excerpoval především oficiální proud, z dalších autorů např. Škvorecký, Hrabal, Vaculík. V 70. letech byla vypisována zejména normalizační literatura. V 80. letech se pracovalo především na Akademickém slovníku cizích slov (1995), k němuž probíhala speciální excerpce, avšak ta nebyla začleněná do lístkového LA.
     6. materiál lístkového LA vzniká po kratší úplné pauze v excerpování, zahrnuje období od konce 80. let 20. stol. do roku 1991. Od 4. vrstvy lexikálního materiálu se více sledovaly zvláštnosti a neologismy (lexikální, sémantické, stylistické aj.)3. V 6. vrstvě se vyskytují především tyto jazykové zvláštnosti, příklady nové lexikálně sémantické spojitelnosti, nová slova a nová pojmenování (management). Tento materiál je poslední vrstvou lístkového lexikálního archivu a byl využit k tvorbě slovníku Nová slova v češtině. Slovník neologizmů 1.

     V roce 2007 bylo v Ústavu pro jazyk český AV ČR, v.v.i. dokončeno skenování jednotlivých částí lístkového lexikálního archivu, který obsahuje téměř 10 miliónů kartiček.4 Naskenováním lístkového LA mohla být zrealizována představa o „zálohování LA“, která se začala formovat už v 80. letech: „Bylo by možné uvažovat i o převedení existujícího archivu na magnetické pásky; tak by se ušetřilo devadesát procent skladovacích prostorů, ale to se jeví v současné době z hlediska možností finančních, personálních i délky doby, které by to vyžadovalo, nereálné.5 Dnes je soubor lístků již naskenován a většina excerpt je převedena do podoby databáze. Vyhledávací programy jsou plně funkční a aplikace je postupně doplňována novými daty (snímky excerpčních záznamů v elektronické podobě). Unikátní je propojení této databáze s elektronickou podobou Příručního slovníku jazyka českého, umožňující práci s oběma soubory zároveň. Naleznete ji na adrese http://bara.ujc.cas.cz/psjc.

Příruční slovník a databáze lexikálního archivu

    
     Lístkový lexikální archiv ÚJČ AV ČR, v. v. i představuje jedinečné kulturní dědictví českého národa, protože obsahuje informace nedocenitelné hodnoty. Excerpční lístky dokumentují vývoj češtiny (zachycené zejména na základě psaných zdrojů) od počátku národního obrození do 90. let 20. stol. Jistě je velká škoda, že nemohla být excerpována literatura exilová (po r. 1948 a 1968) a literatura oficiálně neuznávaná v období totalitního režimu. Ovšem tento fakt nemění nic na tom, že na základě bohatého jazykového materiálu vznikly reprezentativní výkladové slovníky češtiny Příruční slovník jazyka českého, Slovník spisovného jazyka českého, Slovník spisovné češtiny pro školu a veřejnost.

LA v místnosti 144

LA na elektronických nosičích




Elektronický lexikální archiv


Období ke konci 80. a na začátku 90. let 20. stol. přineslo dynamické změny v oblasti politiky, techniky, v hospodářském životě, v kultuře – představovalo zásadní proměnu ve vývoji nejen české společnosti, což se výrazným způsobem promítlo také do jazyka. Nové pojmenovací potřeby si vyžádaly vznik odpovídajících lexikálních prostředků, které se díky dynamice v mediální sféře velice rychle uzualizovaly; začalo se šířit velké množství nových slov pocházejících z různých profesních a slangových prostředí. Potřeba zachytit tento rychlý jazykový vývoj vedla v mnoha zemích ke vzniku slovníků neologismů. Nové technické a komunikační možnosti postupně přispěly také ke změně lingvistické práce a došlo i k přechodu na efektivnější elektronickou excerpci, o které se uvažovalo již od 80. let 20. století.
     V 90. letech 20. stol. probíhal též přechod na elektronické databázové zpracovávání excerpovaných dat. K založení první vrstvy excerpt v nové elektronické databázi došlo v listopadu 1991. Od té doby je lexikální materiál ukládán elektronicky s využitím speciálních excerpčních programů (první databázový program vznikl v prostředí FOXBasse, později FOXPro).
Nová etapa excerpčních prací začala vytvářením elektronického neologického archivu v rámci projektu Popis nové slovní zásoby s využitím počítačové techniky (1994–1996). Excepce zaměřená zejména na neologický materiál navázala na linii, která se začala rýsovat už v druhé polovině 80. let 20. stol. při budování 6. materiálu lístkového archivu. Tato poslední vrstva společně s částí materiálu z elektronické excerpční databáze posloužila jako základ při tvorbě slovníku neologismů Nová slova v češtině. Slovník neologizmů 1 (1998).
     Neologická databáze byla postupně doplňována novými daty v průběhu následných grantových projektů (Systémotvorné procesy neologizmů v současné češtině, 1998–2000, Internacionalizmy v nové slovní zásobě češtiny, 2001–2003). Excerpována byla literatura ze všech funkčních stylů, řídce beletrie a literatura překladová. Nově se začaly brát v úvahu sociolingvistické aspekty, např. věková diferenciace (texty pro mládež), zájmy, aktuální témata, která s sebou přinášela tato doba (ekologie, životní styl apod.), územní hledisko (příležitostně se sledoval i regionální tisk). První část elektronického neologického archivu s pracovním názvem Archiv 1 obsahuje cca 202 000 elektronicky uložených excerpt.

Program WinHesla2 – excerpční karta

Program WinHesla2 – obrazovka hesláře

     
     Tento soubor neologického lexikálního materiálu dal vzniknout dvěma slovníkům neologizmů – Nová slova v češtině. Slovník neologizmů 1 (1998) a Nová slova v češtině. Slovník neologizmů 2 (2004) a rovněž sborníku statí Neologizmy v dnešní češtině (2005).

     Další etapa excerpční činnosti nastala po roce 2005 v souvislosti s novými úkoly pracoviště. Nyní se oddělení současné lexikologie a lexikografie Ústavu pro jazyk český AV ČR, v. v. i. soustřeďuje na práce v rámci výzkumného záměru (VZ) Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (2005–2011). Jedním z cílů VZ je vybudovat integrovaný databázový systém, kde budou elektronicky zpřístupněny lexikální sbírky a slovníky, které vznikly na našem pracovišti; dále se vytváří lexikální databáze s názvem Pralex (Pražský lexikon), která je komplexní přípravou na tvorbu moderního výkladového slovníku češtiny.
     Při budování této databáze je jako materiálová základna využíván především Český národní korpus (pracujeme se sloučeným korpusem syn, který obsahuje korpusy syn2000, syn2005, syn2006pub). Současně se v excerpčním úseku oddělení současné lexikologie a lexikografie pokračuje v řízené excerpci. Lexikální materiál obsažený v souboru Archiv 2 je i nadále ukládán v excerpčním programu WinHesla2, ale byla aktualizována metodika práce. Program WinHesla2 by měl být v dohledné době převeden na vyšší technologickou platformu. Díky novým úkolům lexikografického oddělení byla excerpce rozšířena na jevy synchronní dynamiky (nové významy slov, víceslovné lexikální jednotky, jiné stylové hodnocení apod.), nezachycené v dosavadních lexikografických dílech. Zaznamenávají se také slangové a hovorové výrazy, ale  i významy slov, které vznikaly přibližně v 70. a v 80. letech minulého století a do výkladových slovníků zařazeny nebyly. Pro sběr lexikálního materiálu se mnohem aktivněji využívají elektronické textové archivy (databáze společnosti NEWTON Media, a. s.) a internetové zdroje. V současné době neexcerpujeme krásnou literaturu, neboť je jako materiálový zdroj využíván korpus syn (viz výše), kde je beletrie zastoupena.

     Elektronická excerpční databáze navázala na lístkový systém excerpce, ale díky programovému zpracování se otevřely nové možnosti pro sběr jazykového materiálu. U databáze tohoto typu je výhoda, že je možné hned při excerpci doplnit některé lexikografické údaje (výklad aj.), což může usnadnit další lexikografickou práci. K 21. 1. 2009 bylo v elektronickém lexikálním archivu uloženo 239 000 excerpčních karet (materiál Archiv 1 a Archiv 2) a každým dnem tento počet narůstá.

     Do budoucna připravujeme rozšíření excerpce o odbornou slovní zásobu v samostatné elektronické databázi.



Poznámky:

1 Vlasta Červená (1981).
2 Diskuze k otázce využívání umělecké literatury jako pramenu excerpce probíhala už v 50. letech, viz Fr. Havlová (1953).
3 Vymezení pojmu neologismus nebývá jednotné, srov. vymezení pojmu u Martnicová a kol. 1998, s. 13 a 2004, s. 15.
4 Do elektronické podoby jsou převedeny rovněž menší, významné sbírky lingvistické a technické terminologie (na 300 000 elektronicky dokumentovaných a komentovaných excerpt).
5 Vlasta Červená (1981).


PRAMENY A LITERATURA:

Směrnice pro excerpci: SSJČ, 1969, 1992, 1995, 2006.
Texty k výstavě 90. let Ústavu pro jazyk český AV ČR.


Červená, V.
: O lexikálním archívu Ústavu pro jazyk český ČSAV. Naše řeč 64, č. 1, 1981, s. 14–22.
Havlová, Fr.: Rozsah slovníku, excerpce, její prameny a citace. In: Lexikografický sborník. Materiály z 1. celoštátnej konferencie čs. lexikografov, konanej v dňoch 5. – 7. júna 1952 v Bratislave. 1. vyd. 1953, s. 185–198.
Hladká, Z.: České slovníkářství na cestě k jednojazyčnému výkladovému slovníku. Naše řeč 88, č. 3, 2005, s. 140–156.
Filipec, J.: Cesta k českému jednosvazkovému slovníku. Naše řeč 58, č. 5, 1975, s. 225–233.
Mejstřík, V.: Analýza základních ústavních zdrojů pro budoucí výkladový slovník současné češtiny(referát přednesený na 2. zasedání skupiny pro přípravu koncepce budoucího výkladového slovníku současné češtiny – 1. 4. 1996)
Martincová, O. a kol.: Nová slova v češtině. Slovník neologizmů 1. Praha: Academia, 1998.
Martincová, O. a kol.: Nová slova v češtině. Slovník neologizmů 2. Praha: Academia, 2004.
Rangelova, A.: K úkolům výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století. In: Lexikografie v kontextu informační společnosti, ÚJČ AV ČR, v. v. i., Praha 2008, s. 11–18.

 

2005 - 2009 © Ústav pro jazyk český AV ČR, v. v. i.  |  Design © VR atelier  |  Programming © e-Assistance.cz
Webove hnizdo LEXIKO vzniká v rámci výzkumného záměru AV0Z90610521 Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (2005–2011).