Tisknout
Zavřít

Korpus DIALOG


Korpus DIALOG je speciální korpus mluvené češtiny. Shromažďuje veřejné jazykové projevy dialogického typu, realizující se v žánrech, jako je interview, diskuse, debata, polemika, talkshow aj. Tvoří jej přepisy asi 360 diskusních pořadů českých televizí (např. pořadů Sedmička, Nedělní partie, Na plovárně s..., Krásný ztráty aj.). Velikost korpusu odhadujeme na dva miliony slov. Korpus slouží k výzkumu mluvené češtiny, k popisu její současné veřejné podoby i k sledování jejích vývojových tendencí, a je využíván rovněž k rozvíjení teorie mluvenosti, dialogu, dialogičnosti a diskurzu.

Korpus DIALOG vznikl zpracováním archivu nahrávek televizních diskusních pořadů a jejich přepisů, který je budován v Ústavu pro jazyk český od roku 1997. Počátky archivu televizních nahrávek spadají do období řešení mezioborového grantového projektu GA ČR Dialog ve světě lidí a strojů (1996–2001, reg. č. 405/96/K096). Úkolu zpracovat archiv nahrávek a přepisů do podoby elektronického korpusu se ujal tým grantového projektu GA AV ČR Mluvená čeština v televizních diskusních pořadech (2003–2005, reg. číslo B9061304): Světla Čmejrková, Lucie Jílková (řešitelka projektu v letech 2003–2004), Petr Kaderka, Jana Klímová, Kamila Mrázková, Zdeňka Svobodová (řešitelka projektu v letech 2004–2005). Autorem technického řešení projektu je Nino Peterek (Ústav formální a aplikované lingvistiky MFF UK).

Dosud nejobsáhlejším pojednáním o korpusu DIALOG, o jeho podobě, složení a využití, je článek:

Světla Čmejrková – Lucie Jílková – Petr Kaderka: Mluvená čeština v televizních debatách: korpus DIALOG. Slovo a slovesnost, 65, 2004, s. 243–269. [Článek můžete stáhnout zde.]


Korpus DIALOG 0.1

Pro odbornou veřejnost jsme na internetu zpřístupnili část korpusu pod názvem DIALOG 0.1. Obsahuje revidované přepisy politické talk-show Sedmička (starší název pořadu je 7 čili Sedm dní) soukromé televize Nova z let 1999–2005. Korpus existuje ve dvou verzích: (a) morfologicky neanotovaná verze obsahuje 10 přepisů o celkové velikosti 92 000 slov, (b) morfologicky anotovaná verze obsahuje 5 přepisů o velikosti 45 000 slov. Tato část korpusu byla anotována ručně.

Využití korpusu je omezeno na vědecké účely. Pokud chcete korpus DIALOG 0.1 využívat, požádejte prosím e-mailem o přístupové heslo. Pište na tuto adresu.

Vstup do korpusu DIALOG 0.1 je zde.

 

Tisknout    Zavřít

© ÚJČ AV ČR v.v.i. - Letenská 4, 118 51 Praha 1 - Poslední aktualizace: 15. 03. 2009