ÚFE: DETAILY PROJEKTU

DETAILY PROJEKTU

Název:

Hlasové technologie v podpoře informační společnosti

Poskytovatel:

Grantová agentura ČR

Řešitel:

Prof. Ing. Pavel Sovka

Spoluřešitel:

Ing. Petr Horák, Ph.D.

Od:		2002-01-01

Do:		2004-12-31

Projekt je zaměřen na teoretický výzkum pro tyto oblasti aplikací:

telekomunikace: informační systémy pro telefonní služby v pevné i mobilní síti, informace o dopravě, infrastruktuře obcí, vstup do databází pomocí telefonu, použití mobilních telefonů v automobilu a hlučných prostorech
multimediální prostředky využití výpočetní techniky: interaktivní systémy záznamu informací (diktovací stroje), interaktivní prostředky jazykové výuky, automatické titulkování v televizi, apod.
povelové systémy pro ovládání přístrojů, ovládání vybraných funkcí v palubním počítači automobilu, ovládání robotů hlasem
pomoc zdravotně postiženým: kochleární implantáty a jejich optimální aplikace, zvýrazňování řeči pro sluchově postižené.

Komplexní projekt sdružující většinu pracovišť v této oblasti u nás. Interdisciplinární projekt využívající výsledky bádání v exaktních a humanitních vědách pro technické aplikace. Výzkum vázaný na český jazyk, specificky národní, bez možnosti „koupit“ výsledky odjinud. Navazuje na projekt GAČR (Teorie a aplikace hlasové komunikace v češtině).

Cíle:

Pro modelování prozodie se v současných tuzemských TTS systémech používá pouze metoda přímého generování prosodie podle manuálně vytvářených pravidel. Pro modelování melodie promluv lze použít homomorfní analýzu signálů spolu s lineární predikcí. Tento přístup umožňuje - na rozdíl od tzv. stochastických metod modelování prozodie - větší kontrolu nad prozodickým modelem, nevyžaduje zpracovávání velikých databází promluv a z toho důvodu nedává tak generalizované či zprůměrované melodické průběhy jako stochastické modelování.

Navrhovaný postup řešení:

Vytvoření prozodické databáze ve spolupráci s Fonetickým ústavem FF UK pro další výzkum v oblasti prozodie. Do databáze budou automaticky vloženy hranice suprasegmentálních celků, které budou následně ručně korigovány.
Vývoj automatického segmentátoru pro potřeby tvorby prozodické databáze, volba použitého syntezátoru (TD-PSOLA, LPC, kepstrální).
Konstrukce modelu tvorby řeči s konečnou impulsní odezvou, založená na homomorfním zpracování signálů, vhodná pro modelování mužského, ženského a dětského hlasu.
Modelování mužského, ženského a dětského hlasu a transformace hlasů.
Konstrukce modelů tvorby prozodie řeči s různými styly a pro různé mluvčí, založená na homomorfním zpracování signálů a lineární predikci.
Sestavení prozodických pravidel pro češtinu s použitím prozodických modelů a jejich implementace v TTS systému, aplikace prozodických modelů pro různé prozodické styly na základě pořízené databáze.
Implementace systémů syntézy řeči s vysokou přirozeností řeči v telekomunikačních a informačních systémech