Název: | Hlasové technologie v podpoře informační společnosti |
Poskytovatel: | Grantová agentura ČR |
Řešitel: | Prof. Ing. Pavel Sovka |
Spoluřešitel: | Ing. Petr Horák, Ph.D. |
Od: | 2002-01-01 | |
Do: | 2004-12-31 |
Projekt je zaměřen na teoretický výzkum pro tyto oblasti aplikací:
- telekomunikace: informační systémy pro telefonní služby v pevné i mobilní síti, informace o dopravě, infrastruktuře obcí, vstup do databází pomocí telefonu, použití mobilních telefonů v automobilu a hlučných prostorech
- multimediální prostředky využití výpočetní techniky: interaktivní systémy záznamu informací (diktovací stroje), interaktivní prostředky jazykové výuky, automatické titulkování v televizi, apod.
- povelové systémy pro ovládání přístrojů, ovládání vybraných funkcí v palubním počítači automobilu, ovládání robotů hlasem
- pomoc zdravotně postiženým: kochleární implantáty a jejich optimální aplikace, zvýrazňování řeči pro sluchově postižené.
Komplexní projekt sdružující většinu pracovišť v této oblasti u nás. Interdisciplinární projekt využívající výsledky bádání v exaktních a humanitních vědách pro technické aplikace. Výzkum vázaný na český jazyk, specificky národní, bez možnosti „koupit“ výsledky odjinud. Navazuje na projekt GAČR (Teorie a aplikace hlasové komunikace v češtině).
Cíle:
Pro modelování prozodie se v současných tuzemských TTS systémech používá pouze metoda přímého generování prosodie podle manuálně vytvářených pravidel. Pro modelování melodie promluv lze použít homomorfní analýzu signálů spolu s lineární predikcí. Tento přístup umožňuje - na rozdíl od tzv. stochastických metod modelování prozodie - větší kontrolu nad prozodickým modelem, nevyžaduje zpracovávání velikých databází promluv a z toho důvodu nedává tak generalizované či zprůměrované melodické průběhy jako stochastické modelování.
Navrhovaný postup řešení:
- Vytvoření prozodické databáze ve spolupráci s Fonetickým ústavem FF UK pro další výzkum v oblasti prozodie. Do databáze budou automaticky vloženy hranice suprasegmentálních celků, které budou následně ručně korigovány.
- Vývoj automatického segmentátoru pro potřeby tvorby prozodické databáze, volba použitého syntezátoru (TD-PSOLA, LPC, kepstrální).
- Konstrukce modelu tvorby řeči s konečnou impulsní odezvou, založená na homomorfním zpracování signálů, vhodná pro modelování mužského, ženského a dětského hlasu.
- Modelování mužského, ženského a dětského hlasu a transformace hlasů.
- Konstrukce modelů tvorby prozodie řeči s různými styly a pro různé mluvčí, založená na homomorfním zpracování signálů a lineární predikci.
- Sestavení prozodických pravidel pro češtinu s použitím prozodických modelů a jejich implementace v TTS systému, aplikace prozodických modelů pro různé prozodické styly na základě pořízené databáze.
- Implementace systémů syntézy řeči s vysokou přirozeností řeči v telekomunikačních a informačních systémech