Umelá inteligencia dokáže vytvoriť syntetický hlas iba na základe 5 minút počúvania ľudskej reči

Výskum a vývoj

3.10.2019

Výcvik výkonných modelov prevodu textu na reč vyžaduje dostatočne výkonný hardvér. Vedci z IBM však hľadajú menej náročné modely a vyvinuli novú, ľahkú a modulárnu metódu syntézy reči. Tvrdia, že dokáže syntetizovať reč vysokej kvality v reálnom čase tým, že si osvojí rôzne aspekty hlasu hovoriaceho, čo umožňuje prispôsobiť sa novým štýlom a hlasom hovoriacich s použitím iba malého množstva údajov. Hoci schopnosti systémov TTS (Text-to-Speech) sa v poslednom čase dramaticky zlepšujú, väčšina z nich je závislá od veľkých a komplexných modelov neurónových sietí, ktoré je ťažké trénovať. To znemožňuje syntézu reči v reálnom čase. Nový model, ktorý má tento problém vyriešiť, je založený na modulárnej architektúre. Systém IBM pozostáva z troch častí: prediktora funkcie prozódie (prízvuku), prediktora akustickej funkcie a neurónového vokodéra, ktorý generuje ukážky reči z akustických prvkov. Všetky komponenty spolupracujú na prispôsobení umelého hlasu cieľovému hovoriacemu preškolením na ...

Článok je uzamknutý

Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU

Prihlásiť pomocou členstva NEXTECH

Umelá inteligencia dokáže vytvoriť syntetický hlas iba na základe 5 minút počúvania ľudskej reči

Mohlo by vás zaujímať

Mohlo by vás zaujímať

Umelá inteligencia pomáha pacientom učiť sa znovu chodiť

AI si prepísala kód, aby prekonala vlastné obmedzenia

Kvantový počítač dokázal výrazne efektívnejšie natrénovať model AI