Umelá inteligencia dokáže vytvoriť syntetický hlas iba na základe 5 minút počúvania ľudskej reči
Výcvik výkonných modelov prevodu textu na reč vyžaduje dostatočne výkonný hardvér. Vedci z IBM však hľadajú menej náročné modely a vyvinuli novú, ľahkú a modulárnu metódu syntézy reči. Tvrdia, že dokáže syntetizovať reč vysokej kvality v reálnom čase tým, že si osvojí rôzne aspekty hlasu hovoriaceho, čo umožňuje prispôsobiť sa novým štýlom a hlasom hovoriacich s použitím iba malého množstva údajov.
Hoci schopnosti systémov TTS (Text-to-Speech) sa v poslednom čase dramaticky zlepšujú, väčšina z nich je závislá od veľkých a komplexných modelov neurónových sietí, ktoré je ťažké trénovať. To znemožňuje syntézu reči v reálnom čase. Nový model, ktorý má tento problém vyriešiť, je založený na modulárnej architektúre.
Systém IBM pozostáva z troch častí: prediktora funkcie prozódie (prízvuku), prediktora akustickej funkcie a neurónového vokodéra, ktorý generuje ukážky reči z akustických prvkov. Všetky komponenty spolupracujú na prispôsobení umelého hlasu cieľovému hovoriacemu preškolením na ...
Článok je uzamknutý
Prihlásiť pomocou členstva NEXTECH
Článok je uzamknutý
Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU
Prihlásiť pomocou členstva NEXTECH