ACER_112024 ACER_112024 ACER_112024

Umelá inteligencia dokáže vytvoriť syntetický hlas iba na základe 5 minút počúvania ľudskej reči

Výskum a vývoj
2
Výcvik výkonných modelov prevodu textu na reč vyžaduje dostatočne výkonný hardvér. Vedci z IBM však hľadajú menej náročné modely a vyvinuli novú, ľahkú a modulárnu metódu syntézy reči. Tvrdia, že dokáže syntetizovať reč vysokej kvality v reálnom čase tým, že si osvojí rôzne aspekty hlasu hovoriaceho, čo umožňuje prispôsobiť sa novým štýlom a hlasom hovoriacich s použitím iba malého množstva údajov. Hoci schopnosti systémov TTS (Text-to-Speech) sa v poslednom čase dramaticky zlepšujú, väčšina z nich je závislá od veľkých a komplexných modelov neurónových sietí, ktoré je ťažké trénovať. To znemožňuje syntézu reči v reálnom čase. Nový model, ktorý má tento problém vyriešiť, je založený na modulárnej architektúre. Systém IBM pozostáva z troch častí: prediktora funkcie prozódie (prízvuku), prediktora akustickej funkcie a neurónového vokodéra, ktorý generuje ukážky reči z akustických prvkov. Všetky komponenty spolupracujú na prispôsobení umelého hlasu cieľovému hovoriacemu preškolením na ...

Redakcia

Všetky autorove články
umelá inteligencia AI zvuk hlas audio technika IBM system

Mohlo by vás zaujímať

Mohlo by vás zaujímať