VALL-E dokáže napodobniť hlas kohokoľvek iba z 3-sekundového záznamu
Výskumníci z Microsoftu oznámili nový model umelej inteligencie na prevod textu na reč s názvom VALL-E, ktorý dokáže po trojsekundovej zvukovej vzorke presne simulovať hlas človeka. Keď sa VALL-E naučí konkrétny hlas, môže syntetizovať zvuk tejto osoby, nech hovorí čokoľvek. Pritom sa pokúsi zachovať aj emocionálny tón rečníka.
Podľa tvorcov by sa VALL-E dal použiť na vysokokvalitné aplikácie prevodu textu na reč, úpravy reči, kde by bolo možné upraviť a zmeniť záznam osoby z textového prepisu (aby povedala niečo, čo pôvodne nehovorila), a vytváranie zvukového obsahu v kombinácii s inými generatívnymi AI modelmi, ako je GPT-3. Microsoft nazýva VALL-E „jazykovým modelom neurónového kodeku“ (neural codec language model) a stavia na technológii s názvom EnCodec, ktorú Meta oznámila v októbri 2022.
Na rozdiel od iných metód prevodu textu na reč, ktoré zvyčajne syntetizujú reč manipuláciou s priebehmi zvukových vĺn, VALL-E generuje diskrétne zvukové kódy kodekov z textových a zvukových ...
Článok je uzamknutý
Prihlásiť pomocou členstva NEXTECH
Zobrazit Galériu
Článok je uzamknutý
Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU
Prihlásiť pomocou členstva NEXTECH