S_1124_Gaming Advertisement S_1124_Gaming Advertisement S_1124_Gaming Advertisement

VALL-E dokáže napodobniť hlas kohokoľvek iba z 3-sekundového záznamu

Technológie
0
Výskumníci z Microsoftu oznámili nový model umelej inteligencie na prevod textu na reč s názvom VALL-E, ktorý dokáže po trojsekundovej zvukovej vzorke presne simulovať hlas človeka. Keď sa VALL-E naučí konkrétny hlas, môže syntetizovať zvuk tejto osoby, nech hovorí čokoľvek. Pritom sa pokúsi zachovať aj emocionálny tón rečníka. Podľa tvorcov by sa VALL-E dal použiť na vysokokvalitné aplikácie prevodu textu na reč, úpravy reči, kde by bolo možné upraviť a zmeniť záznam osoby z textového prepisu (aby povedala niečo, čo pôvodne nehovorila), a vytváranie zvukového obsahu v kombinácii s inými generatívnymi AI modelmi, ako je GPT-3. Microsoft nazýva VALL-E „jazykovým modelom neurónového kodeku“ (neural codec language model) a stavia na technológii s názvom EnCodec, ktorú Meta oznámila v októbri 2022. Na rozdiel od iných metód prevodu textu na reč, ktoré zvyčajne syntetizujú reč manipuláciou s priebehmi zvukových vĺn, VALL-E generuje diskrétne zvukové kódy kodekov z textových a zvukových ... Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať