Syntetický hlas už dokáže aj mľaskať, šušlať či dýchať. Ukážky vás prekvapia.
Počítače dnes zvládnu generovanie reči z kúskov textu. Už sme si zvykli, že sa nám prihovára navigácia v aute či hlasový asistent v mobile. Tento softvér zostavuje vety z hlasových nahrávok, ktoré bolo treba zhotoviť v štúdiu. Výsledok si však sotva zmýlite s bežnou ľudskou rečou. Teraz výskumníci z Alphabet DeepMind použili úplne odlišný prístup.
Staršie systémy TTS (text-to-speech) využívajú rozsiahlu knižnicu častí reči (foném a morfém) a veľké súbory pravidiel, ktoré opisujú všetky spôsoby kombinovania písmen, aby vznikol príslušný zvuk. Spájaním alebo zreťazením takýchto kúskov sa vytvára funkčná syntetická reč. V tomto prípade ide o konkatenatívnu technológiu TTS. Pri parametrickej technológii TTS sa syntetický hlas generuje pomocou počítačového modelu a zvukového generátora, tzv. vokodéra.Narábať sa dá s mnohými slovami, aj keď reč má nepresvedčivú kadenciu a tón.
Nový systém WaveNet zachádza ďalej. Dokáže generovať akýkoľvek 16 kHz zvuk, ktorý sa naučí. Vedci nakŕmili konvo ...
Článok je uzamknutý
Prihlásiť pomocou členstva NEXTECH
Zobrazit Galériu
Článok je uzamknutý
Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU
Prihlásiť pomocou členstva NEXTECH