Nový model AI rozumie obsahu obrázkov a rieši vizuálne hádanky

Výskum a vývoj

7.3.2023

Vedci z Microsoftu predstavili Kosmos-1, multimodálny model AI, ktorý údajne dokáže analyzovať obsah obrázkov, riešiť vizuálne hádanky, vizuálne rozpoznávať text, absolvovať vizuálne IQ testy a rozumieť inštrukciám v prirodzenom jazyku. Výskumníci sa domnievajú, že multimodálna umelá inteligencia, ktorá integruje rôzne režimy vstupu, ako je text, zvuk, obrázky a video, je kľúčovým krokom k vybudovaniu umelej všeobecnej inteligencie (AGI), ktorá dokáže vykonávať všeobecné úlohy na úrovni človeka. Vizuálne príklady z článku o Kosmos-1 ukazujú, že model analyzuje obrázky a odpovedá na otázky o nich, zvládne čítanie textu z obrázka, písanie titulkov k obrázkom a vykonanie testu vizuálneho IQ s presnosťou 22 – 26 percent. Výskumníci nazývajú svoj výtvor „multimodálnym veľkým jazykovým modelom“ (multimodal large language model – MLLM), pretože jeho korene spočívajú v spracovaní prirodzeného jazyka, podobne ako v prípade LLM, ktorý spracúva iba text, ako napríklad ChatGPT. Aby mohol Kosmos ...

Článok je uzamknutý

Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU

Prihlásiť pomocou členstva NEXTECH

Zobrazit Galériu