CANON_112024 CANON_112024 CANON_112024

Nový model AI rozumie obsahu obrázkov a rieši vizuálne hádanky

Výskum a vývoj
0
Vedci z Microsoftu predstavili Kosmos-1, multimodálny model AI, ktorý údajne dokáže analyzovať obsah obrázkov, riešiť vizuálne hádanky, vizuálne rozpoznávať text, absolvovať vizuálne IQ testy a rozumieť inštrukciám v prirodzenom jazyku. Výskumníci sa domnievajú, že multimodálna umelá inteligencia, ktorá integruje rôzne režimy vstupu, ako je text, zvuk, obrázky a video, je kľúčovým krokom k vybudovaniu umelej všeobecnej inteligencie (AGI), ktorá dokáže vykonávať všeobecné úlohy na úrovni človeka. Vizuálne príklady z článku o Kosmos-1 ukazujú, že model analyzuje obrázky a odpovedá na otázky o nich, zvládne čítanie textu z obrázka, písanie titulkov k obrázkom a vykonanie testu vizuálneho IQ s presnosťou 22 – 26 percent. Výskumníci nazývajú svoj výtvor „multimodálnym veľkým jazykovým modelom“ (multimodal large language model – MLLM), pretože jeho korene spočívajú v spracovaní prirodzeného jazyka, podobne ako v prípade LLM, ktorý spracúva iba text, ako napríklad ChatGPT. Aby mohol Kosmos ... Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať