NVIDIA prekvapila svet vlastnou verziou AI
NVIDIA bola zatiaľ známejšia tým, že vyrába čipy pre spoločnosti ako OpenAI. No začiatkom októbra ohromila svet oznámením NVLM 1.0, rodiny veľkých multimodálnych jazykových modelov, ktoré dokážu fungovať aspoň tak dobre ako model GPT-4o pre ChatGPT. Neočakávajte však potenciálny produkt NVLM orientovaný na spotrebiteľov, NVIDIA sa vyberá inou cestou, aby ukázala silu svojej genAI.
Neplánuje uviesť priameho súpera pre ChatGPT, Claude alebo Gemini, zverejňuje svoj NVLM, aby ho ostatní mohli používať na vývoj vlastných aplikácií a systémov s umelou inteligenciou. Spoločnosť vydala dokument, v ktorom charakterizuje NVLM 1.0 ako rodinu multimodálnych veľkých jazykových modelov (LLM), ktoré dosahujú špičkové výsledky v úlohách videnia a jazyka a konkurujú popredným proprietárnym modelom (napr. GPT-4o) a modelom s otvoreným prístupom (napr. Llama 3-V 405B a InternVL 2).
NVLM-D-72B so 72 miliardami parametrov je vlajková loď LLM spoločnosti. NVIDIA tvrdí, že „dosahuje výkon na úrovni popredných modelov pri úlohách s vizuálnym jazykom aj textom“. NVLM-D-72B podľa vyjadrenia spoločnosti demonštruje všestranné schopnosti v rôznych multimodálnych úlohách spoločným využívaním OCR, uvažovania, lokalizácie, zdravého rozumu, vedomostí o svete a schopnosti kódovania.
Môže napríklad porozumieť humoru ukrytému za mémom či vyriešiť zložité matematické problémy. NVIDIA takisto tvrdí, že NVLM-D-72B dokáže po multimodálnom tréningu zlepšiť výkon v úlohách zameraných len na text. Benchmarky, ktoré NVIDIA ponúkla, naznačujú, že NVLM dokáže viac ako obstáť proti GPT-4o, Claude 3.5 Sonnet a Gemini 1.5 Pro. Otvorený jazykový model genAI od spoločnosti NVIDIA môže v určitých úlohách skutočne prekonať proprietárne produkty AI od OpenAI, Anthrophic a Google.
NVIDIA tak ohromila niektorých výskumníkov AI. A nejde len o výkon NVLM, ale aj o rozhodnutie spoločnosti sprístupniť ho ako open source projekt. Tento postup by mohol byť prínosom pre výskumníkov AI a menšie firmy, pretože by získali prístup k napohľad výkonnému multimodálnemu LLM bez toho, aby zaň museli platiť.
Zdroj: bgr.com.
Zdroj Foto: OpenAI