Ohromila svet súperom ChatGPT, ktorý je rovnako dobrý ako GPT-4o.
NVIDIA, spoločnosť známa predovšetkým ako popredný výrobca grafických čipov, ktoré poháňajú mnohé z najvýkonnejších počítačov a serverov na svete, nedávno ohromila technologický svet oznámením o svojom novom produkte NVLM 1.0. Táto rodina veľkých multimodálnych jazykových modelov (LLM) je navrhnutá tak, aby konkurovala popredným modelom ako GPT-4o pre ChatGPT.
Firma sa však rozhodla ísť inou cestou a neplánuje uviesť priamu konkurenciu pre ChatGPT, Claude alebo Gemini. Namiesto toho sprístupňuje svoj NVLM ako open-source projekt, čo umožní ostatným vyvíjať vlastné aplikácie a systémy s umelou inteligenciou. NVIDIA bola doteraz známa predovšetkým ako výrobca čipov, ktoré sú základom pre mnohé AI aplikácie, vrátane tých, ktoré vyvíjajú spoločnosti ako OpenAI.
Výkonné čipy sú nevyhnutné pre spracovanie komplexných úloh, ktoré generatívna umelá inteligencia (genAI) vyžaduje. V posledných rokoch sa výrobca (grafických kariet) stal jedným z hlavných hráčov v oblasti AI, a to nielen vďaka svojim hardvérovým riešeniam, ale aj vďaka softvérovým inováciám. NVLM 1.0 je charakterizovaný ako rodina multimodálnych veľkých jazykových modelov, ktoré dosahujú špičkové výsledky v úlohách videnia a jazyka.
Modely sú schopné konkurovať popredným proprietárnym modelom, ako je GPT-4o, a modelom s otvoreným prístupom, ako sú Llama 3-V 405B a InternVL 2. NVIDIA vydala dokument, v ktorom podrobne opisuje schopnosti NVLM 1.0 a jeho otvorený prístup k modelovým váham a tréningovému kódu. NVLM-D-72B, s 72 miliardami parametrov, je vlajkovou loďou LLM spoločnosti.
Dosahuje výkon na úrovni popredných modelov pri úlohách s vizuálnym jazykom aj textom. NVLM-D-72B demonštruje všestranné schopnosti v rôznych multimodálnych úlohách, vrátane OCR, uvažovania, lokalizácie, zdravého rozumu, vedomostí o svete a schopnosti kódovania. Môže napríklad porozumieť humoru ukrytému za mémom či vyriešiť zložité matematické problémy.
Jednou z najvýznamnejších vlastností je jeho schopnosť spracovávať multimodálne vstupy, čo znamená, že dokáže pracovať s textom aj obrazom súčasne. To je obzvlášť užitočné v aplikáciách, kde je potrebné analyzovať a interpretovať informácie z rôznych zdrojov. Napríklad, NVLM môže byť použitý na analýzu obrázkov a textu v reálnom čase, čo je užitočné v oblastiach ako zdravotníctvo, kde môže pomôcť pri diagnostike na základe lekárskych snímok a textových poznámok.
Benchmarky, ktoré NVIDIA ponúkla, naznačujú, že NVLM dokáže viac ako obstáť proti GPT-4o, Claude 3.5 Sonnet a Gemini 1.5 Pro. Otvorený jazykový model genAI môže v určitých úlohách skutočne prekonať proprietárne produkty AI od OpenAI, Anthropic a Google. NVLM-D-72B je na úrovni s otvorenými platformami Llama AI od Meta. Rozhodnutie sprístupniť NVLM ako open-source projekt je prekvapujúce a môže mať významný dopad na výskumníkov AI a menšie firmy.
Používatelia získajú prístup k výkonnému multimodálnemu LLM bez toho, aby zaň museli platiť. Tento prístup je v kontraste s prístupom spoločností ako OpenAI, Claude a Google, ktoré svoje modely zatiaľ neplánujú sprístupniť ako open-source. Otvorený prístup k NVLM umožňuje výskumníkom a vývojárom experimentovať s modelom a prispôsobiť ho pre špecifické potreby. To môže viesť k rýchlejšiemu vývoju nových aplikácií a inovácií v oblasti AI.
Navyše, otvorený prístup môže podporiť transparentnosť a dôveru v AI technológie, pretože umožňuje komunite preskúmať a overiť schopnosti a obmedzenia modelu. Pre bežných používateľov, ako sme my, bude zaujímavé sledovať, aké komerčné produkty vzniknú na základe NVLM. Čím skôr sa tieto produkty objavia, tým lepšie pre priemysel, pretože by mohli ovplyvniť rôzne obchodné rozhodnutia firiem ako OpenAI, Anthropic, Google a ďalších.