Prichádza nový model umelej inteligencie OpenThinker-32B s oveľa menším počtom tréningových údajov.
Medzinárodný tím výskumníkov z popredných akademických inštitúcií a technologických spoločností predstavil nový model umelej inteligencie s názvom OpenThinker-32B, ktorý sa vyrovnal jednému z najsofistikovanejších systémov AI v Číne – DeepSeek – a v niektorých prípadoch ho dokonca prekonal. Tento model, vyvinutý konzorciom Open Thoughts, dosiahol významné úspechy v oblasti uvažovania a riešenia problémov.
Výhodou je, že na svoj vývoj potreboval oveľa menej tréningových údajov ako jeho konkurent. OpenThinker-32B dosiahol skóre presnosti 90,6% v benchmarku MATH500, čím prekonal DeepSeek, ktorý dosiahol 89,4%. Tento benchmark testuje schopnosť modelov riešiť zložité matematické úlohy, čo je kľúčová oblasť pre pokročilé systémy umelej inteligencie.
Okrem toho model OpenThinker prekonal DeepSeek aj v oblasti všeobecných úloh na riešenie problémov, kde dosiahol skóre 61,6 v benchmarku GPQA-Diamond, zatiaľ čo DeepSeek získal 57,6 bodu. V benchmarku LCBv2, ktorý testuje výkon v rôznych scenároch, dosiahol OpenThinker solídnych 68,9 bodu. Na druhej strane, v oblasti programovania bol OpenThinker o niečo slabší, keď dosiahol skóre 68,9 bodu oproti 71,2 bodom DeepSeek.
Tento rozdiel však môže byť čoskoro eliminovaný, keďže OpenThinker je open source model, čo znamená, že komunita vývojárov môže jeho výkon neustále zlepšovať. Jedným z najvýraznejších aspektov modelu OpenThinker-32B je jeho efektivita. Na dosiahnutie svojich výsledkov potreboval iba 114-tisíc tréningových príkladov, zatiaľ čo DeepSeek ich použil až 800-tisíc.
Tento rozdiel poukazuje na inovatívny prístup tímu Open Thoughts, ktorý využil pokročilé metódy na optimalizáciu tréningového procesu. Model bol postavený na základe LLM Qwen2.5-32B-Instruct od Alibaba a podporuje kontextové okno s kapacitou 16-tisíc tokenov. Hoci je toto okno menšie ako súčasné štandardy, je dostatočné na zvládnutie zložitých matematických dôkazov a algoritmických problémov.
Tréningový dataset OpenThoughts-114k obsahoval podrobné metadáta pre každú úlohu, vrátane riešení, testovacích prípadov pre kódovacie problémy, štartovacieho kódu a špecifických informácií o doméne. Na validáciu riešení bol použitý vlastný rámec Curator, ktorý overoval kódové riešenia proti testovacím prípadom, zatiaľ čo matematické riešenia overoval AI sudca.
Na rozdiel od DeepSeek, ktorého vývojový tím uchovával svoje tréningové údaje v súkromí, OpenThinker je plne open source. Tento prístup umožňuje vývojárom ľahšie pochopiť model a reprodukovať jeho výsledky od základov. OpenThinker je dostupný na stiahnutie na platforme HuggingFace, pričom pre zariadenia nižšej kategórie je k dispozícii aj menší model so 7 miliardami parametrov.
Open source prístup má významný dopad na širšiu komunitu umelej inteligencie, pretože demonštruje, že je možné vytvoriť konkurencieschopné modely aj bez masívnych proprietárnych datasetov. Tento model môže byť tiež atraktívnejšou voľbou pre západných vývojárov, ktorí môžu mať obavy z používania čínskych modelov, či už open source alebo nie.
OpenThinker-32B prichádza v čase, keď sa konkurencia v oblasti umelej inteligencie so schopnosťou uvažovania výrazne zintenzívňuje. OpenAI nedávno oznámil, že všetky modely nasledujúce po GPT-5 budú obsahovať schopnosti uvažovania. Len deň po tomto oznámení Elon Musk vyzdvihol rozšírené možnosti riešenia problémov modelu Grok-3 od spoločnosti xAI, pričom ho označil za „strašidelne inteligentný“.
Nous Research taktiež vydal nový open source model uvažovania DeepHermes, založený na modeli Llama 3.1 od Mety. Táto oblasť získala na význame po tom, čo DeepSeek preukázal výkon porovnateľný s modelom o1 od OpenAI pri výrazne nižších nákladoch. DeepSeek sa stal príkladom toho, ako je možné dosiahnuť špičkový výkon s obmedzenými zdrojmi, čo inšpirovalo ďalšie tímy k vývoju efektívnejších modelov.
OpenThinker-32B predstavuje významný krok vpred v oblasti umelej inteligencie so schopnosťou uvažovania. Jeho efektivita, open source prístup a schopnosť konkurovať najlepším modelom na trhu ho robia dôležitým príspevkom do tejto rýchlo sa rozvíjajúcej oblasti. Tento model nielenže ukazuje, že je možné dosiahnuť špičkový výkon s menším množstvom údajov, ale tiež otvára dvere pre širšiu komunitu vývojárov, ktorí môžu prispieť k jeho ďalšiemu zlepšovaniu.