Index Vakbarát Hírportál

Szinte fillérekért fejlesztettek érvelő mesterséges intelligenciát

2025. február 8., szombat 13:19

Költséghatékonysági átalakulási hullám halad végig a mesterségesintelligencia-iparon, de a gép ettől nem lesz okosabb, csak olcsóbb.

Mindössze ötven dollár értékű felhőszámítási kreditbe került annak az S1 nevű érvelő mesterségesintelligencia-modellnek a létrehozása, amelyről a Washingtoni Egyetem és a Stanford Egyetem kutatói múlt pénteken tettek közzé beszámolót.

A szakemberek ezzel azt demonstrálták, hogy a szélesebb körben csak ChatGPT-ként ismert nagy nyelvi modellek működtetése jelentősen gazdaságosabbá tehető. Ez ugyanakkor nemcsak technikai előnyöket jelent, de alaposan felkavarja a hatalmas befektetői pénzeket behúzó terület üzleti viszonyait is.

A szakemberek által használt egyik optimalizálási módszer az úgynevezett desztilláció vagy lepárlás. A nagy nyelvi modellek betanításához az elérhető legnagyobb adathalmazokat használják fel, és futtatásukhoz több tízezer grafikus kártyát használnak. Ezek a rendszerek drágák, és nem tudják kihasználni teljes kapacitásukat, ha viszont a nagy modellt egy kisebb betanítására használják, az jó teljesítményt tud nyújtani egy jóval olcsóbb és takarékosabb hardveren, ami jelentős költségmegtakarítást jelent. Ez a módszer ráadásul nemcsak a nyelvi modelleknél működik, de a képgenerátoroknál is, ahol például tizenöt lépés helyett csak öt vagy egy lépésből generálnak egy cicát.

Ami világos, hogy ezek a megoldások nem eredményeznek okosabb mesterséges intelligenciát, sokkal inkább hasonlóan okos, de sokkal olcsóbb mesterséges intelligenciát. A nagy fejlesztőcégek nem minden esetben örülnek ennek. Az OpenAI például azzal vádolta a kínai DeepSeeket, hogy költséges nagy modelljét a programozási felületen keresztül szabálytalanul használta fel saját modelljének betanítására. (Azok a felhasználók és művészek, akiknek a hozzászólásait vagy alkotásait beleszólásuk nélkül felhasználták nagy modellek betanítására, ezen a ponton már csak egy jó erős kávét kérnek.)

Mint ismert, a DeepSeek januárban bemutatott R1 modellje gyakorlatilag hasonló teljesítményre képes, mint az OpenAI egy hónappal korábban bemutatott o1 modellje, az amerikai cég költségeinek töredékéért. Ez természetesen felforgatta a piacot: a mesterséges intelligenciákat futtató videókártyákat gyártó Nvidia tőzsdei értéke Svédország GDP-jének megfelelő félezer milliárd dollárt zuhant órák alatt.

A DeepSeek szuperolcsóságát azóta némiképp korrigálta a szaksajtó: a kínai cég maga is másfél milliárd dollárt fektetett a szerverparkjába. Az 5,6 millió dolláros szám lényegében csak a betanítást megelőző költség volt (ennyibe került az OpenAI agyának lefőzése). A lényegen mindez nem változtat: a kínaiakat nagyságrendek választják el az OpenAI 150 milliárd dolláros piaci értékétől, de messze vannak attól az ötmilliárd dollártól, amekkora veszteséget a ChatGPT termel Sam Altmanéknak.

Levették a polcról

A stanfordi és washingtoni szakemberek az S1 modell betanítására a Google Gemini 2.0 Flash Thinking modellt használták, a tanulómodell pedig a kínai Alibaba tulajdonát képező Qwen ingyen letölthető modellje volt. A desztilláció mellett az úgynevezett irányított finomhangolás nevű módszert használták, amelyben a modellt bizonyos viselkedések utánzására instruálták.

A betanítás alapját egy alaposan szerkesztett, ezer kérdésből álló kérdéshalmazt képezte, valamint a Gemini 2.0 több lépésben kifejtett válaszai. A betanítás ezután mintegy fél óra alatt végbement 16 Nvidia H100 GPU-n. Az S1 pedig jól szerepelt a mesterséges intelligenciákra szabott teszteken. 

A Berkeley Egyetemen a múlt hónapban 450 dolláros költséggel hoztak létre egy modellt, a stanfordi és washingtoni szakemberek ezen is javítani tudtak, és gyakorlatilag a zsebpénz kategória közelébe hozták a költségeket.

(TechCrunch)

Rovatok