A közönséget elbűvölte, de a fejlesztőknek szólt a videó, amely bemutatja, milyen jó lehetne a Gemini.
A Google a napokban egy online videót közölt új multimodális mesterséges intelligenciájáról a Geminiról. A több millió megtekintésben mutatkozó nagy érdeklődés után azonban különös fordulatot vett a történet: egy vezető fejlesztő megnyilatkozása alapján úgy tűnik, hogy a videó megrendezett volt, és nem azt mutatja, amire a mesterséges intelligencia élő használat közben képes.
Mióta a Microsofttal szövetkező OpenAI bemutatta csevegő nyelvi modelljét a ChatGPT-t, az ilyen fejlesztésekkel hosszú évek óta foglalkozó Google-re hatalmas nyomás nehezedik, hogy felvegye a versenyt, mivel felvetődhet, hogy az újabb GPT-k akár az internetes keresésben betöltött piacvezető pozícióját is fenyegethetik.
E versengésnek egyik stratégiai mozzanata volt, hogy a Google a multimodális, vagyis nem kizárólag szövegben vagy képben kommunikáló mesterséges intelligenciák felé fordult. E fejlesztés egyik eredménye volt a Gemini, amely egy hatperces videón folytat könnyed társalgást egy fejlesztővel: kitalálja, mit rajzol, kő-papír-ollót és itt a piros, hol a pirost játszik.
A videóhoz mellékelt nyilatkozat, amely szerint a válaszok közötti szüneteket kiszerkesztették a tömörség kedvéért, rögtön intenzív gyanakvást generált. A videó készítését bemutató blogbejegyzésben kibukott, hogy a beszélgetés inkább képzeletbeli, a valóságban jórészt
állóképekből és szöveges promptokból állt össze.
A bejegyzésben ugyanis a videó mozzanatainak tesztjei szerepelnek. Látható, hogy a mellékelt kő-papír-olló játék kézjeleit például nem ismerte fel azonnal a mesterséges intelligencia, mert olló helyett – nem teljesen tévesen – azt gondolta, hogy valaki kettest mutat neki. A pohárkevergetős játékot pedig egyenesen be kellett volna tanítani neki. A tömörség mellett tehát az is cél lehetett, hogy a Gemini képességei többnek mutatkozzanak a valóságosnál.
A videóban látható minden promt és válasz valós és tömörített. A videó azt illusztrálja, hogy milyen lehet a Gemini multimodális felhasználói élménye. Azért készült, hogy a fejlesztőket inspirálja
– szögezte le a Google Deepmind fejlesztési vezetője Oriol Vinyals, aki X-bejegyzésben hívta fel a figyelmet az említett blogbejegyzésre.
A Google, amely az adott piaci helyzetben amúgy is hegynek felfelé kényszerül küzdeni, végeredményben sokadszor nem azt a visszhangot kapja bemutatójára, amit vélhetően szeretne.