Minden idők első csevegőrobotja jobban teljesített a beszélgetős teszten, mint modern társa. Az eredményhez azért persze jár pár lábjegyzet.
Különös eredmény született a UC San Diego kutatóinak online Turing-tesztjén: minden idők első csevegőrobotja, az ELIZA jobban szerepelt, mint a világot tavaly óta lázban tartó ChatGPT technikai alapját jelentő GPT-3.5 nagy nyelvi modell. Több oka is lehet, hogy a korszakos mesterséges intelligenciák nem szerepeltek jól a teszteken. A tudományos lapban még nem publikált kutatásról az Ars Technica adott hírt.
A Turing-tesztről tudni érdemes, hogy Alan Turing brit matematikus találta ki, aki a második világháború alatt a német Enigma-titkosítás feltörését vezette. Turing az általunk használt információtechnológia egyik alapító atyja, a tesztje pedig lényegében egy beszélgetés, amelyet vakon folytatnak. Az egyik szereplő egy ember, a másik pedig vagy ember vagy számítógép. A gondolkodó mesterséges intelligencia kritériuma, hogy a beszélgetés során az emberi partner számára megkülönböztethetetlen legyen a gép egy másik embertől.
A Turing-tesztet megkísérlő első program az MIT műszaki egyetem professzora, Joseph Weizenbaum által írt ELIZA volt. Weizenbaum 1964 és 1967 között írta a csevegőprogramot, amely rogeriánus pszichoterapeuta szerepfelfogást magára öltve, a partner szóhasználatát tükrözve kommunikált. A nácizmus elől Amerikába menekülő, 2008-ban elhunyt Weizenbaumról nevezték el az informatikai Nobelnek tekinthető díjat.
Az általa írt program nyelvi-pszichológiai működése miatt a mesterséges intelligencia fejlődésének fontos mérföldköve. Érdekes viszonyítási pont lehet, hogy a gép, amire az ELIZA íródott, a 103 flops teljesítményű IBM 7094 volt, a mai GPT-modellek 1030 teljesítményű rendszereken futnak, a különbség tízmilliárdszoros.
Ezért meglepő, hogy a beszélgetés során a GPT-4 a tesztelők 41 százalékának tűnt emberinek, míg a GPT-3.5 csak 14 százaléknak, az ELIZA viszont 27 százalékos eredményt ért el. A Turing-teszt nem csak az okosságról szól, az emberek a beszélgetés során a társas-érzelmi működést és a nyelvi stílust értékelték, és az emberek 63 százalékát ismerték fel emberként, ami egyáltalán nem tűnik jó aránynak – de a gépek nem igazán tudták megközelíteni ezt a szintet sem.
Az eredmény értékeléséhez fontos tudni, hogy a UC San Diego kutatói Cameron Jones és Benjamin Bergen a turingtest.live nevű weboldalon, publikus környezetben végezték a teszteket. A nyílt online felületeknek lehetnek sajátos problémái, amit jól példáz a Megyeri híd esete, aminek a szavazáson előbb a Chuck Norris, utóbb a Stephen Colbert nevet kellett volna kapnia. A szóban forgó Turing-teszt eredménye akár ilyen módon is torzulhatott, de valószínűbb, hogy más is közrejátszott.
A Princeton szakértője, Arvind Narayan egy X-en közzétett bejegyzésben arra mutatott rá, hogy a ChatGPT-t nem arra hegyezték ki, hogy embernek adja ki magát, nagyon is hivataloskodó hangvételben kommunikál, és ezen az sem változtatott, hogy promptban kifejezetten csevegést kértek tőle.
Az ELIZA stílusa nagyon más volt, az ugyanis egy konzervatív, szűkszavú csevegőpartner, amiből teljesen hiányzik a GPT-re jellemző segítőkész, barátságos hozzáállás és a modern nyelvi modellekre jellemző polírozott nyelvhasználat. A tesztelők értékelései alapján úgy tűnt, ELIZA túl rossz volt ahhoz, hogy modern nyelvi modell legyen,
inkább egy lusta embernek gondolták.
Lényegében az a tragikomikus helyzet állt elő, hogy a régi csevegőrobotot az elavultsága tette emberivé.
A tesztek minőségéből és tudományos értékéből – a hidas példát leszámítva – az is levon, hogy a kérdezők nem kaptak semmilyen ösztönzést, hogy szigorúan és szakszerűen végezzék a feladatukat. A 652 résztvevő 1405 beszélgetésének egy része így valószínűleg csak tessék-lássék értékelést kapott.
A szóban forgó kutatás címe és fő kérdése egyébként az volt, hogy vajon a GPT-4 átmegy-e a Turing-teszten. Amint az a fentiekből kiderült, a véletlen 50-50 százalékos határát neki sem sikerült átugrani. Amint arra az Ars Technica szerzője, Benji Edwards felhívja fel a figyelmet, mindez nem ok arra, hogy elégedetten nyugtázzuk, hogy a gépek nem tudnak csőbe húzni minket – más tesztek szerint a grafikai generátorok képeinek szereplőit ma már nagyobb arányban látjuk igazinak, mint a valódi fotókon megjelenő valódi embereket.