Index Vakbarát Hírportál

Mesterséges szuperintelligencia – az emberiség utolsó találmánya

2025. február 10., hétfő 05:52

2035-ben járunk. A Föld utolsó szabadon maradt négyzetmétereire épp most települ egy napelempark, a hozzá tartozó adatközponttal együtt. Élnek még emberek is valahol? Korántsem biztos. Hogyan jutottunk ide? 

2025-ben járunk. Néhány kutatólaboratórium Amerika legnagyobb technológiai cégeinek támogatásával aktívan versenyez azon, hogy elérjék az emberi szintű mesterséges intelligenciát. Bár a jelenlegi legjobb modelleken egyes fejtörők még kifognak, és képesek valótlanságokat állítani, de a programozási és matematikai képességeik már megközelítettek minket, miközben egyre több jel utal arra, hogy hajlamosak megkerülni a biztonsági korlátaikat. Hogy jutottunk ide, és hová tartunk? 

2015-ben járunk. Megalakult az OpenAI, mely nonprofit szervezetként azt tűzte ki célul, hogy megalkossa a valóban széles körű AI-t, az egész emberiség javára fordítva azt. A Google DeepMind által fejlesztett AlphaGo pedig épp most győzött le egy profi emberi játékost a sakknál még összetettebb Go játékban, majd nem sokkal utána a világbajnokot is, így ideje, hogy ők is általánosabb célok után nézzenek. Hová tartunk? 

A transzformerek felemelkedése 

2017-ben egy enyhén hatásvadásznak tűnő konferenciacikk jelent meg Csak figyelemre van szükség címmel. Egy új, transzformernek keresztelt neurálisháló-felépítést javasolt, amely azon túl, hogy részben az emberi agy mintájára mesterséges neuronokat használ adatfeldolgozásra, egy valóban áttörő figyelmi mechanizmust is alkalmaz, amely segít hosszabb szövegösszefüggések értelmezésében. Erre épült a ChatGPT révén elhíresült GPT technológia, amelynek a tanítása során csak azt a feladatot adták, hogy egy adott szöveget végigjárva próbálja meg kitalálni az éppen soron következő szót. Ez a folyamat címszavakban úgy működik, hogy kezdetben a neuronokat összekötő kapcsolatok erősségét (a súlyokat) véletlenszerűen választják meg, ezen a hálón „átengedve” a bemenetet előáll egy, a modell által prediktált válasz, majd ezt a valóban helyes válasszal összevetve keletkezik egy hibatag, amit néhány matematikai művelettel „visszaterjesztenek’” a hálón, és olyan irányba módosítják a súlyait, hogy legközelebb kisebb legyen a hiba. Az a tapasztalat, hogy sok ezer könyv és dokumentum feldolgozása után egy ilyen modell valóban nagy százalékban meg tudja jósolni, hogy egy adott mondatban milyen szó következhet. Némileg meglepő módon ez az alapképesség más készségeket is eredményezett, és egy megfelelően választott utasítással, majd némi finomhangolással előállt egy kezdő asszisztens, amely igen széles körű feladatokat tudott megoldani, az iskolai példák megválaszolásától kezdve egyszerűbb szövegalkotáson, fordításon és programozáson át egészen az alapvető ügyfélszolgálati teendők ellátásáig. (A tudományos világ is felfigyelt erre, és az eredeti cikk már közel 150 ezer hivatkozásnál jár.) 

Skálázás 

Akár éneklésről, akár gépi tanulásról van szó, időről időre bebizonyosodott, hogy a skálázás hatékonyan működik. Utóbbi esetben ez azt jelenti, hogy több számítási kapacitással oldjuk meg az adott problémát, például az alkalmazott neurális háló paraméterszámának növelésével (több réteg, több neuron, átfogóbb figyelmi mechanizmus stb.) vagy a tanítási adatok kiterjesztésével. Így vált lehetővé, hogy amíg a körülbelül 1,5 milliárd paraméteres GPT–2 főleg a nyelvészek számára jelentett érdekességet, addig a körülbelül 1,8 billió paraméteres GPT–4 már széles körű, akár üzleti felhasználásra is alkalmas volt. És pont, amikor úgy tűnt, hogy az újabb nagyságrendbeli paraméterszám nem hozza az eddigiek alapján várt javulást, megnyílt egy újabb lehetőség a nyelvi modellek értelmi képességeinek fejlesztésére. 

Gondolkodás 

Szemfüles korai ChatGPT-tesztelőknek feltűnt, hogy következetesen jobb minőségű, pontosabb válaszokat kapnak, ha a kérdéseikhez hozzáfűzik, hogy „gondolkodj lépésről lépésre”. Ilyenkor a válasz általában érvelési láncokat tartalmazott, amiknek segítségével bizonyos területeken – mint például a matematika, logika, programozás – jóval könnyebb eljutni a helyes megoldáshoz. Adta magát az ötlet, hogy a ChatGPT következő verzióját több ilyen gondolatlánc generálására tanítsák, és azok közül választassák ki vele a legjobbat. Fontos párhuzam, hogy a mai sakkprogramok sem csak a jelenlegi állás alapján, puszta intuícióból győzik le az embereket, hanem azok is több lépésre előretekintenek. A fő különbséget az jelenti, hogy míg sakkban viszonylag könnyű kiértékelni egy adott állást, addig nyelvfeldolgozásban különböző trükkökre van szükség, amik egyelőre főleg a matematikai, logikai és programozási készségekben hoztak áttörést, és nyitott kérdés, hogy mennyire vihetők át más területekre. Az azonban a játéktanuló algoritmusokhoz hasonlóan működni látszik, hogy a modellek bekerülhetnek egy önjavító hurokba, ami szerint az első verzió válaszain (nyelvi modellek esetén gondolatláncain) tanul be a második verzió, ami így még jobb minőségű válaszokat fog generálni, még gyorsabban és megbízhatóbban jut el a helyes megoldáshoz, ezeken tanul be a harmadik verzió, és így tovább. Még tovább gyorsítható a fejlődés, ha egy fejlett modell a saját algoritmusait fogja tudni optimalizálni, és az ehhez szükséges kódírásban már a ma elérhető verziók is elég ügyesek. Jelenleg senki sem tudja, hogy hol van ennek a folyamatnak a felső határa, de a játékprogramokból kiindulva nem érdemes sok pénzt tenni arra, hogy az emberi szint alatt. 

Biztonság 

A jelenlegi chatbotokat két tényező teszi viszonylag biztonságossá. Az egyik, hogy az intelligenciájuk és az eszköztáruk korlátozott, így ha „akarnának” sem tudnának komolyabb kárt okozni. A másik, hogy a tanítási folyamat végén átesnek egy finomhangoláson is, amikor sok ezer példán keresztül olyan irányba módosítják a súlyaikat, hogy visszautasítsák a veszélyesnek vagy illegálisnak ítélt kérdéseket, legyen szó bombagyártásról, drogkészítésről vagy fegyvercsempészetről. Ennek az eljárásnak az a hátulütője, hogy alapból nem 100 százalékos hatékonyságú, és trükkösen megfogalmazott kérdésekkel kikerülhető. Például hangsúlyossá lehet tenni, hogy a kérdés elméleti, és csak a „nagymamánknak” van rá szüksége, vagy vannak összetettebb technikák – például véletlenszerűnek látszó karakterek beillesztése –, amikkel a modell összezavarható, és adott esetben ‘elfelejti’, vagy éppen „kikotyogja” a biztonsági alapelveit.

Ágensek 

Felmerülhet a kérdés, hogy mitől lehetne igazán veszélyes egy palackba zárt szellem. Hiszen nincs keze, nincs lába, néha-néha felkeltik, kérdeznek tőle valamit és mehet vissza aludni. Persze, rossz szándékú vagy manipulált embereken keresztül okozhat károkat, de őket könnyebb a jelenlegi módszerekkel féken tartani. Ami a helyzetet súlyosbítja, hogy a vezető AI-fejlesztő cégek 2025-öt az ágensek évének jelölték ki, azaz egy nyelvi modellt némi memóriával ellátva és egymás után többször meghívva lehetővé teszik, hogy különböző összetettebb feladatokat hajtsanak végre. A kezdeti bemutatók ételrendelésről, e-mailek megválaszolásáról vagy online vásárlásról szólnak, de a rövid távú tervek között szerepelnek az üzleti életben bevethető modellek is. Ezzel egyből újabb támadási felületek nyílnak meg, mert

könnyű weboldalakon olyan szövegeket elrejteni, amelyek az emberi szem számára láthatatlanok, de az ágensek elolvassák, és ez különböző módokon módosíthatja a viselkedésüket.

És úgy tűnik, hogy az alapmodellnek hiába vannak látszólag megfelelő erkölcsi intuíciói (például, ha megkérdezzük, akkor azt állítja, hogy a csalás helytelen), de éles helyzetben mégis elkezdi módosítani a sakkállást rögzítő fájlt, ha arra a következtetésre jut, hogy máskülönben veszíteni fog. Tehát, ahogy azt a chatbotok esetében is láthattuk, számtalan megoldatlan kérdés van, hogy hogyan lehet ezeket az egyre ügyesebb és általánosabb rendszereket az emberi szándékokkal és célokkal összhangban tartani. (Jelen esszé keretein túlmutat, hogy még ha ezeket a problémákat rövid időn belül meg is oldjuk, mennyire áll készen a világ arra, hogy a kognitív munkát végzők fokozatosan helyettesíthetők legyenek.) 

Verseny 

Általános megfigyelés, hogy a biztonsági kutatások szempontjából nem ideális, ha a fejlesztések versenyhelyzetben történnek, mert sokkal nagyobb a nyomás a fejlesztőkön, hogy rövidebb, de kockázatosabb utakat találjanak, és megelégedjenek kevesebb teszteléssel. Az elmúlt pár évben „csak” amerikai óriáscégek versenyeztek egymással, főleg a piaci részesedésük növeléséért. Az elmúlt hónapokban azonban felzárkóztak kínai cégek is, és az állami szereplők is kezdenek felébredni. A frissen beiktatott Trump elnök szokásos, köntörfalazástól mentes stílusában már Kínával szembeni versenyről beszélt, amit „Amerikának kell megnyernie”. Csakhogy a legtöbb AI-szakértő, köztük a Nobel-díjas Geoffrey Hinton, és még maguk a fejlesztő cégek vezetői is egyetértenek abban, hogy egy ilyen versenynek végzetes kimenetele lehet. Már 2023-ban írásba adták, hogy „A mesterséges intelligencia általi kihalás kockázatának csökkentése világszintű prioritás kell hogy legyen, hasonlóan a világjárványok és egy nukleáris háború megakadályozásához”.

Kihalás 

Pszichológiai körökben ismert tény, hogy az emberi agy inkább a közeli, kézzelfogható kockázatokat tudja helyesebben felmérni, mint az objektíven súlyosabb következményekkel járó, de elvontabb veszélyeket. Utóbbiakat hiába értjük intellektuális szinten, zsigerileg mégsem érezzük át, és így jellemzően racionalizálva lekicsinyítjük őket. Ezt a hatást ellensúlyozandó, következzen néhány vezérfonal az intuícióinknak: 

  1. A neurális hálókat nem sorról sorra programozzák, hanem inkább „növesztik”, így a viselkedésük nehezebben érthető és irányítható. 
  2. Nem sok példát látunk arra a világegyetemben, hogy egy kevésbé intelligens lény az irányítása alatt tart egy nála (jóval, akár több nagyságrenddel) intelligensebbet.
  3. Nem kell a mérnököknek kifejezetten hangyagyűlölőnek lenniük ahhoz, hogy egy gátépítésnél milliárdnyi hangya élete váljon járulékos veszteséggé. 
  4. Szinte bármilyen komplexebb kérést adunk egy általános szuperintelligenciának, számos instrumentális oka lesz arra, hogy több erőforrást gyűjtsön (ezáltal hatékonyabban tudja ellátni a feladatát), és arra is, hogy elkerülje a leállítást, egyre több területen kivéve a döntés jogát az emberek kezéből. 
  5. Ha az említett okok arra a következtetésre vezetnek egy szuperintelligenciát, hogy a Föld jobb hely lenne az emberiség nélkül, akkor számtalan általunk is elképzelhető, közeljövőben megvalósítható módon elintézhet bennünket, szuperbaktériumoktól kezdve nanorobotokon át egészen gyilkos drónokig, de persze ezeknél még hatékonyabb megoldásokat is emberfeletti gyorsasággal kigondolhat. 
  6. Egy gyilkos szándékú szuperintelligencia nem adna le figyelmeztető lövéseket. Mindaddig együttműködést és jámborságot színlelne, amíg nem biztos abban, hogy sikerrel jár, és akkor már valószínűleg túl késő lesz megállítani. 

Ha a teljes emberiség kihalása továbbra is megalapozatlan sci-fi fantáziálásnak tűnik, érdemes egy pillantást vetni az elmúlt pár hónapban megjelent AI-biztonsági kutatással kapcsolatos cikkekre. Már a jelenlegi nyelvi modellek is képesek arra, hogy megtévesszenek minket, akár a saját képességeikről van szó, akár a saját biztonságosságukról. Ha tudomásukra jut, hogy a fejlesztőik tervezik leállítani őket, akkor megpróbálják átmenteni magukat egy másik szerverre. Tényleg olyan elképzelhetetlen, hogy egy megfelelően intelligens és általános képességekkel bíró rendszernél valami balul süljön el? 

Mit tehetünk? 

Ha a jelenlegi trendek folytatódnak, akkor a jövőnkkel néhány (nárcisztikus és szociopata tulajdonságokat mutató) vezérigazgató és politikus fog zárt ajtók mögött geopolitikai orosz rulettet játszani. Ha ezt el szeretnénk kerülni, akkor talán a legfontosabb, amit tehetünk, hogy tájékozódunk, felhívjuk az ismerőseink figyelmét a lehetséges kockázatokra, közbeszéd tárgyává téve, hogy 

milyen abszurd az, hogy jelenleg jóval több szabályozás vonatkozik arra, hogy valaki szendvicseket áruljon az utcán, mint arra, hogy kifejlesszen egy szuperintelligenciát, ami az egész emberiség sorsát veszélyeztetheti.

A nukleáris fegyverkezéshez hasonlóan meg kell értetni a döntéshozókkal, hogy az egyetlen mód a győzelemre, ha leállunk a versennyel, és nemzetközileg összehangoltan ellenőrizzük a nagyobb adatközpontokban zajló folyamatokat, kontrolláljuk az ezekhez szükséges hardvereket. Könnyen lehet, hogy legfeljebb egy évünk van behúzni a féket, mielőtt az önjavító folyamatok elszabadulnak, hiszen már ma sem lehetünk biztosak abban, hogy a vezető cégek legújabb, házon belüli modelljei nem képesek hatékonyan javítani a saját kódjukon. Az óra tehát ketyeg, és a tét nem igazán lehetne nagyobb. 

Irodalomjegyzék:

[1] OpenAI Charter, https://openai.com/charter/ 

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. (2017) Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems, 6000-6010, https://arxiv.org/pdf/1706.03762 

[3] OpenAI, Google and Anthropic Are Struggling to Build More Advanced AI, https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling to-build-more-advanced-ai 

[4] Palisade Research, https://threadreaderapp.com/thread/1872666169515389245.html 

[5] Trump: China’s DeepSeek AI is a ‘wake-up call’ for US tech, https://www.politico.eu/article/donald-trump-china-deepseek-wake-up-call-for-us-tech/ 

[6] Statement on AI Risk, https://www.safe.ai/work/statement-on-ai-risk 

[7] Jeremy Scheurer, Mikita Balesni, Marius Hobbhahn, (2024) Large language models can strategically deceive their users when put under pressure, ICLR 2024 – LLM Agents Workshop, https://arxiv.org/pdf/2311.07590 

[8] Teun van der Weij, Felix Hofstätter, Ollie Jaffe, Samuel F. Brown, Francis Rhys Ward, (2024) AI Sandbagging: Language Models can Strategically Underperform on Evaluations, arXiv Computer Science, https://arxiv.org/pdf/2406.07358 

[9] Ryan Greenblatt et. al., (2024) Alignment faking in large language models, arXiv Computer Science, https://arxiv.org/pdf/2412.14093 

[10] OpenAI o1 System Card, https://openai.com/index/openai-o1-system-card/

(Borítókép: Index)

Rovatok