Ahhoz, hogy a mesterséges intelligencia jól boldoguljon a világban, hogy megtalálja a legújabb és leghasznosabb irányokat és új felfedezésekhez vezessen, innovatívnak, vagyis kreatívnak kell lennie. Hogyan lesznek intelligensebbek az önvezető autók, vagy automatikusak az AI által vezérelt tudományos felfedezések?
Az AI kreativitásának fejlesztésében a nyílt végű tanulási rendszerek létrehozása lehet a cél. A nagy nyelvi modellek, az LLM-ek segítségével prioritásokat lehet felállítani, ami leszűkíti a keresési területeket. Bár vannak, akik attól tartanak, a nyílt végű mesterséges intelligencia kezelhetetlenné válhat, a fejlesztések elkezdődtek.
Májusban jelent meg két új tanulmány, amik Jeff Clune informatikus British Columbia Egyetemen végzett kutatásait taglalják. Mind a kettő Clune korábbi projektjeire épül. 2018-ban munkatársaival létrehozta a Go-Explore nevű rendszert, ami videójátékokkal tud játszani, és a megerősítő tanulásnak nevezett próba-szerencse folyamaton keresztül fejlődik. A rendszer időnként elmenti az ügynök előrehaladását, majd később kiválasztja az érdekes, mentett állapotokat, és onnan halad előre. Az állapotok kiválasztása kódolt szabályokon múlik. Ez előrelépés a véletlenszerű kiválasztáshoz képest.
Clune laborja idén fejlesztette ki az Intelligent Go-Explore-t (IGE), ami a GPT-4-et használja a kézzel kódolt szabályok helyett ahhoz, hogy kiválassza a kecsegtető állapotokat az archívumból. A nyelvi modell képes szelektálni azokat a műveleteket, amik segítik a rendszert okosan felfedezni, és azt is meg tudja ítélni, hogy az eredményül kapott állapotok elég érdekesek-e az archiváláshoz.
Az LLM-ek olyanok, mintha „intelligenciaragasztóként” működnének: ha keresünk valamit, akkor alkalmazzuk az LLM-eket, és működnek is!
A kutatók az Intelligent Go-Explore-t háromféle feladaton tesztelték, amelyek többlépcsős megoldást és szövegfeldolgozást is igényeltek. Az egyikben a rendszernek matematikai műveleteket kellett rendeznie a 24-es szám előállításához. A másikban egy 2D-s rácsban kellett végrehajtania feladatokat, például objektumok mozgatását szöveges leírások és utasítások alapján. A harmadikban szöveges utasítások alapján játékokat játszik, például főz, vagy érméket gyűjt egy labirintusban.
A kutatók az IGE-t négy másik módszerrel hasonlították össze. Az egyik véletlenszerűen vett mintákat a műveletekből, a többi az aktuális játékállapotot és az előzményeket betáplálta egy LLM-be.
Az IGE minden elvárást és más módszert felülmúlt. Ha érméket kellett gyűjtenie, 25 játékból 22-t nyert, a többi egyet sem.
A rendszer az emberi kreativitást utánozta.
A tanulmány társszerzője, Cong Lu, a British Columbia Egyetem informatikusa szerint az új kutatási irányok megtalálása sok szempontból a megerősítő tanulás központi problémája. Clune szerint ezek a rendszerek lehetővé teszik, hogy az AI messzebb jusson a nagy emberi adatkészletekre támaszkodva.
A második új rendszer, az OMNI (Open-endedness via Models of Human Notions of Interestingness) nem csak a hozzárendelt feladatok megoldásának módjait kutatja, ez egy másikra épül, amelyet Clune laboratóriuma hozott létre tavaly.
Egy konkrét virtuális környezetben az egyik nagy nyelvi modell feladatokat javasolt a mesterséges intelligencia ügynökének az általa korábban elvégzett vagy átdolgozott feladatok alapján. De az OMNI manuálisan létrehozott virtuális környezetekre korlátozódott, ezért az informatikusok megalkották az OMNI-EPIC-et, az OMNI kódjába programozott környezettel.
Példafeladatokkal látták el az archívumot, és minden feladatot egy természetes nyelvű leírás és a feladat számítógépes kódja jelenítette meg. A működési elve az, hogy az OMNI-EPIC kiválaszt egy feladatot, és LLM-eket használ, hogy leírást és kódot készítsen egy új változathoz, majd egy másik LLM-et is bevet annak eldöntésére, hogy az új feladat újszerű-e, kreatív-e, mennyire könnyű vagy nehéz, hasznos-e. Ha elég érdekes, a mesterségesintelligencia-ügynök megerősítő tanulással oktatja a feladatot, és bekerül az archívumba.
A folyamat újra és újra megismétlődik, új és összetettebb feladatokból álló rendszert hozva létre, és az azokat elvégző AI-ügynököket képezve.
Az OMNI-EPIC-kutatás azt célozza meg, hogy lehet automatikusan megtalálni a tanulható és újszerű feladatokat. Az OMNI-EPIC több mint 200 feladatot talált ki, akár matematikai vagy irodalmi feladatokat is.
Jakob Foerster, az Oxfordi Egyetem informatikusa szerint a rendszerek nem igazán nyílt végűek, mert olyan LLM-eket használnak, amelyeket emberi adatokra képeztek ki. Ezért nem is tudnak annyira találékonyak lenni. Vannak, akik úgy gondolják, a nyíltvégűség elengedhetetlen az AI számára, és talán egy igazán jó, nyílt végű algoritmus, ami újít, ismeretlen dolgokat csinál, eltér majd az emberi gyökerektől és új, érdekes ötleteket produkál majd, amik nem az emberi gondolkozásból erednek. Sok szakértő azonban aggódik egy ilyen szuperokos mesterséges intelligencia miatt, főleg, ha nincs összhangban az emberi értékekkel, veszélyes lehet, különösen, mivel a nyíltvégűség a gépi tanulás egyik legkockázatosabb területe.