Index Vakbarát Hírportál

Mennyire veszélyes a ChatGPT és magyar testvére, a PULI?

2023. augusztus 27., vasárnap 14:37

Prószéky Gábor nyelvésszel, programtervező matematikussal beszélgettünk a mesterséges intelligenciáról, a ChatGPT veszélyeiről és a nagy nyelvi modell magyar testvéréről, a PULI-ról.

Mindenki hallott már a ChatGPT-ről, a mesterséges intelligenciának titulált nagy nyelvi modellről, ami állítólag veszélyezteti munkahelyeinket, és átveszi az irányítást életünk felett. Könnyű ilyen apokaliptikus fantáziálásba sodródnunk, ha csak annyit tudunk, elkészült a „gép”, ami minden kérdésünkre választ ad, és úgy cseveg velünk, mint a szomszéd – aki, ha Einstein reinkarnációja, szinte minden kérdésünkre tudja a választ.

Veszélyes lenne? Korántsem. Tudatos? Dehogy. Érző? Kreatív? Nem és nem. A félreértések eloszlatása érdekében Prószéky Gáborhoz fordultunk, aki programtervező matematikus, nyelvész és a ChatGPT öccsének tekinthető magyar PULI-t kifejlesztő Nyelvtudományi Kutatóközpont vezetője.

Emberi modell

Amikor az OpenAI chatelőprogramja háromnegyed éve megjelent, senki sem gondolta, hogy ekkora siker lesz, és felrobbantja a mesterséges intelligenciáról és a számítógépekről, a robotokról alkotott korábbi véleményünket és tudásunkat. Ahogy Prószéky Gábor elmondja, „a ChatGPT2-t nem tették publikussá az álhírgeneráló képessége miatt, így többek közt ez a marketingfogás is segített megágyazni aztán a GPT3-ra épülő ChatGPT sikerének, ami igazi dialógusra képes az emberrel, és rengeteg ember bevonásával építették fel. Épp emiatt tud beszélgetni, mert igazi kommunikációs helyzetekben osztályozták a rendszer első reakcióit, amiket megtanult. Aztán az így okosított rendszer reakcióit ismét osztályozták, és így tovább...”

Egyre jobbak a modelljeink, de tőlünk tanulnak, alapvetően nem tudnak újat kitalálni, viszont nagyon jól alkalmazzák a megtanult mintákat, csak emberi értelemben nem intuitívak. Nincs szándékuk sem.

Ahogy Prószéky részletezi, akár a felhasználó is le tudja szűkíteni a témát, ilyenkor az az érzésünk, mintha tematikusan értené, amit akarunk, de nincs ebben semmi varázslat, csak egyetlen ember által felfoghatatlan mennyiségű adatról, szövegről van szó.

Valójában a szoftver nem „érti”, amit produkál, de amit létrehoz, az nagyon meggyőző, és azért is lehet népszerű, mert válaszaival „emberszerűen” segít. Gyakran felmerül, hogy a ChatGPT többek közt a fordítókat is nehéz helyzetbe hozta, hiszen talán már nem is lesz szükség rájuk, de Prószéky Gábor szerint ez tévedés.

Fordításnál is csak a mechanikus fordításban tud segíteni, műfordítást nem tud készíteni, mivel nem emberi módon kreatív. Jól dolgozik, de azért valakinek ellenőriznie kell ezeket a munkákat. A gépi fordítás tökéletesítése miatt az utóbbi időben az ún. utószerkesztést támogató, a szövegek hatékony javítását célzó, új típusú szoftvereszközök létrehozása felé tolódott el a hangsúly.

És ha már fordításról van szó, a fordítóképzésben érdekelt tanárok panaszkodnak, hogy nehéz kiszúrni, ember vagy a ChatGPT csinálja meg a leckét, de Prószéky azt mondja, szemléletváltással ez is orvosolható: adjon másmilyen feladatot a tanár, például a diákok keressék meg a ChatGPT fordítási hibáit, vagy legyen magasabban a léc, ha nem lehet kiküszöbölni a gép közreműködését.

Mi van a jogokkal?

Prószéky Gábor azt mondja, a plágium tudatos tevékenység, de itt nincs szó ilyesmiről. A létrejött szövegek, bármilyen furcsa, de egyediek: a ChatGPT textusait pontosan így soha nem írta még le senki. A rendszer ugyanis nem másolja a szöveget, mikor létrehozza őket.

A nagy nyelvi modellekben nincs egyáltalán szöveg, csak számok, rákövetkezési valószínűségek, amik azt jelzik, mekkora az esélye annak, hogy egy bizonyos szósorozat végén megjelenjen valamely újabb szó.

A legfrissebb hírt, miszerint a The New York Times beperelte az OpenAI-t az újság szövegeinek eltulajdonítása és felhasználása miatt, úgy kommentálta, hogy a ChatGPT nem direktben használja fel az újság szövegeit, csak a bennük levő nyelvi egységek lehetséges sorrendjeinek valószínűségeit változtathatja meg egy-egy újabb konkrét szöveg. „Minden szó máshonnan jön, minden szó önmaga jogán áll ott, és a szó utáni másik szó valószínűsége ugyanúgy nem védhető, ahogy maga a szó sem.”

Olykor kamuzik

A ChatGPT egész tudása a 2021 szeptembere előtti időszakra vonatkozik, mégis mindig válaszol.

Vicces látni, hogy tudjuk, a nyelvmodell adott esetben, mondjuk, egy mai jelenségre kérdezve nem tudja a választ, de akkor is kivágja magát. Magától számolni sem tud, de mehet neki az összeadás, ha arra példákon keresztül külön megtanítottuk.

Amit mond egy nyelvi modell, az nyelvi fordulatokból áll, azaz lehetséges nyelvi megnyilvánulásokat tud – igen magas szinten – újraalkotni, mást nem. Amikor azt mondjuk, hogy hallucinál a ChatGPT, az azért van, mert nekünk van egy világképünk, neki meg nincs, csak nyelvi, így nem tudhatja, mit is jelent az a való világban, amiről nyelvi állításokat tesz.

A mi kutyánk kölyke: PULI

Ahogy Prószéky elmondja, a nagy nyelvi modellek, mint a GPT vagy a PULI, a megtanult szövegek tartalmából egy nyelvi világot építenek fel. Ha a tanítóanyagban magyar szövegek is vannak, akkor abból a modell megismerheti a ragozásunkat vagy a magyar szórendet, ezért tud a ChatGPT magyarul is, de specifikus magyar tartalma, kulturális témái nincsenek. Így lehetett létjogosultsága a PULI-nak. „Nyelvi szinten az elérhető legnagyobb magyar szövegállományból tanult, de még nem »finomhangolták« a dialógushelyzetekre, ahogy a ChatGPT-t, viszont követve annak fejlesztési lépéseit, most már elég sok nyelvi instrukciót is tud, amit a PULI-alapmodell még nem tudott.”

A PULI komplex neurális hálózat, ami előtt most megnyílt a lehetőség, hogy »összebarátkozzon« hazánk legnagyobb szuperszámítógépével, a Komondorral. Hozzáférést kaptunk, így hamarosan létrejöhet egy újabb, nagyobb kapacitású PULI-változat is, hiszen a nagyobb gépen való modellépítés esetén a paraméterek nőnek, így gazdagabb tudású háló építhető.

Ahogy elmondja, a Komondoron szélesedik a paletta, az alap-PULI 30 milliárd szónyi folytonos szövegből tanult, most már 41 milliárd fölött járnak. És mivel a világismeretét bővítheti más nyelvű szöveg is, ezért tanították angol és kínai szövegen is, amiknek az együttes mennyisége 200 milliárd szó fölött van már, azaz „a PULI-GPTrio tanulóbázisa akkora, mint a ChatGPT-é volt. A mi rendszerünk még nem elég komplex, de a fenti méretek miatt igen nagy tudású: a PULI a tanítóanyagok szintjén beérte a nagyokat, ám magyartudás szintjén sokkal-sokkal jobb”.

(Borítókép: Prószéky Gábor. Fotó: Németh Kata / Index)

Rovatok