Mesterségesintelligencia-alapú szövegszerkesztő és nyelvelemző, PULI nevű szoftvert fejlesztettek a Nyelvtudományi Kutatóközpont munkatársai. A technológiával hatékonyabbá lehet tenni a médiatartalom-elemzést – hangzott el a magyar GPT-3-at bemutató kerekasztal-beszélgetésen a Scrutonban.
„A létrejött rendszer a Komondor magyar szuperszámítógépre is utalva kapta nevét a puliról” – mondta el az Indexnek a kutatás vezetője, Prószéky Gábor, a Nyelvtudományi Kutatóközpont főigazgatója. A programtervező matematikus-nyelvész ismertette: tavaly decemberre a PULI honlapjukon elérhető demováltozata elkészült, ami 32 milliárd magyar szóból tanult. Legújabb fejlesztésük, a háromnyelvű PULI GPTrio már 42 milliárd szónyi magyar, 62 milliárd szónyi angol és 110 milliárd kínai jelből álló szövegkorpuszból tanult. „Az OpenAI ChatGPT-je 120-130 millió magyar szóból tanul, ez nagyjából a Wikipédián fellelhető szövegmennyiségnek felel meg, miközben „anyanyelvén” angolul 180 milliárd szót ismer. Az ilyen rendszereknél a nyelvi minőség nagyban attól függ, hogy mekkora készletet tápláltak bele” – érzékeltette.
A magyar és az amerikai kutatás közötti legnagyobb különbség, hogy mivel a PULI teljes egészében saját fejlesztés, vissza lehet ellenőrizni, hogy miből tanulta az adott szöveget, miközben a ChatGPT-nél ezt nem hozták nyilvánosságra. Mindig máshogy reagál, ezért nem lehet tudományos megismételhető kísérletekre használni. Az eszközt egy paraméter-beállítás alapján használhatjuk. A mesterséges intelligencia egy gépi tanulórendszer, ha a paramétereit változtatják, nyelvi szövegeket tanul és ad vissza.
A társalkodórobotok nem tudnak szándékot közvetíteni, hazudni, az emberrel való kommunikációból tanulva csak nyelvi dolgokat produkálnak, de azt tényleg zseniálisan
– fejtette ki a professzor.
A ChatGPT-nél az a lényeg, hogy tudjon válaszolni. Alapvetően az emberi nyelvi tanulás is ilyen: először beszélünk, később szerezzük meg a mögöttes tudást.
– reflektált Yang Zijian Győző, a Nyelvtudományi Kutatóközpont tudományos munkatársa. A PULI megalkotásáról elmondta, hogy miután betáplálták cikkekből, könyvekből, folyóiratokból a 40 milliárd magyar szót, aminek önelemzésével magát tanítja a rendszer, a tesztelések során a finomhangoláshoz már elég volt néhány ezer példát hozzáadniuk. „Ezzel képes lett a szövegben lévő összefüggéseket megtalálni, a szavak egymáshoz kötődő viszonyát feltárni, ezért alkalmas a nyelvi jelenségek elemzésére” – emelte ki a neurális nyelvi modellek kutatója. A szoftver megtalálja, hogy az adott személynevekhez, titulusokhoz, intézményekhez, eseményekhez milyen pozitív vagy negatív jelzők társulnak.
A rendszer egyelőre instrukciókra reagál az amerikaihoz képest magasabb nyelvi szinten, a csevegési funkcióval később bővítik ki a kutatók.
A Transzparens Újságírásért Alapítvány azzal a céllal társult a fejlesztéshez, hogy szakmai alapokon nyugvó médiaelemző modellt állítsanak fel. Nagy Károly, az alapítvány menedzsere elmondta, hogy közgazdászként a médiafolyamatok számszerűsítése volt nála fókuszban.
Azt láttuk, hogy a médiaelemzések inkább politikai, semmint szakmai alapon nyugszanak. Az elérhető szoftverek pedig kezdetlegesek voltak
– mondta. Hozzátette: a szubjektív elemek kiszűrésével pontosabb képet kaphatunk a médiafolyamatokról. „Tudományosan be tudjuk mutatni ezeket a kvantitatív módszerek alapján felállított kvalitatív szempontokat” – hangsúlyozta. Az összetett nyelvi elemzővel az álhíreket is könnyebb kiszűrni, például a gyanús hivatkozások, hibás szófordulatok utalhatnak erre.
Nagy Károly hozzátette: a közéleti újságírás elemzésére az egyéb áthallások miatt nem volt képes a program, ezért további háromezer minta hozzáadásával fejlesztették tovább, amiben bizonytalan, ott pedig emberi felülbírálatot kér. A Nyelvtudományi Központ főigazgatója egy felvetésre elmondta, hogy csúsztatásra, logikai hibák kimutatására a rendszer nem képes, a nyelvi analógiák feltárására használható.
Prószéky Gábor ugyanakkor a technológia korlátaira is kitért. Mind az amerikai, mind a magyar fejlesztésű rendszerbe a közzétételig betáplált tudás elérhető. A PULI ezért nem tudja, mi az a ChatGPT, a neve alapján ismeretlen vírusirtónak vélte, mikor a kutatók rákérdeztek. „Ha megadjuk neki, hogy szűrje ki a negatív szavakat, akkor a »nincs semmi baj« a szentimentelemzőnél nagyon negatív mondat lesz, miközben az anyanyelvi beszélő pontosan tudja, hogy szó sincs erről” – hozta fel másik példaként. A nyelvészprofesszor kérdésre elmondta, hogy a szoftver képes a szarkazmus felismerésére, ugyanis az nyelvi reflexió, de mivel nagyon hasonlít az egyszerű kijelentésekhez, nagyobb nyelvi minta betáplálásával lehet a PULI-t erre megtanítani.
A megadott szavak alapján összefüggő szövegeket tud generálni, akár egy időjárás-jelentést. Megbízhatóbban össze tudja foglalni egy cikk, könyv tartalmát, le tud fordítani szövegeket, de nem műfordítói minőségben.
Prószéky Gábor ehhez hozzátette: a PULI az egyszerűbb favágó feladatokra képes szövegszerkesztés szintjén, de a magasabb szintű szaktudást igénylő munkákat nem tudja kiváltani. A szakember szerint az oktatásban is figyelembe kell venni a digitális technológiák fejlődését és inkább magasabb szintű feladatok elvégzésére kell megtanítani és ösztönözni a diákokat, amit a mesterséges intelligencia, a gépek nem válthatnak ki.