A generatív mesterséges intelligenciák korunk csodái, de a fejlesztőcégeket több képzőművész, képszolgáltató, író és lapkiadó pereli jogaik megsértéséért. Az online publikált képeket vízjellel lehet ellátni, a szöveget közlők feladata nem ilyen egyszerű, de nekik is vannak lehetőségeik.
Annak eldöntése, hogy egy adott szöveget jogtalanul mesterséges intelligencia betanítására használtak fel, jogi szempontból meglehetősen ingoványos terület, hiszen a nagy nyelvi modellek nagyon ügyesen generálnak elegánsan fogalmazott szövegeket, így könnyű azzal érvelni, hogy a szintagmák és fordulatok hasonlósága véletlen és csupán illúzió.
Az Imperial College London szerint ezért bölcsen teszik a szerzők, ha a dolgoknak elébe menve csapdát állítanak a huncut mesterséges intelligenciáknak. A szakemberek egy Bécsben rendezett nemzetközi konferencián mutatták be az általuk javasolt módszert.
A nagy nyelvi modellek betanítása rengeteg jó minőségű adatot, szerkesztett szöveget igényel, de komoly szerzői jogi vitákhoz és perekhez vezet, hogy a fejlesztők a szabadon hozzáférhető tartalmat szabadon felhasználható tartalomnak tekintik – ahogy azt nemrég a Microsoft mesterségesintelligencia-vezetője, Mustafa Suleyman kifejtette.
Az OpenAI-t beperelő The New York Times ugyanakkor nem vette ilyen könnyen a dolgot, és mivel szerintük a produktumaikat engedély nélkül felhasználva állítanak elő konkurens terméket, ezért szerzői jogaik megsértése miatt a GPT-3 megsemmisítését követelik.
Az átláthatóság teljes hiánya jellemző azzal kapcsolatban, hogy milyen tartalmakat használnak modellek betanítására, ami szerintünk megakadályozza a mesterségesintelligencia-cégek és az alkotók közötti egyensúly kialakulását
– mutatott rá Yves-Alexandre de Montjoye, az Imperial College London alkalmazott matematikai és informatikai adjunktusa.
A Montjoye vezette kutatás védekezésül egy olyan módszert javasol, amit a XX. század elején térképrajzolók alkalmaztak annak kimutatására, hogy illetéktelenül másolták a térképeiket. Az egykori térképészek ugyanis nem létező településeket, fantomvárosokat is feltüntettek a térképeiken, ezzel állítottak csapdát a másolóknak.
A mai szerzők hasonló módon állíthatnak szerzői jogi csapdát, és mással össze nem téveszthető fantommondatokat rejthetnek el a szövegükben. Ezek az online kiadók kedvéért lehetnek az olvasó számára nem zavaró,
fehér alapon fehérrel
megjelenített vagy forráskódban elrejtett mondatok – ezeket az olvasóval szemben a tartalmat gyűjtő szkriptek beolvassák.
Montjoye és munkatársai a módszer tesztelése során nonszensz generált mondatokat rejtettek el és ismételtek százszor egy szövegben, amit utána egy francia fejlesztésű kisebb kísérleti modell, a CroissantLLM betanítására használtak fel.
A nagy nyelvi modellek a betanításhoz használt szöveget eltárolják későbbi összehasonlításokhoz, de az ipar jelenleg több kisebb modell fejlesztésén dolgozik, amik nem tárolnak ilyen adatokat, ezért náluk a szövegbe rejtett csapdák nem annyira hatékonyak. A GPT-4 paramétereinek ezredrészét kezelő CroissantLLM-et mindenesetre be tudták csapni a londoni kutatók.
Montjoye szerint a szövegbe rejtett csapdák természetesen kibuknak, ha ember gondozza a szövegeket. Ez extra figyelmet és munkaórákat igényel, de így is kérdéses, hogy így minden csapdát ki lehet-e iktatni. A szakember szerint a csapdaállítás egyfajta versennyé és macska-egér játékká alakulhat a jövőben.