Régi térképésztrükkel csípnék el a mesterséges intelligenciát

A generatív mesterséges intelligenciák korunk csodái, de a fejlesztőcégeket több képzőművész, képszolgáltató, író és lapkiadó pereli jogaik megsértéséért. Az online publikált képeket vízjellel lehet ellátni, a szöveget közlők feladata nem ilyen egyszerű, de nekik is vannak lehetőségeik.

Annak eldöntése, hogy egy adott szöveget jogtalanul mesterséges intelligencia betanítására használtak fel, jogi szempontból meglehetősen ingoványos terület, hiszen a nagy nyelvi modellek nagyon ügyesen generálnak elegánsan fogalmazott szövegeket, így könnyű azzal érvelni, hogy a szintagmák és fordulatok hasonlósága véletlen és csupán illúzió.

Az Imperial College London szerint ezért bölcsen teszik a szerzők, ha a dolgoknak elébe menve csapdát állítanak a huncut mesterséges intelligenciáknak. A szakemberek egy Bécsben rendezett nemzetközi konferencián mutatták be az általuk javasolt módszert.

Ami nincs lecsavarozva

A nagy nyelvi modellek betanítása rengeteg jó minőségű adatot, szerkesztett szöveget igényel, de komoly szerzői jogi vitákhoz és perekhez vezet, hogy a fejlesztők a szabadon hozzáférhető tartalmat szabadon felhasználható tartalomnak tekintik – ahogy azt nemrég a Microsoft mesterségesintelligencia-vezetője, Mustafa Suleyman kifejtette.

Az OpenAI-t beperelő The New York Times ugyanakkor nem vette ilyen könnyen a dolgot, és mivel szerintük a produktumaikat engedély nélkül felhasználva állítanak elő konkurens terméket, ezért szerzői jogaik megsértése miatt a GPT-3 megsemmisítését követelik.

Az átláthatóság teljes hiánya jellemző azzal kapcsolatban, hogy milyen tartalmakat használnak modellek betanítására, ami szerintünk megakadályozza a mesterségesintelligencia-cégek és az alkotók közötti egyensúly kialakulását

– mutatott rá Yves-Alexandre de Montjoye, az Imperial College London alkalmazott matematikai és informatikai adjunktusa.

A Montjoye vezette kutatás védekezésül egy olyan módszert javasol, amit a XX. század elején térképrajzolók alkalmaztak annak kimutatására, hogy illetéktelenül másolták a térképeiket. Az egykori térképészek ugyanis nem létező településeket, fantomvárosokat is feltüntettek a térképeiken, ezzel állítottak csapdát a másolóknak.

A mai szerzők hasonló módon állíthatnak szerzői jogi csapdát, és mással össze nem téveszthető fantommondatokat rejthetnek el a szövegükben. Ezek az online kiadók kedvéért lehetnek az olvasó számára nem zavaró,

fehér alapon fehérrel

megjelenített vagy forráskódban elrejtett mondatok – ezeket az olvasóval szemben a tartalmat gyűjtő szkriptek beolvassák.

Montjoye és munkatársai a módszer tesztelése során nonszensz generált mondatokat rejtettek el és ismételtek százszor egy szövegben, amit utána egy francia fejlesztésű kisebb kísérleti modell, a CroissantLLM betanítására használtak fel.

A nagy nyelvi modellek a betanításhoz használt szöveget eltárolják későbbi összehasonlításokhoz, de az ipar jelenleg több kisebb modell fejlesztésén dolgozik, amik nem tárolnak ilyen adatokat, ezért náluk a szövegbe rejtett csapdák nem annyira hatékonyak. A GPT-4 paramétereinek ezredrészét kezelő CroissantLLM-et mindenesetre be tudták csapni a londoni kutatók.

Montjoye szerint a szövegbe rejtett csapdák természetesen kibuknak, ha ember gondozza a szövegeket. Ez extra figyelmet és munkaórákat igényel, de így is kérdéses, hogy így minden csapdát ki lehet-e iktatni. A szakember szerint a csapdaállítás egyfajta versennyé és macska-egér játékká alakulhat a jövőben.

(MIT Technology Review, TechXplore)

Index Vakbarát Hírportál

Régi térképésztrükkel csípnék el a mesterséges intelligenciát

Ami nincs lecsavarozva

Rovatok