YouTube-alkotók szerzői jogait sérthette az OpenAI

A ChatGPT alatt ketyegő nyelvi modellhez a világ összes könyve sem elég. A fejlesztők lényegében előre menekülnek.

Több mint egymillió órányi YouTube-videó szövegének átiratán tanította a híres ChatGPT alapját képező mesterséges intelligenciát az OpenAI, és így cselekedett a konkurens Google is, a videómegosztó szolgáltatás tulajdonosa – írta a The New York Times. A történtek során minden bizonnyal sérültek a YouTube-on videókat publikáló alkotók szerzői jogai.

Az amerikai lap által megszólaltatott belső munkatársak szerint a YouTube-videók feldolgozását az OpenAI technikai vezetője, Greg Brockman vezette. A videókat és podcastokat saját terméküket, az audiót szöveggé alakító Whisper mesterséges intelligenciát fejlesztve és felhasználva táplálták a GPT-4-be.

A 2005 februárjában indult YouTube a világ legnagyobb internetes videómegosztó platformja. 2006 októbere óta a Google (későbbi nevén Alphabet) leányvállalata. Felhasználási szabályai egyebek közt tiltják, hogy a felületén elérhető videókat a platformtól független célokra használják fel.

A YouTube-videókat nemcsak az OpenAI használta fel, hanem maga a Google is, amely ádáz piaci versenyben van a ChatGPT-vel. A megszólaló Google-alkalmazottak szerint a cég berkein belül tudtak róla, hogy az OpenAI felhasználja a YouTube-videókat, de nem firtatták a dolgot, mivel maguk is ezt tették.

Matt Bryant, a Google szóvivője ezzel szemben úgy nyilatkozott, hogy nem tudtak a videók engedély nélküli letöltögetéséről. Hozzátette, a vállalat ilyen kihágások esetén mindig megteszi a szükséges lépéseket, amikor erre a technikai és jogi lehetőségek adottak.

A történetet feldolgozó The New York Times egyfajta zászlóvivővé vált a mesterséges intelligenciát fejlesztő cégek szerzői jogi visszaéléseinek feltárásában, miután 2023 végén beperelték az OpenAI-t. Érvelésük szerint nem csupán az a gond, hogy engedély nélkül használták fel a cikkeiket, hanem hogy ezáltal olyan szolgáltatást hoztak létre, ami elveszi a közönségüket, és feleslegessé teszi őket – így nem is kártérítést kérnek, hanem a GPT-4 teljes törlését.

Miért tették mégis?

2020 januárjában Jared Kaplan, a Johns Hopkins Egyetem elméleti fizikusa egy nagy hatású tudományos dolgozatot publikált, amelyben levezette, hogy minél több adaton tanítanak be egy nyelvi modellt, annál jobban teljesít. A mesterséges intelligencia fejlesztése körüli verseny azóta a minél nagyobb adathalmazok hajszolásáról szól.

A 2020 októberében bemutatott GPT-3 betanításához százmilliárd szavas adatbázist használtak fel. Már ez akkora szöveggyűjtemény volt, amiben a Wikipédia online enciklopédia teljes tartalma alig fél százalékot jelentett (miközben a Wikipédia 95-ször akkora, mint az egykor 120 kötetes Encyclopedia Britannica online változata).

A GPT-3 175 milliárd paramétert kezelt, hogy a GPT-4 mennyivel erősebb, nem tudhatjuk, mert az OpenAI közben visszább vett a nyitottságból. Olyan mondatokat találhatunk, hogy az első ChatGPT-t működtető köztes modellnél, a GPT-3.5-nél tízszer erősebb – de ez sajnos csak egy hasra ütéssel előállított

kellemesen kerek szám.

Annyi viszont biztos, hogy egy nyelvi modell betanításához irgalmatlan mennyiségű jó minőségű szövegre van szükség, szakemberek által írt, szerkesztett és ellenőrzött könyvekre. Az újabb modellek csillapíthatatlan étvágyú kis gömböcként falják a szövegeket, itt a Wikipédia és a teljes Reddit is már csak egy csepp a tengerben. A GPT-4-be gyakorlatilag már 2021-re belapátoltak minden hozzáférhető szöveget (több ezermilliárd szavas teljes könyvtárakat 1602-es kiadású kötetekig visszamenőleg) – ha úgy tetszik, nem maradt más választásuk, mint bármilyen más publikus tartalmak fosztogatása.

Nyaralási bejegyzések és eseményhorizontok

A Google, amely ugyanezzel a problémával találkozott, tavaly lazította magának a felhasználási feltételeket, hogy a Google Docsba felvitt publikus dokumentumokat és a Google Mapsre feltöltött értékeléseket felhasználhassa. Közlésük szerint ők is felhasználtak YouTube-tartalmakat, amikre az alkotóktól engedélyt kaptak. A The New York Timesnak nyilatkozó jogi szakértő szerint a videómegosztó felhasználási feltételei nem elég részletesek, így igazából értelmezés kérdése, hogy a Google felhasználhatja-e a videók szövegeinek átiratát egy másik szolgáltatás fejlesztésére.

A Meta vezetése eközben azt mérlegelte, hogy felvásárolják a Simon & Schuster könyvkiadót, az öt legnagyobb angol nyelvű kiadó egyikét, hogy szabadon felhasználhassák katalógusukat. A The New York Times értesülései szerint a cég jogászai tudtak róla, hogy az OpenAI semmibe veszi a szerzői jogokat, és úgy vélték, hogy nekik sincs sok választásuk, mert egyszerűen túl sokáig tartana minden jogtulajdonossal megegyezni.

A YouTube-szövegek felhasználásában nem érintett Meta jogászai a Google és Authors Guild 2015-ös perét citálták – ebben a Google Books szolgáltatást perelték könyvek jogtalan terjesztéséért. Az az ügy azzal zárult, hogy a Google-szolgáltatás a fair és szabad felhasználás kategóriájába tartozik, mivel nem az egész könyvet adja közkézre, csak pár oldalt. Az OpenAI úgy vélte, hogy a YouTube-videók felhasználása is ebbe a kategóriába esik.

Az OpenAI-val szemben házon belül a Google, a Facebook és az Instagram révén a Meta is jelentős mennyiségű digitális tartalom felett rendelkezik. Az emberiség egyre több adatot termel, de

2026-ra már ez sem lesz elég

a modellek betanításához.

A Facebook adatait például azért sem érdemes túlbecsülni, mert a felhasználók ott nem nagyesszékben fejezik ki magukat. A Donald Trump 2016-os elnöki győzelméhez vezető online politikai marketing és az abból fakadó Cambridge Analytica-botrány miatt a felhasználói adatok sem használhatóak fel csak úgy, mint korábban. Van tehát sok kétes értékű bejegyzésük és egy csomó adat a felhasználói szokásokról, amiből egy csodálatos marketinges mesterséges intelligenciát lehetne létrehozni, amire momentán senkinek sincs szüksége.

Az OpenAI válasza a problémára, és egyben a fő ok, amiért megállás nélkül rohannak előre, hogy a jövő a szintetikus adatoké – vagyis a mesterséges intelligencia által termelt szövegé.

Csak el kell jutni a szintetikus adatok eseményhorizontjáig, onnantól már minden rendben lesz, mert a modell már elég okos, hogy jó szintetikus adatokat gyártson

– mondta Sam Altman vezérigazgató.

Ha ez sikerül, az OpenAI és partnere, a Microsoft valóban megmenekül, és a jogokat sértő modellek mehetnek a levesbe. Altman csillagászati metaforát használ: az eseményhorizont a fekete lyukakat körülvevő régió, ahonnan már fizikailag nem térhet vissza a világba a fény vagy bármi más. Amíg ezt a fordulópontot nem éri el, a mesterséges intelligenciára nincs jó hatással, ha a maga által termelt adatokon tanítják be, az ugyanis olyan hallucinációkat, tévedéseket és egyéb hibákat tartalmaz, amelyek újrahasznosítás közben felhalmozódnak, és lerontják a rendszer minőségét.

A probléma egyik megoldása, ha a szintetikus adatokhoz két mesterséges intelligenciát alkalmaznak: az egyik termel, a másik kiszűri a butaságokat. Ezen dolgozik például az Anthropic, akiknél pont az a Jared Kaplan a vezető kutató, akinek a dolgozata az egész történetet elindította.

(The New York Times, The Verge, The Wall Street Journal)

(Borítókép: Sam Altman, az OpenAI vezérigazgatója az OpenAI DevDay rendezvényen Kaliforniában, San Franciscóban, 2023. november 6-án. Fotó: Justin Sullivan / Getty Images Hungary)

Index Vakbarát Hírportál

YouTube-alkotók szerzői jogait sérthette az OpenAI

Miért tették mégis?

Nyaralási bejegyzések és eseményhorizontok

Rovatok