A nyelvi modellek már embert meghazudtoló szövegeket és képeket gyártanak, olyannyira, hogy több elemző az Adobe, az egyik legismertebb, kreatív munkához szoftvereket gyártó cég végzetét vetítette előre. A vállalat azonban ütős választ adott a szélsebesen terjedő technológia veszélyére, ami példaként szolgálhat az iparág számára.
Az Adobe nevű cég, amely a Photoshopot is készítette – azt a programot, amivel a macskánknak is lehet szárnya –, úgy érezhette, hogy a mesterséges intelligencia (AI) ellopta a show-t. A mesterségesintelligencia-alapú képgeneráló szoftverek használata ugyanis pofonegyszerű és épp ezért csábító: elég csak beírnunk pár szót, és máris jó minőségű, akár Picasso stílusában készült képeket kapunk. Ilyen népszerű képalkotó program például a Dall-E 2 és a Midjourney.
Nemrégiben elemzők nyíltan merengtek azon, vajon a mesterséges intelligencia (AI) a végzete lesz-e az Adobe-nak. Erre a kreatív szoftvereket gyártó cég kíméletlen válaszcsapásra szánta el magát: saját AI-eszközcsomagot hozott létre, a Fireflyt, több száz millió fotó adatbázisának felhasználásával. Dana Rao, a cég egyik vezetője szerint a márciusi megjelenése óta a szoftverrel több mint egymilliárd képet hoztak létre a felhasználók. Azáltal, hogy nem az interneten keresztül bányászott képeket, mint a versenytársai, az Adobe elkerülte a szerzői jogok körüli egyre mélyülő vitát, amely most az iparágat sújtja. A cég részvényárfolyama több mint 30 százalékkal emelkedett a Firefly bevezetése óta.
Ezek a rendszerek, különösen a mély tanuláson alapuló modellek hatalmas mennyiségű adatra támaszkodnak a tanuláshoz. Minél több adat áll rendelkezésre, annál pontosabbá válik a program. Ebben az értelemben az adatot gyakran az AI „üzemanyagaként” emlegetik.
A nagy adatmennyiséggel rendelkező cégek pedig azt mérlegelik, hogyan profitálhatnak az „új idők felhalmozott aranyából”, az adatból.
A vállalatok számára az adatgyűjtés és -feldolgozás nemcsak versenyelőnyt jelent, hanem létfontosságú a hatékony AI-alkalmazások fejlesztéséhez is. Az Adobe sikerének tanulsága egy égetőbb kérdésre is rávilágít: ki lesz a domináns a gyorsan fejlődő AI-eszköz-piacon?
Az adatokat gyűjtő, jelentős adatvagyonnal rendelkező intézmények versenyelőnyük fenntartása és növelése érdekében a saját adatbázisaik építésében, az adatmegosztás korlátozásában és az adatvagyonuk kizárólagos hasznosításában, adatmonopóliumok létrehozásában érdekeltek, ami a teljes gazdaság adatvagyonának nem optimális kiaknázásához vezet, és társadalmi veszteséget okoz
– világított rá elemzésében a Magyar Nemzeti Bank (MNB), hozzátéve, hogy az adatgyűjtő intézmények sokszor nem fordítanak kellő figyelmet az adatvagyon tárolását és felhasználását végző infrastruktúra megfelelő védelmére és a potenciális adatszivárgások elkerülésére.
Az AI-modellek két alapvető összetevője az adatkészletek, amelyeken a rendszer képződik, és a feldolgozási kapacitás, amelyen keresztül a modell az adatkészleteken belüli és közötti kapcsolatokat észleli. Ezek a komponensek bizonyos mértékig helyettesíthetők: egy modellt vagy több adat bevitelével, vagy több feldolgozási kapacitás hozzáadásával lehet javítani. Az utóbbi azonban egyre nehezebb az AI-chipek hiánya miatt.
A nagy technológiai cégek, mint a Google, az Amazon és a Facebook, már régóta felismerték az adatok értékét, és óriási adatbázisokat építettek fel. Azonban a kisebb vállalatok és startupok is beléptek a versenybe, és saját adatgyűjtési stratégiákat dolgoztak ki. Az adatok iránti növekvő igény miatt a vállalatok közötti verseny egyre intenzívebbé válik.
Az adatok iránti kereslet olyan gyorsan növekszik, hogy az Epoch AI, egy kutatócsoport szerint a képzéshez rendelkezésre álló, magas minőségű szövegkészlet 2026-ra kimerülhet – jelezte elemzésében a The Economist. A Google és a Meta, a két technológiai óriás legújabb AI-modelljeit több mint ezermilliárd szó beadagolásával képezték ki. Összehasonlításképpen az angol szavak összessége a Wikipédián, a legnagyobb online enciklopédián körülbelül 4 milliárd.
Az AI-cégek tehát versenyeznek az adatforrások megszerzéséért. Júliusban az OpenAI megállapodást kötött az Associated Press hírügynökséggel, hogy hozzáférjen a történeteit tároló archívumhoz.
Augusztus 8-án arról számoltak be, hogy a Google tárgyalásokat folytat a Universal Music lemezkiadóval az előadók hangjának licencelése miatt, amit egy dalszerző AI-eszközhöz használna fel a keresőmotoros óriáscég.
A The Economist értesülései szerint AI-laboratóriumok megkörnyékezték a BBC-t, Nagy-Britannia közszolgálati műsorszolgáltatóját. Egy másik feltételezett célpont a JSTOR, az akadémiai folyóiratok egyik digitális könyvtára.
Az információ birtokosai pedig kihasználják erősebb alkupozíciójukat. A Reddit, egy online fórum és a Stack Overflow, egy kóderek körében népszerű kérdezz-felelek oldal megemelte adathozzáférési költségeit. Mindkét weboldal adatai különösen értékesek, mivel a felhasználók felértékelik (upvote) más felhasználók válaszait, segítve a modelleket abban, hogy tudják, ezek közül melyek a legrelevánsabbak. A Twitter (most már X), egy közösségimédia-oldal most már díjat számít fel azoknak, akik hozzá kívánnak férni az adataihoz. Elon Musk pedig egy saját AI-vállalkozás alapítását fontolgatja, amelynek építőkövei az oldalon összeszedett adatok lennének.
(Borítókép: Jakub Porzycki / NurPhoto / Getty Images)