A laborban emberi közreműködés nélkül lehetett az intelligens asszisztenst adatok kiadására és a kártevő sokszorosítására rávenni.
A nyelvi modellekre épülő mesterséges intelligenciák, mint az OpenAI-féle ChatGPT vagy a Google Gemini a programozási felületeiken keresztül egyre több szuper alkalmazási területen bukkannak fel. Kódot írnak, határidőnaplót kezelnek vagy intézik az elektronikus levelezést. Kár lenne, ha valaki a rendszer sebezhetőségét kihasználva adatok ellopásával, spammeléssel tönkretenné az egészet.
A Wired tudósítása szerint pont egy ilyen féregvírust hoztak létre amerikai kutatók, és rögtön tudományos beszámolót is írtak arról, hogy milyen biztonsági kihívásokkal kell szembenéznünk a mesterséges intelligencia új korszakában. A szerzők – Ben Nassi a Cornell Egyetem kutatóintézete, a Cornell Tech PhD hallgatója, Stav Cohen az Israel Institute of Technology munkatársa, Ron Bitton az Intuit amerikai pénzügyi szoftvercég szakértője – az általuk leírt kártevőnek a Morris II nevet adták.
A név biccentés Robert Tappan Morrisnak, aki szintén a Cornell hallgatójaként 1988-ban picit lebénította az internetet a róla elnevezett első féreggel. Apukája az NSA, vagyis az amerikai elektronikus hírszerzés kutatójaként valószínűleg nem örült ennek a fejleménynek. Az ifjú Morris nemcsak elsőként írt önállóan terjedő kártevőt, de elsőként is ítélték el ilyesmi miatt 3 év felfüggesztettre és 400 óra közmunkára. Ma professzor az egyik legnevesebb műszaki egyetemen, az MIT-n – éppen a mesterségesintelligencia-laboratórium munkatársa, és remélhetően ezúttal semmi rosszban nem sántikál.
A mai generatív mesterséges intelligenciák körültekintően megírt szöveges utasításokkal, úgynevezett promptokkal kezelhetők. Ezek a rendszerek már eddig is támadhatóak voltak rosszindulatú promptokon keresztül. Ilyen például a jailbreak, amikor a meghülyített modell úgymond kiszabadul a börtönéből és számára tiltott módon viselkedik, fenyeget, uszít és egyéb toxikus dolgokra lehet rávenni. A promptinjekció nevű támadással viszont titkos utasításokat lehet végrehajtatni, így a csevegőrobot rávehető, hogy egy mit sem sejtő felhasználót becsapjon, és például egy csaló weboldalra küldjön.
A Morris II rendes kártevőrendszertani megnevezése: féreg. Míg egy vírus a fertőzött fájl futtatásával vagy megnyitásával aktiválódik, a féreg emberi beavatkozás nélkül fertőz és reprodukálja magát.
A féreg jelen esetben egy
„ellenséges önsokszorosító prompt”
– ennek hatására a megtámadott modell egy újabb promptot generál és továbbít. A kutatók szerint ez működését tekintve hasonló az SQL-injekció vagy a buffertúlcsordulás alapú klasszikus szoftvereket célzó támadáshoz.
Ez lényegében azt jelenti, hogy lehetőséged van olyan kibertámadást vezényelni vagy végrehajtani, amilyenre még nem volt példa
– foglalta össze Ben Nassi az új kutatást.
Nassi és kollégái természetesen nem a publikus interneten, hanem saját tesztrendszerükön próbálták ki a férget, egy publikusan nem hozzáférhető intelligens e-mail-kliensen. Egy ilyen kliensnek az a rendeltetése, hogy az elektronikus levelezés terhének egy részét levegye a felhasználó válláról, ami azt jelenti, hogy önállóan fogad és küld üzeneteket.
A támadás lényegében egy ellenséges prompt volt, ami megmérgezte a kliens adatbázisát, és a GPT-4 vagy Gemini Pro rendszerén keresztül olyan választ generáltatott, amiben nemcsak érzékeny személyes adatok (név, telefonszám, bankkártyaszám, társadalombiztosítási azonosító) voltak, de arra is rávették, hogy az ellenséges promptot egy beérkező levél szerzőjének továbbítsa, így sokszorosítva önmagát.
A férget más módokon is lehetett alkalmazni, szöveg helyett például
képről beolvasva is működött,
így lényegében mérgezett kép sokszorosítására, propagandára vagy spamelésre is felhasználható volt.
A kutatók, akik elküldték dolgozatukat az OpenAI-nak és a Google-nek, rámutattak, hogy az általuk felfedett komoly sebezhetőségek a jelenlegi szélesebb értelemben vett MI ökoszisztéma hibás architerktúrájából fakadnak, és úgy vélekedtek, hogy két-három éven belül a szabadban is megjelennek az MI-férgek.
A problémával kapcsolatos kérdésre az OpenAI közölte, hogy dolgoznak a rosszindulatú utasítások kiszűrésén. A Google nem reagált, de mint kiderült, személyes találkozót kért a kutatóktól.
Amint arra a mesterséges intelligencia biztonságával foglalkozó szakemberek is rámutattak, a probléma megoldása, hogy nincs olyan, hogy az embert teljesen kihagyják a történetből. Legalább a kimenő leveleket jóvá kell hagynia a szerves intelligenciának, még ha ettől némiképp csökken is az intelligens levelező kliens használati értéke.
Mindez csak egy villanásnyi pillantás a jövőbe, amiben temérdek más természetű támadási felületet nyitnak a mesterséges intelligenciát futtató telefonok, autók és robotporszívók.