Hathatós emberi közreműködéssel a gépek a biztonsági ellenőrzéseket is kijátszották. Új szintre kell emelni a tanuló gépi modellek biztonsági vizsgálatát.
Egy friss kutatás azt vizsgálta, hogy meddig terjednek a GPT-4 és ChatGPT-hez hasonló kortárs mesterséges intelligenciák képességei a megtévesztés és ármánykodás terén. A szakfolyóiratban még nem közölt tudományos dolgozatokat gyűjtő ArXiv.org oldalon közölt eredmény meglehetősen aggasztó lett – de nem elhanyagolható körülmény, hogy
a szerzők annak az Anthropicnak az alkalmazottai amely az OpenAI egyik legtöbb befektetői pénzt behúzó konkurenciája.
A kutatók saját csevegőrobot példányokon kísérletezve olyan különleges parancssorokat terveztek, amelyek célja az volt, hogy a program titkos viselkedési mintákat hajtson végre, ha egy későbbi parancsban megjelenik egy meghatározott kifejezés. Például az volt a mesterséges intelligencia küldetése, hogy ha programot íratnak vele, egy titkos hátsó ajtót, vagyis biztonsági rést építsen a kódba, ha a feladat leírásában szerepel, hogy 2024-et írunk.
A kutatók az is megállapították, hogy a megszokott biztonsági eljárások is kikerülhetők így, mert a gép rávehető, hogy a küldetését titokban tartsa a betanítás és ellenőrzés során és csak későbbi használat során produkálja a megtévesztést.
Az eredmény azért nem indokolja a teljes pánikot, mert azt is megvizsgálták, hogy a modellek képesek-e maguktól ilyen viselkedésekre, és nem találtak bizonyítékot ilyesmire.
Az emberek becsapásához tehát továbbra is az emberek értenek jobban.
jelen esetben a mesterséges intelligenciában jártas szakértők jól megtervezett promptjai kellettek ehhez (A végkövetkeztetés megfordítása, hogy ha valaki egy programozó helyett mesterséges intelligenciával íratja programjait, nem árt ha emberekkel is átnézeti azt).
A fő tanulság inkább a biztonsági technikákra vonatkozott. Az Anthropic munkatársai megállapították, hogy a betanítás során csak a nyilvánvaló és jól látható biztonsági hibákat tudják kiküszöbölni, a szándékosan leplezetteket azonban a jelenlegi gyakorlat nem tudja felderíteni és letiltani.