A képmanipuláció óriási utat tett meg pár évtized alatt a sztálini retusálásoktól addig, amíg bárki otthon, a saját gépén tud úgy átalakítani egy fotót, hogy szinte megkülönböztethetetlen az eredetitől, és mára köznevesült a fotosop. A képek ilyen bizonytalanná válásával megnőtt a hangfelvételekbe vetett bizalom, mert az emberi beszédet nehezebb ilyen profin manipulálni.
Legalábbis nehezebb volt egészen mostanáig, amíg a Photoshopot is fejlesztő Adobe be nem mutatta a VoCo nevű projektjét, amelyet már most a hangok Photoshopjának tituláltak. A demóvideó alapján egyáltalán nem alaptalanul:
A szoftverrel az azt demózó fejlesztő először felcserél egy-egy szót egy hangfelvételben, pusztán azzal, hogy kicseréli őket a szövegben. Aztán ugyanezt megcsinálja egész kifejezésekkel. Végül olyasmit ír bele a szövegbe, ami eredetileg nem hangzott el, és az emberi hangnak tűnő valami szépen ezt is elmondja, méghozzá anélkül, hogy kicsit is feltűnne a különbség.
A háttérben nyilván komoly munka folyik, a szoftver fogja a hangmintát, elemzi, felbontja, értékeli a tulajdonságait, és ezeket használja fel az új elemek generálására. A végeredmény viszont az, hogy minden eddiginél egyszerűbben lehet az emberi beszédet manipulálni. Egyelőre hosszabb hangminta, körülbelül 20 perc kell ahhoz, hogy a VoCo kellőképpen megismerje a manipulálandó beszélőt, de ezt később még szeretnék tovább csökkenteni.
A fejlesztők szerint elsősorban olyasmire szánják a szoftvert, mint podcastok apró javításai vagy más ártalmatlan szerkesztések, de nem nehéz belátni, hogy elég komoly etikai és biztonsági aggályokat vet fel a technológia. Ahogy a demóvideóban is elhangzik, már dolgoznak azon, hogy a szabad füllel megkülönböztethetetlen hangmintákban is ki lehessen szúrni szoftveresen, ha manipulálták, vagyis már előre próbálják megakadályozni a visszaéléseket.
Arról még nincs szó, hogy az Adobe piacra is dobná a VoCót, ez még csak az első bemutató volt, de a technológia már most is ígéretes.