Mi derül ki a múltról, ha ráengedjük az emlékeinkre a legmodernebb technológiákat? Hamarosan megtudjuk, a magyar közmédia több mint száz évre visszanyúló fényképarchívumát ugyanis gépi tanuló algoritmusokkal katalogizálják, és teszik pár kattintással kereshetővé a Nemzeti Audiovizuális Archívum (NAVA) szakértői.
Humán erőforrással 20 év lenne csak a képek feldolgozása
- mondta Répászky Lipót, a NAVA ügyvezető igazgatója a Microsoft Tech Summit rendezvényen, ahol az Azure felhőszolgáltatáson futó intelligens képfelismerő rendszerről tartott előadást, mert ők is ezt használják, hogy az MTVA több mint 13 millió fotónegatívja online kereshetővé váljon.
A rendes osztályozás nagyon erőforrás-igényes, mert rengeteg az adat. Meg kell nézni, hogy hol készült a fotó, ember van-e rajta, ha igen, milyen nemű, és így tovább. Egészen 1910-ig vissza kell menni, akkor kerültek be az első fotók az archívumba. Bár az eredeti negatívon vagy a könyvekben benne vannak a szükséges információk, ezt kikutatni, az esetleges hibákat ellenőrizni lassú folyamat.
egyetlen kép feldolgozása tizenöt perctől akár másfél óráig is eltarthat, ha a munkát emberre bízzák.
De még ha megvan minden információ, akkor is pontatlan tud lenni a képhez társított strukturált metaadat. Adott esetben az áll mondjuk ott, hogy a kép Prágában készült 1968 áprilisában, a felhasználó viszont nem ezeket fogja beírni a keresőbe, hanem azt, hogy "prágai tavasz". Máshogyan kell kategorizálni, hogy praktikus legyen a szolgáltatás.
A gépi tanuló algoritmussal különféle csoportokba sorolták be a képeket, és megadták, hogy 70 százalék fölötti találati relevancia fölött kerüljön be a kép egy megadott halmazba. A személyek azonosításánál azt is meghatározták, hogy csak a 200×200 pixel fölötti arcokat veszik külön embernek, amivel szépen ki lehetett szűrni a háttérben álldogálókat. Aki átment az első szűrőn, kapott egy faceID azonosítót.
Ezután elkezdték az adatokat tömbösíteni, osztályozni, például különválogatták a férfiakat és a nőket, ám rájöttek, hogy ez kevés, így is több milliós csoportokon kéne lefuttatni a keresést. Folytatták emberi tényezőkkel, lett szemüvegesek csoportja, hosszú hajúak csoportja, és így tovább.
Még ezután is kérdéses volt, hogy ki látható a képeken, úgyhogy elkezdték azokat egymással is összekötni. Ha 80 százalék fölötti volt az azonosság, és a két kép eleve egy csoportban volt, akkor az találatot jelentett, és ezek a felvételek már kaptak egy personID-t is, vagyis már csak azt kellett megmondani, hogy mi az adott személy neve. És persze külön kellett válogatni a fotókat az illető kora szerint is. A huszadik és harmincadik életév között sokat változik az arc, ezután viszont van egy hosszú szakasz, amikor nincs nagy változás, és egy adott életkor után megint nagy változások történnek - fejtette ki Répászky Lipót. Mindenkinek megelőlegezték a 100 éves kort, és tízévenkénti bontással külön csoportba sorolták be a róluk készült felvételeket.
A színészek még mindezen felül is extra kihívást jelentettek, hiszen róluk elég sok kép készült sminkben. Például amikor Zenthe Ferenc az Othellóban szerepelt, a színházi képről az algoritmus megmondta, hogy szerinte 20 százalékban Zenthe, de igazából 80 százalékban Othello. Ezekkel a találatokkal óvatosan kell bánni, fejtette ki Répászky, hogy torzuljanak a színész személyéhez kapcsolódó ismeretek. Hasonló a helyzet a falon lógó képekkel.
Kádár János számtalan bejegyzésben felbukkant, hiszen egy időben elég sokan kitették a falra az arcképét
Egy hónap tanítás után újabb és újabb objektumokat felismert a rendszer, ha ugyanazt a képet feltöltötték, és már elkezdték felvinni az ismert helyszíneket, így már jó eséllyel megmondja a gép, ha a Parlament ott látható valahol a háttérben. A két világháború közötti, ma már nem látható épületekre viszont a ma élő emberek többsége sem emlékszik.
(Borítókép: 1982 Magyarország. Fotó: Magyar Rendőr / FORTEPAN)