Kedve lenne ordítani? Ne tegye. De tényleg. Nem hogy ordítani, de beszélni sem lesz kedve, ha megtudja, hogy milyen elképesztően profi hangelemző algoritmust fejlesztett ki a Fujitsu. A rendszer csupán fél perc betanítást igényel, ennyi idő alatt elmenti a hangunk legfontosabb jellemzőit, és ezt követően bármikor megállapítja, hogy mikor hallható a mi hangunk.
Bárki csukott szemmel felismeri Dörner Györgyöt, ha Bruce Willis szinkronhangjaként megszólal a tévében, de a gépi személyazonosítást sok körülmény nehezíti. Például az, hogy általában nem stúdiómikrofonba beszélünk, és nem is Dolby minőségben hallható a hangunk. Többnyire be kell érni az okostelefonok és pc-k igencsak változatos minőségű hangrendszereivel.
Szinte mindegyik okostelefont, és a számítógépek nagy részét is vezérelni tudjuk hangosan kimondott utasításokkal. Ezt hívjuk beszédfelismerésnek, amikor a szoftver azt tudja értelmezni, hogy mit mondunk. Ennek is vannak különböző típusai, a korlátozott szókinccsel rendelkező, szótár alapú megoldásoktól egészen a szabadszavas, sokkal több mindent megértő rendszerekig. Ettől nagyban különbözik a hang alapú személyazonosítás, amikor a szoftver nem a beszéd tartalmát elemzi, hanem azt, hogy ki beszél.
A Fujitsu tudósai arra találtak ki egy szabadalmazott módszert, hogy a feldolgozandó hangmintát függetlenné tegyék a rögzítő- és lejátszóeszközöktől, a környezettől, valamint az átviteli csatornától. Ez sokkal nagyobb kihívás, mint amikor az átviteli csatorna változatlan. A Google Hangouts videocsevegője például felismeri, hogy a konferenciahívás közben éppen ki szólalt meg, de ebben az esetben mindegyik résztvevő ugyanazt a hangkódoló algoritmust használja, tehát a hanghullámokat torzító dolgok nagy része ismert. A Fujitsu algoritmusa azt oldotta meg, hogy a hangfelvételben csak az emberhez köthető információk maradjanak meg.
Zajos környezetben 3 százalék alatti a rendszer hibaaránya, és ez nagy fejlődés a korábban használt módszerek 10 százalék körüli értékéhez képest. Csendben és nyugalomban az elemzések alig 1 százaléka téves. A módszer akkor is működik, ha idegen nyelven szólalunk meg, és az is kiszűrhető, ha megpróbáljuk eltorzítani a hangunkat.
A hangelemzés kétélű fegyver, ezt a Fujitsu is elismerte, de ők nyugodtan hátradőlhetnek annak a tudatában, hogy transzparens módon bemutatták a megoldást. Innentől a felhasználókon múlik, hogy miként alkalmazzák. Elvileg kidolgozható olyan rendszer, amivel a cégek az okostelefonunk követése nélkül, néhány mikrofonnal azonosítani tudnak minket, miközben a plázában rohangálunk.
Megfigyelhetik, hogy mikor milyen boltban jártunk, akkor is, ha minden – hasonló nyomon követésre használható – eszközünk offline. Csak annyi az alapfeltétel, hogy meg kell szólalnunk, de fél perc beszéd már a kasszánál simán összejön. Aki meg társasággal meg rucikat válogatni, fél óra csacsogást is lead. Ennek az lehet a haszna a cégek számára, hogy később ez alapján bombázhatnak minket hirdetésekkel a közösségi portálokon.
Az Egyesült Államokban már 110 várost szereltek fel mikrofonokkal, hogy háromszögeléssel be tudják mérni a lövöldözések helyét, és anélkül oda tudják küldeni a járőröket, hogy bárki feltárcsázta volna a 911-es segélyhívó számot. Viszonylag kevés helyre kell mikrofonokat telepíteni, és a módszer előnye az optikai érzékeléssel szemben, hogy nem szükséges rálátni az eseményekre. A hangból az is pontosan kiderült, hogy mennyi lövést adtak le.
Bőven találunk hasznos célokat is. A párizsi terrortámadás után nem nagyon kell magyarázni, hogy bizonyos esetekben milyen óriási jelentősége lehet a hang alapú azonosításának. A fejlesztés eredeti célja az volt, hogy a börtönökben azonosítsák a betelefonáló családtagokat, mint biztonságos személyeket, és ugyanígy a szabadlábon lévő bűnözők hívásait is kiszűrjék. Ettől nem tűnik nagyon távolinak, hogy feltételezett terroristákra, megfigyelni kívánt személyekre is szélesebb körben alkalmazzák a gépi hangazonosítást. Könnyen lehet, hogy a jövőben a kamerák mellé profibb mikrofonokat is telepítenek az utcákra.
A Fujitsu gondolt arra is, hogy nem minden esetben, sőt, nem mindenkinek van lehetősége ujjlenyomattal vagy tenyérvéna-szkennerrel igazolni a személyazonosságot, és ilyenkor kapóra jön a beszédhangunk.