Kiteregetjük mindenünket, amink csak van

Hatalmas mennyiségű adat keletkezik nap mint nap a kereskedelmi cégeknél, az államnál, a Facebookon és a Google-nél. Adatból nincs hiány, a kérdés az, hogy mit kezdjünk a bőséggel. Ha jól használjuk fel őket, akkor csökkentik a bűnözést, jobb gyógyszereket eredményeznek, a segítségükkel sikeresebb cégek születnek, és még a tömegközlekedés is gyorsabb lesz. De mint mindennel, ezzel is vissza lehet élni.

„Tudjuk, hol vagy. Tudjuk, hol voltál. És többé-kevésbé azt is tudjuk, hogy mi jár a fejedben” – mondta Eric Schmidt, a Google volt vezérigazgatója és Barack Obama elnök bizalmasa még az amerikai nemzetbiztonság megfigyelési botrányának kirobbanása előtt. Azóta már azt is tudjuk, hogy az NSA az amerikai internet hetvenöt százalékát megfigyelte.

A „Google for spies” (Google kémeknek) pedig arra is képes, hogy az aktivitásainkból nagy pontossággal meghatározza, hogy mi lesz a következő lépésünk – akár hosszabb időre előre is.

Ma szinte felfoghatatlanul sok adat áll a rendelkezésünkre, amit egyre többen próbálnak meg rendszerezni és hasznosítani. A vállalkozások, a közösségi média és az egész internet exponenciálisan növeli az adatmennyiséget. Az amerikai Wikibon online piackutató elemzése szerint a történelem folyamán összesen rendelkezésünkre álló digitális információ 90 százaléka az elmúlt két évben keletkezett, és mindennap 15 petabájttal nő (a petabájt nagyjából egymillió gigabájt).

Elképzelhetetlen mértékű adat halmozódik fel a közösségi oldalakon, a telefontársaságoknál, az Amazonnál vagy hasonló kereskedelmi cégeknél, de az államnál is. Ezt egyszerűen Big Datának, „óriási adathalmaznak" nevezik. Mindez ijesztő, mert minden korábbinál többet tudnak rólunk a cégek és az állam, de az adatokat jól használva sikeresebb vállalkozásokat, jobb gyógyszereket, kevesebb bűnözést és használhatóbb tömegközlekedést is kaphatunk.

Nem gyűjtik, hanem keletkezik

„Egyre több adat keletkezik, mert rengeteg tevékenységet elektronikusan folytatunk, például a kereskedelmet, de egy csomó ideig ezeket az adatokat nem használta senki semmire. Az elmúlt 10-15 évben azonban elkezdték őket használni" – fogalmaz Békés Gábor, az MTA Közgazdaság- és Regionális Tudományi Kutatóközpontja tudományos munkatársa.

Mi az a Big Data?

A közösségi portálokon, emailekben, elektronikus tranzakciókban és számos más helyen (mobiltelefonok cellainformációitól a közüzemi szolgáltatások igénybevételének percre pontos naplózásáig) keletkező adatok mennyisége folyamatosan nő, ezt egyszerűen Big Datának, óriási adathalmaznak nevezik. Ezek csak akkor válnak értékessé, ha a megfelelő módon gyűjtik, strukturálják és elemzik őket.

Számtalan előnye mellett a rengeteg információ sok hátránnyal is jár. Az amerikai nemzetbiztonsági megfigyelési botrány is épp arról szól: a kormányok túl sokat és túl egyszerűen tudhatnak meg a polgáraikról, és ez csökkenti a privát szférát. Ezeket a félelmeket illusztrálja, hogy az amerikai adóhivatal célzottan vizsgált az ellenzékhez kötődő csoportokat, de az Associated Press munkatársait is lehallgatták, mert egy titkos CIA-akcióról írtak.

A kormány kezében tehát egy olyan eszköz van, amivel nagyon könnyen korlátozhatja vagy elnyomhatja a neki nem tetsző véleményeket és csoportokat.

Az a különleges ezekben az adatokban, hogy nem gyűjtik őket, hanem keletkeznek. „Ha például elektronikus jegyet vezetnek be egy város tömegközlekedésében, akkor automatikusan keletkeznek az utazási szokásokra vonatkozó adatok, nem kellenek kérdezőbiztosok, akik megkérdezik az utasokat" – hozott példát Békés.

Emiatt az adatok feldolgozásának metodológiája is más: mivel nem a kutató dönti el, hogy mit kérdez, ezért első körben az adatokból ki kell hámozni azokat, amelyek érdekesek és értékesek a kutatás szempontjából. „Egy nagy erdőben kell megtalálni azt a kilátót, ahonnan az növényzet mintázata jól látható. Ha már látjuk a városi közlekedés mintázatát, jobban lehet közlekedési beruházásokat tervezni vagy akár jobb bérletkonstrukciót kidolgozni” – mondta a kutató.

Cambridge-i kutatók a már meglevő Foursquare-adatokat vizsgáltak különböző cégek – például a Starbucks, a McDonald's és a Dunkin’ Donuts – megbízásából, hogy a cégek eldöntsék, a leginkább hol érdemes megnyitniuk a következő boltot egy adott városban, akár egymáshoz képest is.

A kutatók elsősorban demográfiai és jövedelmi adatokat használtak, ezt más adatokkal kiegészítve a Foursquare információival kombinálták. Mindezt költséges végrehajtani, mégis érdemes belevágni, mert néhány méter távolság is óriási haszonbeli különbségeket eredményezhet. Előfordulhat, hogy megnyitnak egy kávézót az egyik utcasarkon, ahova több száz vásárló megy majd, vagy egy másikat nyitnak pár száz méterrel odébb, ami hónapokon belül becsődöl.

A Google és a Facebook pontosan tudja, hogy mit szeretünk, mi érdekel minket, merre járunk, kikkel beszélgetünk, és miről, de ezeket az adatokat sem gyűjtik külön, hanem a szolgáltatások használatával együtt, automatikusan keletkeznek. A kérdés csak az, hogy ezeket ki tudja elemezni?

Óriási puzzle

„Az adat olcsó lett és rengeteg: ha valami olcsó és sok van belőle, akkor az a tudás értékelődik fel, amivel ezt rendszerezni és elemezni lehet” – mondta Kézdi Gábor, a Közép-Európai Egyetem (CEU) közgazdasági tanszékének vezetője.

A magyar Központi Statisztikai Hivatalban is meg lehet például nézni az összes magyar cég összes adatát vagy az összes születésre és halálra vonatkozó adatot, és a Nemzeti Fejlesztési Ügynökségnél elérhető például az összes EU-s pályázat nyertese, hogy milyen projekt és mennyi pénzt nyert. „Lehetségessé vált, ami eddig lehetetlen volt, ilyen teljes körű adatbázisokat korábban nem lehetett vizsgálni. Aki tudja, hogy mi a kérdés, az nem tudja, hogy azt ki lehet-e deríteni. Sokan tudnak programozni, mások pedig, például az államigazgatásban, még ha tudják is a kérdést, hogy mire kíváncsiak, általában nem tudják, hogy lehetséges-e megbízható választ kapni arra. Magyarországon persze a pénz is kevés a kutatásra, még ha lenne is megfelelő elemzői kapacitás” – tette hozzá Kézdi, aki főként demográfiai kutatássokkal foglalkozik, és a cigány és nem cigány iskolások eredményeinek különbségét vizsgálta.

Megjósolom az Oscart

Nagy adatbázisok elemzésével foglalkozik Nate Silver, az USA új sztárstatisztikusa. 2008-ban egy híján az összes amerikai államban megjósolta az elnökválasztás győztesét, 2012-ben ez már minden államban sikerült neki. 2011-ben az Oscar-díjra vonatkozó öt jóslatából négy esetben lett igaza, egy évvel később pedig harmincháromból harmincegy szenátusi hely győztesét találta el.

Blogja, ami FiveThirtyEight néven fut (ennyi elektor van az USA elnökválasztási rendszerében), korábban a New York Times aloldala volt, most az ESPN vette meg. Silver korábban a KPMG-nél dolgozott, majd baseballjátékosok teljesítményét és karrierjét kezdte statisztikai módszerekkel vizsgálni, ezután fordult a politika felé. Itt olvasható egy portré róla (angolul).

Az adatlavinával kapcsolatban már nem az adattárolási kapacitások szűkössége a legnagyobb kihívás, hanem az adatok valós idejű kezelhetősége, illetve, hogy a feldolgozási képességek fejlődése milyen gyorsan tudja követi az adatállomány bővülését.

A nagy adathalmazok kezeléséhez már nem elegendőek a hagyományos adatbázisok és szoftverek. „Régebben ilyen mennyiségű adatokat nem is lehetett feldolgozni, de ma is problémás az, hogy egy átlagos számítógép nem tudja feldolgozni a több millió vagy akár milliárdnyi adatot. „Ilyenkor mintát kell venni a teljes halmazból, és ezeket vizsgálni, vagy beruházni egy akkora infrastruktúrára, ami képes a teljes halmazt feldolgozni" – fogalmazott Békés.

Változott a kutatásban az is, hogy ha például meg lehet mondani, hogy milyen típusú épületnél, milyen fogyasztási szokások mellett valószínű egy lakástűz, a hatóságokat nem az érdekeli, hogy ez miért van így, csak az, hogy ennek alapján megelőzhetők a tüzek. Nem az oksági viszonyok leírása a fontos, hanem az előrejelzés.

Rengeteg potenciális alkalmazási terület van, a közlekedési folyamatok természetének elemzésétől a vírusok leküzdésén és a géntérképeken át a bűnmegelőzésig. Az adatbázisok összekötése egy puzzle-höz hasonlítható: ha összerakjuk a különböző eredetű és formátumú adatokat, korábban megjósolhatatlan következtetéseket állapíthatunk meg.

Ne fulladjunk a szmogba, ne öljenek meg

A vietnami Da Nangban olyan rendszert építettek ki, ami figyeli az autók és a tömegközlekedés mozgását, így sokkal hatékonyabb közlekedési rendszert tudnak kiépíteni. A rendszer célja az, hogy a város el tudja kerülni, hogy a tragikus állapotban lévő kínai városok sorsára jusson, ahol a hirtelen megnövekedett forgalommal nem bírt a város infrastruktúrája.

Mivel egy ilyen rendszer ma viszonylag olcsón kiépíthető, a fejlődő országok bizonyos értelemben megelőzik a Nyugatot, egyszerűen kihagynak egy lépést: ugyanúgy, mint az afrikai államok, amikor a hagyományos telekommunikációs hálózat kiépítése helyett rögtön a mobilhálózatot építették meg. A Da Nang-i rendszer beleszól majd a közlekedési lámpák hangolásába, de lehetővé teszi azt is, hogy mobilon és az interneten keresztül lehessen látni, hol járnak a buszok, vagy hogy mennyire zsúfoltak. Hasonló rendszer lesz a BKK Futár projektje is.

Mindent tudnak, kivéve, hogy kiről van szó

A Központi Statisztikai Hivatal a magyar törvények alapján jogosult olyan adatok tárolására is, amiket össze lehet kötni az emberekkel, tehát nem csak anonimizált adathalmazokat őriznek, erre a törvény ad felhatalmazást a KSH-nak. Személyes adatokat egyébként csak célhoz kötötten lehet használni, az adatszolgáltatásra pedig törvényi felhatalmazás kell, vagy pedig önkéntesnek kell lennie. Addig minősül személyes adatnak egy információ, amíg „kapcsolata az érintettel helyreállítható”, vagyis az adat összeköthető azzal, akiről szól.

A KSH tavasszal tartott egy fórumot, ahol bemutatták, hogy mostantól teljes körű adatbázisokhoz is hozzá lehet férni: meg lehet például nézni az összes magyar cég adatait vagy az összes születésre és halálra vonatkozó adatot. Az adatok anonimizáltak, de bizonyos esetekben mégis beazonosíthatók: ha például tudjuk valakinek a születési idejét és az anyja születési idejét is, akkor jó eséllyel megkereshetjük, hány kilóval született. Ezért ezek az adatok még személyes adatnak minősülhetnek, így védeni kell őket. Az ilyen jellegű visszaélések kiszűrésére szigorú szabályokat alkalmaz a KSH. A hivatal épületében csak egy külön szobában lehet ezeket az adatokat vizsgálni, és a számítógépek nem csatlakoznak az internetre sem.

„Nagyon szigorúak a biztonsági szabályok” – mondja Prinz Dániel, aki az amerikai National Bureau of Economic Researchnél dolgozik egyészségügyi adatokkal. Prinz elmondása szerint először a professzorok kérik ki az adatokat, meg kell mondaniuk, hogy mire kérik, mire fogják használni, mik a kutatási kérdések és milyen más adatbázisokkal kötik majd össze az adatokat. „A többi munkatársnak is alá kell írnia egy szerződést a szabályokról, ebben benne van például, hogy nem töltheted le az adatokat a szerverekről. Minden alkalommal, amikor használod az adatokat, a munkahely virtuális hálózatán keresztül érheted el őket; itt van egy második lépcsős azonosítás is, amikor egy megerősítő telefonhívást is kapsz.”

Közlekedési adatokat nemcsak a tömegközlekedés fejlesztésére, hanem bűnüldözésre is fel lehet használni. A kriminológusok szerint a bűnözés alakulása számtalan tényezőtől függ, hatással van rá például a menekülőutak száma, az időjárás, hogy a fizetést mennyi ideje kapták meg az emberek, hány óra van, a hét mely napja van, sőt még a holdfázisoknak is jelentősége van. Ezeket az adatokat számítógéppel mind elemezni lehet.

A Big Data, tehát a hatalmas adatbázisok vizsgálata arra is alkalmas, hogy rengeteg múltbeli adatot elemezve meg lehessen jósolni, hogy hol lesznek a következő bűncselekmények. Santa Cruzban cellákra osztották a várost, egy számítógép folyamatosan figyeli az adatokat, és jelzi a rendőröknek, hogy valószínűleg melyik részen kell járőrözniük, abban a pillanatban hol van nagy esély a bűnözésre.

Olyan példa is van, hogy hónapok óta kerestek egy gyilkost Baltimore-ban, mikor a rendőrség elkezdte elemezni a gyanúsított szociális kapcsolatait. Miután elemezték ezt a hálózatot, a rendőrök be tudták azonosítani a központi embereket a rendszerben. Pár nappal azután, hogy ezeket az embereket értesítette a rendőrség a kutatásról, a gyilkos feladta magát, mert nem volt hova menekülnie.

Mobilképernyőn kitapintható termékek

A kereskedelmi szektor is régóta gyűjti és vizsgálja a vásárlók magatartását jellemző adatokat. Ezek sokáig a leltárkönyvekben és a piackutatók kérdőívein és hűségkártyákon gyűltek, de az adatokból kevés forradalmi konklúziót vontak le. A jövőben azok a cégek jutnak majd versenyelőnyhöz, akik hatékonyan alkalmazzák a létező hatalmas adattenger adatelemzési módszereit, és beépítik azokat döntéshozatalukba. Így a valós idejű döntéshozatalban támaszkodhatnak majd a megelőző üzleti időszak teljes feldolgozott adatbázisára, ezzel jelentősen rövidítve a reakcióidőt.

A cégek jobban ismerik majd a vásárlóikat, nagy pontossággal tudják majd meghatározni, hogy a vásárló kicsoda, hol tartózkodik, mi fontos neki éppen akkor és ott. A fogyasztóra nem mint egy csoport jellegzetes tagjára koncentrálnak, hanem mint önálló egyedre. Az IBM elemzése szerint a fejlett adatelemzésnek köszönhetően több szerep jut a termék minél érzékletesebb bemutatásának: például a mobiltelefonok érintőképernyőinek rezgései szimulálják majd a vásárlóknak, hogy milyen a kiválasztott termék tapintása, amelyet megvásárolnánk, legyen szó cipőről vagy laptopról.

A Big Data kihasználása a közigazgatásban is óriási potenciállal bír. Az egyre nagyobb mennyiségű adatok gyors és hatékony kiértékelése felesleges energiát, bürokráciát és kidobott eurómilliárdokat spórolhat meg. A McKinsey számítása szerint ha az amerikai egészségügyi adatokat hatékonyabban használnák fel, a szektor minden évben 300 milliárd dollárt spórolhatna.

Robot-HR

Az a probléma a HR-esekkel, hogy ők is emberek. Elfogultak, és gyakran hibáznak. Egyre nagyobb szükség van ezért olyan szoftverekre, amelyek az állásjelentkezők hatalmas mennyiségű, rendezett és rendezetlen adatait képesek áttekinteni és elemezni. A Big Data megfelelő alkalmazása meglepő összefüggéseket tud megállapítani.

Az Evolv toborzócég kutatása szerint azok az emberek, akik az online állásjelentkezéshez az alapértelmezett böngészők helyett újabbat installálnak, például Firefox-ot vagy Chrome-ot, általában jobban teljesítenek, és kevesebbszer váltanak munkahelyet. Az oksági viszony ugyan nem egyértelmű, mégis az elemzők szerint azok, akik veszik a fáradságot, hogy új keresőt telepítsenek, a munkahelyükön is megalapozottabb döntéseket hoznak.

Az Evolv szerint azok a munkavállalók, akik legfeljebb két közösségi hálózat tagjai, hosszabb ideig maradnak az állásukban, akik viszont már négynél több hálózathoz csatlakoznak, gyakrabban váltanak munkahelyet.

Ennél meglepőbb összefüggés, hogy az Evolv arra jutott, hogy a vásárlóközpontú, telefonközpontos munkákban például jobban teljesítenek azok, akik valamilyen bűnügyi múlttal rendelkeznek. Mivel szerepelnek a bűnügyi nyilvántartásban, az állásjelentkezés során automatikusan kizárják őket, holott munkájuk több bevételt hozna ezeknek a cégeknek.

A jövő gyógyszerkutatása

„Ha tényleg az egészségügy átalakítása a cél, akkor egyszerűen létre kellene hozni egy olyan egészségügyi piacot, amely az ellátottaktól beérkező információkon alapul” – mondta Craig Mundie, a Microsoft kutatási és stratégiai részlegének vezetője 2010-ben az amerikai egészségügyi reformmal kapcsolatban. Az egészségügyi nyilvántartásokban elképesztő mennyiségű adat keletkezik, ami rengeteg kiaknázatlan információt jelent.

A McKinsey nemrég megjelent kutatása szerint a Big Data-stratégiák főleg azokban az iparágakban hozhatnak nagy hasznot, ahol az üzleti környezet az átlagosnál komplexebb, és az elérhető adatok az utóbbi időben jelentősen megugrottak. Ilyen például a gyógyszeripari kutatás-fejlesztés, a gyógyszerek bevezetése a piacokra, egészségügyi támogatása vagy a betegekkel való elfogadtatása.

Big Brother Data

A cégek valós idejű döntéshozatalához az összes felhasználó összes adata szükséges. Az ilyen hatalmas méretű adatbázisok összeállítása, strukturálása és feldolgozása rendkívül tőkeigényes. A pénz mellett a know-how is fontos: az óriási adatbázisok kezelése nehéz feladat, speciális eszközöket és tudást igényel. A legnagyobb Big Data-felhasználók között ezért egyelőre az olyan nagyobb cégek vannak, mint az IBM, a HP, az Oracle, a SAP vagy az egyes mobilszolgáltatók. Magyarországon a hálózatkutató Barabási László is dolgozott egy magyar telefontársaság adataival. A cég az adatbázisért cserébe konkrét piaci kutatásokat kért: ki az a hatezer ügyfél, akinek egy ingyenes új terméket odaadjanak, vagy ki az a másik hatezer, aki el akarja hagyni a céget. Barabási kutatócsoportja megdöbbentően pontosan találta el ezeket a csoportokat. (Barabási szerint egyébként három hónap alatt meg lehet ismerni egy átlagos ember viselkedését).

Magyarországon az egészségügyi vagy a közigazgatási adatbázisok mérete eltörpül az amerikaiakhoz képest, és míg az USA-ban ezek az adatok a legtöbb esetben publikusak, Magyarországon kevésbé hozzáférhetők a társadalomtudósok számára. Aggodalomra adhat viszont okot, hogy folyamatosan bővülnek azok az adatállományok, amiket például a fegyveres szervezetek tagjairól vagy a köztisztviselőkről (és családjukról) vezetnek a hatóságok. Csak ne váljunk a Big Brother Data országává.

Index Vakbarát Hírportál