A gépi tanulás csak eszköz, minden az adatokon múlik

A héten Budapesten tartott előadást Margriet Groenendijk adattudós, az IBM Watson adatplatform fejlesztője. A szakterülete a klímaváltozás, bigdata-elemzéssel vizsgálja nem várt környezeti események előrejelezhetőségét, egyúttal adatvizualizációs eszközöket is fejleszt. A Budapest BI Fórum nevű adatelemzői rendezvény két programja között beszélgettünk vele.

Hogyan változtatta meg ön szerint a klímakutatást a big data és a gépi tanulás?

A klímakutatás szerintem mindig is big datára épült, csak az új technikákkal könnyebbé vált a feldolgozása. Gépi tanulást is sokat használtak, csak statisztikának hívták, ezért ezen a területen inkább hájpról van szó mintsem radikális változásról.

Érdekelne a véleménye arról a tanulmányról, ami azt állította, hogy gépi tanulás alkalmazásával bebizonyította, hogy nem is az ember a felelős a klímaváltozásért, de aztán sok kemény kritikát kapott.

Nekem úgy tűnt, önkényesen válogatták az adatokat, mintha azokat választották volna ki, amik a legjobban passzolnak az eredményhez. Ha megvannak az eszközeid a gépi tanuláshoz, miért nem használod az összes adatot? Elég elfogult is volt az eredmény. Szerintem ha az összes adatot használták volna, más eredményt kaptak volna.

Milyen valódi lehetőségei vannak az ilyen módszereknek? Megfogalmazható ezek alapján releváns állítás a klímaváltozásról?

Igen, mert meg lehet figyelni a különböző okait, tudjuk, mekkora a kibocsátás, ismerjük a hőmérsékletnövekedést, megtalálható az összes adat egy adott időszakon belül, ami hatással lehetett erre, és már egy egyszerűbb vizsgálattal is megmutatható, mi okozott mit. A gépi tanulás csak egy eszköz, minden az adatokon múlik.

Tud mondani gyakorlati példát, hogy az IBM milyen klímaváltozással kapcsolatos projektben működik közre?

Van például egy kaliforniai projekt, amiben műholdképek alapján vizsgálják az aszályokat, hogy segítsenek meghatározni, hol és hogyan tudnának az emberek jobban spórolni a vízzel szárazságok idején. Például ajánlásokat tesznek, hogy mikor ne töltsd fel az úszómedencédet.

Az előadásában említette, hogy próbált összefüggést találni a New York-i időjárási adatok és a közlekedési balesetek között, de nem járt sikerrel.

Nem, New Yorkkal legalábbis nem.

Volt, amivel igen?

Mivel ez egy nagyon nagy és forgalmas városban volt, sok minden más is befolyásolta a baleseteket az időjáráson kívül, például a forgalom mértéke, az utak állapota, stb. A vidéki területeken, ahol nincsenek épületek és hasonlók, sokkal nagyobb lehet az időjárás hatása, de erre nincs bizonyítékom.

Milyen más esetekben lehetnek még hasznosak az időjárási adatok?

Például a mezőgazdaságban, ahol meg lehet jósolni, mikor kell majd öntözni a növényeket. A szupermarketek és más boltok is használják annak az előrejelzésére, hogy mikor milyen termékeket fognak tudni eladni. Hotelek is előre tudják tervezni a szobafoglalásaikat az időjárás alapján. Energiacégnek is segít a tervezésben.

Egy interneten elérhető korábbi előadását időjárási és twitteres adatok összevetéséről tartotta. Mesélne erről?

Tavaly a Watson [az IBM mesterséges intelligencia platformja – BD] használatával elemeztem Twitter-üzenetek érzelmi töltetét, azt néztem meg, hogy látszik-e kapcsolat a valós időjárás és aközött, ahogy az emberek beszélnek róla Twitteren. Nem találtam semmit, de a projekt fő célja nem is ez volt, hanem hogy bemutassam rajta a rendelkezésre álló eszközeinket, hogy milyen egyszerűen használhatók és kombinálhatók.

Min dolgozik most az IBM-nél?

A PixieDust nevű nyílt adatvizualizációs eszközt fejlesztem, most például a térképek megjelenítését akarom sokkal könnyebbé tenni. Ez az adattudósok által használt Jupyter-jegyzetfüzetekben működik, amik nagyon jó és egyszerű módjai az adatok vizualizációjának. A PixieDust ezt teszi egyszerűbbé akkor is, ha az ember nem nagyon tud kódolni. Ez azért érdekes nekünk az IBM-nél, mert része a Data Science Experince nevű felhőplatformunknak, ahol minden eszköz megtalálható, amire az adattudósoknak szüksége van, lehet gyűjteni és tárolni az adatokat, és meg is lehet osztani a projekteket, az egész csapat az adattudósoktól a fejlesztőkig együtt tud dolgozni egy közös környezetben.

Manapság egy adattudósnak programozónak is kell lennie, vagy húzható még éles határ a kettő közé?

Jelenleg homályos a határ a kettő között. Szerintem egy adattudósnak tudnia kell kódolni, mert anélkül nem tudja végezni a munkáját, de legalább meg kell értenie, hogyan működik a fejlesztői munka. És a másik oldalon a fejlesztőknek se árt érteni, hogyan lehet gépi tanulással dolgozni, sokkal gyorsabb a munka, ha ugyanazokat az eszközöket és környezetet használják a csapaton belül.

A tudományos életből igazolt az IBM-hez, mi a legnagyobb különbség az itteni munkában?

Ez nyilván nagyon szubjektív, de én régebben mindig sok-sok különböző fájlban, helyben tároltam az adataimat, és mindent magam csináltam, most viszont minden a felhőben folyik, teljesen más a kollaboráció, és ez nagyon jó.

Borítókép: Index Fotós: Ajpek Orsi

Index Vakbarát Hírportál

A gépi tanulás csak eszköz, minden az adatokon múlik

Rovatok