A BME TMIT Beszédakusztikai Laboratóriuma kutatói olyan automatikus rendszert fejlesztettek, amivel egy beszédmintából megállapítható, hogy a beszélő depressziós-e, továbbá az is megbecsülhető hogy milyen fokú depresszióban szenved. A módszerrel a Déli-sarkon állomásozó űrkutatók lelkiállapotát akarták felmérni, de az eljárás azóta kinőtte magát. Csak egy mikrofon, és egy okos algoritmus kell ahhoz, hogy a hangunkból a rendszer következtessen a fizikai és lelki egészségünkre.
Úgy mondják: a beszéd, mint biomarker
– mondja nevetve dr. Vicsi Klára, a Beszédakusztikai Laboratóriumának vezetője, egy manapság divatos kifejezést idézve; ez annyit jelent, hogy a beszédünk sokat elárul a szellemi vagy fizikai állapotunkról.
Divatos buzzwordök ide vagy oda, a beszédhangunk tényleg sokkal több információt hordoz a kimondott szavak értelménél. Még telefonon át is halljuk, ha egy ismerősünk fáradt vagy beteg. A változás oka lehet fiziológiai és neurológiai is. Ha a hangképzés fizikai paraméterei megváltoznak – mert náthásak vagyunk, eltömődik az orrüregünk, a beszédszínkép megváltozik, vagy például amikor polip, vagy daganat keletkezik a hangszalagon, vagy annak környékén a hangszalag rezgése változik meg –, ami a hang alapfrekvenciájának a normálistól eltérő ingadozásával jár. A neurológiai változások a hangképzőszervek mozgásának, izomfeszítésének a torzulását okozzák.
A BME kutatói ezt ismerték föl, amikor hozzáláttak egy hang alapú depressziófelismerő rendszer fejlesztéséhez. A munka az Európai Űrügynökség megbízásával kezdődött. A Déli-sarki Concordia Űrkutató Állomás dolgozói nagyon megszenvedik a téli hónapokat. Az éjszakák fél éven át végtelennek tűnnek, és egy hónapig teljes a sötétség. Ebben a nehezen átélhető időszakban a kutatóknál különösen magas a depresszió kockázata.
A nagy távolság miatt nem megoldható, hogy hetente járjon pszichológus a kutatóállomásra, így távdiagnosztikai módszerre volt szükség – ezt dolgozza ki a Beszédakusztikai Laboratórium. Az állomás dolgozói minden héten felolvasnak egy mesét (olaszul, franciául és angolul), majd a labor munkatársai elemzik a kapott adatokat, és megfigyelik, hogy változtak-e az egyes személyekre jellemző beszédparaméterek.
Az agyban történő változásoknál – ilyen a depresszió is – nem a hangképző szervek, hanem a szervek idegi vezérlésének működése változik meg. Az artikulációs szervek másképp mozognak: lassabban, kevésbé feszítetten, lanyhább izomműködéssel. A kutatás abból indult ki, hogy
A depresszió világszerte 350 millió embert érint, így igen fontos, hogy időben felismerjék és kezeljék. A szakorvosnak ez nem esik nehezére. Vicsi elmondja, hogy a kutatásban együttműködnek dr. Simon Lajossal, a Semmelweis Orvostudományi Egyetem Pszichiátriai és Pszichoterápiás Klinikájának igazgatójával. Segítségükkel vették fel a depressziós betegek hangmintáit is. A Klinika igazgatója szerint már a páciensek mozgásán is felismerhetők a tünetek, de beszélgetés közben az is föltűnik, hogy a beteg hangja fakó, színtelen és erőtlen. Az arckifejezés, a testtartás és a mozgás egyaránt árulkodhatnak a beteg állapotáról, de a távdiagnosztikában a szakértők csak a hangokra hagyatkozhatnak.
Szerencsére a depresszió már a hang alapján is kimutatható, mivel a beszédhang változásai mérhetők és számszerűsíthetők. Ha a beteg hangja fakó, az azt jelenti, hogy a felsőbb frekvenciatartományokon nincs akkora energia, és a monoton, egyhangú beszédnek is mérhetően kisebb a dinamikája.
A betegek állapotát a Beck Depression Inventory (BDI) kérdőívvel szokták felmérni. A nemzetközileg szabványosított teszten adott válaszokat pontozzák; ez adja a BDI-skálát, amin meghatározható, hogy mennyire súlyos a beteg állapota. A Beszédakusztikai Laboratórium kutatóinak olyan besorolási rendszert kellett tervezniük, ami összeegyeztethető a BDI-skálával. A kutatás során számos hangfelvételt kaptak német kollégáktól is; az ezeken beszélő depressziós betegeken már korábban elvégezték a BDI-tesztet.
A BDI-besorolással egybekötött hangminták alapján a kutatók felépíthettek egy adatbázist, ami az egész rendszer lelkét adja. Ha bemegy egy beteg, belebeszél a mikrofonba, a kutatók meg tudják mondani, mekkora esélye van annak, hogy depressziós, és hogy mennyire súlyos az állapota.
Maga a rendszer viszonylag egyszerűen működik: a beteg leül egy mikrofon elé, és felolvassa A szél és a nap című mesét. Azért pont ezt – magyarázza Vicsi –, mert ezt a mesét minden fontosabb nyelvre megírták úgy, hogy a hangzóeloszlás megfeleljen az adott nyelv hangzó statisztikájának. A foniátriai gyakorlatban a németek is ezt a mesét olvastatják föl, ahogy mi is; fontos, hogy a szövegbe ugyanolyan hangzók kerüljenek.
Miután a beteg felolvasta a szöveget, megkezdődik az akusztikai elemzés. Vizsgálják a hangfrekvenciák ingadozásait, az alapfrekvencia időbeli változásait, a dallammenetet, a hang intenzitásának és dinamikájának változását. A felvételeket összevetik a kontroll csoport által felolvasott szövegekkel, elemezve az alaphang- és dinamikatartományt, a hangszalagperiódus-változásokat, illetve a paraméterek statisztikai eloszlásait. Ez nagyon fontos – mondja Vicsi –, mivel az elkülönüléseket mérni is lehet.
Az osztályozást mesterséges intelligencia végzi; a rendszer pontossága a fejlesztés mostani stádiumában 86 százalékos. A teljes adatbázis több száz magyar és német személy hangmintájából áll, de folyamatosan végeznek újabb vizsgálatokat. A magyar nyelvre igen jó a pontossága, de vannak közel nyelvfüggetlen paraméterek, amiket a rendszer szintén vizsgálhat, és ezáltal több nyelvre is érvényes becslést tud adni. A pontosságon sokat javíthat, ha a kutatók bővítik az adatbázist, mert – ahogy a statisztikai vizsgálatoknál általában –, minél több az adat, annál biztosabb az eredmény.
A kialakított fejlesztői környezettel nemcsak a depresszió kutatható; a Parkinson-kór kezdeti stádiumának vizsgálatára is alkalmas, csak ehhez más paramétereket kell figyelembe venni. A Parkinson-kórban szenvedőknél sérülnek a mozgást vezérlő idegek, és a beszéd, az artikuláció szintén komoly mozgás – nagy energiát is igényel. A betegség okozta elváltozásokat először a hangszalag rezgésén lehet észrevenni; ez még jóval a kézremegés és más tünetek fellépése előtt jelentkezik. Mivel a Parkinson-kór nem gyógyítható, de szinten tartható, igen fontos, hogy korán fölismerjék a betegséget. Vicsi megjegyzi, hogy ezen a téren még egyenlőre nincsenek olyan kiemelkedő eredményeik, mint a depresszió felismerésében, mivel ez a munka később kezdődött és még bővíteni kell a Parkinsonos betegek beszédfelvételeit tartalmazó adatbázist.
A pontos diagnózishoz használható adatokkal kell dolgozni, de egy ilyen, nagy érzékenységű mérésnél nyilván az is szempont, hogy milyen eszközökkel készítik a felvételeket. A mikrofon frekvenciaátvitele, a beszűrődő zajok vagy a rögzítés módja mind-mind befolyásolhatják a felvétel minőségét, és így az eredmények pontosságát is. A kutatók a mérésnél az 50-8000 hertzes frekvenciatartományt vizsgálják, és a zaj valóban problémát jelent a rögzítésnél. A felvételen azt is meghallani, ha visszhangos helyen készült, vagy a háttérben egy számítógép működik, és már ezek is bezavarhatnak a mérésbe.
A beszédtechnológiák érzékenyek a zajra; az ebből fakadó mérési hibákat csak úgy lehet kiküszöbölni, ha minél több adatot gyűjtenek össze. A zajszűrésre van más módszer is; ilyen például az iránykarakterisztikákkal való játék, vagy ha közelbeszélő mikrofont használnak. Egy Parkinson-kóros betegnél ezt nyilván nehezebb használni, de egy kutatótól nem nagy elvárás. Hogy csökkentsék a hibalehetőségeket, a Concordia állomáson is szeretnék spontán események hangját rögzíteni, és több mikrofonos megoldásokkal kísérletezni – így a környező zajokat és a beszédet is jobban el lehet különíteni. Sajnos a zaj az összes beszédkutatási projektnél problémát jelent, és mindig egy megoldandó feladat.
Vicsi úgy látja, hogy a most használt technológia jó, bizonyítottan működik; a rendszerhez alapvetően már csak az adatbázis kibővítése szükséges. A fejlesztők tervezik, hogy a módszert más nyelvekre is alkalmazzák, ami elvileg nem túl bonyolult, hiszen már megtaláltak olyan közel nyelvfüggetlen paramétereket, amelyek több nyelv esetében is elfogadható becslést adnak a depresszió súlyosságára. Amikor a magyar nyelvre betanított rendszert német nyelvű tesztanyaggal tesztelték, a mérések továbbra is használható eredményeket adtak.
Vicsi reméli, hogy a fejlesztésből piacra dobható eszköz lesz. Elmondja, hogy már jelentkezett egy magyar cég, akit termékként is érdekelne az eszköz, de a továbbfejlesztés, a gyártás és bevezetés sok pénzt emészt föl. Persze, az anyagi ráfordítás megérné, hiszen az nyilvánvaló, hogy különösen a távdiagnosztikában használata igen ígéretes, mivel ez egy nem invazív eljárás és a multimodális diagnosztikai lehetőségek között helye van.
A labor munkatársai japán kutatókkal együtt pályáztak egy európai projektre – idősebb emberek otthonába telepítettek volna hangfelismerő eszközöket, amivel távolról is felmérhető lett volna a fizikai és mentális állapotuk. Vicsi szerint az idősebbekre épülő egészségügyi rendszereknek óriási gazdasági jelentősége van.
Az online diagnosztika azért is hasznos, mert Magyarországon – hasonlóan más országokhoz – eléggé elöregedett a háziorvosi állomány, és mivel nincs rendes utánpótlás, már annak is nagy jelentősége lehet, ha egy diagnosztikai eszköz elvégzi az állapotfelmérést. Az efféle előzetes szűrés nem helyettesítheti a szakorvosi véleményt, de a hangfelismerő rendszer is figyelmeztethet rá, ha valakinek például daganat vagy polip van a torkában, vagy valamilyen neurológiai rendellenesség lépett fel a betegnél.