Egy epidemiológia tankönyv, miután elmagyarázta azt a példát, hogy a nagyfeszültségű távvezetékek okozhatnak-e rákot, a következő megjegyzéssel zárta a fejezetet: „...és ez volt az az eset, amiből az amerikai közvélemény a '70-es években megtanulta, hogy mit jelent az 'epidemiológia' szó”.
Minden jel szerint a járványügyet és annak fogalmait pedig a mostani koronavírus fogja a világgal megismertetni. Már most úgy követi a fél ország a reprodukciós számot, halálozási arányt, incidenciát mint máskor az időjárás-jelentést, de Vásárhelyi Barna és munkatársai roppant fontos közleményének köszönhetően nagyon úgy néz ki, hogy a diagnosztikai tesztek kiértékelése is bekerül a közbeszédbe. Meggyőződésem, hogy orvosi kutatások megértése nem a kutatók privilégiuma, ellenkezőleg, nagyon fontos – és napról-napra csak egyre fontosabb – minden állampolgár számára, hogy el tudjon igazodni az orvosi információk tengerében. Ehhez azonban erőfeszítésre is szükség van, végig kell gondolni dolgokat, olyanokat is, amik nem nyilvánvalóak, ám mélyen hiszek abban, hogy nekünk kutatóknak nem az a feladatunk, hogy konzerv-válaszokat gyártsunk a laikusoknak, amit elhisznek a titulusaink miatt, hanem, hogy megvilágítsuk azokat az alapfogalmakat, koncepciókat, gondolatmeneteket, amelyek révén saját maguk is képesek lesznek tájékozódni az orvosi kutatások világában.
A szóban forgó közleményt bemutató Index-cikk jó példa erre, hiszen idézi – helyesen – a megfelelő számokat, de egyáltalán nem biztos, hogy a „szenzitivitás”, „specificitás”, pláne „jósló érték” (az olyan, mint a jósló fájás?) fogalma mindenkinek világos-e egy félmondatos magyarázat alapján. Talán nem felesleges tehát lefordítani magyarra és egy példán bemutatni, hogy ezek az eredmények mit jelentenek, hogyan kell őket érteni, és akkor most tényleg teljesen használhatatlanok-e ezek a gyorstesztek? (Spoiler: igen.)
Hogy kellően életszagú legyen a példa, vegyük az Orvosi Hetilapban megjelent közlemény adatait! Az alábbiak az 1. táblázat felső részének a számai, az Anhui nevű gyorsteszt eredményei, csak annyit módosítottam rajtuk, hogy a gyorsteszt kétféle eredményét egybevontam (pozitív a gyorsteszt, ha bármelyik pozitív a kettőből):
A számok azt mutatják, hogy az összesen megvizsgált 625 alanyból hány tartozott az egyes kombinációkba: 7 lett mindkét módszerrel pozitív, 440 mindkettővel negatív, 164 pozitív lett a gyorsteszten, de negatív PCR-rel, 14-nél pedig pont fordítva.
A mostani megközelítésünk az lesz, hogy a PCR eredményét elfogadjuk „az” eredménynek, tehát elfogadjuk, hogy ez mutatja biztosan a tesztelt személy pozitivitását – ilyen értelemben most a gyorstesztet hasonlítjuk hozzá. Fontos az is, hogy mindkét teszt, a PCR és a gyorsteszt eredménye is bináris: valaki vagy pozitív, vagy negatív, nem lehet „kicsit pozitív” vagy mondjuk „nagyon negatív”. (Ez sok tesztnél nem így van, például a teszt eredménye lehet valaminek a koncentrációja a vérben, ami nagyon is lehet kicsit, meg jobban pozitív. Ezekkel a kérdésekkel egy másik írásomban részletesen foglalkozom, de most nem kell bonyolítani vele a képet.)
Az intuitíve is elég világos, hogy kétféle hibázás lehetséges (egy egészséges alanyt tévesen betegnek minősít a gyorsteszt, vagy egy beteget tévesen egészségesnek), de hogy ezt hogyan mérjük le, az már messzemenőkig nem egyértelmű.
Az orvosi gyakorlatban első nekifutásra két mutatót szoktak használni: a szenzitivitást (ritkábban használt magyar nevén érzékenység) és a specificitást (még ritkábban használt magyar nevén fajlagosság).
Mindkettő egy feltételes valószínűség: a szenzitivitás az, hogy feltéve, hogy az alany beteg, mekkora valószínűséggel lesz a diagnosztikánk pozitív. Jelen példában: feltéve, hogy a PCR pozitív – ugye elfogadtuk, hogy ez biztos mutatója a betegség fennállásának! – mekkora valószínűséggel lesz az gyorsteszt is pozitív. Ez magyarra lefordítva azt jelenti, hogy mennyire találja meg a diagnosztika a betegeket: egy nagyon szenzitív teszt pozitív lesz szinte minden betegnél (de simán lehet, hogy pozitív lesz egy sor egészségesnél is!). Azaz: a szenzitivitás azt méri, hogy mennyire kerüljük el azt a hibát, hogy egy beteget tévesen egészségesnek minősítünk.
A specificitás definíciója: feltéve, hogy az alany egészséges, mekkora valószínűséggel lesz a diagnosztika negatív. Ez magyarra lefordítva azt jelenti, hogy mennyire találja meg a diagnosztika az egészségeseket: egy nagyon specifikus teszt negatív lesz szinte minden egészségesnél (de simán lehet, hogy negatív lesz egy sor betegnél is!). Azaz: a specificitás azt méri, hogy mennyire kerüljük el azt a hibát, hogy egy egészségeset tévesen betegnek minősítünk.
Ezek az elméleti definíciók, nekünk ezt egy mintavételből kell megbecsülnünk. A táblát ehhez az imént láttuk is, most nézzük újra a definíciókat! A szenzitivitás: feltéve, hogy az alany beteg (...tehát a bal oldali oszlopban vagyunk...), mekkora valószínűséggel lesz a diagnosztikánk pozitív (...tehát esünk bal felső cellába). 7+14=21 ténylegesen beteg alanyunk van, a mostani kérdéshez az ő körükre szűkítjük a vizsgálatot és azt kérdezzük, hogy ezen a körön belül mekkora valószínűséggel lesz a gyorsteszt pozitív: ezt a 7/(7+14)=33,3% aránnyal becsülhetjük. Ez az Anhui gyorsteszt szenzitivitása e vizsgálat szerint. Nézzük most a specificitást: feltéve, hogy az alany egészséges (...tehát a jobb oldali oszlopban vagyunk...), mekkora valószínűséggel lesz a diagnosztika negatív (...tehát esünk a jobb alsó cellába). 164+440=604 ténylegesen egészséges alanyunk van, a mostani kérdéshez az ő körükre szűkítjük a vizsgálatot és azt kérdezzük, hogy ezen a körön belül mekkora valószínűséggel lesz a gyorsteszt negatív: ezt a 440/(164+440)=72,8% aránnyal becsülhetjük. Ez az Anhui gyorstest specificitása.
(Mivel itt csak egy véges méretű mintát használtunk, így ezek a számok sem kőbe vésett értékek. Ezzel a bizonytalansággal el kell számolni, amit az eredeti cikk meg is tesz, itt azonban ezzel nem kell bonyolítanunk az életünket, mert a lényeg e nélkül is elmagyarázható.)
Eddig minden tiszta, szép és világos. Látszólag. Valóságban azonban van egy apró bökkenő: az, hogy amiket az imént kiszámoltunk, teljesen értelmetlenek a gyakorlatban.
Gondoljuk meg jobban: feltéve, hogy beteg az alany, mekkora valószínűséggel pozitív a teszt... de ez mit is jelent? Feltételezünk valamire, amit nem tudunk, és megkérdezzük a valószínűségét valaminek, amit tudunk? Talán pont fordítva lenne értelme a dolognak...!
Sajnos az orvoslásban ez nem ritka probléma. Kedvenc példáimat azok a táblázatok jelentik, ahol megadják, hogy a betegek mekkora hányada (például) férfi. Miközben ez teljesen természetesnek hat, gondoljuk jobban végig: ez az adat azt jelenti, hogy feltéve, hogy valaki beteg, mekkora valószínűséggel férfi – ott áll előttem Béla, és azt kérdezem, hogy feltéve, hogy beteg, mekkora valószínűséggel férfi?! Ennek meg mi értelme? Talán inkább a fordítottja kellene, hogy a férfiak mekkora hányada beteg!
Ez csak látszólag ártalmatlan dolog, valójában nagyon sok probléma forrása lehet, ez a helyzet itt is. Nem az az érdekes, hogy ha az alany beteg, akkor mekkora valószínűséggel pozitív a teszt, hanem épp ellenkezőleg, ha pozitív a teszt, akkor mekkora valószínűséggel beteg az alany! Erre van szükség a gyakorlatban. Ezt szokás prediktív értéknek (még sokkal ritkábban használt magyar szóval jósló értéknek) nevezni: az előbbi példa a pozitív prediktív érték, hasonlóan a negatív prediktív érték annak a valószínűsége, hogy az alany egészséges, feltéve, hogy a teszt negatív lett. A prediktív érték lényegében a tesztelés utáni valószínűsége annak, hogy az alany beteg, annak függvényében, hogy a teszt negatív vagy pozitív lett – ettől tesztelés utáni.
Ha valaki azt gondolná, hogy ez csak ilyen terminológiai kötözködés, hoznék egy szintén kellően való életbeli példát: a sors szeszélye folytán nincs egy éve, hogy megjelent, történetesen szintén az Index hasábjain, egy Lakos Andrással közös cikkem a Lyme-kór diagnosztikájáról. Idéznék egy részt belőle: „A Lyme-kór kimutatására általánosan használt, ún. szerológiai tesztekkel nagyjából 90%-os szenzitivitás és 99%-os specificitás érhető el. [Ha gyanú nélkül tesztelünk betegeket, akkor kb. minden ezredik tesztelt ember lesz tényleg beteg.] És akkor most számoljunk! Mondjuk, hogy leszűrünk 100 ezer embert. Közülük 100 valóban beteg, ebből 90-et betegnek, 10-et egészségesnek minősít a teszt (szenzitivitás), a 99900 egészséges közül pedig 999-et betegnek, 98901-et egészségesnek (specificitás). Vagyis a teszt betegnek minősít 90 embert helyesen és 999-et helytelenül. A teszt által betegnek minősített emberek 90/(90+999) = 8,3%-a lesz ténylegesen beteg. Azaz a látszólag remek tesztünk valójában arra az eredményre vezet, hogy az általa Lyme-kórosnak minősített emberek több mint 90%-a valójában nem beteg!” Bár a cikkünk nem mondta ki szó szerint, de ez épp a prediktív érték fogalma: a fenti számítás azt mondja, hogy ebben az esetben a teszt pozitív prediktív értéke mindössze 8,3%. Miközben szenzitivitása 90, specificitása 99% volt! A dolog tehát nagyon-nagyon nem mindegy.
A fenti számolásból az is látszik, hogy mi a prediktív értékek használatának legnagyobb csapdája: az, hogy a kiszámításukhoz azt is kell tudni, hogy a tesztelés előtt mekkora valószínűséggel beteg az alany (amit általában azzal mérünk, hogy a teszteltek mekkora hányada beteg ténylegesen)! Ez azonban nem valamiféle „hiba”, épp ellenkezőleg, ez a valós helyzet, az a hiba, ha erről megfeledkezünk!
A konkrét képletek levezetésének az örömét meghagyom az olvasónak, a végeredményt az Anhui gyorsteszt paramétereivel a következő ábra mutatja:
Az, hogy a teszteltek mekkora hányada beteg – mennyi a betegség tesztelés előtti valószínűsége – persze attól is függ, hogy pontosan milyen körben tesztelünk; vegyünk most 2%-ot, ami egy reális érték ma Magyarországon. (Ez természetesen nem azt jelenti, hogy a lakosság 2%-a beteg, de a tesztek többségét nem is véletlenszerűen végzik.)
A prediktív értékek az ábráról leolvashatóak: eszerint ha valakit az Anhui gyorsteszt betegnek minősít, akkor az illető 97,5% valószínűséggel nem beteg (!), de ha egészségesnek minősít, akkor 98,2% valószínűséggel tényleg egészséges.
Ez alapján úgy tűnhet, hogy legalább egyik irányban jó a gyorsteszt: a pozitív eredmény nem sokat jelent, de a negatív igen. Azonban gondoljuk meg jobban! Azt feltételeztük, hogy a teszteltek 2%-a beteg. Találós kérdés: ebben a helyzet mennyi a negatív prediktív értéke a következő diagnosztikai tesztnek: „ha az alanynak van feje, akkor negatív koronavírusra”...?
A megfejtés: 98%! (Mindenkire azt mondjuk, hogy negatív, és 98% tényleg az.) Magyarán: a tesztünk annyit ért el, hogy a 98%-ot megemelte 98,2%-ra...
Amit nagyon fontos megérteni, hogy a fentiek önmagukban nem határozzák meg, hogy egy teszt alkalmazható-e a gyakorlatban, ez ugyanis csak akkor dönthető el, ha ismerjük a kétféle hibázás költségeit. A „költség” itt természetesen nem (csak) forintban mért költséget jelent: ide tartozik egy feleslegesen elvégzett további vizsgálat, vagy ellenkezőleg, egy meg nem kezdett kezelés okozta egészségkárosodás is. Egy kicsi tesztelés utáni betegség-valószínűség is elég lehet a betegség igazolására, ha a tévesen betegnek minősítés nem nagy gond a tévesen egészségesnek minősítéshez képest, és hasonlóan, egy nagy valószínűség is alapja lehet a betegség kizárásának, ha a tévesen egészségesnek minősítés nem nagy baj a tévesen betegnek minősítéshez képest.
A probléma abban van, hogy magának a tesztnek a megítéléséhez az számít, hogy mennyit változtat a betegség fennállásának a valószínűségén, márpedig, mint a fenti számok is mutatják, ezek a gyorstesztek szinte semmit. (Ez ráadásul nem csak köznyelvileg igaz, a fenti eredmények a szó statisztikai értelmében sem térnek el szignifikánsan a tökéletes működésképtelenség helyzetétől!) Jelen tudásunk szerint e gyorstesztekkel elérhető legnagyobb egészség-nyereség a törzs- és karizmok erősödése miközben kidobjuk őket a kukába.
Természetesen magának a közölt kutatásnak is vannak limitáció, például, hogy a PCR értékét bizonyosan helytállónak veszi (maga a PCR tényleg szinte tökéletesen specifikus és rendkívül szenzitív vizsgálat, de a mintavételt és -továbbítást már el lehet rontani), a mintanagysága ugyan nem kicsi, de a beteg száma az, kérdés lehet a tesztek végrehajtásának időzítése stb., de az eredmények erőssége nem sok kétséget hagy a végkonklúzió kapcsán.
Nem lehet elégszer hangsúlyozni, hogy a két teszt más célt szolgál: a PCR az aktuális fertőzést deríti fel, a gyorsteszt hátterében lévő szerológia erre csak korlátozottan alkalmas, még akkor is, ha tökéletesen működik, ezzel szemben – jó esetben – ki tudja mutatni az átvészelt fertőzést, amire meg a PCR nem képes. Nincs is ezzel gond, csak akkor ennek megfelelően kell(ene) használni a teszteket. Dermesztő, hogy ehhez képest az Országos Mentőszolgálat a két megvizsgált gyorsteszt egyikét használja tesztelésre.
Természetesen szükség lenne megbízható szerológiai vizsgálatokra, pláne most, hogy a betegek egy része tünetmentes, és ha ez „gyorstesztes” megoldással működne (léteznek egyéb szerológiai vizsgálatok is, csak azok pont azzal az előnnyel nem bírnak, hogy ennyire egyszerűek) az még jobb lenne, de addig is, a helyzet az, hogy a PCR drága, lassú, logisztikailag nehézkes, komoly laborhátteret igényel, egyszóval minden ellene szól, egyetlen dolgot kivéve: azt, hogy működik.
Zárásként fontos azt is rögzíteni, hogy nem arról van szó, hogy akkor most kiderült, hogy a szerológia mint koncepció rossz, maga a cikk is utal rá, hogy még csak annyi sem bizonyos, hogy a konkrét termékek silányak (elképzelhető például, hogy a vírus kínai variánsára lőtték össze őket), de egy dolog rögzíthető: ilyen tesztek gyakorlati alkalmazásának csak és kizárólag az alapos letesztelésük után van helye. Addig is, ezek a gyorstesztek a betegség diagnosztizálására – sem kizárása, sem megerősítésére – nem alkalmasak.
(A szerző klinikai biostatisztikus, orvosbiológiai mérnök, az Óbudai Egyetem Élettani Szabályozások Kutatóközpontjának habilitált egyetemi docense, a járvány során megalakult Járványmatematikai Modellező és Epidemiológiai Munkacsoport tagja. Az írás saját nézeteit tükrözi, nem hivatalos állásfoglalása az előbbi szerveknek.)
(Borítókép: Ricardo Arduengo / AFP)