Index Vakbarát Hírportál

Ráengedték a mesterséges intelligenciát az iskolai kompetenciatesztekre, meglepő eredmény született

2025. március 15., szombat 13:58

Az elmúlt hetekben lezajlott egy kutatás, amelyben a mesterséges intelligenciák (AI) kompetenciáit kutatva ráengedték a nyelvi modelleket (az OpenAI-tól kezdve a Geminin keresztül a DeepSeekig mindent) az iskolai országos kompetenciamérések feladatsoraira. Egészen érdekes eredmények születtek, amiket Sajtos István, a PeakX innovációs részlegének üzletágvezetője úgy summázott, hogy az AI ugyan sokat segíti, de nem helyettesíti az emberi intelligenciát, és van még hova fejlődnie.

Az elmúlt hetekben az iskolai kompetenciamérések megváltoztatásától volt hangos a sajtó, majd a belügy végül tisztázta, hogy Pintér Sándor rendelettervezete egyelőre marad tervezet státuszban, ugyanis annyi észrevétel érkezett a mérések osztályozásával kapcsolatban, hogy a tárca még nem dolgozta fel az adatokat. Válaszukból az derült ki, hogy a jelenlegi szabályozásban nem lesz változás, így az egyeztetéseket tovább folytatják. 

A PeakX viszont teljesen más oldalról közelítette meg a kompetenciamérések okozta nehézségeket, ugyanis legutóbbi kutatásukban a mesterségesintelligencia-modellek magyar oktatási környezetben való teljesítményét vizsgálták, és azt, hogy a legnépszerűbb AI-modellek hogyan állják meg a helyüket az országos iskolai kompetenciamérések során. A kutatás lényege, hogy a fejlődő AI-modellek valóban képesek-e helytállni a mindennapi életben, vagy csak mesterséges tesztkörnyezetekben brillíroznak.

A mesterséges intelligencia nem csodaszer, valós környezetben való alkalmazása komoly kihívásokkal jár

– nyilatkozta Sajtos István, a Peak innovációs részlegének üzletágvezetője. „Kísérletünkben a legnépszerűbb AI-modelleket – mint például az OpenAI GPT-4o, a Claude Sonnet 3.7, a Google Gemini Flash 2.0, az Elon Musk xAI-a által fejlesztett Grok 3, valamint a kínai DeepSeek v3 – valós, hazai oktatási kontextusban teszteltük: az országos iskolai kompetenciaméréseken” – tette hozzá.

Az eredményekről egy nyilvános sajtóeseményen számoltak be a Peak főhadiszállásán, ahol bemutatták a kísérlet technológiai alapjait és megközelítését, élőben tesztelték a népszerűbb AI-okat a kompetenciaméréseken, valamint azt is bemutatták, hogy milyen más területeken használható a mesterséges intelligencia hatékonyan. 

Kompetenciák halmaza

Sajtos István azzal kezdte a prezentációt, hogy a kompetenciamérés nem a bemagolt tudást méri, hanem egy általános kompetenciát a mindennapi életből vett komplex feladatokkal, az objektíven kiértékelt eredményekkel pedig fel lehet térképezni az iskolák, a régiók fejlődését. Ugyanígy ők is mérik az AI-k kompetenciáit, így adta magát a dolog, hogy a kettőt össze kellene vonni. 

Az AI-k teljesítményét több benchmark programmal is mérik (MMLU, HumanEval, MATH, GPQA), ezek a mesterséges intelligencia különböző területein mért fejlődést szondázzák, ezeket az új modelleknél, modellfrissítéseknél szokták bevetni, hogy megtudják, mennyit fejlődtek a szoftverek. Az összehasonlítási eredményekből kitűnt, hogy a GPQA-teszteknél (ahol nem lehet egyszerűen rákeresni a megoldásra a neten) a leggyengébbek az eredmények, viszont a sima tudásalapú, programozás részeken nagyjából mind jól teljesített (90 százalék feletti eredményekkel). A matematikai feladatoknál viszont felemás az összkép. 

Az iskolai kompetenciaméréseknél a különböző AI-ok azt az utasítást kapták, hogy oldják meg a szövegben – vagy képes ábrák esetén a képen – a feladatot, nem próbálkoztak különböző paraméterekkel. Matematikánál és szövegértésnél kaptak mindössze mérhető adatokat, a többi tantárgynál annyira kevés adat állt rendelkezésre, hogy nem voltak reprezentatívak az eredmények. 

Az eredmények mellett az is fontos volt, hogy az AI-ok milyen sebességgel és milyen költségigénnyel oldották meg a feladatokat.

A végeredményekből kiolvasható volt, hogy a legtöbb szoftver a szövegértéssel tökéletesen megbirkózott – 90 százalék feletti eredménnyel, de nem volt ritka a 100 százalék sem –, viszont a matekkal már meggyűlt a bajuk, ezt a szakemberek a képekre vezették vissza, amelyekkel például a DeepSeek vagy az OpenAI o1-minije nem tudott mit kezdeni.

Technikai részletek

A Peak kíváncsi volt, hogy kiszakítva a laborkörnyezetből hogyan teljesítenek az AI-ok, ugyanis hipotézisként felvetették, hogy egy hosszabb távú, összetettebb feladattal az egyszerűbb programok nem boldogulnak, nem biztos, hogy megértik, hogy az életből vett példák pontosan mire vonatkoznak.

Az AI-ok nehezen olvasnak le grafikonról pontokat, nehezen érzékelik a képeket, ezekben a kérdésekben kifejezetten korlátozottak a nyelvi modellek

– erősítette meg Sajtos a cég felvetését. 

Összegezve Sajtos azt mondta, hogy az OpenAI nem véletlenül piacvezető, hiszen az o1 egyértelműen kiemelkedett mindkét feladattípusban, még az Anthropic Sonat 3.7-es modellje volt képes 60 százalék felett teljesíteni matekból, a 70 százalékot pedig csak az o1 haladta meg. A lista végén mindkét tantárgyból egyértelműen a DeepSeek áll, amely matekból 10 százalék körül teljesített, szövegértésből pedig jóval a többiek mögött lemaradva a 70 százalék körüli eredményeket ostromolta.

A nagyvállalati bevezetés három problémába ütközik: az integráció nehézsége, a bizalomhiány és a kevés szakember. A bizalomhiány nem véletlen a szakember szerint, hiszen a nagy nyelvi modellek hallucinálhatnak és „fagyhatnak” is – megpróbálják kitölteni azt a területet, amire nem tudják a választ –, ráadásul az áttérés nem olcsó mulatság. Éppen ezért egy RAG- (Retrival Augment Generation) -modellt dolgoztak ki, amely egy korlátozott környezetet biztosít a modelleknek, amelyben sokkal fókuszáltabban tudnak működni, és pontosabb válaszokkal szolgálnak.

Ennek lényege, hogy a feltett kérdésre/kapott feladatra az AI agent (ügynök) kiosztja a feladatokat alügynököknek (fordító AI, adatbázis, táblázat, bármi), amik abban a részfeladatban a legjobbak, majd a részválaszokat összegyúrva a végén megadja a kérdésünkre a választ – sokkal pontosabban, mint ha csak egy szimpla AI-t használtunk volna.

Végül azzal zárta Sajtos a prezentációt, hogy a modellek még nem tökéletesek, viszont egyértelműen ajánlatos használni, hiszen hatalmas lehetőségek vannak az AI-ban. 

Az AI segíti, de nem helyettesíti az emberi intelligenciát

– összegezte a PeakX vezetője.

Egyéb területek

Ezután bemutatta, hogy milyen más területeken használható az AI-asszisztens hatékonyan. Előkerültek a tőkebevonások, de a bankszakma is, ahol például az AI-asszisztens válaszol az ügyfelek által feltett kérdésekre, és élő ügyintézőt csak akkor keres meg, ha olyan problémával találkozik, amire nem találja az adatbázisokban a választ. Ez jobb ügyfélélményt és gyorsabb ügyintézést eredményez.

De például a munkáshitel-asszisztens – amely szintén az ügyfeleknek könnyíti meg az életét – is egy jó példa, hiszen 100 százalékos a helyes válaszadási mutatója, tehát a közel 100 oldalas útmutatóból mindent úgy olvas ki, hogy a kérdező megkapja a számára szükséges információt. 

Emellett a kkv-k-nak is segít eligazodni a Demján Sándor Program előfelméréseiben, tehát kifejezetten a mindennap emberének segít eligazodni az unalmas napi teendők végeláthatatlan labirintusában. A PeakX piacra lépését a szerdai eseményen Suppan Márton, a Peak Csoport alapítója jelentette be.

(Borítókép: Diákok Törökországban. Fotó: Ercin Erturk / Anadolu / Getty Images)

Rovatok