A Microsoft–Nvidia új modellje háromszor annyi paraméterből dolgozik, mint a GPT–3.
Mindössze másfél évig lehetett a világ legerősebb nyelvi mesterséges intelligenciája az Elon Musk alapította OpenAI-nál létrehozott GPT–3. A Microsoft és az Nvidia által a héten bejelentett Megatron–Turing Natural Language Generator (MT–NLG, vagy Megatron–Turing Természetes Nyelvi Generátor) immár a világ legnagyobb és legerősebb nyelvi generátor modellje. A Megatron–Turing által kezelt 530 milliárd paraméter háromszorosa a GPT–3-énak.
A paraméterek száma a mesterséges intelligencia betanításához használt adatmennyiséget, így az általa generált adatok minőségét jellemzi. A GPT–3 mesterséges intelligencia 175 millió paramétere is nagyon sok volt mindössze másfél milliárd paramétert kezelő elődjéhez, a GPT–2-höz képest. A rengeteg paraméter meg is tette a hatását: a GPT–3 olyan képességekkel rendelkezett, amire senki sem számított, például képes programot írni, fordítani vagy képek hiányzó részeit pótolni.
A Megatron–Turing erre triplázott rá. A betanításhoz az Nvidia biztosított 560 szervert, amelyek egyenként nyolc 80 gigabájtos videókártyát tartalmaztak. A betanításhoz a Pile nevű adathalmazt használták, ami egyebek között a teljes Wikipediát és PuibMed orvostudományi cikkadatbázist és a teljes GitHub forráskódkezelőt tartalmazza. A 825 gigabájtos szövegkupacot átválogatták a magasabb minőség érdekében, és hozzácsapták a Common Crawl nonprofit szervezet adatait, amely több milliárd weboldal tartalmát gyűjti adatbányászati felhasználásra kész formában.
A 85 millió dollárba kerülő betanítás végeredménye egy olyan nyelvi modell, amely képes mondatokat befejezni, szöveget értelmezni, érvelni, nyelvi következtetéseket levonni és szavakat értelmezni. A GPT–3-hoz hasonlóan a váratlan képességek még csak ezután bukkannak fel, amikor a Megatron–Turingot szélesebb körben használni kezdik. Ez utóbbi viszont még várat magára, mert egyelőre nem közölték, mikor próbálhatják ki céges fejlesztők.