Így tanítják meg az AI-t a történelmi viták értelmezésére

2026. április 15. 17:41 Múlt-kor

A kulturális örökségről szóló szövegek rengeteg értékes tudást őriznek, de ezt nehéz úgy rendszerezni, hogy géppel is jól kereshető legyen. Egy új kutatás erre kínál megoldást. A szerzők olyan módszert dolgoztak ki, amely nagy nyelvi modellek és ontológiai tervezés segítségével tudásgráffá alakítja a vitatott eredetű dokumentumokról és tárgyakról szóló tudományos diskurzust. A rendszer nemcsak azt próbálja rögzíteni, hogy egy műtárgyról vagy szövegről mit állítanak, hanem azt is, hogy ki, milyen bizonyítékokra támaszkodva és milyen alternatív értelmezések mentén fogalmazta meg a véleményét.

Korábban

Miért nehéz a tudásgráf használata a kulturális örökség szövegeiben

A tudásgráf olyan adatmodell, amely nem különálló tényeket tárol, hanem megmutatja, hogyan kapcsolódnak egymáshoz az információk. A kulturális örökség kutatásában a tudásgráf ma már alapvető eszköz az adatok megosztására és összekapcsolására. A könyvtárak, levéltárak és múzeumok világa régóta használ ilyen megoldásokat. A gond az, hogy ezek a rendszerek többnyire csak a metaadatokat kezelik jól. A gazdag, érvelő, értelmező szövegek tartalma gyakran hosszú leírásmezőkben marad, és nem válik igazán lekérdezhetővé.

Ez különösen látványos az olyan vitákban, amelyek egy dokumentum, műtárgy vagy más történeti emlék hitelességéről szólnak. Ilyenkor a kutatók nem egyszerű tényeket sorolnak fel. Érvelnek, mérlegelik a bizonyítékokat, ütköztetik a nézeteket, és sokszor eltérő következtetésre jutnak. A szerzők szerint éppen ez az a tudásréteg, amely a mai strukturált adatbázisokból rendszerint hiányzik.

A tanulmány ezt a problémát a konstantini adománylevél példájával világítja meg. A szöveg felidézi, hogy Lorenzo Valla a 15. században filológiai alapon leplezte le hamisítványként a dokumentumot, mert a latin nyelvhasználat több ponton későbbi korra utalt. A preprint érvelése szerint az ilyen összetett tudományos vita a szócikkek szabad szövegében még megjelenik, a strukturált adatbázisokban viszont erősen leegyszerűsödik.

Öt lépésben épül fel az új tudásgráf módszer

A kutatók ATR4CH néven mutatják be a módszertanukat. A név azt jelzi, hogy adaptív módon alakítják át a szöveget RDF-alapú, vagyis géppel feldolgozható szemantikus formává. A rendszer a kulturális örökség területére készült, de a szerzők szerint tágabban a bölcsészet más területein is használható lehet.

A módszer három alapból indul ki. Kell hozzá egy dokumentumkorpusz, egy célontológia, amely meghatározza, hogyan nézzen ki a tudás reprezentációja, valamint egy kompetenciakérdés-készlet, amely kijelöli, mire kell tudnia válaszolni a rendszernek. Ebből öt egymásra épülő lépés következik.

Az első lépés az alapozó elemzés és tervezés. Itt azt térképezik fel, milyen típusú állítások, viták és bizonyítékok fordulnak elő a szövegekben. A második lépés a minimális működő annotáció kialakítása. Ekkor olyan jelölési rendszert készítenek, amely már képes megfogni a legfontosabb elemeket. A harmadik lépésben felépítik a kinyerési architektúrát. A negyedikben finomítják és összekapcsolják a részeket. Az ötödik lépés maga a tudáskivonás és az értékelés.

A szerzők hangsúlyozzák, hogy a kulturális örökség területén az annotáció, az ontológiai tervezés és a tudáskivonás nem választható szét élesen. Ezek kölcsönösen alakítják egymást. Ezért a módszer nem egyszerűen lineáris, hanem iteratív is.

Milyen anyagra tanították a rendszert

A kutatás nem közvetlenül elsődleges tudományos cikkeken indult, hanem a Wikipedia megfelelő szócikkein. A szerzők olyan oldalakat gyűjtöttek össze, amelyek történeti hamisítványokkal, hoaxokkal és hitelességi vitákkal foglalkoznak. Az első körben 31 kategóriából 1301 dokumentumot gyűjtöttek be. Ezek közül 717 cikket kizártak, mert nem tartalmazott valódi tudományos vitát, vagy nem kulturális örökségi tételről szólt. Így végül 581 cikkből álló korpuszt hoztak létre.

A pilotkorpuszba hét szócikk került. A konstantini adománylevél, az Eremin-levél, a Getty-kúrosz, a Historia Augusta, Homérosz élete, Theophanu császárné házassági oklevele és a Cion bölcseinek jegyzőkönyvei. A kiválasztásnál fontos szempont volt, hogy többféle korszak és dokumentumtípus jelenjen meg, és a szövegekben világosan elkülönüljenek az egymással vitázó tudományos álláspontok.

A tudásgráf mögött álló modell nemcsak a tárgy vagy szöveg alapadatait kezeli. Külön réteget kapnak a véleményt megfogalmazó szereplők, a hitelességi ítéletek, az evidenciák és az alternatív hipotézisek is. A rendszer így azt is követni tudja, hogy egy kutató mire alapozta a véleményét, és milyen más értelmezési lehetőségek maradtak nyitva.

Hogyan dolgozik a tudásgráf építő rendszer

A kutatók több komponenst kapcsoltak egymásra. A névfelismeréshez a GliNER modellt használták. A strukturált információkinyerést nagy nyelvi modellek végezték. A külső tudásbázisokhoz való kapcsolást szabályalapú entitás-összerendelés segítette.

A kísérletben három modellt vetettek össze. Az egyik a Claude Sonnet 3.7 volt, a másik a Llama 3.3 70B, a harmadik pedig a GPT-4o-mini. A rendszer lépésről lépésre haladt. Először kinyerte a kulturális örökségi tétel metaadatait. Utána megpróbálta azonosítani, kik azok a szereplők, akik tudományos állítást fogalmaznak meg. Ezután következett az entitások összerendelése, majd a vélemények és ítéletek osztályozása, az evidenciák feltárása, végül a hipotézisek kinyerése.

A modell célja nem csupán az volt, hogy egy tárgyat vagy dokumentumot hamisnak vagy autentikusnak minősítsen. A kutatók azt szerették volna, hogy a tudásgráf megőrizze a vita szerkezetét is. Vagyis ne csak a végkövetkeztetés jelenjen meg, hanem az is, melyik kutató milyen állítást tett, milyen bizonyítékra hivatkozott, és milyen alternatív magyarázat merült fel.

Miért érdekes ez a kulturális örökség számára

A tanulmány egyik legfontosabb állítása az, hogy a kulturális örökség intézményei így nemcsak egyszerű leíró adatokat tudnának átemelni strukturált formába, hanem a tudományos értelmezések bonyolult hálózatát is. Ez nagy különbség. Egy tudásgráf ugyanis nemcsak arra adhat választ, hogy mi egy tárgy neve vagy kora, hanem arra is, ki vitatta az eredetét, milyen érvekkel, és milyen ellenérvek jelentek meg.

A szerzők szerint ennek gyakorlati haszna lehet a metaadat-gazdagításban, a kutathatóság javításában és a tudásfelfedezésben is. Külön előny, hogy a kisebb modellek sem maradtak messze a legerősebb rendszerektől. Ez azt sugallja, hogy a módszer költséghatékonyabban is bevezethető lehet, főleg olyan intézményekben, ahol kevés a technikai és pénzügyi erőforrás.

A tudásgráf korlátai és a következő lépés

A kutatók maguk is jelzik a módszer korlátait. Az egész rendszer egyelőre angol nyelvű Wikipedia-szövegeken futott. Ez egyszerre jelent nyelvi és műfaji korlátot. A valódi tudományos szakirodalom sokkal sűrűbb, összetettebb és eltérő nyelvezetű lehet.

Szintén fontos korlát, hogy a teljes automatizálás még nem reális cél. A szerzők szerint emberi ellenőrzésre továbbra is szükség van, különösen az utófeldolgozásban. A jövőbeli fejlesztések ezért a többnyelvűségre, a tudományos szereplők pontosabb azonosítására és a felhasználóbarát, emberi ellenőrzéssel működő megoldásokra összpontosíthatnak.

Támogasd a szerkesztőségét!

Miért támogassam a Múlt-kort?

2026. nyár: A Harmadik Birodalom első asszonyai

Olvasta már a Múlt-kor
történelmi magazin
legújabb számát?

kedvezményes előfizetés 1 évre (5 szám)

Nyomtatott előfizetés vásárlása
bankkártyás fizetés esetén 20% kedvezménnyel.
Az éves előfizetés már tartalmazza az őszi különszámot.

~~12 450 ft~~ 9 990 Ft

Digitális előfizetés vásárlása a teljes archívumhoz való hozzáféréssel 25% kedvezménnyel.
Az első 500 előfizetőnek.

~~20 000 ft~~ 14 990 Ft

Kérdésem van az előfizetésel kapcsolatban

előfizetek

ősz
Múlt-kor magazin 2017

Legfrissebb

Legolvasottabb

I. Gazdaság, gazdaságpolitika, anyagi kultúra, pénzügyi és gazdasági ismeretek / 3. A keleti és a nyugati blokk jellemzői a kétpólusú világ időszakában

3. A keleti és a nyugati blokk jellemzői a kétpólusú világ időszakában
I. Gazdaság, gazdaságpolitika, anyagi kultúra, pénzügyi és gazdasági ismeretek

Játsszon!

Történelmi adattárak

június 25.Mai évfordulók

1932	A felsőház elfogadja az 1932: XI. törvénycikket
1975	Mozambik elszakad Portugáliától
1991	A horvátok az önállóság mellett döntenek
Az összes mai évforduló