Így tanítják meg az AI-t a történelmi viták értelmezésére
2026. április 15. 17:41 Múlt-kor
A kulturális örökségről szóló szövegek rengeteg értékes tudást őriznek, de ezt nehéz úgy rendszerezni, hogy géppel is jól kereshető legyen. Egy új kutatás erre kínál megoldást. A szerzők olyan módszert dolgoztak ki, amely nagy nyelvi modellek és ontológiai tervezés segítségével tudásgráffá alakítja a vitatott eredetű dokumentumokról és tárgyakról szóló tudományos diskurzust. A rendszer nemcsak azt próbálja rögzíteni, hogy egy műtárgyról vagy szövegről mit állítanak, hanem azt is, hogy ki, milyen bizonyítékokra támaszkodva és milyen alternatív értelmezések mentén fogalmazta meg a véleményét.

Korábban
Miért nehéz a tudásgráf használata a kulturális örökség szövegeiben
A tudásgráf olyan adatmodell, amely nem különálló tényeket tárol, hanem megmutatja, hogyan kapcsolódnak egymáshoz az információk. A kulturális örökség kutatásában a tudásgráf ma már alapvető eszköz az adatok megosztására és összekapcsolására. A könyvtárak, levéltárak és múzeumok világa régóta használ ilyen megoldásokat. A gond az, hogy ezek a rendszerek többnyire csak a metaadatokat kezelik jól. A gazdag, érvelő, értelmező szövegek tartalma gyakran hosszú leírásmezőkben marad, és nem válik igazán lekérdezhetővé.
Ez különösen látványos az olyan vitákban, amelyek egy dokumentum, műtárgy vagy más történeti emlék hitelességéről szólnak. Ilyenkor a kutatók nem egyszerű tényeket sorolnak fel. Érvelnek, mérlegelik a bizonyítékokat, ütköztetik a nézeteket, és sokszor eltérő következtetésre jutnak. A szerzők szerint éppen ez az a tudásréteg, amely a mai strukturált adatbázisokból rendszerint hiányzik.
A tanulmány ezt a problémát a konstantini adománylevél példájával világítja meg. A szöveg felidézi, hogy Lorenzo Valla a 15. században filológiai alapon leplezte le hamisítványként a dokumentumot, mert a latin nyelvhasználat több ponton későbbi korra utalt. A preprint érvelése szerint az ilyen összetett tudományos vita a szócikkek szabad szövegében még megjelenik, a strukturált adatbázisokban viszont erősen leegyszerűsödik.

Öt lépésben épül fel az új tudásgráf módszer
A kutatók ATR4CH néven mutatják be a módszertanukat. A név azt jelzi, hogy adaptív módon alakítják át a szöveget RDF-alapú, vagyis géppel feldolgozható szemantikus formává. A rendszer a kulturális örökség területére készült, de a szerzők szerint tágabban a bölcsészet más területein is használható lehet.
A módszer három alapból indul ki. Kell hozzá egy dokumentumkorpusz, egy célontológia, amely meghatározza, hogyan nézzen ki a tudás reprezentációja, valamint egy kompetenciakérdés-készlet, amely kijelöli, mire kell tudnia válaszolni a rendszernek. Ebből öt egymásra épülő lépés következik.
Az első lépés az alapozó elemzés és tervezés. Itt azt térképezik fel, milyen típusú állítások, viták és bizonyítékok fordulnak elő a szövegekben. A második lépés a minimális működő annotáció kialakítása. Ekkor olyan jelölési rendszert készítenek, amely már képes megfogni a legfontosabb elemeket. A harmadik lépésben felépítik a kinyerési architektúrát. A negyedikben finomítják és összekapcsolják a részeket. Az ötödik lépés maga a tudáskivonás és az értékelés.
A szerzők hangsúlyozzák, hogy a kulturális örökség területén az annotáció, az ontológiai tervezés és a tudáskivonás nem választható szét élesen. Ezek kölcsönösen alakítják egymást. Ezért a módszer nem egyszerűen lineáris, hanem iteratív is.
Milyen anyagra tanították a rendszert
A kutatás nem közvetlenül elsődleges tudományos cikkeken indult, hanem a Wikipedia megfelelő szócikkein. A szerzők olyan oldalakat gyűjtöttek össze, amelyek történeti hamisítványokkal, hoaxokkal és hitelességi vitákkal foglalkoznak. Az első körben 31 kategóriából 1301 dokumentumot gyűjtöttek be. Ezek közül 717 cikket kizártak, mert nem tartalmazott valódi tudományos vitát, vagy nem kulturális örökségi tételről szólt. Így végül 581 cikkből álló korpuszt hoztak létre.
A pilotkorpuszba hét szócikk került. A konstantini adománylevél, az Eremin-levél, a Getty-kúrosz, a Historia Augusta, Homérosz élete, Theophanu császárné házassági oklevele és a Cion bölcseinek jegyzőkönyvei. A kiválasztásnál fontos szempont volt, hogy többféle korszak és dokumentumtípus jelenjen meg, és a szövegekben világosan elkülönüljenek az egymással vitázó tudományos álláspontok.
A tudásgráf mögött álló modell nemcsak a tárgy vagy szöveg alapadatait kezeli. Külön réteget kapnak a véleményt megfogalmazó szereplők, a hitelességi ítéletek, az evidenciák és az alternatív hipotézisek is. A rendszer így azt is követni tudja, hogy egy kutató mire alapozta a véleményét, és milyen más értelmezési lehetőségek maradtak nyitva.
Hogyan dolgozik a tudásgráf építő rendszer
A kutatók több komponenst kapcsoltak egymásra. A névfelismeréshez a GliNER modellt használták. A strukturált információkinyerést nagy nyelvi modellek végezték. A külső tudásbázisokhoz való kapcsolást szabályalapú entitás-összerendelés segítette.
A kísérletben három modellt vetettek össze. Az egyik a Claude Sonnet 3.7 volt, a másik a Llama 3.3 70B, a harmadik pedig a GPT-4o-mini. A rendszer lépésről lépésre haladt. Először kinyerte a kulturális örökségi tétel metaadatait. Utána megpróbálta azonosítani, kik azok a szereplők, akik tudományos állítást fogalmaznak meg. Ezután következett az entitások összerendelése, majd a vélemények és ítéletek osztályozása, az evidenciák feltárása, végül a hipotézisek kinyerése.
A modell célja nem csupán az volt, hogy egy tárgyat vagy dokumentumot hamisnak vagy autentikusnak minősítsen. A kutatók azt szerették volna, hogy a tudásgráf megőrizze a vita szerkezetét is. Vagyis ne csak a végkövetkeztetés jelenjen meg, hanem az is, melyik kutató milyen állítást tett, milyen bizonyítékra hivatkozott, és milyen alternatív magyarázat merült fel.
Miért érdekes ez a kulturális örökség számára
A tanulmány egyik legfontosabb állítása az, hogy a kulturális örökség intézményei így nemcsak egyszerű leíró adatokat tudnának átemelni strukturált formába, hanem a tudományos értelmezések bonyolult hálózatát is. Ez nagy különbség. Egy tudásgráf ugyanis nemcsak arra adhat választ, hogy mi egy tárgy neve vagy kora, hanem arra is, ki vitatta az eredetét, milyen érvekkel, és milyen ellenérvek jelentek meg.
A szerzők szerint ennek gyakorlati haszna lehet a metaadat-gazdagításban, a kutathatóság javításában és a tudásfelfedezésben is. Külön előny, hogy a kisebb modellek sem maradtak messze a legerősebb rendszerektől. Ez azt sugallja, hogy a módszer költséghatékonyabban is bevezethető lehet, főleg olyan intézményekben, ahol kevés a technikai és pénzügyi erőforrás.
A tudásgráf korlátai és a következő lépés
A kutatók maguk is jelzik a módszer korlátait. Az egész rendszer egyelőre angol nyelvű Wikipedia-szövegeken futott. Ez egyszerre jelent nyelvi és műfaji korlátot. A valódi tudományos szakirodalom sokkal sűrűbb, összetettebb és eltérő nyelvezetű lehet.
Szintén fontos korlát, hogy a teljes automatizálás még nem reális cél. A szerzők szerint emberi ellenőrzésre továbbra is szükség van, különösen az utófeldolgozásban. A jövőbeli fejlesztések ezért a többnyelvűségre, a tudományos szereplők pontosabb azonosítására és a felhasználóbarát, emberi ellenőrzéssel működő megoldásokra összpontosíthatnak.
Támogasd a
szerkesztőségét!

történelmi magazin
legújabb számát?
kedvezményes előfizetés 1 évre (5 szám)
bankkártyás fizetés esetén 20% kedvezménnyel.
Az éves előfizetés már tartalmazza az őszi különszámot.
Az első 500 előfizetőnek.

- Leomlott a mexikói Ihuatzio piramisának egy része 15:12
- Elvis Presley utolsó koncertjén is időutazót láttak 13:53
- Ősi DNS-kutatás cáfolja Pompeji ikonikus emberi történeteit 13:02
- Marlene Dietrichről rendez életrajzi filmet Agnieszka Holland 12:17
- Matisse művészete még Yves Saint Laurent-t is megihlette 11:53
- Közös expedíció kutatja az indiai Oresund hajóroncsot 10:52
- Dokumentumfilm mutatta be I. Jakab király hálószobai viszonyait 10:01
- Római kori Minerva-szentélyt találtak egy ókori kőfejtőben 09:14













