Térképre vitték a múltat – Az MI segítségével fejleszt a levéltár

2025.02.07.
Új térképeket készített a Magyar Nemzeti Levéltár az AdatbázisokOnline oldalon a mesterséges intelligencia segítségével, aminek köszönhetően a kutatások új lendületet kaphatnak. A fejlesztés 2025-ben is folytatódik, és várhatóan hamarosan újabb eredményekkel jelentkezik a levéltár.

Számos dologban számíthatunk a mesterséges intelligencia támogatására, különösen, ha az adatbázisokban való keresések hatékonyságának növeléséről és az adatok pontosságának javításáról van szó. Az online adatbázisok a hagyományos levéltári segédletek felhasználását felgyorsították: a kutatás, ami korábban évekig tartott, néhány hónap alatt elvégezhető lett. Az utóbbi években rendelkezésre álló új technológiák még tovább bővítik a lehetőségeket, a gépi tanulás hatalmas mennyiségű kapcsolat és minta felismerését teszi lehetővé, az adatok tisztítása pontosabbá és hatékonyabbá teszi a levéltárosok munkáját és növeli a kutatások megbízhatóságát is.

A 2024-es év egyik legnagyobb volumenű fejlesztése mesterséges intelligencia alkalmazásával valósult meg a Magyar Nemzeti Levéltárban, amelynek köszönhetően kutatóink az AdatbázisokOnline felületén elérhető adatbázisokat térképeken böngészhetik.
 

Mi az a földrajzi névtér, és miért fontos?

A földrajzi névtér a Magyar Nemzeti Levéltár egységes földrajzi név adatbázisa, amely csaknem tizenkétmillió földrajzi fogalmat tartalmaz, ebből több százezer magyar vonatkozású. A kutatók, felhasználók sok esetben az iratokkal összefüggő földrajzi nevek és fogalmak alapján találják meg a levéltári iratokat, ezért a földrajzi nevek kiindulópontként szolgálnak a dokumentumok feltárásában. Ezért különösen fontos, hogy az iratokon szereplő földrajzi kifejezéseket összepárosítsuk a névtérben rögzített földrajzi fogalmakkal.
 

Adatgazdagított adatbázisok

A Magyar Nemzeti Levéltár földrajzi névtere több forrásból épült fel. Egy-egy földrajzi fogalmat többféle névalak is jelölhet, és fordítva is működik: egy név több különböző földrajzi fogalomra is utalhat. A mesterséges intelligencia ezeket az összefüggéseket elemzi, és megkeresi azokat a névvariánsokat vagy névalakokat, amelyek egy adott iraton szereplő földrajzi névhez a legnagyobb valószínűséggel kapcsolódnak.

Például, ha egy iraton az áll, hogy „Buda”, a rendszer az MI segítségével összekapcsolja a megfelelő földrajzi fogalommal – például a mai Budapesttel, a történelmi Budával vagy akár annak német elnevezésével, „Ofennel”. Hasonlóképpen, ha valaki Solymárra vonatkozó dokumentumokat keres, a rendszer nemcsak a „Solymár” név alapján keres, hanem figyelembe veszi a település német nevét, „Schaumar”-t is.

Az MI-technológia révén egy-egy iraton szereplő földrajzi név több, a földrajzi névtérben szereplő variánssal is összekapcsolódik. Az adatbázisban a találatok logikai sorrendje a legnagyobb valószínűségű megfeleltetéstől halad a kevésbé valószínűek felé.
 

Mi történik akkor, ha az emberi értelem és a mesterséges intelligencia eredménye eltér?

A levéltári feldolgozás során a levéltárosok gyakran már hozzárendeltek egy földrajzi névtér-elemet az adott segédletrekordhoz. Ilyen esetekben, a térképes, illetve az adatbázis rekord megjelenítésnél az emberi értelemmel kiválasztott névtér elem prioritást élvez a mesterséges intelligenciával támogatott szoftveres alkalmazás által javasolt földrajzi névrekorddal szemben.
 

Hogyan használható?

A keresőfelületen a felhasználó az iratokban szereplő, kiemelt névalakokhoz kapcsolódó földrajzi fogalmakat is láthatja, amelyek térképes megjelenítéssel is elérhetők. Az iraton elsőként feltüntetett földrajzi névhez tartozó földrajzi fogalom a webes felületen térképen is megjelenik.

A 2024-ben megkezdett adatgazdagítás során négy levéltári állomány esetében történt adatbővítés:


Az eredményeket tehát jó szívvel bocsátjuk kutatóink rendelkezésére, fenntartva azt, hogy jelen tudásunk szerint a mesterséges intelligenciával létrehozott adatok megbízhatósága nem 100 százalékos. Ugyanakkor a tesztek alapján a tévesen azonosított névtér rekordok aránya nem éri el az 5 százalékot. Az adatgazdagítás 2025-ben is folytatódik, és folyamatosan jelentkezünk az újabb eredményekkel.

 

Utolsó frissítés:

2025.02.07.

Új hozzászólás

A hozzászóláshoz regisztráció és bejelentkezés szükséges