Térképre vitték a múltat – Az MI segítségével fejleszt a levéltár
Számos dologban számíthatunk a mesterséges intelligencia támogatására, különösen, ha az adatbázisokban való keresések hatékonyságának növeléséről és az adatok pontosságának javításáról van szó. Az online adatbázisok a hagyományos levéltári segédletek felhasználását felgyorsították: a kutatás, ami korábban évekig tartott, néhány hónap alatt elvégezhető lett. Az utóbbi években rendelkezésre álló új technológiák még tovább bővítik a lehetőségeket, a gépi tanulás hatalmas mennyiségű kapcsolat és minta felismerését teszi lehetővé, az adatok tisztítása pontosabbá és hatékonyabbá teszi a levéltárosok munkáját és növeli a kutatások megbízhatóságát is.
A 2024-es év egyik legnagyobb volumenű fejlesztése mesterséges intelligencia alkalmazásával valósult meg a Magyar Nemzeti Levéltárban, amelynek köszönhetően kutatóink az AdatbázisokOnline felületén elérhető adatbázisokat térképeken böngészhetik.
Mi az a földrajzi névtér, és miért fontos?
A földrajzi névtér a Magyar Nemzeti Levéltár egységes földrajzi név adatbázisa, amely csaknem tizenkétmillió földrajzi fogalmat tartalmaz, ebből több százezer magyar vonatkozású. A kutatók, felhasználók sok esetben az iratokkal összefüggő földrajzi nevek és fogalmak alapján találják meg a levéltári iratokat, ezért a földrajzi nevek kiindulópontként szolgálnak a dokumentumok feltárásában. Ezért különösen fontos, hogy az iratokon szereplő földrajzi kifejezéseket összepárosítsuk a névtérben rögzített földrajzi fogalmakkal.
Adatgazdagított adatbázisok
A Magyar Nemzeti Levéltár földrajzi névtere több forrásból épült fel. Egy-egy földrajzi fogalmat többféle névalak is jelölhet, és fordítva is működik: egy név több különböző földrajzi fogalomra is utalhat. A mesterséges intelligencia ezeket az összefüggéseket elemzi, és megkeresi azokat a névvariánsokat vagy névalakokat, amelyek egy adott iraton szereplő földrajzi névhez a legnagyobb valószínűséggel kapcsolódnak.
Például, ha egy iraton az áll, hogy „Buda”, a rendszer az MI segítségével összekapcsolja a megfelelő földrajzi fogalommal – például a mai Budapesttel, a történelmi Budával vagy akár annak német elnevezésével, „Ofennel”. Hasonlóképpen, ha valaki Solymárra vonatkozó dokumentumokat keres, a rendszer nemcsak a „Solymár” név alapján keres, hanem figyelembe veszi a település német nevét, „Schaumar”-t is.
Az MI-technológia révén egy-egy iraton szereplő földrajzi név több, a földrajzi névtérben szereplő variánssal is összekapcsolódik. Az adatbázisban a találatok logikai sorrendje a legnagyobb valószínűségű megfeleltetéstől halad a kevésbé valószínűek felé.
Mi történik akkor, ha az emberi értelem és a mesterséges intelligencia eredménye eltér?
A levéltári feldolgozás során a levéltárosok gyakran már hozzárendeltek egy földrajzi névtér-elemet az adott segédletrekordhoz. Ilyen esetekben, a térképes, illetve az adatbázis rekord megjelenítésnél az emberi értelemmel kiválasztott névtér elem prioritást élvez a mesterséges intelligenciával támogatott szoftveres alkalmazás által javasolt földrajzi névrekorddal szemben.
Hogyan használható?
A keresőfelületen a felhasználó az iratokban szereplő, kiemelt névalakokhoz kapcsolódó földrajzi fogalmakat is láthatja, amelyek térképes megjelenítéssel is elérhetők. Az iraton elsőként feltüntetett földrajzi névhez tartozó földrajzi fogalom a webes felületen térképen is megjelenik.
A 2024-ben megkezdett adatgazdagítás során négy levéltári állomány esetében történt adatbővítés:
- A Hajdú-Bihar megyei egyházi levéltárak anyakönyvi adatbázisa
- Miskolc város 1880-as és 1900-as népszámlálási adatbázisa
- A címereslevelek adatbázisa
- A Magyar Királyi Belügyminisztérium Államrendészeti kartotékrendszerének „Csendőrkartonok” adatbázisa
Az eredményeket tehát jó szívvel bocsátjuk kutatóink rendelkezésére, fenntartva azt, hogy jelen tudásunk szerint a mesterséges intelligenciával létrehozott adatok megbízhatósága nem 100 százalékos. Ugyanakkor a tesztek alapján a tévesen azonosított névtér rekordok aránya nem éri el az 5 százalékot. Az adatgazdagítás 2025-ben is folytatódik, és folyamatosan jelentkezünk az újabb eredményekkel.
Új hozzászólás