Digitális Örökség Nemzeti Laboratórium
A Magyar Nemzeti Levéltár a szerteágazó projekt megvalósítása során több részfeladatban is együttműködik a partner egyetemekkel.
Optikai karakterfelismerés
Az optikai karakterfelismerés (OCR) egy olyan technológia, amely lehetővé teszi képek, szkennelt vagy digitálisan fotózott dokumentumok és a PDF fájlok szerkeszthető és szövegesen kereshető formába átalakítását. Az így kinyert szöveg kereshető, szerkeszthető, kivágható, archiválható. A technológia a géppel írt szövegek felismerését támogatja. Az OCR technológia az egyik első gépi látást használó dokumentumfeldolgozási technológia volt. Az elmúlt évtizedekben köszönhetően a hatékonyabb algoritmusoknak, a növekvő számítási kapacitásoknak majd a gépi tanulási módszerek alkalmazásának jelentős fejlődésen ment keresztül. A jelenleg elérhető dobozos alkalmazások hiányossága, hogy tömeges folyamatokban nem lehetséges a kapott eredmények hatékonyságának automatizált növelése, a validálási folyamat pedig csak különböző modulrendszerek beszerzésével valósulhat meg, ezért a technológia továbbra is innováció és kutatásigényes terület.
A program során célunk a fentebb említett mindhárom munkafázis részeként innovatív módszerek implementálása a jelenlegi levéltári munkafolyamatokba, a munkafolyamatlépések automatizálása. Az együttműködés eredményeként megvalósulhat egy magyar nyelvre optimalizált, tanítható, moduláris karakterfelismerő rendszer fejlesztése, amely magában foglalhatja a fentebb részletezett munkafázisokat.
Kézírásfelismerés
A kézírásfelismerés (HTR) a képi szövegfelismerés speciális területe, a szkennelt vagy digitálisan fotózott dokumentumokban kézírással rögzített tartalom szöveges kinyerését jelenti. Tekintettel arra, hogy a levéltárakban őrzött dokumentumok jelentős része kézírással került rögzítésre, ezeknek az egyetlen példányban létező, ezért korábbiakban csak manuális kutatás által hozzáférhető, jobb esetben az interneten képként megjeleníthető tartalmaknak a szöveges kereshetővé tétele a levéltári tartalom 21. századi kutatásának gyökeresen új, forradalmi lehetőségét kínálja.
Korábbi tapasztalataink birtokában a levéltár a program során olyan intézményközi szolgáltatási modell kialakítását célozza meg, amelyben optimalizálható a HTR technológiák fejlesztéséhez szükséges szakértelem, az algoritmusok integrálása, az üzemeltetési környezet kialakítása, a modellek alkalmazásához szükséges számítási kapacitások biztosítása és a HTR modellek levéltári újrahasznosítása.
Audiovizuális tartalmak feliratozása és szövegalapú elemzése
Az utóbbi években egyre szélesebb körben váltak használható a különböző hangzóanyagok leírásával dolgozó alkalmazások, más néven „speech to text” fejlesztések. A legnagyobb probléma ezekkel az volt, hogy a magyar nyelvre szabott alkalmazások száma igen csekély, az azok által használt magyar nyelvű korpuszok pedig rendkívül szűkre szabottak voltak. A „feliratozás” alprogramban kitűzött célunk, hogy az MNL őrizetében található, folyamatosan digitalizálásra, majd publikálásra kerülő audiovizuális tartalmainkat automatizált megoldásokkal feliratozhassuk. Ennek a mindennapokban is alkalmazott eredménye kettős. A feliratozott tartalmak könnyítik az információkhoz való hozzáférést és hallássérültek számára is elérhetővé teszik ezeket. Mindemellett az általános kutatás számára is komoly adalékot jelentenek, hiszen könnyebbé válik a több ezer órányi tartalomban való keresés, az automatikus segédletkészítés, valamint a szövegelemzés óriási tárháza nyílik meg.
Elektronikusan keletkezett dokumentumok hosszú távú megőrzése
Az elektronikusan keletkezett dokumentumok által jelentett kihívás a kulturális örökség megőrzését biztosító közgyűjtemények egyik legnagyobb kihívása. A digitális formában való megőrzés nemcsak a jogi értelemben vett hitelesség, de a használhatóság, hatékonyság és nem utolsósorban a környezeti fenntarthatóság szempontjából is prioritás. A digitálisan keletkezett tartalmak digitális formában való hozzáférhetősége pedig a tudományos kutatás és a demokratikus intézmények átláthatósága szempontjából is kiemelt állami érdek.
A digitális objektumok természetüknél fogva veszélyeztetettek. Függőségük az alkalmazásukat lehetővé tévő hardver és szoftverkörnyezettől nyilvánvaló, használatuk, értelmezésük csak alapos dokumentáció birtokában válik lehetővé. A hozzáférésükhöz, felhasználásukhoz fűződő jogok kezelését átszövi a szerzői jogok, személyes adatok, üzleti titkok és minősített iratok nehezen áttekinthető és alkalmazható hazai és nemzetközi szabályozása. A kulturális örökség megőrzését biztosító közgyűjteményekben új típusú szakértelmek (IT, data specialist, data curator) rendelkezésre állását feltételezik, amely a többnyire bölcsész hátterű könyvtárosokat, muzeológusokat és levéltárosokat foglalkoztató intézmények esetében nehezen biztosítható.
Az MNL jogszabályi kötelezettségeiből fakadóan elsők között kezdett el foglalkozni Magyarországon a „géppel olvasható iratok” megőrzésével, 1982-ben felállítva a Számítástechnikai Adathordozók Osztályát. 2001-es megalapozást követően öt évvel később fogott hozzá nagyvolumenű projektjéhez, amelynek eredményeként 2013-ban létrehozta az elektronikus levéltárat, majd 2020-ban azt az időközben csatlakozó megyei tagintézmények révén országossá tette. Ezeknek a tapasztalatoknak a birtokában képes támogatni a Nemzeti Labor célját, hogy intézményközi összefogásban kidolgozza a „Born digital” objektumok tartós megőrzését, hiteles transzformációját és felhasználását biztosító eszköztárat és szolgáltatási infrastruktúrát.
Danube AI
A Dube AI alprojekt célja a határon túli magyar vonatkozású kulturális gyűjtemények feldolgozása. A Magyar Nemzeti Levéltár digitalizálási kapacitásaival és szakértelmével segít az egyes gyűjtemények digitalizálásában, leírásában és hozzáférhetővé tételében.
A Digitális Örökség Nemzeti Laboratórium átfogó céljai
- A magyar nyelvre optimalizált nyelvfeldolgozó algoritmusok fejlesztése a szövegalapú oktatási, kutatási, valamint piaci alkalmazások felé nyit utat.
- A határon túli magyar nyelvű korpuszok priorizált integrálása mesterséges intelligencia alapú szolgáltatásokba felszámolja a jelenlegi aránytalanságokat.
- A digitális kulturális örökség kutathatóvá tételével szélesebb felhasználói kör számára nyújt célzottabb, intelligens hozzáférést a nemzeti kulturális örökséghez. A digitalizálás folyamatának gyorsítása MI eszközök révén, valamint a tömeges digitalizálás eredményeinek gépi tárgyszavazása, kéziratok automatikus felismertetése többszörösére emelheti széles körben felhasználható kulturális tartalmak mennyiségét.
- Az anyaország és a határon túli magyar közösség kutatási és innovációs szempontból releváns webes forrásainak webaratása, valamint a ’born digital’ anyagok archiválása és közzététele egy rendkívül értékes és ugyanakkor veszélyeztetett szeletét menti meg a magyar nemzeti kultúrának.
- A korábban magyar részvétel nélkül működő nemzetközi kutatási hálózatokhoz való csatlakozás egyrészt a kétirányú tudásáramlást, másrészt új pályázati és piaci források bevonását is lehetővé teszi.
A projektek további adatai:
2021
„Digitális Örökség Nemzeti Laboratórium” támogatási igény
Támogatói szerződés száma: IGSZF/1286/2021-ITMSZERZ
Konzorciumvezető: ELTE
Konzorciumi tagok: Bölcsészettudományi Kutatóközpont, Magyar Nemzeti Levéltár, Miskolci Egyetem
A Magyar Nemzeti Levéltár részére megállapított összeg: 14.026.320 Ft
Megvalósítás: 2021.07.01.-2021.12.31.
2022-2026
„Nemzeti Laboratóriumok létrehozása, komplex fejlesztése” címmel, 2022-2.1.1-NL-2022-00009 azonosító számú pályázati kiíráson „Digitális Örökség Nemzeti Laboratórium” címmel elnyert pályázat. (Hazai forrás)
Támogatói szerződés száma: 2022-2.1.1-NL-2022-00009
Konzorciumvezető: ELTE
Konzorciumi tagok: Bölcsészettudományi Kutatóközpont, Magyar Nemzeti Levéltár, Miskolci Egyetem
A pályázat teljes összege: 1.031.074.484 Ft
A Magyar Nemzeti Levéltár részére megállapított összeg: 94.428.996 Ft
Megvalósítás: 2022.07.01.-2026.02.28.
Sajtóközlemények
A projekt indulásáról szóló sajtóközlemény itt érhető el (PDF).
Új hozzászólás