Az OSZK webarchívuma azzal a céllal jött létre, hogy reprezentatív képet nyújtson az egy adott időszakban nyilvánosan elérhető, a magyar közönségnek szánt és a kulturális örökség részét képező online tartalomkínálatról, a hungarikumok körébe tartozó elektronikus dokumentumokról. Az elsődleges gyűjtőkör a tudományos, kulturális, oktatási, illetve közéleti jellegű nyilvános webes tartalmak.
Legutóbbi szelektív aratás fájltípusai 2022 augusztusában
A dokumentumok gyűjtése három csatornán keresztül történik: a legfontosabb magyar webhelyekről, kiemelt eseményekhez kötődve a főbb hírforrásokból, illetve általános jelleggel a magyar webtérről. Szelektíven kerül gyűjtésre a tudományos, kulturális, oktatási, közéleti jellegű tartalmak meghatározott köre. Az általános gyűjtés a .hu domén alatt regisztrált vagy egyéb doménhez tartozó, de magyar közönséget megcélzó nyilvános webhelyekre terjed ki. A webaratás csupán azon szervereket érinti, ahonnan technikailag biztosítható a tartalom automatikus lementése. Az aratás során a könyvtár figyelembe veszi a begyűjtő szoftver számára az adott webhely tulajdonosa által beállított korlátozásokat.
Az archivált webtartalom esetében a nemzeti könyvtár elsősorban annak hosszú távú megőrzésére törekszik. A szerzői és személyiségi jogok tiszteletben tartása érdekében a gyűjteménynek csak egy része tekinthető meg nyilvánosan, az archívum többi része csak a könyvtár zárt szolgáltatási felületén érhető el, elsősorban kutatási célokra.
A nyilvános gyűjteménybe részben az állami forrásból származó, részben egyes weboldalak tulajdonosai által felajánlott tartalmak kerülnek. A nem állami vagy önkormányzati fenntartású, illetve nem költségvetési támogatással létrehozott webhelyek esetében az intézmény szerződést köt a nyilvános szolgáltatásra.
A webaratásból származó ún. WARC fájlok összmérete a zárt archívumban 69 terabyte, a nyilvános archívumban 1,3 terabyte. Az egyéb formátumú mentések még körülbelül 0,5 terabyte-ot tesznek ki.
A nyilvános felület forgalmát a nemzeti könyvtár 2020 eleje óta méri, azóta 5147 látogatás történt 1340 címről. A zárt archívum használatáról egyelőre nem áll rendelkezésre adat, mivel az új szolgáltatás néhány hete indult az erre kijelölt helyi gépekről.
A közeljövő feladata egyfelől a digitális objektumok hosszú távú megőrzésének folyamatos biztosítása a legkorszerűbb eszközökkel. A jelenben lementett fájlokat a jövő generációi számára megtekinthető és kutatható állapotban kell tartani, ami nemcsak azok biztonságos és sérülésmentes tárolását jelenti, hanem az elavuló formátumok konvertálását vagy a korabeli szoftverkörnyezet megőrzését, emulálását is.
Másfelől terveink között szerepel a ma már megkerülhetetlen mesterségesintelligencia-alapú technológia beépítése a webarchiválási folyamatokba, amelynek segítségével lehetővé válik többek között az állami forrásból származó weboldalak teljes körű mentése, a digitális hungarikumok automatikus kiszűrése vagy a gépi tematikus rendezés.
Kiemelten foglalkozunk az archivált webtartalom kutathatóvá tételével különféle adatbányászati és adatvizualizációs alkalmazások segítségével. A learatott tartalom egyben hatalmas adathalmaz („Big Data”) is, ami különféle tudományágak (pl. történettudomány, nyelvészet, szociológia, informatika) számára jelent most és a jövőben még inkább értékes kutatási anyagot. Időben visszakövethető egy esemény, téma, szervezet stb. története, statisztikai elemzések készíthetők, kapcsolati hálók rajzolhatók fel. Az előállt monumentális szövegkorpusz ezenkívül a magyar nyelvű mesterségesintelligencia-alapú programok tanítóeszközeként is nélkülözhetetlen szerepet tölt be.
Mihály Eszter, Drótos László (Digitális Bölcsészeti Központ)