Már több mint 70 terabyte-nyi weboldalt aratott le a nemzeti könyvtár

2022. szeptember 02. 08:42 - nemzetikonyvtar

Az Országos Széchényi Könyvtár webarchívuma

Az OSZK webarchívuma azzal a céllal jött létre, hogy reprezentatív képet nyújtson az egy adott időszakban nyilvánosan elérhető, a magyar közönségnek szánt és a kulturális örökség részét képező online tartalomkínálatról, a hungarikumok körébe tartozó elektronikus dokumentumokról. Az elsődleges gyűjtőkör a tudományos, kulturális, oktatási, illetve közéleti jellegű nyilvános webes tartalmak.

aratas_oszk.jpg

Legutóbbi szelektív aratás fájltípusai 2022 augusztusában

A dokumentumok gyűjtése három csatornán keresztül történik: a legfontosabb magyar webhelyekről, kiemelt eseményekhez kötődve a főbb hírforrásokból, illetve általános jelleggel a magyar webtérről. Szelektíven kerül gyűjtésre a tudományos, kulturális, oktatási, közéleti jellegű tartalmak meghatározott köre. Az általános gyűjtés a .hu domén alatt regisztrált vagy egyéb doménhez tartozó, de magyar közönséget megcélzó nyilvános webhelyekre terjed ki. A webaratás csupán azon szervereket érinti, ahonnan technikailag biztosítható a tartalom automatikus lementése. Az aratás során a könyvtár figyelembe veszi a begyűjtő szoftver számára az adott webhely tulajdonosa által beállított korlátozásokat.

Az archivált webtartalom esetében a nemzeti könyvtár elsősorban annak hosszú távú megőrzésére törekszik. A szerzői és személyiségi jogok tiszteletben tartása érdekében a gyűjteménynek csak egy része tekinthető meg nyilvánosan, az archívum többi része csak a könyvtár zárt szolgáltatási felületén érhető el, elsősorban kutatási célokra.

A nyilvános gyűjteménybe részben az állami forrásból származó, részben egyes weboldalak tulajdonosai által felajánlott tartalmak kerülnek. A nem állami vagy önkormányzati fenntartású, illetve nem költségvetési támogatással létrehozott webhelyek esetében az intézmény szerződést köt a nyilvános szolgáltatásra.

webarchivalas_munkafolyamat.png

A webaratásból származó ún. WARC fájlok összmérete a zárt archívumban 69 terabyte, a nyilvános archívumban 1,3 terabyte. Az egyéb formátumú mentések még körülbelül 0,5 terabyte-ot tesznek ki.

A nyilvános felület forgalmát a nemzeti könyvtár 2020 eleje óta méri, azóta 5147 látogatás történt 1340 címről. A zárt archívum használatáról egyelőre nem áll rendelkezésre adat, mivel az új szolgáltatás néhány hete indult az erre kijelölt helyi gépekről.

A közeljövő feladata egyfelől a digitális objektumok hosszú távú megőrzésének folyamatos biztosítása a legkorszerűbb eszközökkel. A jelenben lementett fájlokat a jövő generációi számára megtekinthető és kutatható állapotban kell tartani, ami nemcsak azok biztonságos és sérülésmentes tárolását jelenti, hanem az elavuló formátumok konvertálását vagy a korabeli szoftverkörnyezet megőrzését, emulálását is.

link_terkep.png

Másfelől terveink között szerepel a ma már megkerülhetetlen mesterségesintelligencia-alapú technológia beépítése a webarchiválási folyamatokba, amelynek segítségével lehetővé válik többek között az állami forrásból származó weboldalak teljes körű mentése, a digitális hungarikumok automatikus kiszűrése vagy a gépi tematikus rendezés.

Kiemelten foglalkozunk az archivált webtartalom kutathatóvá tételével különféle adatbányászati és adatvizualizációs alkalmazások segítségével. A learatott tartalom egyben hatalmas adathalmaz („Big Data”) is, ami különféle tudományágak (pl. történettudomány, nyelvészet, szociológia, informatika) számára jelent most és a jövőben még inkább értékes kutatási anyagot. Időben visszakövethető egy esemény, téma, szervezet stb. története, statisztikai elemzések készíthetők, kapcsolati hálók rajzolhatók fel. Az előállt monumentális szövegkorpusz ezenkívül a magyar nyelvű mesterségesintelligencia-alapú programok tanítóeszközeként is nélkülözhetetlen szerepet tölt be.

Mihály Eszter, Drótos László (Digitális Bölcsészeti Központ)

komment

A bejegyzés trackback címe:

https://nemzetikonyvtar.blog.hu/api/trackback/id/tr5817921701

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

süti beállítások módosítása