Kalcsó Gyula – digitális gereblyézés /// OSZK CSEVEJ S02E10

2024. március 24. 06:08 - nemzetikonyvtar

Zajlik a kozterkep.hu scrapingje, gereblyézése, amelyben majdnem félmillió fotót és adatot mentettek az OSZK webarchiválási robotjai, ezek szolgáltatásáról is beszélgetünk, és a webarchiválás legújabb tapasztalatairól is szól a csevej egy nemzetközi konferencia kapcsán.

digitalisgereblyezes.jpg

Az OSZK 20. csevejében Kalcsó Gyulával, a Digitális Bölcsészeti Központ Digitális Filológiai és Webarchiválási Osztály munkatársával beszélgetett Tóth Péter, a nemzeti könyvtár webes tartalompakolója. Solymosi Ákos hangmérnök segítette a csevej elkészítését.

 

Tartalom:

01:08 Webarchiválás gereblyézéssel – scraping
04:04 Célzott tartalmi elemek mentése, webarchiválás light
06:00 Közel félmillió gereblyézett kép scriptekkel
08:20 A webes szerzői jog
11:20 Hol vannak a bezárt weboldalak adatai?
13:40 Az OSZK-robotok legálisan gereblyéznek
15:30 Etikus felhasználói lopás az interneten
17:10 Digitális köteles példányok
18:30 A mentett dokumentumok kutathatósága, a weboldal nyers szövegének adatvizualitása
21:08 A nyelvek szerepe a webarchiválásban
24:08 Kutatófelületet fejleszt az OSZK
26:29 A közösségi oldalak mentése a legújabb kihívás

OSZK-weabrchívum: https://webarchivum.oszk.hu/
Scraping: https://matebalazs.hu/scraping.html
Webscraping: https://en.wikipedia.org/wiki/Web_scraping
Videón a gereblyézés: https://www.youtube.com/watch?v=dlj_QL-ENJM

komment

A bejegyzés trackback címe:

https://nemzetikonyvtar.blog.hu/api/trackback/id/tr9918360689

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

süti beállítások módosítása