A nagy múltra visszatekintő és a tudományos digitális szövegkódolás standardjainak kidolgozásában nemzetközi szinten vezető szerepű közösség, a Text Encoding Initiative konzorcium idén a nagy-britanniai Newcastle-ben, a patinás Newcastle-i Egyetemen 2022. szeptember 12–16. között rendezte meg éves konferenciáját, amelyen könyvtárunk képviseletében a Digitális Bölcsészeti Központ két munkatársa, Varga Emese és Kalcsó Gyula vett részt. A nemzeti könyvtár, valamint központunk fontos szerepet tölt be a hazai tudományos digitális szövegkiadások területén, többek között a dhupla.hu platformon publikált kiadásainkkal, amelyek TEI-kódolásúak, ezért a konferencián való részvételünk stratégiai jelentőségű volt.
A Newcastle University főbejárata
A konferencia első két napján a résztvevők workshopokon bővíthették tudásukat, amelyeken változatos témákban nyílt lehetőség a közös munkára. A hétfői egész napos worskhop egy olyan munkafolyamatba vezette be az érdeklődőket, amely a szövegekről készült digitális képek kezelésétől (pl. az optikai karakterfelismertetéstől) egészen a magas szintű, filológiailag szakszerű digitális kiadásig ívelt. A második napon rendezett három workshopból kettőn vettünk részt, az egyik a TEI-kiadások webes megjelenítésével, a másik pedig egy fejlett, böngészőből használható eszközzel foglalkozott, amely nem csupán digitális kiadások szerkesztésére, hanem azok szemantikus webes annotációjára is lehetőséget ad.
A konferencia üdvözli a részvevőket a King’s Hallban
A konferencia fontos részét képezték a kedd délután megtartott ún. Special Interest Group (SIG) ülések. Ezek a speciális munkacsoportok a TEI különböző fejlesztési lehetőségeivel foglalkoznak. Munkatársaink a Correspondence (levelezés), valamint Computer-Mediated Communication (számítógépes kommunikáció) munkacsoportok tagjaival folytattak megbeszéléseket az e-mailek digitális filológiai szempontból szakszerű feldolgozásával, kiadásával kapcsolatban.
A konferencia résztvevői a King’s Hallban
Kedd kora este került sor a konferencia ünnepélyes megnyitójára, amelynek keretében egy meghívott előadó, Constance Crompton mondta el nyitóelőadását. Az Ottawai Egyetem oktatója több érdekes historiográfiai projektet is ismertetett, és amellett érvelt, hogy maga a TEI-annotáció is fontos adathalmaz, amelyet a közösségnek érdemes lenne kihasználnia. Az egész konferencia tematikája (Text as Data) e kérdéskörre épült: hogyan szolgáltat az annotált szöveg kutatási adatokat a különböző tudományágak számára.
A szerdai napon két szekcióban szerepeltek az előadók rövidebb-hosszabb előadásokkal, valamint sor került a poszterbemutatókra is. Az előadások egyik fókusza az automatikus adatkinyerés volt, amelyhez egyre szélesebb körben a mesterséges intelligenciát veszik igénybe. A másik fókusz a TEI újabb igényeknek megfelelő kiszélesítése, bővítése volt. Többek között szó volt a spanyol anyanyelvűek TEI-használatáról vagy az annotáció alkalmassá tételéről a gender studies igényeinek megfelelően. Több szerdai előadás fontos témája volt a szemantikus webes TEI-felhasználás is (amely a workshopokon is fontos szerepet kapott).
Előadás az analóg kiadások szerepéről a digitális világban
A poszterszekció nagyon színes tematikát vonultatott fel. A 16 posztert az előadók egy-egy percben ismertették, majd a kiállítófalnál lehetett nekik kérdéseket feltenni a témájukkal kapcsolatban. A poszterek egy része a TEI hagyományos funkciójával, az elsősorban kéziratos források feldolgozásával volt kapcsolatos. Ezek között voltak történeti levelek, kódexek, valamint egyéb források is. Különösen érdekes volt a japán történeti kéziratos forrásokról szóló téma. A poszterek egy másik csoportja a TEI-vel kapcsolatos technikai fejlesztésekről szólt, pl. két olyan, a TEI-XML-annotációhoz használt Oxygen szoftverhez kapcsolódó, a szerkesztést megkönnyítő ún. framework fejlesztéséről, amelyhez hasonlót az OSZK Digitális Bölcsészeti Központja is fejleszt. Üde színfoltja volt a szekciónak a TEI alkalmassá tétele a Braille-írásos források annotálására. Ugyancsak megjelent a poszterek között a mesterséges intelligencia felhasználásának témája is. Szeptember 22-én, a konferencia után sor került még egy ún. virtuális poszterszekcióra is, amelynek keretében a résztvevők egy online felületen mutatták be előadásaikat.
Munkatársunk a poszterek előtt
Csütörtök délelőtt folytatódtak az előadások, továbbra is két szekcióban. Az egyikben elsősorban a born digital források TEI-feldolgozásáról volt szó. Az egész konferenciát áthatotta az a törekvés, hogy a TEI minél inkább koncentráljon a jelenkor kihívásaira, és egyre szélesebb körben legyen használatos a hagyományos források, szövegek mellett a digitális korra jellemző szövegtípusok annotálására is. Ilyen volt pl. az egyszerre több formátumban (pl. hangoskönyvként is) megjelenő szövegkiadás TEI-kódolásának a kérdéséről szóló, valamint az online fórumok kiadásával foglalkozó előadás is. A szekciók másik fő témája a HTR (Handwritten Text Recognition, azaz kézírás-felismertetés) volt, amely a konferencia egészén is nagy hangsúlyt kapott (a workshopokon, ill. a más témájú előadásokban is sokszor előkerült). A TEI szempontjából fontos téma, a nagy méretű szövegkorpuszok automatikus zónázása (a szöveg elkülönítése a képtől, a bekezdések, sorok megjelölése stb.) több előadásban is szerepelt. Tovább folytatódott az automatikus adatbányászat, valamint a szemantikus webes integráció tematikája is.
Előadás a kézírás-felismertetésről
Csütörtök délután két fontos esemény is zajlott. Elsőként a TEI-konferenciák történetében először külön szekcióként nyilvános interjú készült Lou Burnarddal, az Oxfordi Egyetem nyugalmazott professzorával, aki a TEI egyik alapítója, és a kezdetektől folyamatosan aktív tagja, az ajánlások kialakításában és fejlesztésében kulcsszerepet játszó alakja. Az interjú fontos kérdésekre terjedt ki, pl. szó volt arról, hogy Burnard hogyan képzeli el a TEI jövőjét, és milyen fejlesztési irányokat tart kívánatosnak. Erre a kérdésre azt a választ adta, hogy a TEI-nek a hagyományos filológiában (pl. kéziratos vagy régikönyves források feldolgozásában, kiadásában) betöltött vezető szerepe mellett koncentrálnia kell a modern kihívásokra is, és egyre inkább nyitnia szükséges a born digital (digitálisan született) források (pl. digitális kéziratok, internetes források, e-mailek stb.) annotálása, kiadása irányába.
Lou Burnard, a TEI egyik alapítója kérdésekre válaszol
Ezután került sor a TEI konzorcium éves találkozójára, amelynek keretében beszámoltak a Special Interest Groupok az éves munkájukról, ismertették a tisztségviselő-választások eredményeit, az új tisztségviselőket, bemutatták a konzorcium anyagi helyzetét, valamint bejelentették, hogy a jövő évi konferencia helyszíne Paderborn (Németország), és a rendezvény egyben a Music Encoding Initiative konferenciája is lesz.
A Text Encoding Initiative konzorcium éves találkozója
A péntek délelőtti szekciók újabb izgalmas témákat kínáltak a résztvevőknek, valamint sor került egy szoftverbemutatóra is. A hagyományosabb témák mellett szó volt a TEI nyelvészeti célú felhasználásáról, born digital források kódolásáról, a TEI-fájlok adatbányászatáról, továbbá elméleti kérdésekről is. Ezen a napon is több előadásban előkerült a mesterséges intelligencia (pl. a témamodellezés) és a szemantikus web kérdésköre.
Előadás a témamodellezésről, a mesterséges intelligencia egyik felhasználási lehetőségéről
A négy szoftverbemutató a TEI-vel kapcsolatos fontos munkafolyamatokhoz, feladatokhoz kapcsolódott. Az első forráskiadáshoz használatos segédeszközt mutatott be, amely a konferencia ugyancsak állandó témájának számító ún. IIIF-feldolgozott képeket tud kezelni. A második a TEI-kiadások webes megjelenítéséhez használható szoftveregyüttest demonstrált. A harmadik a konzorcium egy fontos közös projektjének, az új fordítófelületnek a bemutatása volt, amelynek segítségével újabb nyelvekre fordítható a TEI Guidelines. Az utolsó bemutató workshop keretében is megismert online szerkesztőfelületet (LEAF-Writer) ismertette, amelynek segítségével entitáskezelés és szemantikus webes összekapcsolás is lehetséges.
Bemutató egy TEI-kiadás szemantikus annotációját is lehetővé tevő szerkesztőfelületről
Péntek délután a konferencia záróakkordjaként sor került egy érdekes problémafelvető előadásra, amely az ún. tonális nyelvek hangtani jellegzetességeinek a lehetséges TEI-kódolásáról szólt.
A Digitális Bölcsészeti Központ munkatársai sokat profitáltak a konferencia-részvételből, az új ismereteken és jártasságokon túl fontos szakmai kapcsolatokat építettek, együttműködési lehetőségeket egyeztettek, mindez pedig hozzájárul a központban folyó mindennapi digitális filológiai munka naprakészen szakszerű folytatásához.
A konferencia teljes programja.
Az előadások egy részének az anyaga.
Varga Emese – Kalcsó Gyula (Digitális Bölcsészeti Központ)