Drámakorpusz – ELTE DH

A SZOLGÁLTATÁSRÓL

Az ELTE Drámakorpusz az ELTE BTK Digitális Bölcsészet Tanszékén fejlesztett, folyamatosan bővülő adatbázis, amely a magyar drámairodalom szövegeit teszi elérhetővé és kereshetővé. A jelenleg 1,1 millió tokenből álló korpusz 74 drámát tartalmaz 31 szerzőtől.

A korpuszba került drámák elsődleges forrása a Magyar Elektronikus Könyvtár, illetve az Egyetemi Könyvtár állománya volt. Első lépésben a drámák szövegeit manuálisan a Text Encoding Initiative ajánlását követő TEI XML formátumra alakítottuk, amely tartalmazza a drámák szerkezeti egységeinek a jelöléseit. Ezt követően hoztuk létre gépi eszközökkel a szavak grammatikai tulajdonságaira vonatkozó adatokat. Az így létrehozott adatbázisban egy bárki számára ingyenesen használható, a https://dramakorpusz.elte-dh.hu oldalon elérhető, egyedi fejlesztésű lekérdezőfelület segítségével kereshetünk, amelynek megtervezésében fontos kiindulópontot jelentettek a már meglévő magyar nyelvű korpuszok keresőfelületei, például a Magyar Nemzeti Szövegtár megoldásai.

A keresőfelület segítségével az egyes drámák, egy drámán belül egy konkrét szereplő vagy akár drámacsoportok szövegeinek nyelvi elemeire tudunk rákeresni: konkrét szavakra, szófajokra, grammatikai szerkezetekre. A szavak grammatikai tulajdonságainak felismertetésére a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. A program segítségével automatizált módon meg tudtuk adni a drámákban szereplő szavak szótári alakját, szófaját és morfoszintaktikai tulajdonságait. E jellemzők szerepeltetésével számos keresést egyszerűbben végezhetünk el, illetve olyan módon is kereshetünk, amelyre nem lenne lehetőség abban az esetben, ha a korpusz csupán a drámaszövegeket tartalmazná. Például ha kíváncsiak vagyunk arra, hogy a ló szó mely regényekben, milyen szövegkörnyezetben fordul elő, akkor nem kell külön rákeresnünk a szó összes alakjára (ló, lónak, lovat, lovakat stb.), hanem a szavak szótári alakjának az adatbázisban való szerepeltetése révén egy kereséssel kilistázhatjuk az összes ilyen szöveghelyet. Mivel a szavak szófaját és morfoszintaktikai jellemzőit is tartalmazza az adatbázis, nem csupán szavakra, hanem grammatikai jellemzőkre is kereshetünk. Például rákereshetünk az összes olyan szöveghelyre, amely a melléknév + ló szerkezetet tartalmazza, de akár a középfokú melléknév + ló szerkezeteket is kilistázhatjuk.

A lekérdezőfelület úgyszintén lehetőséget ad arra, hogy szavak gyakorisági listáit generáljuk, amelynek segítségével megvizsgálhatjuk egy-egy szerző, dráma vagy akár egy szereplő leggyakrabban használt főneveit, igéit vagy éppen a leggyakoribb egyes szám első személyben használt igéit. Ezek a szólisták lehetőséget adnak arra, hogy a távoli olvasás perspektívájából is rátekinthessünk a magyar drámairodalomra, és különböző szerzők, időszakok, illetve művek között olyan eltéréseket vagy éppen hasonlóságokat észleljünk, amire korábban nem volt lehetőség.

A Drámakorpusz részét képezi a DraCor (https://dracor.org) nemzetközi adatbázisnak is HunDraCor néven. Ennek köszönhetően a fenti jellemzőkön túl elérhetők a drámák karakterhálózatának, valamint a jelenetekben megszólalók számának a vizualizációi is. A karakterhálózatokban az egyes karakterek mint csomópontok, a közöttük lévő interakciók mint élek szerepelnek, így egy átfogó képet adnak egy dráma szereplőinek egymáshoz fűződő kapcsolatáról. A karakterhálózatok révén elsősorban nem a szereplők nyelvi kidolgozottságáról, hanem dramaturgiai funkciójáról tudhatunk meg többet: mennyire tekinthető egy karakter központi szereplőnek, hány másik szereplővel tartja a kapcsolatot, mennyiben nélkülözhető a hálózat stabilitásának szempontjából stb. A jelenetekben megszólalók számának a vizualizációi a drámák felépítéséről (pl. tömegjelenetek a dráma elején és/vagy végén), illetve a monológok, dialógok és csoportos jelenetek arányáról nyújtanak információt.

A Drámakorpusz az annotációkkal együtt teljes egészében letölthető a korpusz GitHub oldaláról: https://github.com/ELTE-DH/drama-corpus

A korpuszt a Digitális Örökség Nemzeti Laboratórium keretei között fejlesztjük.

A korpusz létrehozásában részt vettek:

Palkó Gábor (koncepció, adatmodell)

Szemes Botond (koncepció)

Bajzát Tímea Borbála (TEI XML specifikáció)

Fellegi Zsófia (TEI XML specifikáció)

Kundráth Péter (keresőeszköz)

Horváth Péter (annotáló szkriptek)

Indig Balázs (nyelvi elemzés)

Dióssy Anna (TEI XML kódolás)

Hegedüs Fanni (TEI XML kódolás)

Pantyelejev Natali (TEI XML kódolás)

Sziráki Sarolta (TEI XML kódolás)

Vida Bence (adatellenőrzés)

Kalmár Balázs (TEI XML kódolás)

Ha kutatásában használja az ELTE Drámakorpuszt, kérjük, hivatkozzon az alábbi cikkre:

Szemes Botond – Bajzát Tímea – Fellegi Zsófia – Kundráth Péter – Horváth Péter – Indig Balázs – Dióssy Anna – Hegedüs Fanni – Pantyelejev Natali – Sziráki Sarolta – Vida Bence – Kalmár Balázs – Palkó Gábor 2022. Az ELTE Drámakorpuszának létrehozása és lehetőségei. In: Tick József – Kokas Károly – Holl András (szerk.): Valós térben – Az online térért: Networkshop 31: országos konferencia. Budapest: HUNGARNET Egyesület. 170–178.

http://real.mtak.hu/155495/1/21_NWS_2022_Szemes_Bajzat_Fellegi_Kundrath_Horvath_Indig_Diossy_Hegedus_Pantyelejev_Sziraki_Vida_Kalmar_Palko.pdf

A SZOLGÁLTATÁSRÓL

A korpusz létrehozásában részt vettek:

Hasznos Linkek

Friss hírek