• contact@elte-dh.hu
  • 1088 Budapest, Múzeum krt. 6-8.

A SZOLGÁLTATÁSRÓL

 

Az ELTE Regénykorpusz az ELTE BTK Digitális Bölcsészet Tanszékén fejlesztett adatbázis. A korpusz 400 magyar nyelven írt regényt tartalmaz a 19. századból és a 20. század elejéről, összesen 119 szerzőtől. A korpusz jelenlegi mérete 26,8 millió token.

A regénykorpuszban szereplő szövegek forrása a Magyar Elektronikus Könyvtár volt. Első lépésben a regények szövegeit részben manuálisan a Text Encoding Initiative ajánlását követő TEI XML formátumra alakítottuk, amely tartalmazza a regények szerkezeti egységeinek, a fejezeteknek és a bekezdéseknek a jelöléseit. Ezt követően hoztuk létre gépi eszközökkel a szavak grammatikai tulajdonságaira vonatkozó adatokat. Az így létrehozott adatbázisban egy bárki számára ingyenesen használható, a https://regenykorpusz.elte-dh.hu oldalon elérhető, egyedi fejlesztésű lekérdezőfelület segítségével kereshetünk, amelynek megtervezésében fontos kiindulópontot jelentettek a már meglévő magyar nyelvű korpuszok keresőfelületei, például a Magyar Nemzeti Szövegtár megoldásai.

A szavak grammatikai tulajdonságainak felismertetésére a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. A program segítségével automatizált módon meg tudtuk adni a regényekben szereplő szavak szótári alakját, szófaját és morfoszintaktikai tulajdonságait. E jellemzők szerepeltetésével számos keresést egyszerűbben végezhetünk el, illetve olyan módon is kereshetünk, amelyre nem lenne lehetőség abban az esetben, ha a korpusz csupán a regényszövegeket tartalmazná. Például ha kíváncsiak vagyunk arra, hogy a szó mely regényekben, milyen szövegkörnyezetben fordul elő, akkor nem kell külön rákeresnünk a szó összes alakjára (ló, lónak, lovat, lovakat stb.), hanem a szavak szótári alakjának az adatbázisban való szerepeltetése révén egy kereséssel kilistázhatjuk az összes ilyen szöveghelyet. Mivel a szavak szófaját és morfoszintaktikai jellemzőit is tartalmazza az adatbázis, nem csupán szavakra, hanem grammatikai jellemzőkre is kereshetünk. Például rákereshetünk az összes olyan szöveghelyre, amely a melléknév + szerkezetet tartalmazza, de akár a középfokú melléknév + szerkezeteket is kilistázhatjuk.

A lekérdezőfelület úgyszintén lehetőséget ad arra, hogy szavak gyakorisági listáit generáljuk, amelynek segítségével megvizsgálhatjuk egy-egy szerző vagy regény leggyakrabban használt főneveit, igéit vagy éppen a leggyakoribb egyes szám első személyben használt igéit. Ezek a szólisták lehetőséget adnak arra, hogy a távoli olvasás perspektívájából is rátekinthessünk a magyar regényirodalomra, és különböző szerzők, időszakok, illetve művek között olyan eltéréseket vagy éppen hasonlóságokat észleljünk, amire korábban nem volt lehetőség.

A Regénykorpusz az annotációkkal együtt teljes egészében letölthető a korpusz GitHub oldaláról: https://github.com/ELTE-DH/regenykorpusz

A projektet a Felsőoktatási Intézményi Kiválósági Program támogatta, jelenleg a Digitális Örökség Nemzeti Laboratórium keretei között végezzük a korpusz további fejlesztését.

A projekttel kapcsolatos előadások és publikációk:

Palkó Gábor: Irodalmi korpuszok a távoli olvasás horizontján (előadás)
https://mtabtk.videotorium.hu/hu/recordings/40982/irodalmi-korpuszok-a-tavoli-olvasas-horizontjan

Vétek Bence: European Literary Text Collection (ELTeC) – Distant reading for european languages (előadás)
https://elte-dh.hu/wp-content/uploads/2020/09/1.-Introduction-to-TEI-XML_c.pdf

Bajzát Tímea Borbála – Szemes Botond – Szlávich Eszter 2021. Az ELTE DH Regénykorpusz és lehetőségei. In: Tick József – Kokas Károly – Holl András (szerk.): Online térben – az online térért. Networkshop 30: országos online konferencia. 2021. április 6-9. Eötvös Loránd Tudományegyetem. Budapest: HUNGARNET Egyesület. 63-72.

http://real.mtak.hu/132253/1/63_NWS_2021_v3.pdf

 

A korpusz létrehozásában részt vettek:

Palkó Gábor

Bajzát Tímea Borbála

Takács Emma

Vétek Bence

Fellegi Zsófia

Kundráth Péter

Horváth Péter

Indig Balázs

Szemes Botond

Szlávich Eszter

Vida Bence