• contact@elte-dh.hu
  • 1088 Budapest, Múzeum krt. 6-8.

A szolgáltatásról

Az ELTE Verskorpusz (verskorpusz.elte-dh.hu) a Digitális Bölcsészet Tanszéken fejlesztett, folyamatosan bővülő adatbázis, amely jelenleg több mint negyven magyar költő verseit, a versek egyszerűbben megragadható hangzásjellemzőit és a versekben szereplő szavak grammatikai tulajdonságait tartalmazza kereshető módon.

A kereső részletes leírása az alábbi linken található: https://elte-dh.hu/verskorpusz-kereso/

A korpuszba bekerült versek forrása a Magyar Elektronikus Könyvtár gyűjteménye volt, amely számos, szerzői jogi védelem alatt nem álló költői életművet tartalmaz digitalizált formában. A Magyar Elektronikus Könyvtár szövegeit gépi eszközökkel, automatikus módon alakítottuk át a projekt számára megfelelő, a Text Encoding Initiative ajánlását követő TEI XML formátumra, ez az a formátum, amely a nemzetközi regénykorpusz (ELTeC) és az ELTE Regénykorpusz alapját is adja. Az automatikusan átalakított verziókat a tanszék munkatársai és hallgatói ellenőrizték. Ezt követően hoztuk létre, szintén gépi eszközökkel, a versek szavainak grammatikai tulajdonságaira, valamint a versek hangzásjellemzőire vonatkozó adatokat. Az így létrehozott adatbázisban egy bárki számára ingyenesen használható, a verskorpusz.elte-dh.hu oldalon elérhető, egyedi fejlesztésű lekérdezőfelület segítségével kereshetünk, amelynek megtervezésében fontos kiindulópontot jelentettek a már meglévő magyar nyelvű korpuszok keresőfelületei, például a Magyar Nemzeti Szövegtár megoldásai (http://corpus.nytud.hu/mnsz).

A szavak grammatikai tulajdonságainak felismertetésére a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. A program segítségével automatizált módon meg tudtuk adni a versekben szereplő összes szó szótári alakját, szófaját és morfoszintaktikai jellemzőit. E jellemzők szerepeltetésével számos keresést egyszerűbben végezhetünk el, illetve olyan módon is kereshetünk, amelyre nem lenne lehetőség abban az esetben, ha a korpusz csupán a versszövegeket tartalmazná. Például ha kíváncsiak vagyunk arra, hogy az „ördög” szó mely versekben, milyen szövegkörnyezetben fordul elő, akkor nem kell külön rákeresnünk a szó összes alakjára (ördög, ördögök, ördögöt, ördögöket stb.), hanem a szavak szótári alakjának az adatbázisban való szerepeltetése révén egy kereséssel kilistázhatjuk az összes ilyen szöveghelyet. Mivel a szavak szófaját és morfoszintaktikai jellemzőit is tartalmazza az adatbázis, nem csupán szavakra, hanem grammatikai jellemzőkre is kereshetünk. Például rákereshetünk az összes olyan szöveghelyre, amely a melléknév + ördög szerkezetet tartalmazza, de akár a középfokú melléknév + ördög szerkezeteket is kilistázhatjuk.

A lekérdezőfelület úgyszintén lehetőséget ad arra, hogy szavak gyakorisági listáit generáljuk, amelynek segítségével megvizsgálhatjuk egy-egy költő leggyakrabban használt főneveit, igéit vagy éppen a leggyakoribb egyes szám első személyben használt igéit. Ezek a szólisták lehetőséget adnak arra, hogy a távoli olvasás perspektívájából is rátekinthessünk a magyar költészetre, és különböző szerzők, időszakok között olyan eltéréseket vagy éppen hasonlóságokat észleljünk, amire korábban nem volt lehetőség.

A korpusz létrehozása során nem csupán a szavak grammatikai tulajdonságait, hanem a verseknek a gépi módszerekkel egyszerűbben megragadható hangzásjellemzőit is felismertettük. Ennek köszönhetően kilistázhatjuk azokat a verseket, amelyek egy meghatározott rímképlettel rendelkeznek, illetve rákereshetünk szavakra azok fonológiai jellemzői alapján is (például hangrend vagy szótagszám alapján). A versek megjelenítésénél pedig a már említett tulajdonságok mellett láthatjuk a sorok szótagszámát és időmértékes ritmusképletét is.

Az ELTE Verkorpusz nem egy befejezett projekt. A jövőben további költők verseivel szeretnénk bővíteni az adatbázist, illetve tervezzük további jellemzőknek is a gépi felismertetését, így például a versmetrum azonosítását.

A projektet az  Felsőoktatási Intézményi Kiválósági Program támogatta, jelenleg a Digitális Örökség Nemzeti Laboratórium keretei között fejlesztjük tovább.

A projekt fejlesztésében részt vettek:

Palkó Gábor (koncepció, adatmodell)

Horváth Péter (koncepció, annotáló szkriptek)

Fellegi Zsófia (TEI XML specifikáció)

Indig Balázs (nyelvi elemzés)

Kundráth Péter (keresőeszköz)

Adatellenőrzés:

Bajzát Tímea Borbála

Karabulut Aslihan

Sárközi-Lindner Zsófia

Szlávich Eszter

Timári Mária

Vida Bence

A projekttel kapcsolatos előadások és publikációk:

Horváth Péter: Az ELTE Verskorpusz automatikus annotációs eljárásai révén nyerhető kvantitatív adattípusok. In: Nyelvtan, diskurzus, megismerés. Szerkesztette: Simon Gábor és Tolcsvai Nagy Gábor, Eötvös Kiadó, Budapest, 2020.

Palkó Gábor: Irodalmi korpuszok a távoli olvasás horizontján. https://mtabtk.videotorium.hu/hu/recordings/40982/