• contact@elte-dh.hu
  • 1088 Budapest, Múzeum krt. 6-8.

A szolgáltatásról

Az ELTE Verskorpusz az ELTE BTK Digitális Bölcsészet Tanszékén fejlesztett adatbázis, amelyben jelenleg 50 magyar költő összes verse szerepel. A 3,4 millió tokenszámú, több mint 13 ezer versből álló korpusz tartalmazza a 16. századtól a 20. század első feléig tartó időszak kanonikus magyar költészetének a jelentős részét. A korpusz a versszövegek mellett a szavak grammatikai tulajdonságaira, valamint a vershangzás bizonyos jellemzőire vonatkozó adatokat is tartalmaz.

A korpuszba bekerült versek forrása a Magyar Elektronikus Könyvtár gyűjteménye volt, amely számos, szerzői jogi védelem alatt nem álló költői életművet tartalmaz digitalizált formában. A Magyar Elektronikus Könyvtár szövegeit gépi eszközökkel, automatikus módon alakítottuk át a projekt számára megfelelő, a Text Encoding Initiative ajánlását követő TEI XML formátumra, amely tartalmazza a versek szerkezeti egységeinek, a címnek, a versszakoknak és a soroknak a jelöléseit. Az automatikusan átalakított verziókat manuálisan ellenőriztük. Ezt követően hoztuk létre, szintén gépi eszközökkel, a versek szavainak grammatikai tulajdonságaira, valamint a versek hangzásjellemzőire vonatkozó adatokat. Az így létrehozott adatbázisban egy bárki számára ingyenesen használható, a https://verskorpusz.elte-dh.hu oldalon elérhető, egyedi fejlesztésű lekérdezőfelület segítségével kereshetünk, amelynek megtervezésében fontos kiindulópontot jelentettek a már meglévő magyar nyelvű korpuszok keresőfelületei, például a Magyar Nemzeti Szövegtár megoldásai.

A szavak grammatikai tulajdonságainak felismertetésére a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. A program segítségével automatizált módon meg tudtuk adni a versekben szereplő szavak szótári alakját, szófaját és morfoszintaktikai tulajdonságait. E jellemzők szerepeltetésével számos keresést egyszerűbben végezhetünk el, illetve olyan módon is kereshetünk, amelyre nem lenne lehetőség abban az esetben, ha a korpusz csupán a versszövegeket tartalmazná. Például ha kíváncsiak vagyunk arra, hogy a szó mely versekben, milyen szövegkörnyezetben fordul elő, akkor nem kell külön rákeresnünk a szó összes alakjára (ló, lónak, lovat, lovakat stb.), hanem a szavak szótári alakjának az adatbázisban való szerepeltetése révén egy kereséssel kilistázhatjuk az összes ilyen szöveghelyet. Mivel a szavak szófaját és morfoszintaktikai jellemzőit is tartalmazza az adatbázis, nem csupán szavakra, hanem grammatikai jellemzőkre is kereshetünk. Például rákereshetünk az összes olyan szöveghelyre, amely a melléknév + szerkezetet tartalmazza, de akár a középfokú melléknév + szerkezeteket is kilistázhatjuk.

A lekérdezőfelület úgyszintén lehetőséget ad arra, hogy szavak gyakorisági listáit generáljuk, amelynek segítségével megvizsgálhatjuk egy-egy költő leggyakrabban használt főneveit, igéit vagy éppen a leggyakoribb egyes szám első személyben használt igéit. Ezek a szólisták lehetőséget adnak arra, hogy a távoli olvasás perspektívájából is rátekinthessünk a magyar költészetre, és különböző szerzők, időszakok között olyan eltéréseket vagy éppen hasonlóságokat észleljünk, amire korábban nem volt lehetőség.

A korpusz létrehozása során nem csupán a szavak grammatikai tulajdonságait, hanem a verseknek a gépi módszerekkel egyszerűbben megragadható hangzásjellemzőit is felismertettük. Ennek köszönhetően kilistázhatjuk azokat a verseket, amelyek egy meghatározott rímképlettel rendelkeznek, illetve rákereshetünk szavakra azok fonológiai jellemzői alapján is (például hangrend vagy szótagszám alapján). A versek megjelenítésénél pedig a már említett tulajdonságok mellett láthatjuk az alliterációkat, valamint a sorok szótagszámát és időmértékes ritmusképletét is.

A Verskorpusz az annotációkkal együtt teljes egészében letölthető a korpusz GitHub oldaláról: https://github.com/ELTE-DH/poetry-corpus

A projektet a Felsőoktatási Intézményi Kiválósági Program támogatta, a korpuszt jelenleg a Digitális Örökség Nemzeti Laboratórium keretei között fejlesztjük tovább.

A korpusz létrehozásában részt vettek:

Palkó Gábor (koncepció, adatmodell)

Horváth Péter (koncepció, annotáló szkriptek)

Kundráth Péter (keresőeszköz)

Indig Balázs (nyelvi elemzés)

Fellegi Zsófia (TEI XML specifikáció)

Szlávich Eszter (adatellenőrzés)

Bajzát Tímea Borbála (adatellenőrzés)

Sárközi-Lindner Zsófia (adatellenőrzés)

Vida Bence (adatellenőrzés)

Karabulut Aslihan (adatellenőrzés)

Timári Mária (adatellenőrzés)

 

Ha kutatásában használja az ELTE Verskorpuszt, kérjük, hivatkozzon az alábbi cikkek valamelyikére:

Horváth Péter – Kundráth Péter – Indig Balázs – Fellegi Zsófia – Szlávich Eszter – Bajzát Tímea Borbála – Sárközi-Lindner Zsófia – Vida Bence – Karabulut Aslihan – Timári Mária – Palkó Gábor 2022. ELTE Verskorpusz – a magyar kanonikus költészet gépileg annotált adatbázisa. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): XVIII. Magyar Számítógépes Nyelvészeti Konferencia, 375–388. Szeged: Szegedi Tudományegyetem TTIK, Informatikai Intézet. 375–388.
http://acta.bibl.u-szeged.hu/75887/1/msznykonf_018_375-388.pdf

 

Horváth, Péter – Kundráth, Péter – Indig, Balázs – Fellegi, Zsófia – Szlávich, Eszter – Bajzát, Tímea Borbála – Sárközi-Lindner, Zsófia – Vida, Bence – Karabulut, Aslihan – Timári, Mária – Palkó, Gábor 2022. ELTE Poetry Corpus: A Machine Annotated Database of Canonical Hungarian Poetry. In: Calzolari, Nicoletta – Béchet, Frédéric – Blache, Philippe – Choukri, Khalid – Cieri, Christopher – Declerck, Thierry – Goggi, Sara – Isahara, Hitoshi – Maegaard, Bente – Mariani, Joseph – Mazo, Hélène – Odijk, Jan – Piperidis, Stelios (eds.): Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022). Paris: European Language Resources Association (ELRA). 3471–3478.
http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.372.pdf

 

 

ELTE NÉPDALKORPUSZ:

 

Az ELTE Verskorpusz 2022-ben kiegészült az ELTE Népdalkorpusszal. Az ELTE Népdalkorpusz a Verskorpusz mintájára létrehozott, magyar népdalokat tartalmazó, automatikusan annotált adatbázis. A korpusz forrását az Ortutay Gyula szerkesztésében és Katona Imre válogatásával megjelent Magyar népdalok című gyűjteményes mű második, 1976-os kiadása adta, amely megtalálható a Magyar Elektronikus Könyvtár adatbázisában. A korpuszban 2390 népdal szerepel, a tokenek száma 150 ezer. A korpusz a népdalok szövegei mellett a Verskorpuszhoz hasonlóan három annotációs réteget tartalmaz: automatikusan annotáltuk a népdalok szerkezeti egységeit, a szavak grammatikai tulajdonságait, valamint a szövegek bizonyos hangzásjellemzőit. A Népdalkorpuszban való kereséshez a Verskorpuszéval szinte teljesen megegyező online lekérdezőfelületet hoztunk létre (https://verskorpusz.elte-dh.hu/nepdal), amely a Verskorpusz lekérdezőfelületének az oldaláról is elérhető.

A Népdalkorpusz az annotációkkal együtt teljes egészében letölthető a korpusz GitHub oldaláról: https://github.com/ELTE-DH/folk-song-corpus

A Népdalkorpuszt a Digitális Örökség Nemzeti Laboratórium keretei között hoztuk létre.

A korpusz létrehozásában részt vettek:

Horváth Péter (koncepció, annotáló szkriptek)

Palkó Gábor (koncepció, adatmodell)

Kundráth Péter (keresőeszköz)

 

Ha kutatásában használja az ELTE Népdalkorpuszt, kérjük, hivatkozzon az alábbi cikkre:

Horváth Péter – Kundráth Péter – Palkó Gábor 2022. ELTE Népdalkorpusz – magyar népdalok gépileg annotált adatbázisa. In: Tick József – Kokas Károly – Holl András (szerk.): Valós térben – Az online térért: Networkshop 31: országos konferencia. Budapest: HUNGARNET Egyesület. 276-283.

http://real.mtak.hu/155519/1/35_NWS_2022_Horvath_Kundrath_Palko.pdf