Az ELTE Verskorpusz az ELTE BTK Digitális Bölcsészet Tanszékén fejlesztett adatbázis, amelyben jelenleg 50 magyar költő összes verse szerepel. A 3,4 millió tokenszámú, több mint 13 ezer versből álló korpusz tartalmazza a 16. századtól a 20. század első feléig tartó időszak kanonikus magyar költészetének a jelentős részét. A korpusz a versszövegek mellett a szavak grammatikai tulajdonságaira, valamint a vershangzás bizonyos jellemzőire vonatkozó adatokat is tartalmaz.
A korpuszba bekerült versek forrása a Magyar Elektronikus Könyvtár gyűjteménye volt, amely számos, szerzői jogi védelem alatt nem álló költői életművet tartalmaz digitalizált formában. A Magyar Elektronikus Könyvtár szövegeit gépi eszközökkel, automatikus módon alakítottuk át a projekt számára megfelelő, a Text Encoding Initiative ajánlását követő TEI XML formátumra, amely tartalmazza a versek szerkezeti egységeinek, a címnek, a versszakoknak és a soroknak a jelöléseit. Az automatikusan átalakított verziókat manuálisan ellenőriztük. Ezt követően hoztuk létre, szintén gépi eszközökkel, a versek szavainak grammatikai tulajdonságaira, valamint a versek hangzásjellemzőire vonatkozó adatokat. Az így létrehozott adatbázisban egy bárki számára ingyenesen használható, a https://verskorpusz.elte-dh.hu oldalon elérhető, egyedi fejlesztésű lekérdezőfelület segítségével kereshetünk, amelynek megtervezésében fontos kiindulópontot jelentettek a már meglévő magyar nyelvű korpuszok keresőfelületei, például a Magyar Nemzeti Szövegtár megoldásai.
A szavak grammatikai tulajdonságainak felismertetésére a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. A program segítségével automatizált módon meg tudtuk adni a versekben szereplő szavak szótári alakját, szófaját és morfoszintaktikai tulajdonságait. E jellemzők szerepeltetésével számos keresést egyszerűbben végezhetünk el, illetve olyan módon is kereshetünk, amelyre nem lenne lehetőség abban az esetben, ha a korpusz csupán a versszövegeket tartalmazná. Például ha kíváncsiak vagyunk arra, hogy a ló szó mely versekben, milyen szövegkörnyezetben fordul elő, akkor nem kell külön rákeresnünk a szó összes alakjára (ló, lónak, lovat, lovakat stb.), hanem a szavak szótári alakjának az adatbázisban való szerepeltetése révén egy kereséssel kilistázhatjuk az összes ilyen szöveghelyet. Mivel a szavak szófaját és morfoszintaktikai jellemzőit is tartalmazza az adatbázis, nem csupán szavakra, hanem grammatikai jellemzőkre is kereshetünk. Például rákereshetünk az összes olyan szöveghelyre, amely a melléknév + ló szerkezetet tartalmazza, de akár a középfokú melléknév + ló szerkezeteket is kilistázhatjuk.
A lekérdezőfelület úgyszintén lehetőséget ad arra, hogy szavak gyakorisági listáit generáljuk, amelynek segítségével megvizsgálhatjuk egy-egy költő leggyakrabban használt főneveit, igéit vagy éppen a leggyakoribb egyes szám első személyben használt igéit. Ezek a szólisták lehetőséget adnak arra, hogy a távoli olvasás perspektívájából is rátekinthessünk a magyar költészetre, és különböző szerzők, időszakok között olyan eltéréseket vagy éppen hasonlóságokat észleljünk, amire korábban nem volt lehetőség.
A korpusz létrehozása során nem csupán a szavak grammatikai tulajdonságait, hanem a verseknek a gépi módszerekkel egyszerűbben megragadható hangzásjellemzőit is felismertettük. Ennek köszönhetően kilistázhatjuk azokat a verseket, amelyek egy meghatározott rímképlettel rendelkeznek, illetve rákereshetünk szavakra azok fonológiai jellemzői alapján is (például hangrend vagy szótagszám alapján). A versek megjelenítésénél pedig a már említett tulajdonságok mellett láthatjuk az alliterációkat, valamint a sorok szótagszámát és időmértékes ritmusképletét is.
A Verskorpusz az annotációkkal együtt teljes egészében letölthető a korpusz GitHub oldaláról: https://github.com/ELTE-DH/poetry-corpus
A projektet a Felsőoktatási Intézményi Kiválósági Program támogatta, a korpuszt jelenleg a Digitális Örökség Nemzeti Laboratórium keretei között fejlesztjük tovább.
Palkó Gábor (koncepció, adatmodell)
Horváth Péter (koncepció, annotáló szkriptek)
Kundráth Péter (keresőeszköz)
Indig Balázs (nyelvi elemzés)
Fellegi Zsófia (TEI XML specifikáció)
Szlávich Eszter (adatellenőrzés)
Bajzát Tímea Borbála (adatellenőrzés)
Sárközi-Lindner Zsófia (adatellenőrzés)
Vida Bence (adatellenőrzés)
Karabulut Aslihan (adatellenőrzés)
Timári Mária (adatellenőrzés)
Ha kutatásában használja az ELTE Verskorpuszt, kérjük, hivatkozzon az alábbi cikkek valamelyikére:
Horváth Péter – Kundráth Péter – Indig Balázs – Fellegi Zsófia – Szlávich Eszter – Bajzát Tímea Borbála – Sárközi-Lindner Zsófia – Vida Bence – Karabulut Aslihan – Timári Mária – Palkó Gábor 2022. ELTE Verskorpusz – a magyar kanonikus költészet gépileg annotált adatbázisa. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): XVIII. Magyar Számítógépes Nyelvészeti Konferencia, 375–388. Szeged: Szegedi Tudományegyetem TTIK, Informatikai Intézet. 375–388.
http://acta.bibl.u-szeged.hu/75887/1/msznykonf_018_375-388.pdf
Horváth, Péter – Kundráth, Péter – Indig, Balázs – Fellegi, Zsófia – Szlávich, Eszter – Bajzát, Tímea Borbála – Sárközi-Lindner, Zsófia – Vida, Bence – Karabulut, Aslihan – Timári, Mária – Palkó, Gábor 2022. ELTE Poetry Corpus: A Machine Annotated Database of Canonical Hungarian Poetry. In: Calzolari, Nicoletta – Béchet, Frédéric – Blache, Philippe – Choukri, Khalid – Cieri, Christopher – Declerck, Thierry – Goggi, Sara – Isahara, Hitoshi – Maegaard, Bente – Mariani, Joseph – Mazo, Hélène – Odijk, Jan – Piperidis, Stelios (eds.): Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022). Paris: European Language Resources Association (ELRA). 3471–3478.
http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.372.pdf
Az ELTE Verskorpusz 2022-ben kiegészült az ELTE Népdalkorpusszal. Az ELTE Népdalkorpusz a Verskorpusz mintájára létrehozott, magyar népdalokat tartalmazó, automatikusan annotált adatbázis. A korpusz forrását az Ortutay Gyula szerkesztésében és Katona Imre válogatásával megjelent Magyar népdalok című gyűjteményes mű második, 1976-os kiadása adta, amely megtalálható a Magyar Elektronikus Könyvtár adatbázisában. A korpuszban 2390 népdal szerepel, a tokenek száma 150 ezer. A korpusz a népdalok szövegei mellett a Verskorpuszhoz hasonlóan három annotációs réteget tartalmaz: automatikusan annotáltuk a népdalok szerkezeti egységeit, a szavak grammatikai tulajdonságait, valamint a szövegek bizonyos hangzásjellemzőit. A Népdalkorpuszban való kereséshez a Verskorpuszéval szinte teljesen megegyező online lekérdezőfelületet hoztunk létre (https://verskorpusz.elte-dh.hu/nepdal), amely a Verskorpusz lekérdezőfelületének az oldaláról is elérhető.
A Népdalkorpusz az annotációkkal együtt teljes egészében letölthető a korpusz GitHub oldaláról: https://github.com/ELTE-DH/folk-song-corpus
A Népdalkorpuszt a Digitális Örökség Nemzeti Laboratórium keretei között hoztuk létre.
Horváth Péter (koncepció, annotáló szkriptek)
Palkó Gábor (koncepció, adatmodell)
Kundráth Péter (keresőeszköz)
Ha kutatásában használja az ELTE Népdalkorpuszt, kérjük, hivatkozzon az alábbi cikkre:
Horváth Péter – Kundráth Péter – Palkó Gábor 2022. ELTE Népdalkorpusz – magyar népdalok gépileg annotált adatbázisa. In: Tick József – Kokas Károly – Holl András (szerk.): Valós térben – Az online térért: Networkshop 31: országos konferencia. Budapest: HUNGARNET Egyesület. 276-283.
http://real.mtak.hu/155519/1/35_NWS_2022_Horvath_Kundrath_Palko.pdf
Az ezen a linken elérhető Versformakereső használatával az automatikusan felismertetett hangzásjellemzők alapján kereshetünk az ELTE Verskorpusz verseiben. Rímképlet, szótagszám, valamint időmértékes és ütemhangsúlyos metrum alapján is kilistázhatjuk a verseket. Például lekérdezhetjük az összes abab rímképletű, 8 szótagos sorokból álló, jambikus metrumú verset.
Az itt elérhető Rímszótár keresőeszközével kilistázhatjuk az ELTE Verskorpusz összes szavát, amely egy adott szóalakkal vagy szótővel rímel. A találatokat szűrhetjük szerző, szófaj és a rímszavak pozíciója alapján is.
A Rímszótár adatbázisa különböző formátumokban letölthető innen.
Copyrights © 2020 All Rights Reserved, Powered by ELTE