Az ELTE Verskorpusz (verskorpusz.elte-dh.hu) a Digitális Bölcsészet Tanszéken fejlesztett, folyamatosan bővülő adatbázis, amely jelenleg több mint negyven magyar költő verseit, a versek egyszerűbben megragadható hangzásjellemzőit és a versekben szereplő szavak grammatikai tulajdonságait tartalmazza kereshető módon.
A kereső részletes leírása az alábbi linken található: https://elte-dh.hu/verskorpusz-kereso/
A korpuszba bekerült versek forrása a Magyar Elektronikus Könyvtár gyűjteménye volt, amely számos, szerzői jogi védelem alatt nem álló költői életművet tartalmaz digitalizált formában. A Magyar Elektronikus Könyvtár szövegeit gépi eszközökkel, automatikus módon alakítottuk át a projekt számára megfelelő, a Text Encoding Initiative ajánlását követő TEI XML formátumra, ez az a formátum, amely a nemzetközi regénykorpusz (ELTeC) és az ELTE Regénykorpusz alapját is adja. Az automatikusan átalakított verziókat a tanszék munkatársai és hallgatói ellenőrizték. Ezt követően hoztuk létre, szintén gépi eszközökkel, a versek szavainak grammatikai tulajdonságaira, valamint a versek hangzásjellemzőire vonatkozó adatokat. Az így létrehozott adatbázisban egy bárki számára ingyenesen használható, a verskorpusz.elte-dh.hu oldalon elérhető, egyedi fejlesztésű lekérdezőfelület segítségével kereshetünk, amelynek megtervezésében fontos kiindulópontot jelentettek a már meglévő magyar nyelvű korpuszok keresőfelületei, például a Magyar Nemzeti Szövegtár megoldásai (http://corpus.nytud.hu/mnsz).
A szavak grammatikai tulajdonságainak felismertetésére a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. A program segítségével automatizált módon meg tudtuk adni a versekben szereplő összes szó szótári alakját, szófaját és morfoszintaktikai jellemzőit. E jellemzők szerepeltetésével számos keresést egyszerűbben végezhetünk el, illetve olyan módon is kereshetünk, amelyre nem lenne lehetőség abban az esetben, ha a korpusz csupán a versszövegeket tartalmazná. Például ha kíváncsiak vagyunk arra, hogy az „ördög” szó mely versekben, milyen szövegkörnyezetben fordul elő, akkor nem kell külön rákeresnünk a szó összes alakjára (ördög, ördögök, ördögöt, ördögöket stb.), hanem a szavak szótári alakjának az adatbázisban való szerepeltetése révén egy kereséssel kilistázhatjuk az összes ilyen szöveghelyet. Mivel a szavak szófaját és morfoszintaktikai jellemzőit is tartalmazza az adatbázis, nem csupán szavakra, hanem grammatikai jellemzőkre is kereshetünk. Például rákereshetünk az összes olyan szöveghelyre, amely a melléknév + ördög szerkezetet tartalmazza, de akár a középfokú melléknév + ördög szerkezeteket is kilistázhatjuk.
A lekérdezőfelület úgyszintén lehetőséget ad arra, hogy szavak gyakorisági listáit generáljuk, amelynek segítségével megvizsgálhatjuk egy-egy költő leggyakrabban használt főneveit, igéit vagy éppen a leggyakoribb egyes szám első személyben használt igéit. Ezek a szólisták lehetőséget adnak arra, hogy a távoli olvasás perspektívájából is rátekinthessünk a magyar költészetre, és különböző szerzők, időszakok között olyan eltéréseket vagy éppen hasonlóságokat észleljünk, amire korábban nem volt lehetőség.
A korpusz létrehozása során nem csupán a szavak grammatikai tulajdonságait, hanem a verseknek a gépi módszerekkel egyszerűbben megragadható hangzásjellemzőit is felismertettük. Ennek köszönhetően kilistázhatjuk azokat a verseket, amelyek egy meghatározott rímképlettel rendelkeznek, illetve rákereshetünk szavakra azok fonológiai jellemzői alapján is (például hangrend vagy szótagszám alapján). A versek megjelenítésénél pedig a már említett tulajdonságok mellett láthatjuk a sorok szótagszámát és időmértékes ritmusképletét is.
Az ELTE Verkorpusz nem egy befejezett projekt. A jövőben további költők verseivel szeretnénk bővíteni az adatbázist, illetve tervezzük további jellemzőknek is a gépi felismertetését, így például a versmetrum azonosítását.
A projektet az Felsőoktatási Intézményi Kiválósági Program támogatta, jelenleg a Digitális Örökség Nemzeti Laboratórium keretei között fejlesztjük tovább.
A projekt fejlesztésében részt vettek:
Palkó Gábor (koncepció, adatmodell)
Horváth Péter (koncepció, annotáló szkriptek)
Fellegi Zsófia (TEI XML specifikáció)
Indig Balázs (nyelvi elemzés)
Kundráth Péter (keresőeszköz)
Adatellenőrzés:
Bajzát Tímea Borbála
Karabulut Aslihan
Sárközi-Lindner Zsófia
Szlávich Eszter
Timári Mária
Vida Bence
A projekttel kapcsolatos előadások és publikációk:
Horváth Péter: Az ELTE Verskorpusz automatikus annotációs eljárásai révén nyerhető kvantitatív adattípusok. In: Nyelvtan, diskurzus, megismerés. Szerkesztette: Simon Gábor és Tolcsvai Nagy Gábor, Eötvös Kiadó, Budapest, 2020.
Palkó Gábor: Irodalmi korpuszok a távoli olvasás horizontján. https://mtabtk.videotorium.hu/hu/recordings/40982/
Copyrights © 2020 All Rights Reserved, Powered by ELTE