• contact@elte-dh.hu
  • 1088 Budapest, Múzeum krt. 6-8.

A keresési funkciók bemutatása példákkal

Rímképlet:      

            aabb – az összes vers, amiben van aabb rímképletű versszak

            aabb aaaa – az összes vers, amiben van két egymást követő, aabb aaaa rímképletű versszak

            ^aabb aaaa$ – az összes két versszakból álló, aabb aaaa rímképletű vers

Tartalom:

A ‘Tartalom’ mezőben a korpusz szavaira kereshetünk rá. A keresési kifejezéseket nemcsak kézzel, hanem a mező alatt lévő gombokra kattintással is bevihetjük (ez utóbbi megoldás jóval egyszerűbb).  

Szóra/szókapcsolatra keresés teljes egyezéssel:

            csillagok az égen – az összes „csillagok az égen” szókapcsolat

Szóalak:

            @W=futok – az összes futok szóalak

            @W~ut – az összes szóalak, amiben szerepel az ut karaktersor

Szótő:

            @L=fut – az összes szóalak, aminek a szótöve (szótári alakja) a fut szó

            @L~ut – az összes szóalak, amely szótövének része az ut karaktersor

Szófaj:

            @P=NOUN – az összes főnév

Morfológia:

            @M=Case:Acc – az összes akkuzatívuszban (tárgyesetben) lévő szó

Hangrend:

            @PT=high – az összes magas hangrendű szó

Szótagszám:

            @S>4 – az összes négynél több szótagból álló szó

Egy szóra vonatkozóan több keresési feltételt is megadhatunk, ha a feltételeket egymás után, szóköz nélkül visszük be.

Szófaj + Morfológia:

            @P=NOUN@M=Case:Acc – az összes akkuzatívuszban lévő főnév

            @P=VERB@M=Number:Sing@M=Person:1 – az összes egyes szám első személyű ige

Szófaj + Hangrend + Szótagszám:

            @P=NOUN@PT=low@S>5 – az összes főnév, amely mély hangrendű és ötnél több szótagú

Több szó együttes előfordulására is rákereshetünk. Ebben az esetben az eltérő szavakra vonatkozó jellemzőket szóközzel kell elválasztanunk egymástól, és a ‘Tokenek kapcsolata’, illetve a ‘Tokenek max. távolsága’ mezőben meg kell adnunk, hogy a keresett szavak mekkora, illetve milyen típusú szövegegységen belül forduljanak elő együtt ahhoz, hogy találatot kapjunk.

@L=ember @L=ördög – az ember és az ördög szótövű szavak együttes előfordulásai

@L=ember @L=ördög @L=állat – az ember, az ördög és az állat szótövű szavak együttes előfordulásai

@P=VERB@M=Number:Sing@M=Person:1 @L=ördög – egyes szám első személyű igék és az ördög szótövű szavak együttes előfordulásai

Gyakorisági listák generálása:

Nem csupán szavak előfordulására kereshetünk rá, hanem szavakból álló gyakorisági listákat is generálhatunk. Ehhez a ‘Keresés’ gomb melletti nyílra kell rákattintanunk, majd pedig a ‘Szóalakok gyakorisági listája’ vagy a ‘Szótövek gyakorisági listája’ opcióra. A gyakorisági lista a ‘Tartalom’ mezőben megadott keresési feltételeknek megfelelő szóalakokból, illetve szótövekből generálódik.          

A keresési funkciók részletes leírása

1. Szóra keresés különböző jellemzők megadásával

A Tartalom mezőben szavakra kereshetünk rá. Ennek legegyszerűbb módja az, ha beírjuk a mezőbe a keresendő szót vagy szókapcsolatot. Például ha beírjuk a „csillagok az égen” szókapcsolatot, akkor megkapjuk az összes olyan szöveghelyet, ahol szerepel ez a szókapcsolat. Ugyanakkor a szavak különböző jellemzőinek megadásával összetettebb kereséseket is elvégezhetünk.  Ezeket a jellemzőket a ‘Szóalak’, ‘Szótő’, ‘Szófaj’, ‘Morfológia’, ‘Hangrend’, ‘Szótagszám’ és ‘Fonológia’ gombokra való kattintással adhatjuk meg.

1.1. Szóalak

A ‘Szóalakra’ rákattintva megjelenik egy legördülő lista, amely az ‘egyenlő’, ‘egyenlő (kis-/nagybetű számít)’ és a ‘tartalmazza’ gombokból áll. Az ‘egyenlő’ gombra rákattintva a ‘Tartalom’ mezőben megjelenik a „@W=” szimbólumsor. Az egyenlőségjel után, szóközkihagyás nélkül írhatjuk be azt a szóalakot, amelyre rá szeretnénk keresni. Például ha beírjuk a fut szót (@W=fut), akkor megkapjuk az összes fut és Fut szóalakot, de nem kapjuk meg a futott, futok, futna, Fuss stb. alakokat, mivel ezek eltérő szóalaknak számítanak. Ugyanígy, ha beírjuk a futott szót, akkor csak a futott, illetve Futott szóalakokat kapjuk meg. Ha egy szóalaknak csak a kisbetűs vagy csak a nagybetűs változatára szeretnénk rákeresni, akkor az ‘egyenlő (kis-/nagybetű számít)’ opciót kell kiválasztanunk. A ‘tartalmazza’ opció kiválasztásával megkapjuk az összes olyan szóalakot, amely tartalmazza a megadott karaktersort. Például, ha az ut karaktersort adjuk meg, akkor megkapjuk a fut, futott, utál, huncut, Másutt stb. szóalakokat.

1.2. Szótő

A ‘Szótő’ gombra kattintva a szavak szótári alakjára (lemmájára) kereshetünk rá. Egy szó szótári alakja a szónak az a verziója, amely a szótárakban szerepel. Például a fut, futott, futok futna stb. szóalakok szótári alakja a fut szóalak. Vagyis ha a fut igének az összes toldalékolt alakjára szeretnénk rákeresni, akkor a ‘Szótő’ gombra, majd pedig az ‘egyenlő’ opcióra kell rákattintanunk, ezt követően a ‘Tartalom’ mezőben megjelenő „@L=” szimbólumsor egyenlőségjele után írjuk be a fut szót (@L=fut). A szótőre keresés esetében is választhatjuk az ‘egyenlő (kis-/nagybetű számít)’, valamint a ‘tartalmazza’ opciót. A ‘tartalmazza’ opció ebben az esetben a szótári alakra vonatkozik, vagyis hiába írjuk be például a nánk karaktersort, nem fogjuk megkapni a futnánk alakokat, hiszen a futnánk szó szótári alakja a fut szó, amelynek nem része a nánk karaktersor.

1.3. Szófaj

A ‘Szófaj’ gombra kattintva szavak szófajára kereshetünk. Például a legördülő listában szereplő főnév vagy ige szófajának kiválasztásával rákereshetünk az összes főnévre, illetve igére.

1.4. Morfológia

A szófajok mellett egyéb grammatikai kategóriákra is rákereshetünk a ‘Morfológia’ gombra való kattintással. Például ha a legördülő listából kiválasztjuk az ‘eset: akkuzatívusz’ kategóriát vagy a ‘szám: többes’ kategóriát, akkor megkapjuk az összes akkuzatívuszban (tárgyesetben), illetve többes számban lévő szót. A ‘Morfológia’ legördülő listájában szereplő jellemzőket általában a szófaji kategóriákkal együtt érdemes használni (lásd az 1.8 Szóra keresés több jellemző alapján részt).

1.5. Hangrend

A ‘Hangrend’ gombra kattintva a szavak hangrendje alapján kereshetünk. Például a ‘mély’ kiválasztása esetén (@PT=low) megkapjuk az összes mély hangrendű szót.

1.6. Szótagszám

Ha a ‘Szótagszám’ gombra kattintunk, szótagszám alapján kereshetünk szavakra. A ‘kisebb (bármely)’ lehetőség kiválasztásával a megadott szótagszámnál kevesebb, az ‘egyenlő (bármely)’ kiválasztásával a megadott szótagszámmal megegyező, a ‘nagyobb (bármely)’ kiválasztásával pedig a megadott szótagszámnál több szótagból álló szavakra kereshetünk rá. A ‘Szótagszám’ legördülő listájában szerepel még további hat keresési lehetőség, amelyek után zárójelben a ‘rövid’ vagy a ‘hosszú’ szó szerepel. Ezekkel a funkciókkal a szavakban szereplő rövid vagy hosszú szótagok számára kereshetünk rá. Hosszú szótag az, amelyben hosszú magánhangzó szerepel, vagy pedig a szótag rövid magánhangzóját hosszú mássalhangzó vagy egynél több mássalhangzó követi. Egy szó utolsó szótagjának a hosszúságát befolyásolja a verssorban a következő szónak az eleje. Például ha egy szó utolsó szótagjában rövid magánhangzó van, amelyet csak egy mássalhangzó követ, de a következő szó is mássalhangzóval kezdődik, akkor a kérdéses szótag hosszúnak számít.

1.7. Fonológia

A ‘Fonológia’ gombra kattintva fonológiai szerkezet alapján is kereshetünk szavakra. A fonológiai szerkezet megadásakor négy karaktert használhatunk, amelyek a hangok néhány fontosabb tulajdonságát reprezentálják: C: mássalhangzó, V: magánhangzó, F: elöl képzett magánhangzó, B: hátul képzett magánhangzó, 1: rövid magánhangzó, 2: hosszú magánhangzó. A magánhangzók megadásakor mind a három jellemzőt specifikálni kell a fent megadott sorrendben. Az egyes hangokat kötőjellel kell elválasztani. Például ha kiválasztjuk az ‘egyenlő’ opciót, és megadjuk a C-VF1-C-C-VB2 fonológiai reprezentációt, akkor sok más szó mellett megkapjuk a sikló, disznó, nyitná szavakat. Ha a ‘tartalmazza’ opciót választjuk, akkor többek között megkapjuk a cellák, villámlik és evangélisták szavakat. A hosszú mássalhangzók C-C-vel reprezentálódnak, vagyis ugyanúgy, mint két egymást követő rövid mássalhangzó.

1.8. Szóra keresés több jellemző alapján

Szavakra keresésnél több jellemzőt is megadhatunk. Ebben az esetben a megadott jellemzőket egymás után, szóköz nélkül kell bevinnünk a ‘Tartalom’ mezőbe. Például ha kiválasztjuk a ‘Szófajnál’ az ‘ige’ kategóriát, majd a ‘Morfológiánál’ az ‘idő: múlt’ kategóriát (@P=VERB@M=Tense:Past), akkor rákereshetünk a korpusz összes múlt idejű igéjére. További morfológiai jellemzőket is megadhatunk, például az említett jellemzők mellett kiválaszthatjuk a ‘szám: egyes’ és a ‘személy: első’ jellemzőket (@P=VERB@M=Tense:Past@M=Number:Sing@M=Person:1), aminek eredményeképpen megkapjuk az összes múlt idejű, egyes szám első személyű igét. A jellemzőket szabadon vegyíthetjük, például a ‘Szótő’ opciónál megadhatjuk a vár szót, majd a ‘Szófajnál’ kiválaszthatjuk a ‘főnév’ kategóriát, végül a ‘Szótagszámnál’ megadhatjuk a nagyobb kettőnél feltételt (@L=vár@P=NOUN@S>2), aminek eredményeképpen megkapjuk a vár főnév összes kettőnél több szótagos előfordulását (pl.: várába, várának, váraikban).

2. Egyszerre több szóra keresés

Egyszerre több szóra is rákereshetünk. Ebben az esetben a ‘Tartalom’ mezőben az eltérő szavakra vonatkozó jellemzőket szóközzel kell elválasztanunk egymástól. Például ha az ember és az ördög szótövű szavak együttes előfordulását szeretnénk lekérdezni, akkor az ember szótőre vonatkozó keresési kifejezés bevitele után nyomjunk egy szóközt – jelezve, hogy a további keresési feltételek már egy másik szóra vonatkoznak –, és ezt követően vigyük be az ördög szótőre vonatkozó keresési feltételt (@L=ember @L=ördög). Újabb szóközt nyomva kettőnél több szóra is rákereshetünk (pl. @L=ember @L=ördög @L=állat). Természetesen több szóra vonatkozó kereséseknél is tetszőleges számú feltételt adhatunk meg egy-egy szóra vonatkozóan. Például lekérdezhetjük, hogy hány darab egyes szám első személyben lévő ige fordul elő az ördög lemmával (@P=VERB@M=Number:Sing@M=Person:1 @L=ördög).

2.1. Tokenek kapcsolata

Több szóra történő keresésnél a ‘Tokenek kapcsolata’ mezőben ki kell választanunk, hogy a keresett szavak mekkora, illetve milyen típusú szövegegységen belül forduljanak elő együtt ahhoz, hogy találatot kapjunk. A kiválasztott szövegegységen belül a keresett szavak bármilyen sorrendben előfordulhatnak.

2.2. Tokenek max. távolsága

Amennyiben pontosan meg akarjuk adni a szavak egymástól való távolságát, akkor ezt a ‘Tokenek max. távolsága’ mezőben tehetjük meg, ahol számokkal jelezhetjük a szavak közötti távolságot (1: a keresett szavak közvetlenül egymás mellett állnak, 2: a keresett szavak között maximum egy másik szó vagy írásjel szerepel, 3: a keresett szavak között maximum két másik szó vagy írásjel szerepel stb.).  Ha a ‘Tokenek max. távolságát’ kitöltjük, akkor a keresett szavak csak a ‘Tartalom’ mezőben megadott sorrendben fordulhatnak elő.

3. Kontextus

A keresés eredményeképpen kapott találatok megjelenítését a ‘Kontextus mérete’ és a ‘Kontextus típusa’ gombra való kattintással módosíthatjuk.

3.1. Kontextus mérete

A ‘Kontextus mérete’ gombra rákattintva állíthatjuk be, hogy a találatok mekkora szövegkörnyezetben forduljanak elő.

3.2. Kontextus típusa

A kontextus típusa gombra kattintva beállíthatjuk, hogy a találatok, illetve a találatok szövegkörnyezetének a szavai szótövekként (lemmákként) vagy szófaji címkékként jelenjenek meg.

4. Statisztika

Ha a ‘Keresés’ gomb melletti nyílra kattintunk, akkor három további keresési lehetőség közül választhatunk. A ‘Statisztika’ gombra kattintva táblázatos formában kapjuk meg a kiválasztott alkorpusz mennyiségi adatait, valamint a keresett szó/szavak gyakorisági adatait. A táblázatban a ‘Szerző’ oszlopot követő első négy oszlop a ‘Szerző’ és ‘Műcím’ szűrőknél kiválasztott alkorpusz verseinek, szavainak és tokeneinek a számát, valamint az alkorpusz szóalak- és szótőgazdagságát mutatja be összesítve, illetve az alkorpuszban szereplő szerzőkre lebontva. A ‘tokenek száma’ a szavak és a központozás együttes számára utal. A ‘szóalakgazdagság’ oszlopban a kiválasztott alkorpuszban található különböző szóalakok száma, a ‘szótőgazdagság’ oszlopban pedig a kiválasztott alkorpuszban található különböző szótári alakok (lemmák) száma szerepel. Az ezeket követő öt oszlopban szerepel a találatot tartalmazó versek száma, a kimenetben szereplő, találatokat tartalmazó kontextusok száma, a  találatok száma, a talált szavak száma, valamint a talált tokenek száma, úgyszintén összesítve és szerzőkre lebontva. A ‘találatok száma’ abban az esetben különbözik a ‘talált szavak számától’, ha egyszerre több szóra keresünk rá, mivel ilyenkor  a keresett szavaknak a megadott keresési ablakon belüli együttes előfordulása egy találatnak számít, de több talált szónak. A ‘talált tokenek száma’ abban az esetben különbözik a ‘talált szavak számától’, ha nem vagy nemcsak szóra, hanem írásjelre (is) keresünk, mivel a talált tokenek számát a talált szavak és a talált írásjelek összege adja ki. Végezetül a ‘talált szóalakgazdagság’ oszlopban a keresési feltételeknek megfelelő különböző szóalakok száma, a ‘talált szótőgazdagság’ oszlopban pedig a keresési feltételeknek megfelelő különböző szótövek (lemmák) száma szerepel összesítve és szerzőkre lebontva.  

5. Gyakorisági listák generálása

Nem csupán szavak előfordulására kereshetünk rá, hanem szavakból álló gyakorisági listákat is generálhatunk. Ehhez a Keresés gomb melletti nyílra kell rákattintanunk, majd pedig a ‘Szóalakok gyakorisági listája’ vagy a ‘Szótövek gyakorisági listája’ opcióra.

5.1. Szóalakok gyakorisági listája

A ‘Szóalakok gyakorisági listája’ funkció a ‘Tartalom’ mezőben megadott keresési feltételeknek megfelelő szóalakokból generál gyakorisági listát, amelyben a szóalakok csökkenő gyakoriság szerint szerepelnek. Például ha a ‘Tartalom’ mezőben keresési feltételként megadjuk a fut lemmát (@L=fut), akkor megkapjuk a fut lemma különböző szóalakjainak a gyakorisági listáját. Hasonlóan, ha a ‘Szófajnál’ kiválasztjuk a ‘főnév’ kategóriát (@P=NOUN), akkor megkapjuk az összes főnévi szóalak gyakorisági listáját. Ebben az esetben is megadhatunk több keresési feltételt. Például ha a ‘Szófajnál’ kiválasztjuk az ige kategóriát, majd a ‘Morfológiánál’ kiválasztjuk a ‘szám: egyes’ és a ‘személy: 1’ jellemzőket, akkor megkapjuk az egyes szám első személyű igei szóalakok gyakorisági listáját.

5.2. Szótövek gyakorisági listája

Ha a ‘Keresés’ gomb melletti nyílra kattintunk, és a ‘Szótövek gyakorisági listája’ opciót választjuk, akkor  a ‘Tartalom’ mezőben megadott keresési feltételeknek megfelelő szótövekből (lemmákból) generálódik a gyakorisági lista. Például ha a ‘Tartalom’ mezőben megadjuk a ‘főnév’ keresési feltételt (@P=NOUN), akkor megkapjuk az összes főnévi szótő (lemma) gyakorisági listáját. Több keresési feltételt is megadhatunk, például ha a ‘Szófajoknál’ kiválasztjuk az ige kategóriát, majd a ‘Morfológiánál’ kiválasztjuk a ‘szám: egyes’ és a ‘személy: 1’ jellemzőket, akkor megkapjuk az egyes szám első személyű igei szótövek (lemmák) gyakorisági listáját. A szóalakok és a szótövek gyakorisági listája között az a különbség, hogy míg például a főnév keresési feltétel (@P=NOUN) esetében a szóalakok gyakorisági listájában az arc, arccal, arcnak, arcunk stb. alakok külön listaelemeknek számítanak, addig a szótövek gyakorisági listájában ezek az előfordulások az arc listaelemben összegződnek, hiszen az arc, arccal, arcnak, arcunk stb. szóalakoknak ugyanúgy az arc a szótöve.

6. Rímképletre keresés

Ha a ‘Rímképlet’ mezőbe beírunk egy rímképletet (pl. aabb), akkor rákereshetünk azokra a versekre, amelyeknek valamelyik versszakát a beírt rímképlet jellemzi. Amennyiben több egymást követő versszak rímképletére szeretnénk rákeresni, akkor szóközzel jelezzük a versszakhatárt (pl. aabb aaaa). Egy vers versszakainak a rímképlete egymástól függetlenül lett elemezve, vagyis egy aaaa aabb típusú rímképletben a második versszak a-val jelölt rímei nem feltétlenül rímelnek az első versszak a-val jelölt rímeivel. A fenti keresések esetében megkapjuk azokat a verseket is, amelyek csupán tartalmazzák az adott rímképletet. Például az aabb aaaa keresőkifejezésre meg fogjuk kapni az aabb aaaa aaba rímképletű verseket is. Ha csak azokat a verseket szeretnénk megkapni, amelyek rímképlete megegyezik a megadott rímképlettel, akkor a rímképlet elejére írjunk egy ^ jelet, a végére pedig egy $ jelet (pl. ^aabb aaaa$). A rímképletre való keresés során használhatunk további reguláris kifejezéseket is (lásd https://hu.wikipedia.org/wiki/Regul%C3%A1ris_kifejez%C3%A9s).

7. Mentés

A ‘Mentés’ gombra rákattintva TSV formátumban letölthetjük a találatokat a beállított szövegkontextussal, a statisztika táblázatot, a gyakorisági listákat, valamint a ‘Szerző’ és a ‘Műcím’ szűrőkkel megadott alkorpusznak az adatait. A TSV formátum a táblázatkezelő programok többségébe (pl. Microsoft Excel, LibreOffice Calc) betölthető.

8. A versek megjelenítése

A keresési kimenet találatainál szereplő ‘megnyit’ gombra kattintva nyithatjuk meg a találatot tartalmazó verset. A vers felett láthatjuk a vers automatikusan felismertetett jellemzőit: a versszakok számát, a sorok számát, a szavak számát, a szótagok számát, a rövid szótagok számát, a hosszú szótagok számát, valamint a vers szótagmintáját és rímképletét. A szótagmintában szereplő, kötőjellel elválasztott számok a vers sorainak a szótagszámait jelölik. Ha a vers valamelyik szavára húzzuk az egeret, akkor a felugró ablakban láthatjuk az adott szó grammatikai és fonológiai jellemzőit, azaz a szó lemmáját (szótövét), szófaját, szótagszámát, rövid szótagjainak a számát, hosszú szótagjainak a számát, ritmusát, hangrendjét, fonológiai szerkezetét és a morfoszintaktikai tulajdonságait. A ritmus reprezentációjában a 0 a rövid szótagokat, az 1 pedig a hosszú szótagokat jelöli. A fonológiai szerkezet reprezentációjában a C a mássalhangzókat, a V a magánhangzókat, a V után álló F az elöl képzett, B a hátul képzett magánhangzókat, az ezek után álló 1 karakter a rövid, a 2 pedig a hosszú magánhangzókat jelöli. Amennyiben az adott szó része egy rímpárnak vagy egy alliterációnak, akkor ez is megjelenik a szó tulajdonságai között. Alliterációként elemeztük azokat a szerkezeteket is, ahol két azonos hanggal kezdődő szó közé beékelődik egy másik hanggal kezdődő szó. Például Babitsnak a „Bus donna barna balkonon” sora egy alliteráló egységként lett elemezve. A felugró ablakban úgyszintén láthatjuk az adott szót tartalmazó sor néhány jellemzőjét: a szószámot, a szótagszámot, a rövid szótagok számát, a hosszú szótagok számát, valamint a sor időmértékes ritmusát. A felugró ablak legalsó sora a szót tartalmazó versszak jellemzőit mutatja be: a versszak sorszámát, szószámát, a szótagok számát, a rövid szótagok számát, a hosszú szótagok számát, valamint a versszak rímképletét és szótagmintáját, azaz a versszak sorait alkotó szótagszámokat kötőjellel elválasztva.