Az ELTE Digitális Bölcsészet Tanszék Sketch Engine korpuszlekérdezője
A Sketch Engine egy nyelvészek és lexikográfusok által kedvelt korpuszlekérdező rendszer, mely a betöltött szövegkorpuszok nyelvészeti vizsgálatát teszi lehetővé. Két változata érhető el:
- A teljes értékű Sketch Engine felhőben futó változata, előre betöltött korpuszokkal
- A NoSketch Engine, nyílt forráskódú változat, amely saját gépre telepíthető, nem tartalmaz előre betöltött korpuszokat (Docker változat)
Az ELEXIS projekt keretében 2022 április 1-ig a teljes értékű Sketch Engine elérhető volt (itt) ingyenesen az ELTE polgárai számára a tanszékünktől függetlenül. Ez a lehetőség megszűnt, a továbbiakban fizetés ellenében lehet használni (itt), valamint korlátozott funkciókkal, korlátozott ideig kipróbálható ingyen ezen a linken.
A digitális bölcsészet tanszék üzemeltet egy saját NoSketch Engine példányt, melybe az általunk használt és készített korpuszokat töltöttük be.
A betöltött korpuszok nem elérhetőek a www.sketchengine.eu-ról. Ez az eduID-vel rendelkező magyarországi és külföldi intézmények polgárai számára elérhető ingyenesen. A betöltött korpuszok csak közvetetten is non-profit tudományos céllal használhatók.
A betöltött korpuszok a következők:
- Magyar Webcorpus 2.0 (Nemeskey Dávid, 2020)
- Forrás: Common Crawl
- Méret: kb. 9 millárd szó
- Hivatkozandó pubklikáció: Nemeskey, Dávid Márk (2020). “Natural Language Processing methods for Language Modeling”. PhD thesis. Eötvös Loránd University
- A korpusz leírása itt érhető el.
- Webaratás hírkorpusz (Indig Balázs et al., 2020)
- Covid korpusz (Varga Éva Katalin et al., 2022)
- Forrás: Magyar hírportálok (6 db)
- Méret: 4,6 millió szó
- Hivatkozandó pubklikáció: Varga, Éva Katalin ; Zimonyi, Ákos ; Indig, Balázs ; Sárközi-Lindner, Zsófia ; Palkó, Gábor Durva influenza vagy veszélyes világjárvány?: a Covid19 terminológiája a médiában In: Navracsics, Judit; Bátyi, Szilvia (szerk.) Nyelvek, nyelvváltozatok, következmények II. : Fordítástudomány, terminológia, retorika, kognitív nyelvészet, kontrasztív nyelvészet, interkulturális kommunikáció, névtan Budapest, Magyarország : Akadémiai Kiadó (2022) p. 1
- Leírás: A Semmelweis egyetem Szaknyelvi Intézetével együttműködésben készült, terminológiai kutatások céljából
- Erdélyi hírkorpusz
- Susanne corpus
- Forrás: A NoSketch Enginehez adott mintakorpusz (angol)
- Méret: 128 998 szó
- Leírás itt.
Saját NoSketch Engine példány üzemeltetéséhez, illetve korpuszok betöltéséhez segítséget tudunk nyújtani az alábbi elérhetőségeken:
Az adminisztratív kapcsolattartó (Palkó Gábor) email címe itt, a technikai kapcsolattartó (Indig Balázs) email címe pedig itt található.