• contact@elte-dh.hu
  • 1088 Budapest, Múzeum krt. 6-8.

Az ELTE Digitális Bölcsészet Tanszék Sketch Engine korpuszlekérdezője

A Sketch Engine egy nyelvészek és lexikográfusok által kedvelt korpuszlekérdező rendszer, mely a betöltött szövegkorpuszok nyelvészeti vizsgálatát teszi lehetővé. Két változata érhető el:

  1. A teljes értékű Sketch Engine felhőben futó változata, előre betöltött korpuszokkal
  2. A NoSketch Engine, nyílt forráskódú változat, amely saját gépre telepíthető, nem tartalmaz előre betöltött korpuszokat (Docker változat)

Az ELEXIS projekt keretében 2022 április 1-ig a teljes értékű Sketch Engine elérhető volt (itt) ingyenesen az ELTE polgárai számára a tanszékünktől függetlenül. Ez a lehetőség megszűnt, a továbbiakban fizetés ellenében lehet használni (itt), valamint korlátozott funkciókkal, korlátozott ideig kipróbálható ingyen ezen a linken.

 

A digitális bölcsészet tanszék üzemeltet egy saját NoSketch Engine példányt, melybe az általunk használt és készített korpuszokat töltöttük be.
A betöltött korpuszok nem elérhetőek a www.sketchengine.eu-ról.
Ez az eduID-vel rendelkező magyarországi és külföldi intézmények polgárai számára elérhető ingyenesen. A betöltött korpuszok csak közvetetten is non-profit tudományos céllal használhatók.

 

A betöltött korpuszok a következők:
  • Magyar Webcorpus 2.0 (Nemeskey Dávid, 2020)
    • Forrás: Common Crawl
    • Méret: kb. 9 millárd szó
    • Hivatkozandó pubklikáció: Nemeskey, Dávid Márk (2020). “Natural Language Processing methods for Language Modeling”. PhD thesis. Eötvös Loránd University
    • A korpusz leírása itt érhető el.
  • Webaratás hírkorpusz (Indig Balázs et al., 2020)
  • Covid korpusz (Varga Éva Katalin et al., 2022)
    • Forrás: Magyar hírportálok (6 db)
    • Méret: 4,6 millió szó
    • Hivatkozandó pubklikáció: Varga, Éva Katalin ; Zimonyi, Ákos ; Indig, Balázs ; Sárközi-Lindner, Zsófia ; Palkó, Gábor Durva influenza vagy veszélyes világjárvány?: a Covid19 terminológiája a médiában In: Navracsics, Judit; Bátyi, Szilvia (szerk.) Nyelvek, nyelvváltozatok, következmények II. : Fordítástudomány, terminológia, retorika, kognitív nyelvészet, kontrasztív nyelvészet, interkulturális kommunikáció, névtan Budapest, Magyarország : Akadémiai Kiadó (2022) p. 1
    • Leírás: A Semmelweis egyetem Szaknyelvi Intézetével együttműködésben készült, terminológiai kutatások céljából
  • Erdélyi hírkorpusz
    • Forrás: Erdélyi magyar hírportálok (3 db)
    • Méret: kb. 21,3 millió szó
    • Hivatkozandó pubklikáció: Varga, Éva Katalin ; Márton, Emese ; Indig, Balázs ; Sárközi-Lindner, Zsófia ; Palkó, Gábor Erdélyi és anyaországi orvosi terminológia pandémia idején ALKALMAZOTT NYELVTUDOMÁNY Különszám 2023-1 (2023) p. 76-95.
    • Leírás: A Semmelweis egyetem Szaknyelvi Intézetével együttműködésben készült, terminológiai kutatások céljából
  • Susanne corpus
    • Forrás: A NoSketch Enginehez adott mintakorpusz (angol)
    • Méret: 128 998 szó
    • Leírás itt.

 

Saját NoSketch Engine példány üzemeltetéséhez, illetve korpuszok betöltéséhez segítséget tudunk nyújtani az alábbi elérhetőségeken:

Az adminisztratív kapcsolattartó (Palkó Gábor) email címe itt, a technikai kapcsolattartó (Indig Balázs) email címe pedig itt található.