Az Webaratás projektben ún. célzott archiválással összefüggő portálokat (jelenleg hírportálok cikkeit, később fórumokat, blogokat és egyéb médiatermékeket is) mentünk le és normalizáljuk a rajtuk lévő szöveges tartalom miatt.
A learatott anyag a nemzetközileg elfogadott ISO WARC formátumban van rögzítve, így a legközvetlenebb forrásból lehet kiindulni az új alkalmazási módok és a hibajavítások során, akkor is ha az eredeti oldal már nem elérhető az interneten. A további feldolgozás legfontosabb lépései: a metaadatok kinyerése és strukturált tárolása (Schema.org), a szövegek megtisztítása, majd a szerkezetileg is konzisztens anyag szabványos jelölőnyelvi kódolása (TEI XML), melyek értelmében nemcsak természetes nyelvfeldolgozó eszközökkel (NLP) való felhasználásra alkalmas, de ún. ‘Trusted Repository’-ként is funkcionál, amely megfelel a Linked Open Data technológiának. Így a modern mesterséges intelligenciát használó különböző tudományágak (adattudomány, számítógépes nyelvészet, társadalom- és bölcsészettudományok) igényeit is képes kielégíteni. A létrehozott homogén szövegállományt a metaadatokon túl automatikus szemantikus adatgazdagítással más néven wikifikációval (névelemek azonosítása és a szemantikus weben fellelhető tudástárak pl. Wikidata, DBpedia a megtalált entitásokhoz való rendelésével) egy magasabb reprezentációba alakítjuk, majd ezen reprezentáció mentén kereshetővé tesszük a kutatók számára sajtóadatbázis formájában. Így a rendszer a hagyományos szabad szöveges vagy a fejlett metaadatokra alapuló keresések mellett még összetettebb, szemantikus információkat tartalmazó kutatói kérdésekre is választ tud nyújtani.
Copyrights © 2020 All Rights Reserved, Powered by ELTE