Andmekogumi nimi / dataset title: Projekti EKKD119 andmestik: ERR-i raadioarhiivi kultuurisaadete süntaktiline märgendus, tuvastatud nimeolemid, märksõnad, teemad ja nendevahelised seosed, 2003-2021 Andmekogumi autorid / dataset authors: Andres Kõnno, 0000-0002-2086-5138; Kais Allkivi-Metsoja, 0000-0003-3975-5104; Jaagup Kippar, 0009-0005-5949-2366; Taavi Kamarik, 0009-0001-5088-7442; Herman Petrov, 0009-0005-1199-6522; Indrek Ibrus, 0000-0003-1524-270X Kontaktisik / contact person: Andres Kõnno, 0000-0002-2086-5138, Tallinna Ülikool, BFM, akonno@tlu.ee Litsents / license: CC-BY 4.0 Publitseerimise kuupäev / date of publication: 13.06 2024 Failide nimekiri / dataset files: koordinaadid.csv, korpused.csv, korpuselemmad.csv, lausesonad.csv, lemmad.csv, lemmaryhma_marksonad.csv, lemmaryhmad.csv, lemmaryhmad_marksonad.csv, olem_olem_meta.csv, olemid.csv, olemid_lausesonad.csv, tekstid.csv, tekstilemmad.csv, tekstimeta.csv, votmesus.csv. Andmete eesmärk / dataset summary: Näidata, millised seosed ja võrgustikud Eesti Rahvusringhäälingu kultuuriainelistest raadiosaadetest tuvastatud isikute, kohtade, organisatsioonide ja saadete teemade vahel tekivad. Andmete taaskasutamise tingimused Andmeid ja siia juurde loodud metaandmeid võib taaskasutada mistahes eesti kultuuri kirjeldavate andmekogumite arendamiseks. Viitamine andmestiku algsele päritolule ja autoritele on kohustuslik vastavalt CC-BY 4.0 litsentsi tingimustele. Andmete kogumine Andmed pärinevad Eesti Rahvusringhäälingu (ERR) raadioarhiivist, vahemikust 2003-2021, ja sisaldavad kõiki uudiseid, mille metaandmestik viitab kultuurivaldkonna kajastamisele nendes. Tegemist on digiteeritud ja kõnetuvastuse abil teksti kujule viidud andmekogumiga. Algsed metaandmed sisaldavad käsitsi annoteeritud teavet saate eetriaja, nime, saatesarja, selle identifikaatori, fonoteegi numbri, esinejate, seotud teemade, kategooria, kestuse, salvestuskoha, õiguste, fonogrammi tootja, säiliku nime, toimetaja ja sisu kohta. Andmekogumi kasutamine Päringud olem, olemityyp?, seosetyyp? -> olem, seostearv (olemityyp=isik/koht/org, seosetyyp = lause/tekst) kohaolem -> koordinaadid olem, votmesonatyyp -> votmesona, smskoor, kogus (votmesonatyyp=err/yhendkorpus) olem1, olem2 -> votmesona, skoor olem-> lemmaryhmade_marksona, kogus olem1, olem2-> lemmaryhmade_marksona, kogus olem->olem, lemmaryhmade_marksonad, kogus Üldised kommentaarid andmestiku kohta / Version notes ============= Versioon 1.1 / Version 1.1 Andmed on süntaktiliselt märgendatud, kasutades Pythoni keeletöötluspaketti Stanza. Nimeolemite tuvastamisel on rakendatud selleks otstarbeks peenhäälestatud keelemudelit EstBERT_NER. Iga raadiosaate tekst on sõnastatud ning määratud on sõnade asukoht tekstis; algvorm ehk lemma; sõnaliik; süntaktiline funktsioon lauses; põhisõna, millest sõltub sõna esinemine lauses; põhisõna sõnaliik; põhisõna asukoht. Lisaks on välja toodud iga sõna nimekategooria: PER – isik, ORG – organisatsioon, LOC – asukoht, O – pole nimi. Tuvastatud on nii sama teksti piires koos esinevad nimed kui ka samas lauses esinevad ja sama põhisõna kaudu seotud nimed. Piirdutud on nimedega, mis leiduvad avaandmete põhjal koostatud nimeloendites. Vähemalt 10 korda esinenud rööpsed nimekujud on poolautomaatselt ühendatud nime põhikujuga. Saadetest on eraldatud võtmesõnad ehk märksõnad, kasutades nii statistilist kui ka graafipõhist meetodit. Päringuga on võimalik leida erinevate nimeolemitega koos mainitud märksõnu. Andmestikus leiduvad sõnad on sõnavektorite klasterdamise teel grupeeritud semantilistesse rühmadesse, mille alusel saab tuletada saadete ja nimedega seotud teemavaldkonnad. Valmis tabelit nende seoste kohta hetkel ei ole. -------------------------------- Projekti EKKD119 andmestik: ERR-i raadioarhiivi kultuurisaadete süntaktiline märgendus, tuvastatud nimeolemid, märksõnad, teemad ja nendevahelised seosed © 2024 by Andres Kõnno, 0000-0002-2086-5138; Kais Allkivi-Metsoja, 0000-0003-3975-5104; Jaagup Kippar, 0009-0005-5949-2366; Taavi Kamarik, 0009-0001-5088-7442; Herman Petrov, 0009-0005-1199-6522; Indrek Ibrus, 0000-0003-1524-270X is licensed under Creative Commons Attribution 4.0 International