Näita lihtsat nimetuse kirjet

dc.contributor.authorLippus, Pärtel
dc.contributor.authorAlumäe, Tanel
dc.contributor.authorOrasmaa, Siim
dc.contributor.authorTsepelina, Katrin
dc.contributor.authorLindström, Liina
dc.date.accessioned2023-11-14T07:43:15Z
dc.date.available2023-11-14T07:43:15Z
dc.date.issued2023-11-13
dc.identifier.urihttps://datadoi.ee/handle/33/581
dc.identifier.urihttps://doi.org/10.23673/re-441
dc.description.abstractKorpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 109 miljonit sõna. Korpus on valminud koostöös Tartu Ülikooli ja Eesti Rahvusringhäälingu ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames.en
dc.description.abstractESTONIAN PUBLIC BROADCASTING'S RADIO CORPUS: This corpus consists of Estonian Public Broadcasting's radio shows and their transcriptions. There is a total of 53 000 radio shows with total duration of 16 thousand hours. The recordings are made between 1930-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 109 million words in total. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age")en
dc.formatJSONen
dc.language.isoeten
dc.publisherTartu Ülikool, eesti ja üldkeeleteaduse instituuten
dc.rightsinfo:eu-repo/semantics/restrictedAccessen
dc.subjectspeech corpusen
dc.subjecttranscriptionen
dc.subjectmorphologically annotated texten
dc.subjectradio showsen
dc.subjectEstonian Public Boadcastingen
dc.subjectspoken Estonianen
dc.subjectEstonian languageen
dc.titleEesti Rahvusringhäälingu raadiosaadete korpusen
dc.typeinfo:eu-repo/semantics/dataseten
dc.typeTexten
dc.typeCollectionen


Failid selles nimetuses

Thumbnail
Thumbnail
Thumbnail

Nimetus asub järgmis(t)es andmekogumi(te)s:

Näita lihtsat nimetuse kirjet