################################################# # EESTI RAHVUSRINGHÄÄLINGU RAADIOSAADETE KORPUS # ################################################# 13.11.2023 [scroll down for English] Korpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930-2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega [1] ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga [2]. Kokku on korpuses 109 miljonit sõna. Korpus on valminud koostöös Tartu Ülikooli ja Eesti Rahvusringhäälingu ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames. Korpusest saab päringuid teha ka veebipõhise korpuste kasutajaliidesega Korp: https://korp.keeleressursid.ee/?mode=err#?lang=et&stats_reduce=word&cqp=%5B%5D NB! Tegemist on kõnesalvestuste automaatse transkriptsiooniga, mida ei ole kontrollitud ega parandatud ning see sisaldab vigu. Samuti on morfoloogiline info lisatud automaatselt transkribeeritud tekstile ja on automaatselt ühestatud ning sisaldab vigu. ### REPOSITOORIUMI SISU ### Siin repositooriumis on kaks faili: - ERRi_korpuse_metainfo_datadoi.csv -- saadete nimekiri ja metaandmed tabeli kujul - ERR_tekst_morf_json.zip -- korpuse transkriptsioonifailid ja morfinfo json formaadis Tekstid on jagatud saatesarjade kaupa kaustadesse ja omakorda kokku zipitud. Saatesarja kataloogis on alamkaustad aastakäikude kaupa, milles on konkreetsete saadete JSON failid. Kui sarjas on dateerimata saateid, siis on need koondatud alamkataloogi nimega "nodate". Saated, millel ei ole metaandmetes saatesarja märgitud, on koondatud kausta "sarjata_saated". Lahti pakituna on korpuse tekstifailide maht 105 GB. Tekstid on JSON formaadis failidena, mis on TTÜ automaatse kõnetuvastuse [1] väljund. Automaatselt tuvastatud tekstile on lisatud automaatne morfoloogiline märgendus EstNLTK [2] abil. Lisaks on failide päisesse lisatud saate metaandmed saate pealkirja, sarja, kuupäeva ja osalejate kohta. Faili päises on korrigeeritud kõnetuvastuse väljundi automaatset kõnelejatuvastust: kui automaatne kõnelejatuvastus on identifitseerinud nime, mida saate metaandmetes osalejate nimekirjas ei ole, siis on see eemaldatud, aga kui kõnelejatuvastus on leidnud ühe identifitseerimata kõneleja ja metaandmetes on sellele ainult üks kandidaat, siis on see nimi lisatud. Metaanmete tabelis on: - kaust -- saatesarja kausta nimi (tuletatud saatesarja nimest, ilma täpitähetede ja kirjavahemärkideta) - y -- aasta (tuletatud eetri- või salvestusajast) - id (saate id number ERR arhiivis) - fon -- saate viide ERR fonoteegis - dur -- kestus (h:m:s) - size -- transkriptsioonifaili maht baitides - nwords -- transkribeeritud sõnade arv - pealkiri - sari - salvaeg - eetriaeg - osalejate nimed (esineja, autor, vahetekstid, reporter, toimetaja, teadustaja, intervjueerija) See repositoorium sisaldab ainult korpuse tekste. Repositooriumisse ei ole lisatud saadete helisalvestisi. Saadete helisalvestisi on võimalik kuulata ERR-i arhiivist: saate püsilingis viitab saatele ID number, mis on ka transkripsioonifaili nimeks. Näiteks kui saate id on 198167, siis selle transkriptsioonifail on 198167.json ja ERR-i arhiivi püsilink https://arhiiv.err.ee/guid/198167. Korpuse kogu kollektsioonile on teaduskasutuseks võimalik ligipääsu küsida eraldi kasutuslepingu alusel, selleks võta ühendust Pärtel Lippusega . Muul kasutusotstarbel tuleks kontakteeruda otse Eesti Rahvusringhäälinguga. ### KORPUSE KASUTAMINE ### Korpuse kasutamiseks võta ühendust Pärtel Lippusega ### VIITAMINE ### Korpuse kasutamisel palume sellele viidata: Lippus, Pärtel, Tanel Alumäe, Siim Orasmaa, Katrin Tsepelina, Liina Lindström 2023. Eesti Rahvusringhäälingu raadiosaadete korpus. DOI: https://doi.org/10.23673/re-441 ############################################### # ESTONIAN PUBLIC BROADCASTING'S RADIO CORPUS # ############################################### This corpus consists of Estonian Public Broadcasting's radio shows and their transcriptions. There is a total of 53 000 radio shows with total duration of 16 thousand hours. The recordings are made between 1930-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 109 million words in total. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age") The corpus can be accessed also using the Korp corpus query interface: https://korp.keeleressursid.ee/?mode=err#?lang=et&stats_reduce=word&cqp=%5B%5D NB! The text in the corpus is automatic transcription of the audio recordings and contains recognition errors. The morphological analysis is automatically added to the text. The text and morphological annotation have not been manually corrected. ### CONTENTS OF THIS REPOSITORY ### There are two files in this repository: - ERRi_korpuse_metainfo_datadoi.csv -- a table with the list of radio shows and metadata - ERR_tekst_morf_json.zip -- text transcriptions of the radio shows The text transcriptions are organised into folders by radio show series and then by years. If there are undated shows in a series, they are in the folder "nodate". The shows that do not have a show series in the metadata are in the folder "sarjata_saated". The total size of the text files when unzipped is 105 GB. The transcriptions are in text files in JSON format as outputted by TalTech ASR [1]. Morphological tagging is added to the automatic transcription using EstNLTK [2]. The metadata of the shows that comes from the ERR archive is added in the head of the file containing info about the title of the show, date, and participants. Additionally, the automatic speaker recognition output that comes with the ASR is partly corrected: if ASR has identified a speaker who is not listed in the metadata, the name is removed, but if ASR has not identified one name and there is only one candidate for this in the metadata, the name has been added. The table of metadata contains following fields: - kaust -- the folder name of the series (the name without non-ascii symbols) - y -- year (from the recording time or the broadcast time) - id (the number of the show in the ERR archive) - fon -- ERR archive number - dur -- duration (h:m:s) - size -- the size of the transcription file in bites - nwords -- number of words in transcription - pealkiri -- show title - sari -- series title - salvaeg -- recording time - eetriaeg -- broadcasting time - participant names (esineja, autor, vahetekstid, reporter, toimetaja, teadustaja, intervjueerija) This repository contains only the transcription files. The audio recordings are not included. The recordings can be played from the ERR archive and can be found by the id that has also been used in the transcription file name. For example, the show with id number 198167 is transcribed in the file 198167.json and the link to this show in ERR archive is https://arhiiv.err.ee/guid/198167. The whole collection of the recordings and transcriptions can be used for academic data mining purposes and for obtaining access to audio please contact Pärtel Lippus . For using the collection in any other purpose please contact Estonian Public Broadcasting for permission. ### ACCESS TO THE CORPUS ### For getting access to the corpus please contact Pärtel Lippus ### CITATION ### When using the corpus in your publications please cite: Lippus, Pärtel, Tanel Alumäe, Siim Orasmaa, Katrin Tsepelina, Liina Lindström 2023. Eesti Rahvusringhäälingu raadiosaadete korpus. DOI: https://doi.org/10.23673/re-441 ### VIITED ### [1] Alumäe, Tanel; Tilk, Ottokar; Asadullah 2018. Advanced rich transcription system for Estonian speech. - Frontiers in Artificial Intelligence and Applications, 1-8. https://doi.org/10.3233/978-1-61499-912-6-1. [2] Laur, Sven; Orasmaa, Siim; Särg, Dage; Paul, Tammo 2020. EstNLTK 1.6: Remastered Estonian NLP pipeline. - Proceedings of the 12th Language Resources and Evaluation Conference, Marseille 2020, 7154-7162. European Language Resources Association.