Eesti Rahvusringhäälingu raadiosaadete korpus

Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Tsepelina, Katrin; Lindström, Liina

dc.contributor.author	Lippus, Pärtel
dc.contributor.author	Alumäe, Tanel
dc.contributor.author	Orasmaa, Siim
dc.contributor.author	Tsepelina, Katrin
dc.contributor.author	Lindström, Liina
dc.date.accessioned	2023-11-14T07:43:15Z
dc.date.available	2023-11-14T07:43:15Z
dc.date.issued	2023-11-13
dc.identifier.uri	https://datadoi.ee/handle/33/581
dc.identifier.uri	https://doi.org/10.23673/re-441
dc.description.abstract	Korpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 109 miljonit sõna. Korpus on valminud koostöös Tartu Ülikooli ja Eesti Rahvusringhäälingu ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames.	en
dc.description.abstract	ESTONIAN PUBLIC BROADCASTING'S RADIO CORPUS: This corpus consists of Estonian Public Broadcasting's radio shows and their transcriptions. There is a total of 53 000 radio shows with total duration of 16 thousand hours. The recordings are made between 1930-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 109 million words in total. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age")	en
dc.format	JSON	en
dc.language.iso	et	en
dc.publisher	Tartu Ülikool, eesti ja üldkeeleteaduse instituut	en
dc.rights	info:eu-repo/semantics/restrictedAccess	en
dc.subject	speech corpus	en
dc.subject	transcription	en
dc.subject	morphologically annotated text	en
dc.subject	radio shows	en
dc.subject	Estonian Public Boadcasting	en
dc.subject	spoken Estonian	en
dc.subject	Estonian language	en
dc.title	Eesti Rahvusringhäälingu raadiosaadete korpus	en
dc.type	info:eu-repo/semantics/dataset	en
dc.type	Text	en
dc.type	Collection	en

Failid selles nimetuses

Nimi:: README.txt
Suurus:: 8.575Kb
Formaat:: Tekstifail
Kirjeldus:: Description of the dataset and ...

Vaata/Ava

Nimi:: ERRi_korpuse_metainfo_datadoi.csv
Suurus:: 11.22Mb
Formaat:: CSV-fail
Kirjeldus:: List of shows and their metadata

Vaata/Ava

Nimi:: ERR_tekst_morf_json.zip
Suurus:: 4.738Gb
Formaat:: application/zip
Kirjeldus:: Transcription files

Vaata/Ava

Nimetus asub järgmis(t)es andmekogumi(te)s:

Suuline eesti keel arvudes

Näita lihtsat nimetuse kirjet