DataDOI
    • English
    • Eesti
  • Eesti 
    • English
    • Eesti
  • Logi sisse
Vaata 
  •   DataDOI
  • UT Humaniora
  • Eesti ja üldkeeleteaduse instituut
  • Suuline eesti keel arvudes
  • Vaata
  •   DataDOI
  • UT Humaniora
  • Eesti ja üldkeeleteaduse instituut
  • Suuline eesti keel arvudes
  • Vaata
JavaScript is disabled for your browser. Some features of this site may not work without it.

Eesti Rahvusringhäälingu raadiosaadete korpus

Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Tsepelina, Katrin; Lindström, Liina
  • Export to BibTex
  • EndNote (RIS)
Loading
NimiSuurusKirjeldus
README.txt8.575KbDescription of the dataset and using conditions
ERRi_korpuse_metainfo_datadoi.csv11.22MbList of shows and their metadata
ERR_tekst_morf_json.zip4.738GbTranscription files
Thumbnail
Kuupäev
2023-11-13
URI
https://datadoi.ee/handle/33/581
https://doi.org/10.23673/re-441
Metaandmed
Näita täielikku nimetuse kirjet
Kokkuvõte
Korpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 109 miljonit sõna. Korpus on valminud koostöös Tartu Ülikooli ja Eesti Rahvusringhäälingu ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" jaa EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames....  Rohkem  Vähem
 
ESTONIAN PUBLIC BROADCASTING'S RADIO CORPUS: This corpus consists of Estonian Public Broadcasting's radio shows and their transcriptions. There is a total of 53 000 radio shows with total duration of 16 thousand hours. The recordings are made between 1930-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 109 million words in total. The corpus has been created by University of Tartu in cooperation withh Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age")...  Rohkem  Vähem
 
Märksõna
speech corpus; transcription; morphologically annotated text; radio shows; Estonian Public Boadcasting; spoken Estonian; Estonian language
Kirje tüüp
info:eu-repo/semantics/dataset; Text; Collection
Kollektsioonid
  • Suuline eesti keel arvudes

Tartu Ülikooli raamatukogu
Avatud teadus
Võta ühendust
DSpace software
Mirage 2 Theme
 

 

Sirvi

Valdkonnad ja andmekogumidAastaAutoridPealkirjadMärksõnadSelles andmekogumisAastaAutoridPealkirjadMärksõnad

Minu konto

Logi sisseRegistreeri

Statistika

Vaata kasutusstatistikat

Tartu Ülikooli raamatukogu
Avatud teadus
Võta ühendust
DSpace software
Mirage 2 Theme