DataDOI
    • English
    • Eesti
  • English 
    • English
    • Eesti
  • Login
View Item 
  •   DataDOI
  • UT Humaniora
  • Eesti ja üldkeeleteaduse instituut
  • Suuline eesti keel arvudes
  • View Item
  •   DataDOI
  • UT Humaniora
  • Eesti ja üldkeeleteaduse instituut
  • Suuline eesti keel arvudes
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Eesti taskuhäälingukorpus

Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Pilvik, Maarja-Liisa; Lindström, Liina
  • BibTex
  • EndNote (RIS)
Loading
NameSizeDescription
README.txt7.627KbDescription of the dataset and using conditions
Podcast_korpuse_metainfo_datadoi.csv2.339MbList of podcast episodes and their metadata
Podcast_tekst_morf_json.zip3.812GbTranscription files
Thumbnail
Date
2023-11-17
URI
https://datadoi.ee/handle/33/585
https://doi.org/10.23673/re-445
Metadata
Show full item record
Abstract
Korpus koosneb eesti taskuhäälingusaadetest ja nende transkriptsioonidest. Korpuses on kokku 10 633 episoodi 184 erinevast taskuhäälingust, kogukestusega 10 918 tundi, mis on salvestatud vahemikus 2018–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 85 miljonit sõna. Korpus on kogutud andmekaeveks teadustöö eesmärgil. Korpus on koostatud veebikraapimismeetodil, siia on valitud eriinevaid eestikeelseid podcaste, mida kajastavad portaalid podcastid.ee ja podcast.ee. Korpus on valminud koostöös Tartu Ülikooli ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames....  Show more  Show less
 
This corpus consists of Estonian podcasts and their transcriptions. There is a total of 10 633 episodes from 184 different podcasts with total duration of 10 918 hours. The recordings are made between 2018-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 85 million words in total. The corpus has been collected for academic data mining purposes using web scraping. The collection contains a selection oof Estonian podcasts that are indexed by the portals podcastid.ee and podcast.ee. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age")....  Show more  Show less
 
Keyword
speech corpus; transcription; morphologically annotated text; podcast; spoken Estonian; Estonian language
Item type
info:eu-repo/semantics/dataset; Text; Collection
Collections
  • Suuline eesti keel arvudes

University of Tartu Library
Open Science
Contact Us
DSpace software
Mirage 2 Theme
 

 

Browse

Communities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

LoginRegister

Statistics

View Usage Statistics

University of Tartu Library
Open Science
Contact Us
DSpace software
Mirage 2 Theme