#############################
# EESTI TASKUHÄÄLINGUKORPUS #
#############################

17.11.2023

[scroll down for English]

Korpus koosneb eesti taskuhäälingusaadetest (ehk podcastidest) ja nende transkriptsioonidest. Korpuses on kokku 10 633 episoodi 184 erinevast taskuhäälingust, kogukestusega 10 918 tundi, mis on salvestatud vahemikus 2018-2022. Salvestused on transkribeeritud Tallinna TehnikaÜlikooli automaatse kõnetuvastusega [1] ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga [2]. Kokku on korpuses 85 miljonit sõna. 

NB! Tegemist on kõnesalvestuste automaatse transkriptsiooniga, mida ei ole kontrollitud ega parandatud ning see sisaldab vigu. Samuti on morfoloogiline info lisatud automaatselt transkribeeritud tekstile ja on automaatselt ühestatud ning sisaldab vigu. 

Korpus on kogutud andmekaeveks teadustöö eesmärgil. Korpus on koostatud veebikraapimismeetodil, siia on valitud erinevaid eestikeelseid podcaste, mida kajastavad saidid podcastid.ee ja podcast.ee. Korpus on valminud koostöös Tartu Ülikooli ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames. 

### REPOSITOORIUMI SISU ###

Siin repositooriumis on kaks faili:

  - Podcast_korpuse_metainfo_datadoi.csv -- podcastide nimekiri episoodide kaupa ja metaandmed tabeli kujul
  - Podcast_tekst_morf_json.zip -- korpuse transkriptsioonifailid ja morfinfo json formaadis

Tekstid on jagatud taskuhäälingute kaupa kaustadesse ja omakorda kokku zipitud. Taskuhäälingu kataloogis on alamkaustad aastakäikude kaupa, milles on konkreetsete episoodide JSON failid. Lahti pakituna on korpuse tekstifailide maht 119 GB.

Tekstid on JSON formaadis failidena, mis on TTÜ automaatse kõnetuvastuse [1] väljund. Automaatselt tuvastatud tekstile on lisatud automaatne morfoloogiline märgendus EstNLTK [2] abil. Failid on utf-8 kodeeringus. NB! Faili päises on kõnelejad tuvastatud automaatselt. Osalejate nimesid automaatse kõnetuvastuse väljundist ei ole korrigeeritud ja ei pruugi olla õiged.

Metaandmete tabelis on 492 episoodi, mida mingil põhjusel ei õnnestunud transkribeerida ja mille transkripsioonifaili repositooriumis ei ole. Nende saadete sõnade arv on tabelis märgitud NA.

Metaandmete tabelis on:
  - kaust -- taskuhäälingu kausta nimi (tuletatud podcasti nimest, eemaldatud on kõik mitte-ascii tähemärgid ja kirjavahemärgid, tühikud asendatud alakriipsudega)
  - y -- aasta
  - filename -- failinimi (tuletatud episoodi pealkirjast, eemaldatud on kõik mitte-ascii tähemärgid ja kirjavahemärgid, tühikud asendatud alakriipsudega)
  - ext -- helifaili laiend (.mp3, m4a või .wav)
  - dur -- kestus (h:m:s)
  - size -- transkriptsioonifaili maht baitides
  - nwords -- transkribeeritud sõnade arv
  - pealkiri -- episoodi pealkiri/kirjeldus
  - sari -- taskuhäälingu nimi
  - date -- kuupäev

See repositoorium sisaldab ainult korpuse tekste. Repositooriumisse ei ole lisatud helisalvestisi. Taskuhäälinguid on võimalik kuulata taskuhäälingute oma kodulehekülgedelt või Eesti taskuhäälinguid koondavatest portaalidest, nt podcastid.ee. Korpuse kogu kollektsioonile on teaduskasutuseks võimalik ligipääsu küsida eraldi kasutuslepingu alusel, selleks võta ühendust Pärtel Lippusega <partel.lippus@ut.ee>.

### KORPUSE KASUTAMINE ###

Korpust võib kasutada andmekaeveks teadustöös ja varasemate teadusuuringute tulemuste korratavuse kontrollimiseks.

Korpuse kasutamiseks võta ühendust Pärtel Lippusega <partel.lippus@ut.ee>

### VIITAMINE ###

Korpuse kasutamisel palume sellele viidata:

Lippus, Pärtel, Tanel Alumäe, Siim Orasmaa, Maarja-Liisa Pivik, Liina Lindström 2023. Eesti taskuhäälingukorpus. [doi]


###########################
# ESTONIAN PODCAST CORPUS #
###########################

This corpus consists of Estonian podcasts and their transcriptions. There is a total of 10 633 episodes from 184 different podcasts with total duration of 10 918 hours. The recordings are made between 2018-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 85 million words in total.

NB! The text in the corpus is automatic transcription of the audio recordings and contains recognition errors. The morphological analysis is automatically added to the text. The text and morphological annotation have not been manually corrected.

The corpus has been collected for academic data mining purposes using web scraping. The collection contains a selection of Estonian podcasts that are indexed by the portals podcastid.ee and podcast.ee. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age").

### CONTENTS OF THIS REPOSITORY ###

There are two files in this repository:

- Podcast_korpuse_metainfo_datadoi.csv -- a table with the list of podcasts and their metadata
- Podcast_tekst_morf_json.zip -- text transcriptions of the radio shows

The text transcriptions are organised into folders by podcasts and then by years. The total size of the text files when unzipped is 119 GB.

The transcriptions are in text files in JSON format as outputted by TalTech ASR [1]. Morphological tagging is added to the automatic transcription using EstNLTK [2]. The files are in utf-8 encoding. Note that the list of speakers in the header of the files comes from the ASR output, this is not corrected and contains errors.

The metadata table contains 492 episodes that ASR failed to recognise and there is no transcription. For these the number of words is NA.

The table of metadata contains following fields:
  - kaust -- the folder name of the podcast (the name without non-ascii symbols and punctuation, spaces changed to underscores)
  - y -- year (from episode date) 
  - filename -- episode title without non-ascii symbols and punctuation, spaces changed to underscores
  - ext -- format of the audio file (.mp3, .m4a or .wav) 
  - dur -- duration (h:m:s)
  - size -- the size of the transcription file in bites
  - nwords -- number of words in transcription
  - pealkiri -- episode title/description
  - sari -- podcast name
  - date


This repository contains only the transcription files. The audio recordings are not included. The recordings can be played from the podcast home page or from portals podcastid.ee & podcast.ee. The whole collection of the recordings and transcriptions can be used for academic data mining purposes and for obtaining access to audio please contact Pärtel Lippus <partel.lippus@ut.ee>. 


### ACCESS TO THE CORPUS ###

The corpus can be used for for academic data mining purposes.

For getting access to the corpus please contact Pärtel Lippus <partel.lippus@ut.ee>

### CITATION ###

When using the corpus in your publications please cite:

Lippus, Pärtel, Tanel Alumäe, Siim Orasmaa, Maarja-Liisa Pivik, Liina Lindström 2023. Eesti taskuhäälingukorpus. [doi]

### VIITED ###

[1] Alumäe, Tanel; Tilk, Ottokar; Asadullah 2018. Advanced rich transcription system for Estonian speech. - Frontiers in Artificial Intelligence and Applications, 1-8. https://doi.org/10.3233/978-1-61499-912-6-1.
[2] Laur, Sven; Orasmaa, Siim; Särg, Dage; Paul, Tammo 2020. EstNLTK 1.6: Remastered Estonian NLP pipeline. - Proceedings of the 12th Language Resources and Evaluation Conference, Marseille 2020, 7154-7162. European Language Resources Association.