DataDOI
    • English
    • Eesti
  • Eesti 
    • English
    • Eesti
  • Logi sisse
Vaata 
  •   DataDOI
  • UT Humaniora
  • Eesti ja üldkeeleteaduse instituut
  • Eesti ja üldkeeleteaduse andmed
  • Vaata
  •   DataDOI
  • UT Humaniora
  • Eesti ja üldkeeleteaduse instituut
  • Eesti ja üldkeeleteaduse andmed
  • Vaata
JavaScript is disabled for your browser. Some features of this site may not work without it.

Phonetic Corpus of Estonian Spontaneous Speech v1.2

Lippus, Pärtel; Aare, Kätlin; Malmi, Anton; Tuisk, Tuuli; Teras, Pire
  • Export to BibTex
  • EndNote (RIS)
Loading
NimiSuurusKirjeldus
README.txt2.478KbShort summary
ekskfk_info_eng.html6.162Mbpaper describing background, materials and methods
ekskfk_info.html6.176MbKorpuse tutvustus eesti keeles
ekskfk_margendus_2020.html1.184MbAnnotation principles (In Estonian)
SKK0_WAV.zip13.63Gbstudio dialogue wav files
SKK1_WAV.zip2.757Gbmonologue wav files
SKK2_WAV.zip3.222Gbfieldwork dialogue wav files
SKK3_WAV.zip3.286Gbtrialogue wav files
SKK0_TG.zip84.24MbTextGrid files
SKK1_TG.zip21.41MbTextGrid files
SKK2_TG.zip19.95MbTextGrid files
SKK3_TG.zip4.065MbTextGrid files
SKK3_resp_WAV.zip735.5Mbrespiratory data wav files
SKK3_resp_TG.zip1.401Mbrespiratory data TextGrid files
SKK0_keypoints.zip12.00GbOpenPose json files
SKK3_keypoints.zip1.841GbOpenPose json files
EKSKFK_words_by_IPU_full_corpus.txt12.37Mbtext version of the corpus
EKSKFK_doc.zip21.64Kbmetadata
Thumbnail
Kuupäev
2021-09-08
URI
https://datadoi.ee/handle/33/351
https://doi.org/10.23673/re-293
Metaandmed
Näita täielikku nimetuse kirjet
Kokkuvõte
The Phonetic Corpus of Estonian Spontaneous Speech consists of recordings that have been annotated on different linguistic tiers including words and segments and their boundaries in the speech signal. The corpus mainly contains dialogues. The corpus can be used for studying different phonetic and linguistic research questions and for training various language technological applications (e.g. speech recognition, dialogue systems). In addition to the detailed phonetic segmentation the corpus has wword-level annotation uses standard orthography so the corpus can be used with most NLP tools built for written language. The corpus includes: - Studio quality sound recordings, separate channels for each speaker Spontaneous conversation between 2-3 speakers, approximately 30 minutes for each recording - Manual transcription of words and phonemes - 205 individual speakers in the age range of 20–85 years - A total of 134 hours of speech recordings - Word & phoneme level annotation of 106 hours / 914 thousand word level intervals...  Rohkem  Vähem
Märksõna
speech corpus; phonetic annotation; phoneme segments; multimodal speech; dialogues; voice quality; morphological analysis
Kirje tüüp
info:eu-repo/semantics/dataset; Data Paper; Audiovisual; Sound
Kollektsioonid
  • Eesti ja üldkeeleteaduse andmed

Tartu Ülikooli raamatukogu
Avatud teadus
Võta ühendust
DSpace software
Mirage 2 Theme
 

 

Sirvi

Valdkonnad ja andmekogumidAastaAutoridPealkirjadMärksõnadSelles andmekogumisAastaAutoridPealkirjadMärksõnad

Minu konto

Logi sisseRegistreeri

Statistika

Vaata kasutusstatistikat

Tartu Ülikooli raamatukogu
Avatud teadus
Võta ühendust
DSpace software
Mirage 2 Theme