Siin repositooriumis on kõnetempo ja -soravuse andmestikud ja nende analüüsiks kasutatud R kood, mida on kasutatud artiklis: Pärtel Lippus, Maarja-Liisa Pilvik, Kaidi Lõo, Liina Lindström. 2024. Kõnetempo ja -soravuse varieerumine eesti keeles. Eesti Rakenduslingvistika aastaraamat 20. Andmed on pärit kolmest korpusest: Teismeliste keel Eestis (TeKE), Eesti keele spontaanse kõne foneetiline korpus v.1.2 (fonkorp) ja Põhjatuule ja päikese korpus (pohja). Täpsemaid korpuste kirjeldusi ja viiteid vt artiklist. Skriptid, millega andmed on korpustest kogutud: - teke_andmestiku_skript.R -- R skript, millega on TeKE märgendusfailidest kogutud andmed voorude kaupa tabelisse (Maarja-Liisa Pilvik) - konevoorudest_konetempo_koneaeg_f0_soravus.praatscript -- Praati skript, millega foneetika korpuse andmed on TextGrididelt ja helifailidest tabelisse kogutud (Pärtel Lippus & Anton Malmi) - margendamata_failid_segmenteerijale.R -- R skript, mis autosegmenteerijaga märgendab varem märgendamata failid (Pärtel Lippus) - pohja_konetempo.R -- R skript, mis kogub põhjatuule korpusest kõnetempo andmestiku (Pärtel Lippus) Andmestikud: - teke_voorud.csv -- TeKE kõnetempo ja soravuse andmed kõnevoorude kaupa (tabulatsioonidega eristatud testifail) - fonkorp_voorud.Rda -- foneetikakorpuse kõnetempo ja soravuse andmed kõnevoorude kaupa - teke_globaalne_konetempo.Rda - TeKE kõnetempo ja soravuse andmed globaalselt kõneleja kohta ühes dialoogis (tuletatud voorutabelist, R-i kood Rmd failis) fonkorp_globaalne_konetempo.Rda -- foneetikakorpuse kõnetempo ja soravuse andmed globaalselt kõneleja kohta ühes dialoogis (tuletatud voorutabelist, kood RMD failis) - pohja_konetempo_andmed.Rda -- Põhjatuule korpuse kõnetempo andmed globaalselt, kõneleja kohta ühes salvestuses Artiklis esitatud analüüsi kood: - Lippus_etal_konetempo_RLY_aastaraamat.html - Lippus_etal_konetempo_RLY_aastaraamat.Rmd Andmeid ja koodi võib kasutada CC-by litsensi alusel. Küsimuste korral võta ühendust Pärtel Lippusega: partel.lippus@ut.ee. ### ENG ### This is the data and code used for analysing speech rate and fluency in Estonian published in the paper: Pärtel Lippus, Maarja-Liisa Pilvik, Kaidi Lõo, Liina Lindström. 2024. Kõnetempo ja -soravuse varieerumine eesti keeles. Eesti Rakenduslingvistika aastaraamat 20. The data comes from three corpora: Teen Speak in Estonia (teke), Phonetic Corpus of Estonian Spontaneous Speech v1.2 (fonkorp) and the Estonian Northwind and the Sun Corpus (pohja; read speech). Here are the datasets and scripts used for collecting and analysing the data. Scripts for collecting data: - teke_andmestiku_skript.R -- Teen Speak data from annotation files by turns (Maarja-Liisa Pilvik) - konevoorudest_konetempo_koneaeg_f0_soravus.praatscript -- phonetics corpus data from TextGrids and wav by turns (Pärtel Lippus & Anton Malmi) - margendamata_failid_segmenteerijale.R -- script that sends un-annotated files to autosegmentation (Pärtel Lippus) - pohja_konetempo.R -- collects speechrate data from Northwind and the Sun files (Pärtel Lippus) Datasets: - teke_voorud.csv -- TeKE speechrate and fluency by turns - fonkorp_voorud.Rda -- phonetics corpus speechrate and fluency (and pitch) by turns - teke_globaalne_konetempo.Rda -- global speechrate and fluency by speaker in dialogues in TeKE fonkorp_globaalne_konetempo.Rda -- global speechrate and fluency by speaker in dialogues in phonetics corpus - pohja_konetempo_andmed.Rda -- global speechrate by speaker in read speech The code analysing the datasets for the paper: - Lippus_etal_konetempo_RLY_aastaraamat.html - Lippus_etal_konetempo_RLY_aastaraamat.Rmd The data and the code can by used under CC-by license. For questions please contact Pärtel Lippus: partel.lippus@ut.ee.