Suuline eesti keel arvudes

Suuline eesti keel arvudes https://datadoi.ee/handle/33/580 2026-05-17T02:17:50Z Suuline eesti keel arvudes. Sagedusandmestikud https://datadoi.ee/handle/33/606 Suuline eesti keel arvudes. Sagedusandmestikud Lippus, Pärtel; Lõo, Kaidi; Malmi, Anton; Pilvik, Maarja-Liisa Siin repositooriumis on projekti "Suuline eesti keel arvudes" raames koostatud sagedusandmestikud, mis kirjeldavad suulist eesti keelt. Andmestikud põhinevad Eesti keele spontaanse kõne korpusel, Teismeliste Keel Eestis korpusel ning käesoleva projekti raames kogutud ERR-i ja taskuhäälingu korpustel. Esitatud on sõna- ja lemmasagedusi ning n-gramme ja häälikute ja silpide sagedusi. // This repository contains frequency data collected within the project "Basic statistics of spoken Estonian" The datasets are based on four spoken corpora: Phonetic Corpus of Estonian Spontaneous Speech, Estonian Teen Language Corpus, ERR broadcasts and podcasts corpus. The tables present frequency counts of words, lemmas, phonemes and syllables. 2024-05-31T00:00:00Z Lippus, Pärtel Lõo, Kaidi Malmi, Anton Pilvik, Maarja-Liisa Kõnetempo ja -soravuse varieerumine eesti keeles (data) https://datadoi.ee/handle/33/592 Kõnetempo ja -soravuse varieerumine eesti keeles (data) Lippus, Pärtel; Pilvik, Maarja-Liisa; Lõo, Kaidi; Lindström, Liina Siin repositooriumis on kõnetempo ja -soravuse andmestikud ja nende analüüsiks kasutatud R kood, mida on kasutatud artiklis: Pärtel Lippus, Maarja-Liisa Pilvik, Kaidi Lõo, Liina Lindström. 2024. Kõnetempo ja -soravuse varieerumine eesti keeles. Eesti Rakenduslingvistika aastaraamat 20. // This is the data & code for analysing speech rate and fluency in Estonian for the paper in the Estonian Papers in Applied Linguistics, the Yearbook of EAAL vol 20. 2024-01-01T00:00:00Z Lippus, Pärtel Pilvik, Maarja-Liisa Lõo, Kaidi Lindström, Liina Eesti taskuhäälingukorpus https://datadoi.ee/handle/33/585 Eesti taskuhäälingukorpus Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Pilvik, Maarja-Liisa; Lindström, Liina Korpus koosneb eesti taskuhäälingusaadetest ja nende transkriptsioonidest. Korpuses on kokku 10 633 episoodi 184 erinevast taskuhäälingust, kogukestusega 10 918 tundi, mis on salvestatud vahemikus 2018–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 85 miljonit sõna. Korpus on kogutud andmekaeveks teadustöö eesmärgil. Korpus on koostatud veebikraapimismeetodil, siia on valitud erinevaid eestikeelseid podcaste, mida kajastavad portaalid podcastid.ee ja podcast.ee. Korpus on valminud koostöös Tartu Ülikooli ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames.; This corpus consists of Estonian podcasts and their transcriptions. There is a total of 10 633 episodes from 184 different podcasts with total duration of 10 918 hours. The recordings are made between 2018-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 85 million words in total. The corpus has been collected for academic data mining purposes using web scraping. The collection contains a selection of Estonian podcasts that are indexed by the portals podcastid.ee and podcast.ee. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age"). 2023-11-17T00:00:00Z Lippus, Pärtel Alumäe, Tanel Orasmaa, Siim Pilvik, Maarja-Liisa Lindström, Liina Eesti Rahvusringhäälingu raadiosaadete korpus https://datadoi.ee/handle/33/581 Eesti Rahvusringhäälingu raadiosaadete korpus Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Tsepelina, Katrin; Lindström, Liina Korpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 109 miljonit sõna. Korpus on valminud koostöös Tartu Ülikooli ja Eesti Rahvusringhäälingu ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames.; ESTONIAN PUBLIC BROADCASTING'S RADIO CORPUS: This corpus consists of Estonian Public Broadcasting's radio shows and their transcriptions. There is a total of 53 000 radio shows with total duration of 16 thousand hours. The recordings are made between 1930-2022. The recordings are automatically transcribed with TalTech ASR system and morphologically analysed with EstNLTK. The text corpus consists of 109 million words in total. The corpus has been created by University of Tartu in cooperation with Tallinn University of Technology (TalTech) and Estonian Public Broadcasting (ERR) in the project EKKD93 "Basic statistics of spoken Estonian" and EKKD117 "Basic statistics of spoken Estonian II" (Ministry of Education and Research program "Estonian Language and Culture in the Digital Age") 2023-11-13T00:00:00Z Lippus, Pärtel Alumäe, Tanel Orasmaa, Siim Tsepelina, Katrin Lindström, Liina