EST

"Suuline eesti keel arvudes" [1, 2] on projekt, mille eesmärk on pakkuda suulise eesti keele kohta baasstatistikat (keeleliste üksuste sagedusi ja pikkuseid), mida seni on olnud saadaval ainult kirjakeele kohta. Andmeallikatena kasutatakse olemasolevaid aegjoondusega suulise eesti keele korpuseid ning projekti käigus loodud suuremahulist automaatselt transkribeeritud ja morfoloogiliselt annoteeritud raadio ja taskuhäälingu korpust. Käesolev kollektsioon koondab loodud korpuste tekste ning kõigist kasutatud korpustest tuletatud sagedusandmestikke.

Projektimeeskond: Pärtel Lippus (vastutav täitja, Tartu Ülikool), Tanel Alumäe (Tallinna Tehnikaülikool), Liina Lindström (Tartu Ülikool), Kaidi Lõo (Tartu Ülikool), Anton Malmi (Tartu Ülikool), Maarja-Liisa Pilvik (Tartu Ülikool), Siim Orasmaa (Tartu Ülikool), Aleksei Kelli (Tartu Ülikool)

ENG

The aim of the project "Basic statistics of spoken Estonian" is to provide frequency lists and other basic statistics of spoken Estonian that have only been available based on written language. The data comes from manually annotated time-alligned speech corpora. In addition to analysing systematically collected and manually annotated speech corpora the project team has collected a larger speech corpus of radio talk shows and podcasts that have been automatically annotated using ASR and NLP tools. The speech corpora are used for creating lists of phoneme, morpheme, word, n-gram, and collocation frequencies. This collection consists of the text transcriptions of the speech corpora collected within the project and the frequency data sets.

Project team: Pärtel Lippus (PI, University of Tartu), Tanel Alumäe (TalTech), Liina Lindström (University of Tartu), Kaidi Lõo (University of Tartu), Anton Malmi (University of Tartu), Maarja-Liisa Pilvik (University of Tartu), Siim Orasmaa (University of Tartu), Aleksei Kelli (University of Tartu)

[1] "Riiklik programm: Eesti keel ja kultuur digiajastul (EKKD)" projekt EKKD93 "Suuline eesti keel arvudes"(1.01.2022−31.12.2022)

[2] "Riiklik programm: Eesti keel ja kultuur digiajastul (EKKD)" projekt EKKD117 "Suuline eesti keel arvudes II" (1.01.2023−31.12.2023)

Recent Submissions

  • Kõnetempo ja -soravuse varieerumine eesti keeles (data) 

    Lippus, Pärtel; Pilvik, Maarja-Liisa; Lõo, Kaidi; Lindström, Liina (University of Tartu, Institute of Estonian and General Linguistics, 2024)
    Siin repositooriumis on kõnetempo ja -soravuse andmestikud ja nende analüüsiks kasutatud R kood, mida on kasutatud artiklis: Pärtel Lippus, Maarja-Liisa Pilvik, Kaidi Lõo, Liina Lindström. 2024. Kõnetempo ja -soravuse ...
  • Eesti taskuhäälingukorpus 

    Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Pilvik, Maarja-Liisa; Lindström, Liina (Tartu Ülikool, eesti ja üldkeeleteaduse instituut, 2023-11-17)
    Korpus koosneb eesti taskuhäälingusaadetest ja nende transkriptsioonidest. Korpuses on kokku 10 633 episoodi 184 erinevast taskuhäälingust, kogukestusega 10 918 tundi, mis on salvestatud vahemikus 2018–2022. Salvestused ...
  • Eesti Rahvusringhäälingu raadiosaadete korpus 

    Lippus, Pärtel; Alumäe, Tanel; Orasmaa, Siim; Tsepelina, Katrin; Lindström, Liina (Tartu Ülikool, eesti ja üldkeeleteaduse instituut, 2023-11-13)
    Korpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli ...