##################################################
# SUULINE EESTI KEEL ARVUDES. SAGEDUSANDMESTIKUD #
##################################################

31.05.2024

Siin repositooriumis on projekti projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames koostatud sagedusandmestikud, mis kirjeldavad suulist eesti keelt.

### KORPUSED, millel sagedusloendid põhinevad ###

Andmestikud põhinevad jägmistel korpustel:

  1) Eesti Rahvusringhäälingu raadiosaadete korpus (err)
  Lippus, Pärtel, Tanel Alumäe, Siim Orasmaa, Katrin Tsepelina & Liina Lindström. 2023. Eesti Rahvusringhäälingu raadiosaadete korpus. Tartu Ülikool, eesti ja üldkeeleteaduse instituut. https://doi.org/10.23673/RE-441.

  2) Eesti taskuhäälingukorpus (pods)
  Lippus, Pärtel, Tanel Alumäe, Siim Orasmaa, Maarja-Liisa Pilvik & Liina Lindström. 2023. Eesti taskuhäälingukorpus. Tartu Ülikool, eesti ja üldkeeleteaduse instituut. https://doi.org/10.23673/RE-445.

  3) Eesti keele spontaanse kõne foneetiline korpus (fonkorp)
  Lippus, Pärtel, Kätlin Aare, Anton Malmi, Tuuli Tuisk & Pire Teras. 2023. Phonetic Corpus of Estonian Spontaneous Speech v1.3. Institute of Estonian and General Linguistics, University of Tartu. https://doi.org/10.23673/RE-438.

  4) Teismeliste keel Eestis (teke)
  Vihman, Virve-Anneli, Maarja-Liisa Pilvik, Aive Mandel, Annika Kängsepp, Mari Aigro, Kadri Koreinik, Kristiina Praakli & Liina Lindström. 2023. Estonian Teen Language Corpus. Tartu Ülikool, eesti ja üldkeeleteaduse instituut. https://doi.org/10.23673/RE-455.

ERR raadiosaadete korpus on jagatud kaheks alamosaks: 

  1) Jutusaated aastatest 2000-2022 (v.a uudised: Päevakaja, spordiuudised, kihnu, võru jms keelsed uudised). Kokku on 22 073 saadet 9867 tundi :27 minutit :11 sekundit; 70 946 991 sõna; 1 454 362 erinevat sõnavormi.
  2) Uudistesaated: Päevakaja, uudised ja sport. Siit on välja jäetud murdekeelsed uudised. Kokku on siin 21 712 saadet 3139 tundi :05 minutit :10 sekundit; 21 469 687 sõna; 711 681 erinevat sõnavormi.

Kogu ERR-i korpuse 53000 saatest jäid sagedusloenditest välja:

   - 7996 on <2000 aastast, 
   - 15 on dateerimata, 
   - 1187 sisaldavad sarja pealkirjas "keelsed" (murdekeelsed uudised);
   - 17 on mingil põhjusel jäänud morfimata.

### REPOSITOORIUMI SISU ###

Kõik sagedustabelid on repositooriumis CSV formaadis. Eri korpustest päinevate andmete esitus võib vähesel määral erineda. Morfoloogiline analüüs ja lemmatiseerimine on kõikide korpuste peal tehtud Vabamorfi (fonkorp) või sellel põhineva EstNLTK-ga (kõik teised korpused), mille analüüsi ei ole mingil viisil kohandatud suulisele kõnele. Kõikide korpuste automaatse morfanalüüsi väljundist on valitud lõpuni ühestamata vormide puhul esimene analüüs. ERR-i ja taskuhäälingukorpuse transkriptsioon põhineb automaatsel kõnetuvastusel ja võib sisaldada tuvastusvigu, mida morfanalüüs võib olla võimendanud.

Sõnasageduste ERR-i, podcastide ja teke tabelitesse lisatud silbitus, välte ja rõhkude analüüsid, mis pärinevad EstNLTK analüüsist ja põhinevad transkriptsiooni kirjakujule, mitte tegelikule hääldusele. ERRi ja podcastide tabelites on lisatud automaatsel kõnetuvastusel põhinev sõna keskmine kestus (mediaan). Ainult foneetika korpuse tabelites on info silpide ja häälikute ning kestuse kohta, mis põhineb häälikutasandi märgendusel.

Paradigma suurusena on näidatud sõnasagedustabelites samas korpuses esinenud lemma erinevate vormide esinemise arvu.

Sõnatasandi bi- ja trigrammide loenditest on eemaldatud ainult üks kord esinenud kirjed. Esiteks ERR-i ja podcastide korpuse trigrammide tabel oleks ühekordsete esinemistega üle 40 miljoni rea ja seda on väga raske töödelda. Teiseks, väiksemate, TeKE ja foneetika korpuse üks kord esinenud trigrammid kajastaksid liiga palju individuaalsetes vestlustes esinenud fraase ja nende avaldamine on vastuolus korpuste kasutamistingimustega.

Hääliku- ja silbisagedustabelid põhinevad ainult foneetika korpuse andmetel. Korpuses märgendatud häälikud on teisendatud eesti keele põhifoneemideks. Kõikides tabelites on esitatud põhifoneemid ortograafiapõhiselt ja IPA sümbolitena, hääliku keskmine kestus millisekundites ja absoluutne sagedus (esinemiste arv korpuses).

### SÕNAVORMI SAGEDUSED ###

  - err_sonasagedustabel.csv
  - err_sonasagedustabel_uudised.csv
  - fonkorp_sonasagedustabel.csv
  - pods_sonasagedustabel.csv
  - teke_sonasagedustabel.csv
  
### SÕNAVORMI N-GRAMMID ###

  - err_sona_bigrammid.csv
  - err_sona_bigrammid_uudised.csv
  - pods_sona_bigrammid.csv
  - fonkorp_sona_bigrammid.csv
  - teke_sona_bigrammid.csv

  
  - err_sona_trigrammid.csv
  - err_sona_trigrammid_uudised.csv
  - pods_sona_trigrammid.csv
  - fonkorp_sona_trigrammid.csv
  - teke_sona_trigrammid.csv
 
### LEMMA SAGEDUSED ###
  
  - err_lemma_sagedustabel.csv
  - err_lemma_sagedustabel_uudised.csv
  - pods_lemma_sagedustabel.csv
  - fonkorp_lemma_sagedustabel.csv
  - teke_lemma_sagedustabel.csv

### LEMMA N-GRAMMID ###

  - err_lemma_bigrammid.csv
  - err_lemma_bigrammid_uudised.csv
  - pods_lemma_bigrammid.csv
  - fonkorp_lemma_bigrammid.csv
  - teke_lemma_bigrammid.csv

  - err_lemma_trigrammid.csv
  - err_lemma_trigrammid_uudised.csv
  - pods_lemma_trigrammid.csv
  - fonkorp_lemma_trigrammid.csv
  - teke_lemma_trigrammid.csv
  
### HÄÄLIKUSAGEDUSED ###

  - fonkorp_haalikusagedus.csv
  - fonkorp_haalikusagedus_koond.csv

  - fonkorp_vokaalisagedus.csv
  - fonkorp_konsonandisagedus.csv

  - fonkorp_haalik_bigrammid.csv
  - fonkorp_haalik_trigrammid.csv
  - fonkorp_haalik_trigrammid_sonapiiridega.csv

Häälikusageduste koondtabel esitab häälikute sagedused ja kestused põhifoneemide kaupa. Pikem häälikusageduste tabel eristab lisaks hääliku pikkust, silbiosa, sõnaliiki jms infot.

Vokaalisageduste tabel esitab mono- ja diftongide sagedusi. Kuna foneetika korpuse märgendusest on eemaldatud lisakvaliteedimärgendid ja esitatud on ainult põhifoneemi märgendit, siis on tabelisse tekkinud üksikuid samast põhifoneemist koosnevaid diftonge.

Konsonandisageduste tabel esitab kõnevoorus esinenud vokaalidevahelisi konsonandijärjendeid ehk konsonante ja konsonantühendeid.

Trigrammide esimeses tabelis on häälikud trigrammideks jagatud kõnevooru piires ja eraldi tulbas on märgitud kas trigramm ületab sõnapiiri või mitte. Teine tabel sõnapiiridega on sõna esimeseks trigrammiks loetud "#sõ" ja viimaseks "na#".

### SILBISAGEDUSED ###

  - fonkorp_silbisagedus.csv

### SKRIPTID ###

Sagedusloendite koostamiseks kasutatud Praati ja R-i skriptid on koondatud ühte zip-kataloogi.

ERR-i ja podcasti korpuste sõnavormi sageduste ja n-grammide tabelite koostamiseks on komplekt kolmest skriptist, mis mõlema korpuse puhul on üsna sarnased. Kuna korpused on suured, siis nende jooksutamine kogu korpuse peal on küllaltki ressursimahukas.

  - err_jsonist_morf_tabeliks.R -- teisendab ERR korpuse JSON failid sõnade kaupa tabeliteks (Pärtel)
  - err_korp_sonavormisagedustabel.R -- ERR-i korpuse sõnatabelitest sõnavormisagedused (Pärtel)
  - err_korp_bigrammid_trigrammid.R -- sõnatabelitest bi- ja trigrammide sagedused (Pärtel)
  
  - pods_jsonist_morf_tabeliks.R
  - pods_korp_bi-trigrammid.R
  - pods_korp_sonavormisagedustabel.R
  
  - err_pod_lemmasagedused_paradigmsuurused.R -- ERR-i ja podcastide sõnavormi tabeli põhjal lemmasagedused ja paradigmasuurused (Kaidi)

  - skk_korpus_20231217.praat -- foneetikakorpus TextGrid failidest sõnade kaupa tabeliks (Kaidi)
  - skk-wordstats-20240531.R -- foneetikakorpuse sõnastatistika (Kaidi)
  
  - teke_loendite_skript.R -- TeKE sõnasagedused (Maarja-Liisa)
  
  - haÌˆaÌˆlikutasandi_skript_suuline_keel_arvudes_anton_2023.praat -- foneetikakorpus TextGrid failidest häälikutasandi põhjal tabeliks (Anton)
  - fonkorp_haalikusagedused.R -- häälikusagedused ja n-grammid häälikute tabeli põhjal (Pärtel)
  - fonkorp_silbisagedused.R -- silbisagedused häälikute tabeli põhjal (Pärtel)

### VIITAMINE ###

Siin repositooriumis olevad sagedusandmestikud on avaldatud CC-by litsentsi alusel. Andmestike kasutamise korral palume viidata:

Lippus, Pärtel, Kaidi Lõo, Anton Malmi, Maarja-Liisa Pilvik. 2024. Suuline eesti keel arvudes. Sagedusandmestikud. Tartu Ülikool, eesti ja üldkeeleteaduse instituut. [DOI]