Eesti keele spontaanse kõne foneetiline korpus

Tartu Ülikooli Eesti keele spontaanse kõne foneetiline korpus koosneb kõne salvestistest, mis on märgendatud erinevatel lingvistilistel tasanditel: märgitud on sõnad ja häälikud ning nende piirid helisignaalis. Korpus sisaldab põhiliselt kahe osalejaga vestlusi.

Korpus sobib nii häälduse kui üldisemalt suulise keelekasutuse uurimiseks ja kõnetehnoloogiliste rakenduste treenimiseks. Seda on mugav kasutada, sest lisaks detailsele foneetilisele märgendusele sisaldab see ka tavaortograafias transkriptsiooni, mistõttu on korpus töödeldav kirjakeelele mõeldud tööriistadega (nt morfanalüsaator).

Eesti keele spontaanse kõne foneetilises korpuses on:

stuudiokvaliteediga helisalvestised, iga kõneleja signaal eraldi helifailis
spontaansed vestlused 2-3 kõneleja vahel, iga vestlus umbes pool tundi
transkriptsioon käsitsi märgendatud sõnade ja häälikute piiridega
205 erinevat kõnelejat erinevatest Eesti piirkondadest vanuses 20–85 aastat
kokku 134 tundi kõnesalvestusi
märgendatud 106 tundi / 914 tuhat sõnatasandi segmenti

Salvestused

Korpuse koostamisel on eesmärgiks koguda võimalikult hea kvaliteediga spontaanse kõne salvestusi. Enamik salvestusi on tehtud foneetika labori salvestuskabiinis või stuudios, välitöö tingimustes on salvestused tehtud vaikses ruumis. Salvestamiseks kasutatakse peamikrofone ja iga kõneleja signaal salvestatakse eraldi kanalisse. Ühe salvestuse kestus on umbes 30 minutit. Heli salvestatakse wav-formaadis resolutsiooniga 16 bitti ja 44.1 kHz.

Korpus koosneb neljast alamkorpusest:

SKK0 – labori salvestuskabiinis salvestatud dialoogid
SKK1 – auditooriumis salvestatud monoloogid
SKK2 – välitööl salvestatud dialoogid
SKK3 – laboris salvestatud trialoogid hingamisandmetega

Alamkorpus SKK3 koosneb Kätlin Aare doktoritöö jaoks tehtud kolme kõnelejaga salvestustest. Salvestused viidi läbi Stockholmi ülikooli hingamislaboris, salvestati helisingaal, video ning hingamisandmed. Vaata täpsemalt siit.

Alates 2018. aastast salvestatakse dialoogid ka videos, mis võimaldab analüüsida multimodaalset kõnet. Video salvestatakse GoPro kaameratega, iga kõneleja jälgib üks kaamera otsevaates ning osadel dialoogisalvestustel lisaks üks kaamera mõlema kõneleja külgvaates. Kõigist videosalvestustest on ka OpenPose tarkvara abil tuvastatud näo ja keha andmed, millest on kasu multimodaalse kõne uurimisel. Siin on katkend ühest dialoogi salvestusest ja OpenPose andmetest:

Keelejuhid

Kõik kõnelejad osalevad korpuses teadlikult ning vabatahtlikult. Neile on enne salvestust selgitatud korpuse eesmärke ja neid on instrueeritud vestlema poole tunni jooksul vabalt valitud teemadel. Monoloogisalvestuste puhul salvestatakse avalikku loengut või konverentsiettekannet, aga ka seal toimub salvestamine kõnelejaga kooskõlastatult.

Kõnelejate valikul üritatakse saavutada võimalikult ühtlast soolist, vanuselist ja piirkondlikku esindatust. Sotsiaalse tausta osas domineerib akadeemiline, enamik kõnelejaid on kõrgharidusega või üliõpilased. Hetkeseisuga on korpuses 205 keelejuhti, kelle sotsiodemograafilist tausta ilmsestavad järgnevad joonised.

Joonis 1: Kõnelejate päritolu.

Joonis 2: Kõnelejate sugu ja sünniaasta.

Joonis 3: Kõnelejate sooline ja vanuseline jaotumine dialoogipaarides.

Märgendus

Korpuse märgendamispõhimõtteid on detailselt kirjeldatud korpuse märgendajatele mõeldud juhendis.

Korpuse märgendamiseks kasutatakse kõneanalüüsiprogrammi Praat, segmentimis- ja märgendusinfo salvestatakse TextGrid formaadis.

Korpuse salvestused nimetatakse nii, et failinimes on kodeeritud info alamkorpuse, vestluse ja kõneleja kohta. Failinimi agab alamkorpuse tähisega ja sellele järgnevad numbrid viitavad salvestusele ning sidekriipsu järel kolmekohaline number ja alakriipsule järgnev tähemärk täihistab kõnelejat. Näiteks failinimi “SKK001-003_M” tähendab, et see on stuudios salvestatud dialoogide salvestus number 01, keelejuht 003_M. Sama vestluse teine pool võiks näiteks kanda nime SKK001-005_N". Kõik failid (wav, mp4 ja TextGrid) saavad sama nime, erinevad ainult laiendi poolest.

Joonis 4: Märgenduse näide.

Segmentimiskihid on järgmised:

sõnad – Sõnakihile märgitakse sõnad ortograafilises kirjaviisis. Lisaks märgitakse sinna kihile pausid ja fillerid. Vaikset pausi tähistab sümbol #. Kõik muud täidetud pausid, fillerid, üneemid jms mitteleksikaalsed üksused tähistatakse punktiga, nt “.ee”. Sõnatasandile märgitakse ka lisainfot, mis sõnale lisatakse kaldkriipsu järel ja märgitakse punktiga, nt “midagi/.naerdes”.
häälikud – Häälikutasandile märgitakse häälikupiirid, häälikud märgitakse SAMPA transkriptsioonis.
CV – Häälikuklassid: C = konsonant, V = vokaal. See kiht teisendatakse skriptiga häälikutasandist.
silbid – Silbipiirid ja tüübid: LL - lühike lahtine, PL - pikk lahtine, PK - pikk kinnine. Number tähistab silbi järjekorranumbrit sõnas.
taktid – Rõhutaktide piirid. Kõnetakt koosneb ühest rõhulisest ja sellele järgnevatest rõhututest silpidest. Taktikihil märgitakse pea- ja kaasrõhku ja takti väldet.
morf – Morfoloogiline info, vt väljundi seletust Filosofti lehelt.
häälelaad – praegu on märgitud ainult kärisevat häält, edaspidi on kavas siia märkida ka muid mittemodaalseid häälelaade (sosin, kähin, falsett).
IP-piirid – Intonatsioonifraasid: pikemad kõnevoorud on jagatud väiksemateks intonatsioonifraasideks (ip), eraldi on märgitud tagasisideüksused (ts) ning hesitatsioonifraasid (he).
lausungid – Skripti abil on jagatud kõne pausidevahelisteks üksusteks (IPU e Interpausal Unit).

Märgendamise töövoog on järgmine:

Esmane sõnatasandi segmentatsioon saadakse automaatse kõnetuvastuse abil. Seejärel kontrollitakse automaatselt tuvastatud sõnatasandi märgendus käsitsi üle ja segmenditakse käsitsi häälikutasand. Monoloogide puhul on kasutatud ka häälikutasandi loomiseks peale sõnatasandi kontrollimist autosegmenteerijat, mille tulemust siis käsitsi parandatakse. Käsitsi sõna- ja häälikutasandil märgendatud faile on hetkeseisuga 106:19:54.
Kõigile sõna- ja häälikutasandil märgendatud failidele lisatakse automaatlselt CV-tasand, silbitasand, lausungitasand ja morfmärgendus tehakse Filosofti analüsaatoriga.
Osale sõna- ja häälikutasandil märgendatud failidele lisatakse käsitsi taktitasand. Taktitasandile märgitakse kõnetaktide piirid, kõnetakti rõhulisus ning välde. Taktitasandi märgendust on hetkel 24:31:06.
Häälelaadi tasandile märgitakse kärisev hääl, mis tuvastatakse automaatselt kärinatuvastusega ning seejärel kontrollitakse käsitsi.Kärinamärgendusega faile on hetkeseisuga 69:46:22.
Osale sõna- ja häälikutasandil märgendatud failidele lisatakse intonatsioonifraaside märgendus. IP-tasandi märgendusega faile on hetkeseisuga 17:05:52.

Maht ja seis

Viimane versioon korpusest on v 1.2 kuupäevaga 8. september 2021 (Varundatud DataDOI repositooriumisse).

Korpuse seis: salvestuste kestus (h:mm:ss) ja sõnatasandi segmentide arv
	Heli	Video	Sõnu	Häälikud	Silbid	Taktid	IP piirid	Kärin
SKK0	83:43:31	24:35:35	565314	75:54:31	23:45:40	23:45:40	17:05:52	48:12:01
SKK1	12:51:39	NA	124170	12:51:39	02:34:08	00:45:26	NA	12:16:10
SKK2	17:33:44	NA	134287	17:33:44	04:50:03	NA	NA	09:18:11
SKK3	19:41:04	17:17:14	89772	NA	NA	NA	NA	NA
Kokku	133:49:57	41:52:49	913543	106:19:54	31:09:51	24:31:06	17:05:52	69:46:22

Kasutamine

Veebipõhine otsingumootor võimaldab otsida korpusest sõna piires, vastuseks antakse 2-sekundiline helilõik ja selle märgendus. Täpsemaid juhiseid leiab otsingu lehelt.

Tervikkorpusele on võimalik keele uurimise või keeletehnoloogilise rakenduse arendamise eesmärgil ligipääsu saada, selleks tuleb esitada uurimisplaan ning sõlmida konfidentsiaalsuskokkulepe. Ligipääsu küsimiseks võta ühendust Pärtel Lippusega (partel.lippus@ut.ee).

Viitamine

Kasutamise korral palume ka viidata:

Lippus, Pärtel, Kätlin Aare, Anton Malmi, Tuuli Tuisk & Pire Teras. 2021. Phonetic Corpus of Estonian Spontaneous Speech v1.2. Institute of Estonian and General Linguistics, University of Tartu. https://doi.org/10.23673/RE-293.

Kopeeri viide BibTeX formaadis:

@misc{ekskfk_2021,
    title = {Phonetic {Corpus} of {Estonian} {Spontaneous} {Speech} v1.2},
    url = {https://datadoi.ee/handle/33/351},
    doi = {10.23673/RE-293},
    language = {et},
    author = {Lippus, Pärtel and Aare, Kätlin and Malmi, Anton and Tuisk, Tuuli and Teras, Pire},
    month = {Sep. 8},
    year = {2021},
    organization = {Institute of Estonian and General Linguistics, University of Tartu},
}

Tegijad ja rahastus

Tartu Ülikooli Eesti keele spontaanse kõne foneetilist korpust luuakse riikliku programmi “Eesti keeletehnoloogia” toel:

EKTB3 Eesti keele spontaanse kõne foneetilise korpuse arendused III 01.01.2018–31.12.2022, projektijuht Pärtel Lippus
EKT71 Eesti keele spontaanse kõne foneetilise korpuse arendused II 01.01.2015–31.12.2017, projektijuht Pire Teras
EKT4 Eesti keele spontaanse kõne foneetilise korpuse arendused 01.01.2011–31.12.2014, projektijuht Pire Teras
EKKTT06-16 Eesti keele spontaanse kõne foneetiline korpus 01.01.2006–31.12.2010, projektijuht Pire Teras

Korpuse märgendamisel on aegade jooksul osalenud Anette Ross, Ann Siiman, Anneliis Klaus, Annika Pant, Anton Malmi, Enel Põld, Hannabel Aria, Helen Türk, Helena Joachim, Helmi Lindström, Joel Kannukene, Käbi Suvi, Kätlin Aare, Katrin Leppik, Leena Karin Toots, Liis Raasik, Maarja-Liisa Pilvik, Maia Bubnov, Margit Tätte, Margot Möller, Merike Parve, Merle Põdra, Nele Ots, Pärtel Lippus, Pille Jahisoo, Pille Pipar, Pire Teras, Sander Pajusalu, Sille Midt, Tjorven Siiboja, Tuuli Tuisk.

Sagedussõnastik

Eesti keele spontaanse kõne foneetilise korpuse sagedussõnastik koostatud korpuse 20. juuni 2019 seisuga (v1.0.5). Korpus lemmatiseeriti Filosofti morfanalüsaatoriga, tabelis on antud 1000 sagedasema sõna lemma, sõnaliik (Estmorfi sõnaliigid) ning sagedus.