# README – Kõne atraktiivsuse uuring eesti keele taustal ## 1. Sissejuhatav teave **Andmestiku pealkiri:** Kõne atraktiivsuse uuring eesti keele taustal Siinne andmestik kuulub projekti "Kõne atraktiivsuse uuring eesti keele taustal" ja magistritöö "Eesti homoseksuaalsete meeste kõne eripärasid: akustiline analüüsi" juurde. Projekt on kooskõlastatud Tartu Ülikooli teaduseetika komitees (kooskõlastus 1/T-6). Andmestikus on hääleakustilised mõõtmised eesti keelt emakeelena kõnelejatelt (homoseksuaalsetest meestest, heteroseksuaalsetest meestest ja heteroseksuaalsetest naistest) **Failide kirjeldus:** Andmestik koosneb neljast põhifailist, mis sisaldavad erinevaid hääleakustika näitajaid 29 kõneleja kohta. - `f0_tulemus_kokku.txt` Põhitooni (F0) mõõtmised ja teisendatud pooltooni skaalale: keskmine (mean_f0), mediaan (mean_f0_semi), standardhälve (sd_f0, sd_f0_semi), 5. ja 95. kvartiil (q05_hz, q95_hz). - `vokaal_tulemus_kokku.txt` Vokaalide formantide (F1, F2, F3) ja kestuse väärtused kolmes vältes. - `sibilant_tulemus_kokku.txt` Sibilandi /s/, akustilised mõõtmised: kestus (kestus), gravitatsioonikese (cog), asümmeetriakordaja (skewness) ja järskuskordaja (kurt). - `karin_tulemus——kokku.txt` Iga kõneleja kogukestus (lausung_kokku), Karina osa kestus (karin_kokku) ja Karina osakaal (karin_osakaal) protsentides. **Failide nimetamise kord:** Failide nimed on selgelt kirjeldavad (vt ülal). Iga faili sees on veerud, mille tähendused on avatud veergude päistes. **Failide omavaheline seos:** Kõik failid on seotud veeruga `koneleja_id` (kõneleja ID) ja `grupp` (rühma kuuluvus). **Kontaktandmed:** Andmete kohta küsimuste korral võtke ühendust andmestiku koostajaga (Zhenyang Hao, zhenyang.hao@ut.ee). --- ## 2. Metodoloogiline teave **Andmete kogumise meetod:** Kõnelejad (n = 29) jagunesid kolme rühma: "straight man", "straight woman", "gay man". Igalt kõnelejalt salvestati rida lauseid (failinimedes tähisega `EstGMxxx_yy_zz_z`). **Andmete töötlus:** Kõik akustilised parameetrid on arvutatud Praati skriptiga. - F0 väärtused on arvutatud modaalse helilae peal. - Sibilantide parameetrid põhinevad spektri keskmistel. - Vokaalide formandid on mõõdetud keskmise 50% jooksul. **Tarkvara versioon:** Andmete analüüsiks kasutati Praat (versioon 6.4.44), kärina tuvastamiseks kasutati teeki creapy (versioon 0.0.2). **Kvaliteedi tagamine:** Kõik failid on kontrollitud käsitsi. Erandlikud väärtused on jäetud andmestikku, kuid neid saab välistada nt statistiliselt (keskmine ± 2 standardhälvet) --- ## 3. Andmete spetsiifiline info ### `karin_tulemus——kokku.txt` | Veeru nimi | Ühik | Selgitus | |------------|------|-----------| | koneleja_id | - | Kõneleja unikaalne ID | | grupp | - | Rühm: straight man, straight woman, gay man | | lausung_kokku | sekundit | Kõneleja kõigi lausungite kogukestus | | karin_kokku | sekundit | Karina-nimelise isiku kõne kogukestus antud kõneleja salvestistes | | karin_osakaal | % | (karin_kokku / lausung_kokku) * 100 | ### `f0_tulemus_kokku.txt` | Veeru nimi | Ühik | Selgitus | |------------|------|-----------| | koneleja_id | - | Kõneleja ID | | grupp | - | Rühm | | fail | - | Algse helifaili nimi (nt EstGM103_10_10_1) | | mean_f0 | Hz | Põhitooni keskmine | | mean_f0_semi | Põhitooni keskmine pooltooni skaalal (ref 50 Hz) | | sd_f0 | Hz | Põhitooni standardhälve | | sd_f0_semi | Põhitooni standardhälve pooltooni skaalal | | q05_hz / q95_hz | Hz | 5. ja 95. kvartiili | ### `sibilant_tulemus_kokku.txt` | Veeru nimi | Ühik | Selgitus | |------------|------|-----------| | koneleja_id | - | Kõneleja ID | | grupp | - | Rühm | | lausekood | - | Lause ID (samuti viitab helifailile) | | punkt | - | Sibilandi märgend (nt kon_s,) | | sibilant | - | sengment lausungites (s või ss) | | kestus | ms | Sibilandi kestus millisekundites | | cog | Hz | Spektri gravitatsioonikese | | sd | Hz | Spektri standardhälve | | skew | - | Spektri asümmeetriakordaja | | kurt | - | Spektri järsakus järskuskordaja | ### `vokaal_tulemus_kokku.txt` | Veeru nimi | Ühik | Selgitus | |------------|------|-----------| | koneleja_id | - | Kõneleja ID | | grupp | - | Rühm | | lausekood | - | Lause ID | | punkt | - | Vokaali märgend (SAMPA transkriptsioonis) | | vokaal | - | Vokaali segment (SAMPA transkriptsioonis) | | kestus | ms | Vokaali kestus | | F1, F2, F3 | Hz | Esimese, teise ja kolmanda formandi sagedus | --- ## 4. Muud failid ** Andmestikus on ka töös kasutatud Praati ja R skriptid, teaduseetika komitee kooskõlastus, piiratud ligipääsuga originaalsetele helifailidele ja vastavalt TextGridi failidele. ## 5. Lisainfo Andmestik ei sisalda isikuandmeid (kõnelejad on anonüümsed).