Korpuse märgendamiseks kasutatakse kõneanalüüsiprogrammi Praat, segmentimis- ja märgendusinfo salvestatakse TextGrid formaadis.
Korpuse salvestused nimetatakse nii, et failinimes on kodeeritud info alamkorpuse, vestluse ja kõneleja kohta. Failinimi agab alamkorpuse tähisega ja sellele järgnevad numbrid viitavad salvestusele ning sidekriipsu järel kolmekohaline number ja alakriipsule järgnev tähemärk täihistab kõnelejat. Näiteks failinimi “SKK001-003_M” tähendab, et see on stuudios salvestatud dialoogide salvestus number 01, keelejuht 003_M. Sama vestluse teine pool võiks näiteks kanda nime SKK001-005_N”. Kõik failid (wav, mp4 ja TextGrid) saavad sama nime, erinevad ainult laiendi poolest.
Korpuse failid on märgendatud käsitsi ja seda on teinud erinevad märgendajad (enamasti Tartu Ülikooli eesti ja soome-ugri keeleteaduse üliõpilased), mistõttu leidub erinevate märgendatud failide vahel tõlgenduserinevusi ja ka märgendusvigu. Märgendust on ühtlustatud Praati skriptidega, mille leiab pluginast PhonCorpTools. Samuti on osad automaatsed märgenduskihid lisatud selles pluginas leiduvate skriptide abil.
Sõnakihile märgitakse sõnad ortograafilises kirjaviisis, ka siis kui tegelik hääldus sellest oluliselt lahkneb. Kui sõna jääb pooleli (nt takerdumise tõttu), siis tervet sõna välja ei kirjutata, lõppeb sidekriipsuga (nt sinna > sin-). Liitsõnad märgitakse +-ga (nt kauba+maja). Sedasi märgitakse ka sellised tuletusliited, mis alati saavad kaasrõhu ja fonoloogiliselt käituvad nagu liitsõnad (nt inim+kond).
Vaikset pausi tähistab sümbol #. Kõik muud täidetud pausid, fillerid, üneemid jms mitteleksikaalsed üksused tähistatakse punktiga, nt “.ee”.
Sellel tasandil märgitakse esialgu ka info mittelingvistiliste tasandite kohta (häälelaadi muutus nagu kärin, kähin, sosin (.?, .Hv, .0); hingamine (.sisse, .välja), köha või köhatus (.köha, .köhatus), naer (.naer, .naerdes), neelatus (.neelatus), üneemid (tähistatakse vastava häälikuga, nt .õõ, .mm. Kui on raske eristada näiteks sõnalõpuvokaali venitusest, võib otsustada venituse märkimise kasuks), vaiksed pausid (#), matsutamine, naksutamine (.matsutus).
Kui mittelingvistiliste tasandite nähtused leiavad aset kõne ajal, siis märgitakse need sõna taha kaldkriipsuga (/). Kui kogu kõnelõik on naerdes, võib tähistada selle alguse ja lõpu (/.naerdes). Kõik mitteleksikaalsed segmendid algavad punktiga.
Kui kõneleja kasutab mõnda võõrkeelt, siis kirjutatakse sõnatasandil see originaalkeele ortograafias ja tähistatakse lisamärgiga kaldkriipsu järel (nt merde/.prantsuse, procrastination/.inglise).
Häälikutasandile märgitakse häälikupiirid, mis sõna alguses ja lõpus on joondatud sõnatasandi piiridega.
Märgitakse kõigi leksikaalsete sõnade kõik häälikud. Kui kahe sõna piiril tekib geminatsioon, siis jagatakse see kahe sõna vahel (nt õuna+puu: 7unAp|puu:). Kui kahe sõna piiril tekib siirdehäälik (nt j või w), siis alustab see järgmist sõna (nt ei ole: ei jole või e jole).
Kui kahe sõna piiril on vokaalid, siis jagatakse vokaal akustiliste parameetrite puudumisel pooleks, v.a juhtudel, kui vokaal jääb hääldamata. Kui sõna lõpus on pikem väljahingamine, siis ei märgita seda sõna juurde, vaid väljahingamisena eraldi segmendiks (.h). Sõnalõpuvenitused vm venitused (nt sõna alguses või sees) märgime kahekordse kooloniga vastava hääliku lõpus (nt seda sedA::).
Häälikud märgitakse SAMPA (Speech Assessment Methods Phonetic Alphabet) transkriptsioonis. SAMPA on rahvusvahelise foneetilise tähestiku IPA lihtsustatud variant, mis kasutab ainult ASCII sümboleid.
A (a), e, i , o, u, 7 (õ), { (ä), 2 (ö), y (ü), @ (tugevalt redutseeritud vokaal)
p, t, k, s, S (š, ž, kui viimane on heliline, siis Z), f, v, h, m, n, N (ng-, nk-ühendis), l, r, j, w, ? (kõrisulghäälik).
Poolvokaalid: siijA, sii:jA, lyi:jA, luuwA, luu:wA, lAuwA
Palatalisatsioon (’). Näiteks: pAl’i, pAl’li, lun’in, kAn’:ne, pAt’i, vAt’:ti, k{s’i, kAs’:si
Nasalisatsioon (_~). Näiteks: o_~ (sõna on).
Helilistumine ehk heliliseks muutumine (_v). Näiteks: Ah_vi (ahi), Arent_vAtA (arendada), sAt_vA (sada), vik_vA (viga), is_vA (isa)
Helitustumine e helituks muutumine (_0). Näiteks: leh:m_0 (lehm, kui jääb heliliseks, on m silbiline: leh:m_=), lat:v_0 (latv), k7h:n_0 (kõhn), k7hr_0 (kõhr), vAstAttA_0 (vastata)
Eespoolsemaks muutumine (_+). Näiteks: ju_+s:t (just), jA_+nu (janu), As’:su_+ (asju).
Tagapoolsemaks muutumine (_-)
Vokaali kõrgenemine (_r). Näiteks: Ae_rA (aja, nii märgime ka j-i madalate ja keskkõrgete vokaalide vahel, kui see on hääldatud e-poolselt).
Vokaali madaldumine (_o)
Kärisev üksikhäälik (_k)
Kähisev üksikhäälik (_t)
Silbiline konsonant (_=). Näiteks mina m_=nA
Esimesel kohal on hääliku põhikvaliteedi märk (pika vokaali puhul topelt), sellele järgneb palatalisatsioonimärk (ainult konsonantidel), siis üks või mitu lisakvaliteedimärki, kõige lõpus pikendusmärk. Lisakvaliteedimärkide järjekord on +-ro~v0kt=. Näiteks kui vokaal on eespoolsemaks muutunud ja käriseb ning on ühtlasi venitatud, siis märgime A_+_k:: või kui palataliseeritud konsonant on helilistunud ning silbiline, siis t’_v_k.
Monoftongid
I | II | III |
---|---|---|
kalu kAlu | kaalu kAAlu | kaalu kAA:lu |
sada sAtA | saada sAAtA | saada sAA:tA |
kaardi kAArti | kaardu kAA:rtu | |
te saate sAAtte | saate sAAt:te | |
koot koot’: | ||
eest ees:t |
Diftongid
II | III |
---|---|
kaela kAelA | kaela kAe:lA |
lauda lAutA | lauda lAu:tA |
süidi syiti | süiti syit:ti |
auto Autto | lauta lAut:tA |
laud lAu:t | |
laut lAut: | |
soust sous’:t |
Geminaadid
II | III |
---|---|
konna konnA | konna kon:nA |
könni k2n’ni | könni k2n’:ni |
katu kAttu | kattu kAt:tu |
šefi Seffi | šeffi Sef:fi |
tuši tuSSi | tušši tuS:Si |
peret peret: (rõhutu silp) | tugevat tukevAt: (kaasrõhuline silp) |
paat pAAt’: | |
patt pAt: | |
õpetlik 7ppettlik: (kaasrõhuline silp) | |
varss vArs:s |
Konsonantühendid
II | III |
---|---|
õrna 7rnA | õrna 7r:nA |
kongi koNki | kongi koN:ki |
karda kArtA | karda kAr:tA |
narta nArttA | karta kArt:tA |
rütmi ryttmi | rütmi ryt:mi |
põdra p7trA | põtra p7t:trA |
fakti fAkti | fakti fak:ti |
metsa metsA | metsa met:sA |
kõrtsi k7rtsi | kõrtsi k7rt:si |
arsti Arsti | arsti Ars:ti |
pang pAN:k | |
pank pANk: | |
palk pAl’k: | |
rütm ryt:tm_0 | |
soodsa soo:tsA ~ soot:sA | |
andsin An’:tsin ~ An’t:sin | |
jalgsi jAl:ksi ~ jAlk:si |
hv ja ff kohvik kohvik: ~ kohfik: ~ koffik:
See kiht teisendatakse skriptiga häälikutasandist ja siia märgitakse häälikuklassid
Kuna sageli on poolvokaal /j/ häälikutasandil märgitud /e_r/ (nt sõnas aja |A|e_r|A|), siis on enne silbitamist need juhtumid poolautomaatselt üle kontrollitud vajadusel CV-tasandi vokaalimärgend konsonandiks muudetud.
Siia märgitakse silbipiirid ja tüübid:
Number tähistab silbi järjekorranumbrit sõnas. Liitsõnades algab järjekord uue sõnaga otsast peale. Nt kau|ba|ma|ja – 1PL|2LL|1LL|2LL.
Silbikihi märgenduse jaoks kasutatakse reeglipõhist Praati skripti, mis lähtub sõna- ja häälikutasandist. Osa faile on ka käsitsi kontrollitud.
Rõhutaktide piirid. Kõnetakt koosneb ühest rõhulisest ja sellele järgnevatest rõhututest silpidest. Taktikihil märgitakse pea- ja kaasrõhku ja takti väldet.
Siin märgitakse kõnetakti rõhulisust [pearõhku (p) ja kaasrõhku (k) ja sõna rõhutust (0)] ning väldet (1 2 3). Iga takt saab endale tähest ja numbrist koosneva märgendi, millest esimene tähistab rõhku, teine väldet, nt kava|lamale – p1|k1, kavala|male – p1|k1.
Automaatselt ühestatud morfoloogiline info Vabamorfi analüsaatorilt, vt väljundi seletust Filosofti lehelt. Kuna automaatse ühestamise jaoks on vaja tekst esitada analüsaatorile tekst lausetena, siis on tekst kokku pandud suuremateks pausidevahelisteks üksusteks. Praati skriptid, millega TextGridilt sõnad lausungitena analüsaatorile anda ja pärast tagasi TextGridile lisada, leiab pluginast PhonCorpTools.
Praegu on märgitud ainult kärisevat häält, edaspidi on kavas siia märkida ka muid mittemodaalseid häälelaade (sosin, kähin, falsett). Kärina märgendamise protsess on järgmine: esmalt on sõna- ja häälikutasandi märgendajad kuuldeliselt ja visuaalselt helilaine ja spektrogrammi põhjal märkinud häälikutasandile kärisevad segmendid kärina lisamärgiga _k. Seejärel on kärisev hääl leitud automaatse häälelaadi tuvastusprogrammiga Voice Analysis Toolkit (John Kane’i loodud MATLABi pakett). Viimaks on inimmärgendaja kontrollinud ja valideerinud häälikumärgenduse käigus kärisevaks märgitud ja automaatselt tuvastatud kärinasegmendid.
Intonatsioonifraasid: pikemad kõnevoorud on jagatud väiksemateks intonatsioonifraasideks. Kasutatud märgendid on:
Pikema kõnelõigu sees on intonatsioonifraasi piiri kriteeriumiks:
IP tasandi lisamiseks on kasutatud Praati skripti (mille leiab paketist PhonCorpTools), mis ühesõnaliste fraaside puhul otsustab sisu järgi, kas tegu võiks olla hesitatsiooni või tagasisidega, pikemad jagab IP-deks ning pikemad lõigud tükeldab pauside, venituste ja üneemide järgi. Ainult põhitooni allaastumist skript ei arvesta. Korpuse failides, kus on IP tasand lisatud, on see inimmärgendaja poolt käsitsi üle kontrollitud.
Skripti abil on jagatud kõne pausidevahelisteks üksusteks (IPU e Interpausal Unit).
Kasutusel on järgmised märgendid:
Mõnevõrra ebajärjekindlalt ja märgendajast sõltuvalt on märgendatud mõned tagasisideüksused, nt mhmh, aa, mm kord täidetud pausiks ja kord leksikaalseteks üksusteks.