Korpuse märgendamiseks kasutatakse kõneanalüüsiprogrammi Praat, segmentimis- ja märgendusinfo salvestatakse TextGrid formaadis.
Korpuse salvestused nimetatakse nii, et failinimes on kodeeritud info alamkorpuse, vestluse ja kõneleja kohta. Failinimi agab alamkorpuse tähisega ja sellele järgnevad numbrid viitavad salvestusele ning sidekriipsu järel kolmekohaline number ja alakriipsule järgnev tähemärk täihistab kõnelejat. Näiteks failinimi “SKK001-003_M” tähendab, et see on stuudios salvestatud dialoogide salvestus number 01, keelejuht 003_M. Sama vestluse teine pool võiks näiteks kanda nime SKK001-005_N". Kõik failid (wav, mp4 ja TextGrid) saavad sama nime, erinevad ainult laiendi poolest.
Sõnakihile märgitakse sõnad ortograafilises kirjaviisis, ka siis kui tegelik hääldus sellest oluliselt lahkneb. Kui sõna jääb pooleli (nt takerdumise tõttu), siis tervet sõna välja ei kirjutata, lõppeb sidekriipsuga (nt sinna > sin-). Liitsõnad märgitakse +-ga (nt kauba+maja).
Vaikset pausi tähistab sümbol #. Kõik muud täidetud pausid, fillerid, üneemid jms mitteleksikaalsed üksused tähistatakse punktiga, nt “.ee”.
Sellel tasandil märgitakse esialgu ka info mittelingvistiliste tasandite kohta (häälelaadi muutus nagu kärin, kähin, sosin (.?, .Hv, .0); hingamine (.sisse, .välja), köha või köhatus (.köha, .köhatus), naer (.naer, .naerdes), neelatus (.neelatus), üneemid (tähistatakse vastava häälikuga, nt .õõ, .mm. Kui on raske eristada näiteks sõnalõpuvokaali venitusest, võib otsustada venituse märkimise kasuks), vaiksed pausid (#), matsutamine, naksutamine (.matsutus).
Kui mittelingvistiliste tasandite nähtused leiavad aset kõne ajal, siis märgitakse need sõna taha kaldkriipsuga (/). Kui kogu kõnelõik on naerdes, võib tähistada selle alguse ja lõpu (/.naerdes). Kõik mitteleksikaalsed segmendid algavad punktiga.
Kui kõneleja kasutab mõnda võõrkeelt, siis kirjutatakse sõnatasandil see originaalkeele ortograafias ja tähistatakse lisamärgiga kaldkriipsu järel (nt merde/.prantsuse, procrastination/.inglise).
Häälikutasandile märgitakse häälikupiirid, mis sõna alguses ja lõpus on joondatud sõnatasandi piiridega.
Märgitakse kõigi leksikaalsete sõnade kõik häälikud. Kui kahe sõna piiril tekib geminatsioon, siis jagatakse see kahe sõna vahel (nt õuna+puu: 7unAp|puu:). Kui kahe sõna piiril tekib siirdehäälik (nt j või w), siis alustab see järgmist sõna (nt ei ole: ei jole või e jole).
Kui kahe sõna piiril on vokaalid, siis jagatakse vokaal akustiliste parameetrite puudumisel pooleks, v.a juhtudel, kui vokaal jääb hääldamata. Kui sõna lõpus on pikem väljahingamine, siis ei märgita seda sõna juurde, vaid väljahingamisena eraldi segmendiks (.h). Sõnalõpuvenitused vm venitused (nt sõna alguses või sees) märgime kahekordse kooloniga vastava hääliku lõpus (nt seda sedA::).
Häälikud märgitakse SAMPA (Speech Assessment Methods Phonetic Alphabet) transkriptsioonis. SAMPA on rahvusvahelise foneetilise tähestiku IPA lihtsustatud variant, mis kasutab ainult ASCII sümboleid.
A (a), e, i , o, u, 7 (õ), { (ä), 2 (ö), y (ü), @ (tugevalt redutseeritud vokaal)
p, t, k, s, S (š, ž, kui viimane on heliline, siis Z), f, v, h, m, n, N (ng-, nk-ühendis), l, r, j, w, ? (kõrisulghäälik).
Poolvokaalid: siijA, sii:jA, lyi:jA, luuwA, luu:wA, lAuwA
Palatalisatsioon (’). Näiteks: pAl’i, pAl’li, lun’in, kAn’:ne, pAt’i, vAt’:ti, k{s’i, kAs’:si
Nasalisatsioon (_~). Näiteks: o_~ (sõna on).
Helilistumine ehk heliliseks muutumine (_v). Näiteks: Ah_vi (ahi), Arent_vAtA (arendada), sAt_vA (sada), vik_vA (viga), is_vA (isa)
Helitustumine e helituks muutumine (_0). Näiteks: leh:m_0 (lehm, kui jääb heliliseks, on m silbiline: leh:m_=), lat:v_0 (latv), k7h:n_0 (kõhn), k7hr_0 (kõhr), vAstAttA_0 (vastata)
Eespoolsemaks muutumine (_+). Näiteks: ju_+s:t (just), jA_+nu (janu), As’:su_+ (asju).
Tagapoolsemaks muutumine (_-)
Vokaali kõrgenemine (_r). Näiteks: Ae_rA (aja, nii märgime ka j-i madalate ja keskkõrgete vokaalide vahel, kui see on hääldatud e-poolselt).
Vokaali madaldumine (_o)
Kärisev üksikhäälik (_k)
Kähisev üksikhäälik (_t)
Silbiline konsonant (=). Näiteks mina m=nA
Esimesel kohal on hääliku põhikvaliteedi märk (pika vokaali puhul topelt), sellele järgneb palatalisatsioonimärk (ainult konsonantidel), siis üks või mitu lisakvaliteedimärki, kõige lõpus pikendusmärk. Lisakvaliteedimärkide järjekord on +-ro~v0kt=. Näiteks kui vokaal on eespoolsemaks muutunud ja käriseb ning on ühtlasi venitatud, siis märgime A_+_k:: või kui palataliseeritud konsonant on helilistunud ning silbiline, siis t’_v_k.
Monoftongid
I | II | III |
---|---|---|
kalu kAlu | kaalu kAAlu | kaalu kAA:lu |
sada sAtA | saada sAAtA | saada sAA:tA |
kaardi kAArti | kaardu kAA:rtu | |
te saate sAAtte | saate sAAt:te | |
koot koot’: | ||
eest ees:t |
Diftongid
II | III |
---|---|
kaela kAelA | kaela kAe:lA |
lauda lAutA | lauda lAu:tA |
süidi syiti | süiti syit:ti |
auto Autto | lauta lAut:tA |
laud lAu:t | |
laut lAut: | |
soust sous’:t |
Geminaadid
II | III |
---|---|
konna konnA | konna kon:nA |
könni k2n’ni | könni k2n’:ni |
katu kAttu | kattu kAt:tu |
šefi Seffi | šeffi Sef:fi |
tuši tuSSi | tušši tuS:Si |
peret peret: (rõhutu silp) | tugevat tukevAt: (kaasrõhuline silp) |
paat pAAt’: | |
patt pAt: | |
õpetlik 7ppettlik: (kaasrõhuline silp) | |
varss vArs:s |
Konsonantühendid
II | III |
---|---|
õrna 7rnA | õrna 7r:nA |
kongi koNki | kongi koN:ki |
karda kArtA | karda kAr:tA |
narta nArttA | karta kArt:tA |
rütmi ryttmi | rütmi ryt:mi |
põdra p7trA | põtra p7t:trA |
fakti fAkti | fakti fak:ti |
metsa metsA | metsa met:sA |
kõrtsi k7rtsi | kõrtsi k7rt:si |
arsti Arsti | arsti Ars:ti |
pang pAN:k | |
pank pANk: | |
palk pAl’k: | |
rütm ryt:tm_0 | |
soodsa soo:tsA ~ soot:sA | |
andsin An’:tsin ~ An’t:sin | |
jalgsi jAl:ksi ~ jAlk:si |
hv ja ff kohvik kohvik: ~ kohfik: ~ koffik:
See kiht teisendatakse skriptiga häälikutasandist ja siia märgitakse häälikuklassid
Siia märgitakse silbipiirid ja tüübid:
Number tähistab silbi järjekorranumbrit sõnas. Liitsõnades algab järjekord uue sõnaga otsast peale. Nt kau|ba|ma|ja – 1PL|2LL|1LL|2LL.
Silbikihi märgenduse jaoks kasutatakse reeglipõhist Praati skripti, mis lähtub sõna- ja häälikutasandist. Osa faile on ka käsitsi kontrollitud.
Rõhutaktide piirid. Kõnetakt koosneb ühest rõhulisest ja sellele järgnevatest rõhututest silpidest. Taktikihil märgitakse pea- ja kaasrõhku ja takti väldet.
Siin märgitakse kõnetakti rõhulisust [pearõhku (p) ja kaasrõhku (k) ja sõna rõhutust (0)] ning väldet (1 2 3). Iga takt saab endale tähest ja numbrist koosneva märgendi, millest esimene tähistab rõhku, teine väldet, nt kava|lamale – p1|k1, kavala|male – p1|k1.
Automaatselt ühestatud morfoloogiline info, vt väljundi seletust Filosofti lehelt.
Praegu on märgitud ainult kärisevat häält, edaspidi on kavas siia märkida ka muid mittemodaalseid häälelaade (sosin, kähin, falsett).
Intonatsioonifraasid: pikemad kõnevoorud on jagatud väiksemateks intonatsioonifraasideks. Kasutatud märgendid on:
Pikema kõnelõigu sees on intonatsioonifraasi piiri kriteeriumiks: 1) IP piiriks on paus > 40 ms 2) venitus 3) üneemid IP lõppu 4) pitch reset e deklineeruva põhitooni puhul üles astumine.
Skripti abil on jagatud kõne pausidevahelisteks üksusteks (IPU e Interpausal Unit).
Kasutusel on järgmised märgendid: JUTT, PAUS, millest eristatakse täidetud paus (nt üneem või matsutus), vaikne paus, hingamine.