Korpuse märgendamiseks kasutatakse kõneanalüüsiprogrammi Praat, segmentimis- ja märgendusinfo salvestatakse TextGrid formaadis.

Korpuse salvestused nimetatakse nii, et failinimes on kodeeritud info alamkorpuse, vestluse ja kõneleja kohta. Failinimi agab alamkorpuse tähisega ja sellele järgnevad numbrid viitavad salvestusele ning sidekriipsu järel kolmekohaline number ja alakriipsule järgnev tähemärk täihistab kõnelejat. Näiteks failinimi “SKK001-003_M” tähendab, et see on stuudios salvestatud dialoogide salvestus number 01, keelejuht 003_M. Sama vestluse teine pool võiks näiteks kanda nime SKK001-005_N”. Kõik failid (wav, mp4 ja TextGrid) saavad sama nime, erinevad ainult laiendi poolest.

Joonis 4: Märgenduse näide.

Korpuse failid on märgendatud käsitsi ja seda on teinud erinevad märgendajad (enamasti Tartu Ülikooli eesti ja soome-ugri keeleteaduse üliõpilased), mistõttu leidub erinevate märgendatud failide vahel tõlgenduserinevusi ja ka märgendusvigu. Märgendust on ühtlustatud Praati skriptidega, mille leiab pluginast PhonCorpTools. Samuti on osad automaatsed märgenduskihid lisatud selles pluginas leiduvate skriptide abil.

Sõnad

Sõnakihile märgitakse sõnad ortograafilises kirjaviisis, ka siis kui tegelik hääldus sellest oluliselt lahkneb. Kui sõna jääb pooleli (nt takerdumise tõttu), siis tervet sõna välja ei kirjutata, lõppeb sidekriipsuga (nt sinna > sin-). Liitsõnad märgitakse +-ga (nt kauba+maja). Sedasi märgitakse ka sellised tuletusliited, mis alati saavad kaasrõhu ja fonoloogiliselt käituvad nagu liitsõnad (nt inim+kond).

Vaikset pausi tähistab sümbol #. Kõik muud täidetud pausid, fillerid, üneemid jms mitteleksikaalsed üksused tähistatakse punktiga, nt “.ee”.

Sellel tasandil märgitakse esialgu ka info mittelingvistiliste tasandite kohta (häälelaadi muutus nagu kärin, kähin, sosin (.?, .Hv, .0); hingamine (.sisse, .välja), köha või köhatus (.köha, .köhatus), naer (.naer, .naerdes), neelatus (.neelatus), üneemid (tähistatakse vastava häälikuga, nt .õõ, .mm. Kui on raske eristada näiteks sõnalõpuvokaali venitusest, võib otsustada venituse märkimise kasuks), vaiksed pausid (#), matsutamine, naksutamine (.matsutus).

Kui mittelingvistiliste tasandite nähtused leiavad aset kõne ajal, siis märgitakse need sõna taha kaldkriipsuga (/). Kui kogu kõnelõik on naerdes, võib tähistada selle alguse ja lõpu (/.naerdes). Kõik mitteleksikaalsed segmendid algavad punktiga.

Kui kõneleja kasutab mõnda võõrkeelt, siis kirjutatakse sõnatasandil see originaalkeele ortograafias ja tähistatakse lisamärgiga kaldkriipsu järel (nt merde/.prantsuse, procrastination/.inglise).

Häälikud

Häälikutasandile märgitakse häälikupiirid, mis sõna alguses ja lõpus on joondatud sõnatasandi piiridega.

Märgitakse kõigi leksikaalsete sõnade kõik häälikud. Kui kahe sõna piiril tekib geminatsioon, siis jagatakse see kahe sõna vahel (nt õuna+puu: 7unAp|puu:). Kui kahe sõna piiril tekib siirdehäälik (nt j või w), siis alustab see järgmist sõna (nt ei ole: ei jole või e jole).

Kui kahe sõna piiril on vokaalid, siis jagatakse vokaal akustiliste parameetrite puudumisel pooleks, v.a juhtudel, kui vokaal jääb hääldamata. Kui sõna lõpus on pikem väljahingamine, siis ei märgita seda sõna juurde, vaid väljahingamisena eraldi segmendiks (.h). Sõnalõpuvenitused vm venitused (nt sõna alguses või sees) märgime kahekordse kooloniga vastava hääliku lõpus (nt seda sedA::).

Häälikud märgitakse SAMPA (Speech Assessment Methods Phonetic Alphabet) transkriptsioonis. SAMPA on rahvusvahelise foneetilise tähestiku IPA lihtsustatud variant, mis kasutab ainult ASCII sümboleid.

Vokaalid

A (a), e, i , o, u, 7 (õ), { (ä), 2 (ö), y (ü), @ (tugevalt redutseeritud vokaal)

Konsonandid

p, t, k, s, S (š, ž, kui viimane on heliline, siis Z), f, v, h, m, n, N (ng-, nk-ühendis), l, r, j, w, ? (kõrisulghäälik).

Poolvokaalid: siijA, sii:jA, lyi:jA, luuwA, luu:wA, lAuwA

Kaasahääldus

Palatalisatsioon (’). Näiteks: pAl’i, pAl’li, lun’in, kAn’:ne, pAt’i, vAt’:ti, k{s’i, kAs’:si

Nasalisatsioon (_~). Näiteks: o_~ (sõna on).

Helilistumine ehk heliliseks muutumine (_v). Näiteks: Ah_vi (ahi), Arent_vAtA (arendada), sAt_vA (sada), vik_vA (viga), is_vA (isa)

Helitustumine e helituks muutumine (_0). Näiteks: leh:m_0 (lehm, kui jääb heliliseks, on m silbiline: leh:m_=), lat:v_0 (latv), k7h:n_0 (kõhn), k7hr_0 (kõhr), vAstAttA_0 (vastata)

Eespoolsemaks muutumine (_+). Näiteks: ju_+s:t (just), jA_+nu (janu), As’:su_+ (asju).

Tagapoolsemaks muutumine (_-)

Vokaali kõrgenemine (_r). Näiteks: Ae_rA (aja, nii märgime ka j-i madalate ja keskkõrgete vokaalide vahel, kui see on hääldatud e-poolselt).

Vokaali madaldumine (_o)

Kärisev üksikhäälik (_k)

Kähisev üksikhäälik (_t)

Silbiline konsonant (_=). Näiteks mina m_=nA

Märkide järjekord

Esimesel kohal on hääliku põhikvaliteedi märk (pika vokaali puhul topelt), sellele järgneb palatalisatsioonimärk (ainult konsonantidel), siis üks või mitu lisakvaliteedimärki, kõige lõpus pikendusmärk. Lisakvaliteedimärkide järjekord on +-ro~v0kt=. Näiteks kui vokaal on eespoolsemaks muutunud ja käriseb ning on ühtlasi venitatud, siis märgime A_+_k:: või kui palataliseeritud konsonant on helilistunud ning silbiline, siis t’_v_k.

Välted

Monoftongid

I	II	III
kalu kAlu	kaalu kAAlu	kaalu kAA:lu
sada sAtA	saada sAAtA	saada sAA:tA
	kaardi kAArti	kaardu kAA:rtu
	te saate sAAtte	saate sAAt:te
		koot koot’:
		eest ees:t

Diftongid

II	III
kaela kAelA	kaela kAe:lA
lauda lAutA	lauda lAu:tA
süidi syiti	süiti syit:ti
auto Autto	lauta lAut:tA
	laud lAu:t
	laut lAut:
	soust sous’:t

Geminaadid

II	III
konna konnA	konna kon:nA
könni k2n’ni	könni k2n’:ni
katu kAttu	kattu kAt:tu
šefi Seffi	šeffi Sef:fi
tuši tuSSi	tušši tuS:Si
peret peret: (rõhutu silp)	tugevat tukevAt: (kaasrõhuline silp)
	paat pAAt’:
	patt pAt:
	õpetlik 7ppettlik: (kaasrõhuline silp)
	varss vArs:s

Konsonantühendid

II	III
õrna 7rnA	õrna 7r:nA
kongi koNki	kongi koN:ki
karda kArtA	karda kAr:tA
narta nArttA	karta kArt:tA
rütmi ryttmi	rütmi ryt:mi
põdra p7trA	põtra p7t:trA
fakti fAkti	fakti fak:ti
metsa metsA	metsa met:sA
kõrtsi k7rtsi	kõrtsi k7rt:si
arsti Arsti	arsti Ars:ti
	pang pAN:k
	pank pANk:
	palk pAl’k:
	rütm ryt:tm_0
	soodsa soo:tsA ~ soot:sA
	andsin An’:tsin ~ An’t:sin
	jalgsi jAl:ksi ~ jAlk:si

hv ja ff kohvik kohvik: ~ kohfik: ~ koffik:

CV

See kiht teisendatakse skriptiga häälikutasandist ja siia märgitakse häälikuklassid

C – konsonant
V – vokaal

Kuna sageli on poolvokaal /j/ häälikutasandil märgitud /e_r/ (nt sõnas aja |A|e_r|A|), siis on enne silbitamist need juhtumid poolautomaatselt üle kontrollitud vajadusel CV-tasandi vokaalimärgend konsonandiks muudetud.

Silbid

Siia märgitakse silbipiirid ja tüübid:

LL – lühike lahtine,
PL – pikk lahtine,
PK - pikk kinnine

Number tähistab silbi järjekorranumbrit sõnas. Liitsõnades algab järjekord uue sõnaga otsast peale. Nt kau|ba|ma|ja – 1PL|2LL|1LL|2LL.

Silbikihi märgenduse jaoks kasutatakse reeglipõhist Praati skripti, mis lähtub sõna- ja häälikutasandist. Osa faile on ka käsitsi kontrollitud.

Taktid

Rõhutaktide piirid. Kõnetakt koosneb ühest rõhulisest ja sellele järgnevatest rõhututest silpidest. Taktikihil märgitakse pea- ja kaasrõhku ja takti väldet.

Siin märgitakse kõnetakti rõhulisust [pearõhku (p) ja kaasrõhku (k) ja sõna rõhutust (0)] ning väldet (1 2 3). Iga takt saab endale tähest ja numbrist koosneva märgendi, millest esimene tähistab rõhku, teine väldet, nt kava|lamale – p1|k1, kavala|male – p1|k1.

Morf

Automaatselt ühestatud morfoloogiline info Vabamorfi analüsaatorilt, vt väljundi seletust Filosofti lehelt. Kuna automaatse ühestamise jaoks on vaja tekst esitada analüsaatorile tekst lausetena, siis on tekst kokku pandud suuremateks pausidevahelisteks üksusteks. Praati skriptid, millega TextGridilt sõnad lausungitena analüsaatorile anda ja pärast tagasi TextGridile lisada, leiab pluginast PhonCorpTools.

Häälelaad

Praegu on märgitud ainult kärisevat häält, edaspidi on kavas siia märkida ka muid mittemodaalseid häälelaade (sosin, kähin, falsett). Kärina märgendamise protsess on järgmine: esmalt on sõna- ja häälikutasandi märgendajad kuuldeliselt ja visuaalselt helilaine ja spektrogrammi põhjal märkinud häälikutasandile kärisevad segmendid kärina lisamärgiga _k. Seejärel on kärisev hääl leitud automaatse häälelaadi tuvastusprogrammiga Voice Analysis Toolkit (John Kane’i loodud MATLABi pakett). Viimaks on inimmärgendaja kontrollinud ja valideerinud häälikumärgenduse käigus kärisevaks märgitud ja automaatselt tuvastatud kärinasegmendid.

IP-piirid

Intonatsioonifraasid: pikemad kõnevoorud on jagatud väiksemateks intonatsioonifraasideks. Kasutatud märgendid on:

ip – intonatsioonifraas,
ts – tagasisideüksused,
he – hesitatsioonifraasid.

Pikema kõnelõigu sees on intonatsioonifraasi piiri kriteeriumiks:

paus (mis on pikem kui 40 ms),
venitus,
üneemid (fraasi lõpus olevad üneemid on loetud IP osaks),
pitch reset e deklineeruva põhitooni puhul üles astumine.

IP tasandi lisamiseks on kasutatud Praati skripti (mille leiab paketist PhonCorpTools), mis ühesõnaliste fraaside puhul otsustab sisu järgi, kas tegu võiks olla hesitatsiooni või tagasisidega, pikemad jagab IP-deks ning pikemad lõigud tükeldab pauside, venituste ja üneemide järgi. Ainult põhitooni allaastumist skript ei arvesta. Korpuse failides, kus on IP tasand lisatud, on see inimmärgendaja poolt käsitsi üle kontrollitud.

Lausungid

Skripti abil on jagatud kõne pausidevahelisteks üksusteks (IPU e Interpausal Unit).

Kasutusel on järgmised märgendid:

JUTT (järjestikused sõnasegmendid, arvestatud ainult leksikaalseid üksuseid, mitte üneeme);
PAUS (võib olla mitu segmenti, nt üneem, vaike paus, hingamine ja veel üks vaikne paus);
vaikne paus (kahe IPU vahel ainult vaikne paus);
hingamine (kahe IPU vahel ainult sisse- või väljahingamine).

Mõnevõrra ebajärjekindlalt ja märgendajast sõltuvalt on märgendatud mõned tagasisideüksused, nt mhmh, aa, mm kord täidetud pausiks ja kord leksikaalseteks üksusteks.

Eesti keele spontaanse kõne foneetilise korpuse märgenduspõhimõtted

Pärtel Lippus

20.10.2023