Eesti murrete korpus on kõiki eesti murdeid hõlmav elektrooniline andmekogu, mis sisaldab autentseid murdetekste kõigist eesti murretest. Selle põhieesmärk on teha hästi valitud ja võimalikult täpselt litereeritud murdematerjalid uurijatele elektrooniliselt kättesaadavaks ning luua võimalus eesti murrete kõrvutavaks uurimiseks võimalikult suure andmehulga põhjal ning tänapäeva korpuslingvistika meetodeid rakendades.

Korpuse materjalideks on võimalikult vanapärased murdetekstid, millest on olemas ka lindistused. Põhiosa korpuse baasiks olevatest helisalvestustest on tehtud 1960-1970ndatel. Murdekorpusesse on kaasatud ka lähisugulaskeelte liivi ja vadja keele materjalid. Täpsemad andmed korpuse sisu ja mahu kohta on esitatud allpool.

Murdekorpus järgib üldjoontes murdeõpikus “Eesti murded ja kohanimed” esitatud murdejaotust. Eesti murded on murdekorpuses jagatud kümneks:

põhjaeesti murderühma kuuluvad saarte murre, läänemurre, keskmurre, idamurre;
lõunaeesti murderühma kuuluvad Mulgi, Tartu, Võru ja Seto murre;
kirderanniku murderühma kuuluvad rannamurre ja kirdemurre ehk Alutaguse murre.

Joonis 1. Korpuse murdejaotus

Murdekorpus on valminud kahe asutuse, Tartu Ülikooli eesti ja üldkeeleteaduse instituudi ja Eesti Keele Instituudi koostöös. Murdekorpuses kasutatavad materjalid on pärit osaliselt EKIst (vt nt Ermus jt 2019), osaliselt Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivist (vt Lindström jt 2019).

Murdekorpuse tööd alustati 1998. aastal. Aastatel 2009−2013 on murdekorpuse tööd finantseeritud programmist “Eesti keel ja kultuurimälu” (projekt nr 09111 “Eesti murrete ja sugulaskeelte andmebaas”) ning selle jätkuna aastatel 2014-2018 programmist “Eesti keel ja kultuurimälu II” (projekt nr 14319 “Eesti murrete ja sugulaskeelte andmebaas II”).
Korpus on olnud seotud ka programmi “Humanitaar- ja loodusteaduslikud kogud” projektiga nr 059 “Eesti murrete ja sugulaskeelte arhiiv” ning murdekorpust on kasutatatud projekti “Eesti murrete süntaks” (PUT90, 2013−2016) täitmisel peamise allikana.

Korpuse osad

Eesti murrete korpus koosneb järgmistest osadest:

1. Helisalvestised

Murdelindistused on reeglina digitaliseeritud ja wav- või mp3-formaadis. Murdelindistused on tehtud suuremas osas 1960-1970ndatel, esimesed tekstid pärinevad aastast 1938 ja viimased aastast 2010.

Murdekorpuse helifaile saab kuulata Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi kaudu. Arhiivi avalehelt tuleb paremalt ülalt valida nupp Otsi, seejärel Otsi audioträkk ning valida sari EMH EKI eesti murrete helilint. Päringu tulemusena saab valida mõne arhiivikirje, millel vajutades näeb helifaili kohta käivat metainfot. Vasakul üleval on ka helifaili veebis kuulamise võimalus.

Joonis 2. Salvestuste kuulamine murdearhiivis

2. Foneetilises transkriptsioonis murdetekstid

Foneetilises transkriptsioonis tekstid põhinevad helisalvestistel. Kui võimalik, on kasutatud EKI ja Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi käsikirjalisi materjale. Kasutatud on traditsioonilist soome-ugri foneetilist transkriptsiooni, mille sisestamiseks on kasutatud spetsiaalseid fonte ja sisestussüsteemi SUT (autor Esko Oja, töötav versioon alla laaditav siit). Transkriptsioonid on saadaval docx- ja pdf-failidena.

Foneetilises transkriptsioonis tekste saab kasutada/lugeda TÜ eesti murrete ja sugulaskeelte arhiivi kaudu. Foneetilises trankriptsioonis tekstide vaatamiseks tuleb arhiivi avalehelt paremalt ülalt valida nupp Otsi, seejärel Otsi käsikiri ning sari MKT Murdekorpuse tekstid. Päringu tulemusena saab valida teksti arhiivikirje, millel vajutades näeb transkriptsiooni kohta käivat metainfot. Foneetilises transkriptsioonis faili vaatamiseks vajuta vasakul ülal linki Vaata käsikirja.

Joonis 3. Foneetilises transkriptsioonis käsikirjade vaatamine murdearhiivis

Joonis 4. Foneetilises transkriptsioonis käsikirja näide

Foneetiliste transkriptsioonide päises on esitatud lindistuse metainfo (lindistuse number, küla, keelejuhi andmed, lindistajate andmed, muud kommentaarid).

3. Lihtsustatud transkriptsioonis murdetekstid

Foneetilises transkriptsioonis tekstid on üle viidud masinloetavasse lihtsustatud transkriptsiooni, mis ei sisalda foneetilise transkriptsiooni erisümboleid ning võimaldab tekste kasutada paljude erinevate programmidega. Tekstide üleviimiseks on kasutatud kindlaid reegleid, mis on esitatud allolevas tabelis.

Tabel 1. Lihtsustatud transkriptsiooni märkimise põhimõtted

Lisaks on lihtsustatud transkriptsioonis märgendatud kommentaarid, keelejuhi (või keelejuhtide) tekst ning küsitleja tekst. Selleks on kasutatud vastavalt järgnevaid märgendeid:

<com>kommentaarid</com>
<u who=KJ>tekst</u>
<u who=MM>tekst</u>

Kommentaaride hulka kuulub päis kogu teksti puudutava informatsiooniga, samuti lindistust häirivad asjaolud (nt katkestused lindistuses, kõrvalised hääled, naer jms). Päises esitatakse info kihelkonna, küla ja keelejuhi kohta, lindistusaja kohta, keelejuhi (keelejuhtide) nimi, vanus ja/või sünniaeg, küsitlejate nimed ning kõigi osalejate tähistused tekstis. Küsitlejad on valdavalt tähistatud initsiaalidega, keelejuht koodiga KJ. Kui lindistuses on mitu keelejuhti, on päises näidatud, kes on KJ1, KJ2 jne. Päis sisaldab infot ka litereerija ja/või teksti sisestaja kohta.

<com>Ambla, Kukevere, Anna-Marie Toome (79a). Magnetofooninud H. Viires ja A. Kaljuste (EMH 401). Litereerinud A. Kaljuste ja H. Viires. Kontrollinud ja puhtaks kirjutanud 1966. a. H. Viires. Arvutisse sisestanud M. Kalmus, üle kuulanud ja täiendanud M-L. Kalvik 2005. aastal. Keelejuht on sündinud Pirsu külas, teeninud mitmetes Ambla külades, sh 2 a mõisas. Üle poole oma eluajast elanud Kukeveres. Hea, suhteliselt vana keelepruugiga. KJ1 - A-M. Toome, KJ2 - A-M. Toome õde, HV - H. Viires, AK - A. Kaljuste </com>    

<u who=HV> küla (...) noo+jahh (.) kuda see oli siis <com> muheleb </com> (...) </u>    

<u who=KJ1> no=jahh maa olin `kümne+`aastane laps (...) `oitsin (.) last tuas=ja (...) ja küla+rahvas `leikkasid rukkist põllul (...) aga nüd (.) maa läksin `õuwe lusikkaid `küirima et `leikkajattele `puhtad varred koaa ilusti soavad (.) küir+mul'd oli õuwes=ja (...) siga kolas `lahti ja laps akkas tuas `nutma eks maa juost jälle last `aittama (.) lähän `õuwe tagasi põld muud kui `pal'lad varred (...) no mis=ma nüid <com> muheledes </com> tien (.) mina juoksuga põllule ja (...) kurdan sial testele üks e päiviline oli kaa=sie `naeris kass=et `oedis `kõhtu `kinni (...) et (.) et jah=et (.) ohh küll mee `ikke saame ära siis nutta selle+bärast aga (.) noh minu süi=pärast jahh (.) said ned lusikkad nüid `otsa aga et maa `jälle lapse `piale kaa nii alastasin (.) sest maa ei taht (.) last lasta `nutta et ooks ma korraga nad ää <com> muheledes </com> `küirind (...) jahh (...) </u>

Lihtsustatud transkriptsiooni näide

4. Morfoloogiliselt märgendatud tekstid

Igale lihtsustatud transkriptsioonis teksti tekstisõnale (nt `oitsin) on lisatud märgendamisprogrammi Liivike abil (pool)käsitsi märksõna (hoidma), sõnaliik (V), vormiinfo (pers.ind.ipf.sg.1.), vajadusel ka tähendus ja pikem fraas, kuhu sõna kuulub.
Morfoloogiliselt märgendatud tekstid on XML-formaadis ja alla laetavad DataDOI repositooriumist. Tekstid on kantud ka SQL-andmebaasi, millest saab teha päringuid, kasutades murdekorpuse otsimootorit aadressil https://www.murre.ut.ee/mkweb/.

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="liivike_tekst.xsl"?>
<liivike>
    <info>
    <tyyp>suuline</tyyp>
    <kihelkond>Amb</kihelkond>
    <keel>eesti</keel>
    <murre>Kesk</murre>
    <kirjaviis>lihtsustatud transkriptsioon</kirjaviis>
    <muu>Ambla, Kukevere, Anna-Marie Toome (79a). Magnetofooninud H. Viires ja A. Kaljuste (EMH 401). Litereerinud A. Kaljuste ja H. Viires. Kontrollinud ja puhtaks kirjutanud 1966. a. H. Viires. Arvutisse sisestanud M. Kalmus, üle kuulanud ja täiendanud M-L. Kalvik 2005. aastal. Keelejuht on sündinud Pirsu külas, teeninud mitmetes Ambla külades, sh 2 a mõisas. Üle poole oma eluajast elanud Kukeveres. Hea, suhteliselt vana keelepruugiga. KJ1 - A-M. Toome, KJ2 - A-M. Toome õde, HV - H. Viires, AK - A. Kaljuste</muu>
    <lindistus lindistaja="Helmi Viires, Aino Kaljuste" aasta="1961">EMH0401</lindistus>
    <litereering litereerija="Aino Kaljuste, Helmi Viires" aasta="1966">MKT0001; KKI MT 310 (EKI)</litereering>
    <kyla longituud="25.73" latituud="59.20">Kukevere</kyla>
    <intervjueerija id="AK" haridus="kõrg" synniaasta="N/A" synnikoht="N/A" vanus="N/A" sugu="N">Aino Kaljuste</intervjueerija>
    <intervjueerija id="HV" haridus="kõrg" synniaasta="1919" synnikoht="Järva-Jaani" vanus="42" sugu="N">Helmi Viires</intervjueerija>
    <keelejuht id="KJ1" haridus="N/A" synniaasta="1882" synnikoht="Pirsu küla" vanus="79" sugu="N">Anna-Marie Toome</keelejuht>
    <keelejuht id="KJ2" haridus="N/A" synniaasta="N/A" synnikoht="Pirsu küla" vanus="N/A" sugu="N">Anna-Maria Toome õde</keelejuht>
  </info>
  <sisu id="AMB_AnnaMaria_Toome_synt-kontrollitud">
    <lause id="l1" koneleja="HV">
      <sone id="l1_s1" meta="intervjueerija">küla</sone>
      <sone id="l1_s2" meta="vahemärk">(...)</sone>
      <sone id="l1_s3" meta="intervjueerija">noo+jahh</sone>
      <sone id="l1_s4" meta="vahemärk">(.)</sone>
      <sone id="l1_s5" meta="intervjueerija">kuda</sone>
      <sone id="l1_s6" meta="intervjueerija">see</sone>
      <sone id="l1_s7" meta="intervjueerija">oli</sone>
      <sone id="l1_s8" meta="intervjueerija">siis</sone>
      <sone id="l1_s9" meta="kommentaar">muheleb</sone>
      <sone id="l1_s10" meta="vahemärk">(...)</sone>
    </lause>
    <lause id="l2" koneleja="KJ1">
      <sone id="l2_s1" lemma="no" liik="Par">no</sone>
      <sone id="l2_s2" meta="vahemärk">=</sone>
      <sone id="l2_s3" lemma="jah" liik="Par">jahh</sone>
      <sone id="l2_s4" lemma="mina" vorm="sg.nom." liik="ProS">maa</sone>
      <sone id="l2_s5" lemma="olema" vorm="pers.ind.ipf.sg.1." liik="V">olin</sone>
      <sone id="l2_s6" kommentaar="`kümne=`aastane" lemma="kümme" vorm="sg.gen." liik="Nump">`kümne</sone>
      <sone id="l2_s7" meta="vahemärk">=</sone>
      <sone id="l2_s8" kommentaar="`kümne=`aastane" lemma="aastane" vorm="sg.nom." liik="A">`aastane</sone>
      <sone id="l2_s9" lemma="laps" vorm="sg.nom." liik="S">laps</sone>
      <sone id="l2_s10" meta="vahemärk">(...)</sone>
      <sone id="l2_s11" lemma="hoidma" vorm="pers.ind.ipf.sg.1." liik="V">`oitsin</sone>
      <sone id="l2_s12" meta="vahemärk">(.)</sone>
      <sone id="l2_s13" lemma="laps" vorm="sg.part." liik="S">last</sone>
      <sone id="l2_s14" lemma="tuba" vorm="sg.in." liik="S">tuas</sone>
      <sone id="l2_s15" meta="vahemärk">=</sone>
      <sone id="l2_s16" lemma="ja" liik="Konj">ja</sone>
      <sone id="l2_s17" meta="vahemärk">(...)</sone>
      <sone id="l2_s18" lemma="ja" liik="Konj">ja</sone>
      <sone id="l2_s19" lemma="küla+rahvas" vorm="sg.nom." liik="S">küla+rahvas</sone>
      <sone id="l2_s20" lemma="lõikama" vorm="pers.ind.ipf.pl.3." liik="V">`leikkasid</sone>
      <sone id="l2_s21" lemma="rukis" vorm="sg.part." liik="S">rukkist</sone>
      <sone id="l2_s22" lemma="põld" vorm="sg.ad." liik="S">põllul</sone>
      <sone id="l2_s23" meta="vahemärk">(...)</sone>
      <sone id="l2_s24" lemma="aga" liik="Konj">aga</sone>
      <sone id="l2_s25" lemma="nüüd" liik="ProAdv">nüd</sone>
      <sone id="l2_s26" meta="vahemärk">(.)</sone>
      <sone id="l2_s27" lemma="mina" vorm="sg.nom." liik="ProS">maa</sone>
      <sone id="l2_s28" lemma="minema" vorm="pers.ind.ipf.sg.1." liik="V">läksin</sone>
      <sone id="l2_s29" lemma="õu" vorm="sg.ill." liik="S">`õuwe</sone>
      <sone id="l2_s30" lemma="lusikas" vorm="pl.part." liik="S">lusikkaid</sone>
      <sone id="l2_s31" lemma="küürima" vorm="sup." liik="V">`küirima</sone>
      <sone id="l2_s32" lemma="et" liik="Konj">et</sone>
      <sone id="l2_s33" lemma="lõikaja" vorm="pl.all." liik="S">`leikkajattele</sone>
      <sone id="l2_s34" lemma="puhas" vorm="pl.nom." liik="A">`puhtad</sone>
      <sone id="l2_s35" lemma="vars" vorm="pl.nom." liik="S">varred</sone>
      <sone id="l2_s36" lemma="ka" liik="Par">koaa</sone>
      <sone id="l2_s37" lemma="ilusti" liik="Adv">ilusti</sone>
      <sone id="l2_s38" lemma="saama" vorm="pers.ind.pr.pl.3." liik="V">soavad</sone>
      <sone id="l2_s39" meta="vahemärk">(.)</sone>
      ...
    </lause>  
  </sisu>  
</liivike>

Morfoloogiliselt märgendatud teksti näide

Morfoloogilisel märgendamisel on täidetud järgmised väljad:

Sõne (sone): sõne originaalkujul, nii nagu see tekstis esineb, nt t’s’ibõrdõl’l’i, `vaesõq, sääl. Sõne väljal on kasutatud lihtsustatud transkriptsiooni. Sõne põhjal otsinguid sooritada on siiski tülikas, sest murrete keel varieerub väga palju.
Märksõna (lemma): märksõna on sõna algvorm ehk lemma kirjakeelestatud kujul (kasutatud kirjakeele ortograafiat, kaotatud vokaalharmoonia, platalisatsioon, välde jms), nt tsiberdelema. Kui kirjakeeles on sama tüvega ja sama tähendusega sõna olemas, on märksõnana esitatud kirjakeelne sõna, nt vaene, seal.
Tähendus (tahendus): tähendus on märksõnale lisatud vaid juhul, kui see erineb kirjakeelest või kui kirjakeeles vastav sõna puudub, nt tsiberdelema ‘siplema’.
Sõnaklass (liik): sõnaklasside loend on esitatud Tabelis 2. Sõnaklassid erinevad mõnevõrra traditsiooniliselt eesti grammatikates esitatud sõnaliikidest, seepärast on enne ulatuslikumaid päringuid mõistlik tutvuda sõnaklasside määratlemise põhimõtetega.
Morfoloogiline info (vorm): morfoloogiline info on lisatud muutuvatele sõnadele − käändsõnadele ja pöördsõnadele. Märgenduses kasutatud morfoloogilised kategooriad on esitatud tabelis 3 ja 4.

Tabel 2. Murdekorpuse kasutatud sõnaklassid

Sõnaklass		Lühend	Näide
Substantiiv (nimisõna)		S	kas’s
	Prosubstantiiv (asenimisõna)	ProS	see, too, tema, mina
Adjektiiv (omadussõna)		A	vana
	Proadektiiv (aseomadussõna)	ProA	selline, nisuke
Pärisnimi		H	Jüri, Pärnumaa
Põhiarvsõna		Nump	kaks
Järgarvsõna		Numj	teine
Pronumeraal (asearvsõna)		ProNum	mitu
Verb (tegusõna)		V	ostma
	Abiverb (abitegusõna)	Va	olema-verb liitaegades (nt oli teinud, oli tehtud)
Adverb (määrsõna)		Adv	täna
	Proadverb (asemäärsõna)	ProAdv	siin, seal
	Modaaladverb	ModAdv	tegelikult, äkki
Postpositsioon (tagasõna)		Post	maja taga
Prepositsioon (eessõna)		Pre	pärast sööki
Diskursusepartikkel		Par	noh, jah, oi, no
Suhtlussõna		Suht	aitäh, palun, tere
Onomatopoeetiline sõna		Ono	mürts
Küsisõna		Intr	kas, kes, millal
Konjuktsioon (sidesõna)		Konj	ja, et
Eitussõna		Mn	ei, mitte
Võrdlussõna liitülivõrdes		Ms	kõige parem
Hüüdsõna		Intj	hõissa

Märkused märgendamispõhimõtete kohta (vt ka Lindström jt 2006):

Adjektiivide puhul on märksõnaks sõna kompareerimata algvorm (nt vana, ilus).
Modaaladverbide ja interjektsioonide kasutus on ebaühtlane, kuna korpuse varasemas versioonis need sõnaklassid puudusid.
Kliitikuid (ki-/gi-liide) märgitakse nagu liitsõnu plussiga märksõna väljal. Märksõna väljal kasutatakse ainult ki-kuju (nt ema+ki, saama+ki).
Prosubstantiividel on märgitud märksõnaks pikk vorm (mina, sina, tema, meie, teie, nemad), olenemata sellest, kas tekstis oli lühike või pikk vorm.
Ka verbivormidel võib olla aeg-ajalt märgendatud käändsõnade tunnuseid, nt tud.tr. (`tettüs’s’), sup.ad. (`kaemal).

Tabel 3. Käändsõnade morfoloogilised kategooriad

Kategooria	Märgend
ainsus	sg
mitmus	pl
nominatiiv (nimetav)	n
genitiiv (omastav)	g
partitiiv (osastav)	p
illatiiv (sisseütlev)	ill
inessiiv (seesütlev)	in
elatiiv (seestütlev)	el
allatiiv (alaleütlev)	all
adessiiv (alalütlev)	ad
ablatiiv (alaltütlev)	abl
translatiiv (saav)	tr
terminatiiv (rajav)	ter
essiiv (olev)	es
abessiiv (ilmaütlev)	ab
komitatiiv (kaasaütlev)	kom
instruktiiv (viisiütlev)	inst
possessiivsufiks (omistusliide)	poss
komparatiiv (keskvõrre)	cmp
superlatiiv (ülivõrre)	sprl
daativ (liivi keeles)	dat
instrumentaal (liivi keeles)	instl

Tabel 4. Pöördsõnade morfoloogilised kategooriad

Kategooria	Märgend
da-infinitiiv (tegevusnimi)	inf
des-gerund (lauselühend)	ger
ma-supiin (tegevusnimi)	sup
tav-partitsiip (kesksõna)	tav
nud-partitsiip (kesksõna)	nud
tud-partitsiip (kesksõna)	tud
v-partitsiip (kesksõna)	v
personaal (isikuline tegumood)	ps
impersonaalne passiiv (umbisikuline tegumood)	ips
personaalne passiiv	pas
indikatiiv (kindel kõneviis)	ind
konditsionaal (tingiv kõneviis)	knd
imperatiiv (käskiv kõneviis)	imp
jussiiv (möönev kõneviis)	jus
kvotatiiv (kaudne kõneviis)	kvt
potentsiaal	pot
preesens (olevik)	pr
imperfekt (lihtminevik)	ipf
ainsus	sg
mitmus	pl
esimene isik (mina, meie)	1
teine isik (sina, teie)	2
kolmas isik (tema, nemad)	3
eitus	neg

5. Süntaktiliselt märgendatud tekstid

Osa murdekorpuse tekste (u 650 000 tekstisõna) on saanud morfoloogilise analüüsi põhjal aastatel 2009−2010 ka automaatse süntaktilise analüüsi. Selleks on kasutatud esmalt eesti kirjakeele jaoks loodud ja kitsenduste grammatikal põhinevat automaatset analüsaatorit, mida on kohandatud murdekorpusele (vt täpsemalt Lindström ja Müürisep 2009). Nii korpuses kasutatav XML-failistruktuur kui ka süntaktiline analüsaator on aga vahepeal muutunud, mistõttu ei ole selle tööga süstemaatiliselt jätkatud.

6. Metaandmed

Andmed keelejuhtide, lindistuste ja litereeringute kohta. Iga helisalvetise kohta on kogutud võimalikult palju lisainfot, seda nii kõneleja, salvestuse, salvestajate, litereerijate jm kohta. Olulisemad andmed on esitatud ka iga tekstifaili päises.

Murdekorpuse hetkeseis

See, kui palju materjali erinevatelt murdealadelt ja murrakutest on korpusesse kaasatud, sõltub sellest, 1) kui palju üldse on aegade jooksul tehtud salvestisi eri aladelt ning kui palju neid on juba eelnevalt transkribeeritud, 2) kui suure alaga on tegu (suuremate alade kohta on reeglina rohkem materjali, nt keskmurde või läänemurde alalt). Siin anname ülevaate sellest materjalist, mis on transkribeeritud ja morfoloogiliselt märgendatud.

Salvestuste ja sõnade arv

Murdekorpuses on hetkel 412 morfoloogiliselt märgendatud faili. Järgnevad joonised annavad selle korpuse osa põhjal põgusa ülevaate sellest, millist ajaperioodi ja milliseid piirkondi murdekorpuse andmestik katab. Detailsemad andmed leiab lisas olevatest tabelitest.

Joonis 5. Salvestuste arv aastate lõikes

Murdekorpuses on hetkeseisuga kokku 1241808 morfoloogiliselt märgendatud sõna. Need jagunevad murrete vahel järgmiselt:

Joonis 6. Murrete sõnade arv korpuses

Allolev kaart illustreerib, kui palju teksti on kaasatud eri kihelkondadest ning mis alad on seni katmata.

Joonis 7. Sõnade arv kihelkondades

Kõnelejad

Kokku on korpuses 381 unikaalset kõnelejat. Enamikult kõnelejatest on ainult üks salvestus, ehkki see võib arhiivis ja korpuses olla jagatud erinevateks failideks. Mõnd kõnelejat on salvestatud aga eri aastatel ka mitu korda.

Joonis 8. Kõnelejad failides ja salvestustes

Kõnelejatest 111 on mehed ja 261 naised. Lisaks on korpuses 9 sporaadiliselt vestluses osalevat kõnelejat, kelle sugu pole olnud lindistustelt võimalik tuvastada (nt lapsed või kuskil taustal kõnelejad).

Joonis 9. Mees- ja naiskõnelejate jaotumine murretes

Nii mees- kui ka naiskõnelejad on korpuses keskmiselt sama vanad.
Meeskõnelejate vanus ulatub 45 aastast 96 aastani, keskmine vanus on 78.1.
Naiskõnelejate vanus ulatub 42 aastast 101 aastani, keskmine vanus on 79.69.

Joonis 10. Mees- ja naiskõnelejate vanuseline jaotus korpuses

Meeskõnelejate sünniaastad ulatuvad aastast 1865 aastani 1950, keskmine sünniaasta on 1888.
Naiskõnelejate sünniaastad ulatuvad aastast 1864 aastani 1932, keskmine sünniaasta on 1887.

Kuna naiskõnelejaid on korpuses rohkem, panustavad naised korpusesse ka oluliselt enam sõnu (vasakpoolne joonis). Samuti räägivad naised üksikutes vestlustes meestest keskmiselt õige pisut rohkem (parempoolne joonis).

Joonis 11. Korpuse sõnade arv vastavalt kõneleja soole

Sõnaloendid

Korpuse morfoloogiliselt märgendatud tekstide põhjal on koostatud ka loendid korpuse märksõnade ja sõnaklasside esinemissageduste kohta. Loendid on tervikuna kättesaadavad TÜ DataDOI repositooriumis.

Joonis 12. Sõnaklasside sagedused korpuses

Joonis 13. 30 sagedamat lemmat korpuses

Liivi ja vadja keel

Murdekorpusesse on lisatud ka vadja ja liivi keele materjale, mida on märgendatud eri projektide raames. Vadja ja liivi materjalid on pärit peamiselt litereeritud salvestustest, aga ka varasematest publitseeritud tekstikogumikest. Varieerub tekstide ülesmärkimine: vadja keele puhul on kasutatud lihtsustatud transkriptsiooni, liivi keele puhul ortograafiat või foneetilist transkriptsiooni.

Murdekorpuse osana käsitleme eelkõige morfoloogiliselt märgendatud tekste, mis on lisatud ka murdekorpuse otsimootorisse. Märgendatud tekstisõnu on liivi keelest umbes 45 000 ja vadja keelest umbes 35 000.

Murdekorpuse otsimootor

Morfoloogiliselt märgendatud tekstidest otsimiseks on lehel https://www.murre.ut.ee/mkweb/ kättesaadav otsimootor, mis võimaldab teha päringuid mitme erineva välja põhjal.

Joonis 14. Murdekorpuse otsimootor lehel https://www.murre.ut.ee/mkweb/

Märksõna, tähenduse, sõne ja vormi lahtris saab kasutada ka erisümboleid:

? suvaline sümbol (täht, number, kirjavahemärk),
* suvaline märgijada.

Erisümbolite endi (nt küsimärgi või tärni) otsimiseks tuleb need otsingus maskeerida kaldkriipsuga, nt \*.

Võimalik on otsida ka keele (eesti, vadja, liivi), murde, murraku (kihelkonna) või lindistusaasta järgi. Samuti on otsingut võimalik täpsustada vajadusel keelejuhi kohta käiva info põhjal (vanus ja sugu). Aastaarvu ja vanuse lahtrisse võib kirjutada nii konkreetse arvu kui ka vahemiku, nt 1960-1970 või ka -1970.

Vaikimisi lisaks otsitavale sõnale/vormile ja vaste juurde käivale metainfole konteksti ei näidata, ent konteksti saab vastetele lisada, kui valida menüüst päringut tehes konteksti suuruse, mis igale otsisõnale eelneb ja järgneb (nt üks sõna, viis sõna, kümme sõna, terve lause). Konteksti saab lähemalt näha päringu vastuses, klõpsates ikoonil Näita detailset konteksti .
Avanenud kontekstikastis on võimalik lisaks konkreetsele kõnevoorule vaadata ka eelmisi ja järgmisi voorusid, enamikul juhtudel kuulata ka helilõiku.

Joonis 15. Päringu vaste kontekst

Päringu vastus on esitatud tabeli kujul, mida saab alla laadida csv- või Excelis avaneva xml-failina.

Kontakt

Murdekorpuse ja selle alamosade (sh avalikult mittekättesaadavate materjalide) kasutamise kohta saab rohkem infot, kirjutades aadressil liina.lindstrom [at] ut.ee

Viitamine

Murdekorpuse materjalide kasutamisel palume viidata

Lindström, Liina, Triin Todesk, Maarja-Liisa Pilvik. 2022. Eesti murrete korpus. Tartu Ülikooli eesti ja üldkeeleteaduse instituut. https://datadoi.ee/handle/33/492.

või

Lindström, Liina, Triin Todesk, Maarja-Liisa Pilvik. 2022. Corpus of Estonian Dialects. Institute of Estonian and General Linguistics, University of Tartu. https://datadoi.ee/handle/33/492.

Viited

Ermus, Liis, Mari-Liis Kalvik, Tiina Laansalu. 2019. The Archive of Estonian Dialects and Finno-Ugric Languages at the Institute of the Estonian Language. Multi-lingual Finnic. Language contact and change (ed. Sofia Björklöf, Santra Jantunen). (Uralica Helsingiensia 14.) Helsinki: Finno-Ugric Society. 351−366
Lindström, Liina, Liisi Bakhoff, Mari-Liis Kalvik, Anneliis Klaus, Rutt Läänemets, Mari Mets, Ellen Niit, Karl Pajusalu, Pire Teras, Kristel Uiboaed, Ann Veismann, Eva Velsker. 2006. Sõnaliigituse küsimusi eesi murrete korpuse põhjal. Keele ehe (toim. Ellen Niit). Tartu Ülikooli eesti keele õppetooli toimetised 30. 154−167.
Lindström, Liina, Kaili Müürisep. 2009. Parsing corpus of Estonian dialects. Proceedings of the NODALIDA 2009 workshop Constraint Grammar and robust parsing, Odense, Denmark; 14.05.2009 (ed. E. Bick, K. Hagen, K. Müürisep, T. Trosterud). (NEALT Proceedings Series.) Tartu: Tartu University Library.
Lindström, Liina, Pärtel Lippus, Tuuli Tuisk. 2019. The online database of the University of Tartu Archives of Estonian Dialects and Kindred Languages and the Corpus of Estonian Dialects. Multi-lingual Finnic. Language contact and change (ed. Sofia Björklöf, Santra Jantunen). (Uralica Helsingiensia 14.) Helsinki: Finno-Ugric Society. 327−350.
Pajusalu, Karl, Tiit Hennoste, Ellen Niit, Peeter Päll, Jüri Viikberg. 2009. Eesti murded ja kohanimed. Tallinn.

Ülevaade Eesti murrete korpusest

Liina Lindström, Maarja-Liisa Pilvik

23.11.2022