Eesti murrete korpus on kõiki eesti murdeid hõlmav elektrooniline andmekogu, mis sisaldab autentseid murdetekste kõigist eesti murretest. Selle põhieesmärk on teha hästi valitud ja võimalikult täpselt litereeritud murdematerjalid uurijatele elektrooniliselt kättesaadavaks ning luua võimalus eesti murrete kõrvutavaks uurimiseks võimalikult suure andmehulga põhjal ning tänapäeva korpuslingvistika meetodeid rakendades.
Korpuse materjalideks on võimalikult vanapärased murdetekstid, millest on olemas ka lindistused. Põhiosa korpuse baasiks olevatest helisalvestustest on tehtud 1960-1970ndatel. Murdekorpusesse on kaasatud ka lähisugulaskeelte liivi ja vadja keele materjalid. Täpsemad andmed korpuse sisu ja mahu kohta on esitatud allpool.
Murdekorpus järgib üldjoontes murdeõpikus “Eesti murded ja kohanimed” esitatud murdejaotust. Eesti murded on murdekorpuses jagatud kümneks:
Murdekorpus on valminud kahe asutuse, Tartu Ülikooli eesti ja üldkeeleteaduse instituudi ja Eesti Keele Instituudi koostöös. Murdekorpuses kasutatavad materjalid on pärit osaliselt EKIst (vt nt Ermus jt 2019), osaliselt Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivist (vt Lindström jt 2019).
Murdekorpuse tööd alustati 1998. aastal. Aastatel 2009−2013 on
murdekorpuse tööd finantseeritud programmist “Eesti keel ja
kultuurimälu” (projekt nr 09111
“Eesti murrete ja sugulaskeelte andmebaas”) ning selle jätkuna aastatel
2014-2018 programmist “Eesti keel ja kultuurimälu II” (projekt nr 14319
“Eesti murrete ja sugulaskeelte andmebaas II”).
Korpus on olnud seotud ka programmi “Humanitaar- ja loodusteaduslikud
kogud” projektiga nr 059
“Eesti murrete ja sugulaskeelte arhiiv” ning murdekorpust on kasutatatud
projekti “Eesti murrete süntaks” (PUT90,
2013−2016) täitmisel peamise allikana.
Eesti murrete korpus koosneb järgmistest osadest:
Murdelindistused on reeglina digitaliseeritud ja wav- või mp3-formaadis. Murdelindistused on tehtud suuremas osas 1960-1970ndatel, esimesed tekstid pärinevad aastast 1938 ja viimased aastast 2010.
Murdekorpuse helifaile saab kuulata Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi kaudu. Arhiivi avalehelt tuleb paremalt ülalt valida nupp Otsi, seejärel Otsi audioträkk ning valida sari EMH EKI eesti murrete helilint. Päringu tulemusena saab valida mõne arhiivikirje, millel vajutades näeb helifaili kohta käivat metainfot. Vasakul üleval on ka helifaili veebis kuulamise võimalus.
Joonis 2. Salvestuste kuulamine murdearhiivis
Foneetilises transkriptsioonis tekstid põhinevad helisalvestistel. Kui võimalik, on kasutatud EKI ja Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi käsikirjalisi materjale. Kasutatud on traditsioonilist soome-ugri foneetilist transkriptsiooni, mille sisestamiseks on kasutatud spetsiaalseid fonte ja sisestussüsteemi SUT (autor Esko Oja, töötav versioon alla laaditav siit). Transkriptsioonid on saadaval docx- ja pdf-failidena.
Foneetilises transkriptsioonis tekste saab kasutada/lugeda TÜ eesti murrete ja sugulaskeelte arhiivi kaudu. Foneetilises trankriptsioonis tekstide vaatamiseks tuleb arhiivi avalehelt paremalt ülalt valida nupp Otsi, seejärel Otsi käsikiri ning sari MKT Murdekorpuse tekstid. Päringu tulemusena saab valida teksti arhiivikirje, millel vajutades näeb transkriptsiooni kohta käivat metainfot. Foneetilises transkriptsioonis faili vaatamiseks vajuta vasakul ülal linki Vaata käsikirja.
Joonis 3. Foneetilises transkriptsioonis käsikirjade vaatamine murdearhiivis
Joonis 4. Foneetilises transkriptsioonis käsikirja näide
Foneetiliste transkriptsioonide päises on esitatud lindistuse metainfo (lindistuse number, küla, keelejuhi andmed, lindistajate andmed, muud kommentaarid).
Foneetilises transkriptsioonis tekstid on üle viidud masinloetavasse lihtsustatud transkriptsiooni, mis ei sisalda foneetilise transkriptsiooni erisümboleid ning võimaldab tekste kasutada paljude erinevate programmidega. Tekstide üleviimiseks on kasutatud kindlaid reegleid, mis on esitatud allolevas tabelis.
Lisaks on lihtsustatud transkriptsioonis märgendatud kommentaarid, keelejuhi (või keelejuhtide) tekst ning küsitleja tekst. Selleks on kasutatud vastavalt järgnevaid märgendeid:
<com>kommentaarid</com>
<u who=KJ>tekst</u>
<u who=MM>tekst</u>
Kommentaaride hulka kuulub päis kogu teksti puudutava informatsiooniga, samuti lindistust häirivad asjaolud (nt katkestused lindistuses, kõrvalised hääled, naer jms). Päises esitatakse info kihelkonna, küla ja keelejuhi kohta, lindistusaja kohta, keelejuhi (keelejuhtide) nimi, vanus ja/või sünniaeg, küsitlejate nimed ning kõigi osalejate tähistused tekstis. Küsitlejad on valdavalt tähistatud initsiaalidega, keelejuht koodiga KJ. Kui lindistuses on mitu keelejuhti, on päises näidatud, kes on KJ1, KJ2 jne. Päis sisaldab infot ka litereerija ja/või teksti sisestaja kohta.
<com>Ambla, Kukevere, Anna-Marie Toome (79a). Magnetofooninud H. Viires ja A. Kaljuste (EMH 401). Litereerinud A. Kaljuste ja H. Viires. Kontrollinud ja puhtaks kirjutanud 1966. a. H. Viires. Arvutisse sisestanud M. Kalmus, üle kuulanud ja täiendanud M-L. Kalvik 2005. aastal. Keelejuht on sündinud Pirsu külas, teeninud mitmetes Ambla külades, sh 2 a mõisas. Üle poole oma eluajast elanud Kukeveres. Hea, suhteliselt vana keelepruugiga. KJ1 - A-M. Toome, KJ2 - A-M. Toome õde, HV - H. Viires, AK - A. Kaljuste </com>
<u who=HV> küla (...) noo+jahh (.) kuda see oli siis <com> muheleb </com> (...) </u>
<u who=KJ1> no=jahh maa olin `kümne+`aastane laps (...) `oitsin (.) last tuas=ja (...) ja küla+rahvas `leikkasid rukkist põllul (...) aga nüd (.) maa läksin `õuwe lusikkaid `küirima et `leikkajattele `puhtad varred koaa ilusti soavad (.) küir+mul'd oli õuwes=ja (...) siga kolas `lahti ja laps akkas tuas `nutma eks maa juost jälle last `aittama (.) lähän `õuwe tagasi põld muud kui `pal'lad varred (...) no mis=ma nüid <com> muheledes </com> tien (.) mina juoksuga põllule ja (...) kurdan sial testele üks e päiviline oli kaa=sie `naeris kass=et `oedis `kõhtu `kinni (...) et (.) et jah=et (.) ohh küll mee `ikke saame ära siis nutta selle+bärast aga (.) noh minu süi=pärast jahh (.) said ned lusikkad nüid `otsa aga et maa `jälle lapse `piale kaa nii alastasin (.) sest maa ei taht (.) last lasta `nutta et ooks ma korraga nad ää <com> muheledes </com> `küirind (...) jahh (...) </u>
Lihtsustatud transkriptsiooni näide
Igale lihtsustatud transkriptsioonis teksti tekstisõnale (nt
`oitsin) on lisatud märgendamisprogrammi Liivike abil (pool)käsitsi
märksõna (hoidma), sõnaliik (V), vormiinfo
(pers.ind.ipf.sg.1.), vajadusel ka tähendus ja pikem fraas,
kuhu sõna kuulub.
Morfoloogiliselt märgendatud tekstid on XML-formaadis
ja alla laetavad DataDOI
repositooriumist. Tekstid on kantud ka SQL-andmebaasi, millest saab teha
päringuid, kasutades murdekorpuse otsimootorit aadressil https://www.murre.ut.ee/mkweb/.
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="liivike_tekst.xsl"?>
<liivike>
<info>
<tyyp>suuline</tyyp>
<kihelkond>Amb</kihelkond>
<keel>eesti</keel>
<murre>Kesk</murre>
<kirjaviis>lihtsustatud transkriptsioon</kirjaviis>
<muu>Ambla, Kukevere, Anna-Marie Toome (79a). Magnetofooninud H. Viires ja A. Kaljuste (EMH 401). Litereerinud A. Kaljuste ja H. Viires. Kontrollinud ja puhtaks kirjutanud 1966. a. H. Viires. Arvutisse sisestanud M. Kalmus, üle kuulanud ja täiendanud M-L. Kalvik 2005. aastal. Keelejuht on sündinud Pirsu külas, teeninud mitmetes Ambla külades, sh 2 a mõisas. Üle poole oma eluajast elanud Kukeveres. Hea, suhteliselt vana keelepruugiga. KJ1 - A-M. Toome, KJ2 - A-M. Toome õde, HV - H. Viires, AK - A. Kaljuste</muu>
<lindistus lindistaja="Helmi Viires, Aino Kaljuste" aasta="1961">EMH0401</lindistus>
<litereering litereerija="Aino Kaljuste, Helmi Viires" aasta="1966">MKT0001; KKI MT 310 (EKI)</litereering>
<kyla longituud="25.73" latituud="59.20">Kukevere</kyla>
<intervjueerija id="AK" haridus="kõrg" synniaasta="N/A" synnikoht="N/A" vanus="N/A" sugu="N">Aino Kaljuste</intervjueerija>
<intervjueerija id="HV" haridus="kõrg" synniaasta="1919" synnikoht="Järva-Jaani" vanus="42" sugu="N">Helmi Viires</intervjueerija>
<keelejuht id="KJ1" haridus="N/A" synniaasta="1882" synnikoht="Pirsu küla" vanus="79" sugu="N">Anna-Marie Toome</keelejuht>
<keelejuht id="KJ2" haridus="N/A" synniaasta="N/A" synnikoht="Pirsu küla" vanus="N/A" sugu="N">Anna-Maria Toome õde</keelejuht>
</info>
<sisu id="AMB_AnnaMaria_Toome_synt-kontrollitud">
<lause id="l1" koneleja="HV">
<sone id="l1_s1" meta="intervjueerija">küla</sone>
<sone id="l1_s2" meta="vahemärk">(...)</sone>
<sone id="l1_s3" meta="intervjueerija">noo+jahh</sone>
<sone id="l1_s4" meta="vahemärk">(.)</sone>
<sone id="l1_s5" meta="intervjueerija">kuda</sone>
<sone id="l1_s6" meta="intervjueerija">see</sone>
<sone id="l1_s7" meta="intervjueerija">oli</sone>
<sone id="l1_s8" meta="intervjueerija">siis</sone>
<sone id="l1_s9" meta="kommentaar">muheleb</sone>
<sone id="l1_s10" meta="vahemärk">(...)</sone>
</lause>
<lause id="l2" koneleja="KJ1">
<sone id="l2_s1" lemma="no" liik="Par">no</sone>
<sone id="l2_s2" meta="vahemärk">=</sone>
<sone id="l2_s3" lemma="jah" liik="Par">jahh</sone>
<sone id="l2_s4" lemma="mina" vorm="sg.nom." liik="ProS">maa</sone>
<sone id="l2_s5" lemma="olema" vorm="pers.ind.ipf.sg.1." liik="V">olin</sone>
<sone id="l2_s6" kommentaar="`kümne=`aastane" lemma="kümme" vorm="sg.gen." liik="Nump">`kümne</sone>
<sone id="l2_s7" meta="vahemärk">=</sone>
<sone id="l2_s8" kommentaar="`kümne=`aastane" lemma="aastane" vorm="sg.nom." liik="A">`aastane</sone>
<sone id="l2_s9" lemma="laps" vorm="sg.nom." liik="S">laps</sone>
<sone id="l2_s10" meta="vahemärk">(...)</sone>
<sone id="l2_s11" lemma="hoidma" vorm="pers.ind.ipf.sg.1." liik="V">`oitsin</sone>
<sone id="l2_s12" meta="vahemärk">(.)</sone>
<sone id="l2_s13" lemma="laps" vorm="sg.part." liik="S">last</sone>
<sone id="l2_s14" lemma="tuba" vorm="sg.in." liik="S">tuas</sone>
<sone id="l2_s15" meta="vahemärk">=</sone>
<sone id="l2_s16" lemma="ja" liik="Konj">ja</sone>
<sone id="l2_s17" meta="vahemärk">(...)</sone>
<sone id="l2_s18" lemma="ja" liik="Konj">ja</sone>
<sone id="l2_s19" lemma="küla+rahvas" vorm="sg.nom." liik="S">küla+rahvas</sone>
<sone id="l2_s20" lemma="lõikama" vorm="pers.ind.ipf.pl.3." liik="V">`leikkasid</sone>
<sone id="l2_s21" lemma="rukis" vorm="sg.part." liik="S">rukkist</sone>
<sone id="l2_s22" lemma="põld" vorm="sg.ad." liik="S">põllul</sone>
<sone id="l2_s23" meta="vahemärk">(...)</sone>
<sone id="l2_s24" lemma="aga" liik="Konj">aga</sone>
<sone id="l2_s25" lemma="nüüd" liik="ProAdv">nüd</sone>
<sone id="l2_s26" meta="vahemärk">(.)</sone>
<sone id="l2_s27" lemma="mina" vorm="sg.nom." liik="ProS">maa</sone>
<sone id="l2_s28" lemma="minema" vorm="pers.ind.ipf.sg.1." liik="V">läksin</sone>
<sone id="l2_s29" lemma="õu" vorm="sg.ill." liik="S">`õuwe</sone>
<sone id="l2_s30" lemma="lusikas" vorm="pl.part." liik="S">lusikkaid</sone>
<sone id="l2_s31" lemma="küürima" vorm="sup." liik="V">`küirima</sone>
<sone id="l2_s32" lemma="et" liik="Konj">et</sone>
<sone id="l2_s33" lemma="lõikaja" vorm="pl.all." liik="S">`leikkajattele</sone>
<sone id="l2_s34" lemma="puhas" vorm="pl.nom." liik="A">`puhtad</sone>
<sone id="l2_s35" lemma="vars" vorm="pl.nom." liik="S">varred</sone>
<sone id="l2_s36" lemma="ka" liik="Par">koaa</sone>
<sone id="l2_s37" lemma="ilusti" liik="Adv">ilusti</sone>
<sone id="l2_s38" lemma="saama" vorm="pers.ind.pr.pl.3." liik="V">soavad</sone>
<sone id="l2_s39" meta="vahemärk">(.)</sone>
...
</lause>
</sisu>
</liivike>
Morfoloogiliselt märgendatud teksti näide
Morfoloogilisel märgendamisel on täidetud järgmised väljad:
sone
): sõne originaalkujul, nii
nagu see tekstis esineb, nt t’s’ibõrdõl’l’i, `vaesõq,
sääl. Sõne väljal on kasutatud lihtsustatud transkriptsiooni.
Sõne põhjal otsinguid sooritada on siiski tülikas, sest murrete keel
varieerub väga palju.lemma
): märksõna on sõna
algvorm ehk lemma kirjakeelestatud kujul (kasutatud kirjakeele
ortograafiat, kaotatud vokaalharmoonia, platalisatsioon, välde jms), nt
tsiberdelema. Kui kirjakeeles on sama tüvega ja sama
tähendusega sõna olemas, on märksõnana esitatud kirjakeelne sõna, nt
vaene, seal.tahendus
): tähendus on
märksõnale lisatud vaid juhul, kui see erineb kirjakeelest või kui
kirjakeeles vastav sõna puudub, nt tsiberdelema
‘siplema’.liik
): sõnaklasside loend
on esitatud Tabelis 2. Sõnaklassid erinevad mõnevõrra traditsiooniliselt
eesti grammatikates esitatud sõnaliikidest, seepärast on enne
ulatuslikumaid päringuid mõistlik tutvuda sõnaklasside määratlemise
põhimõtetega.vorm
):
morfoloogiline info on lisatud muutuvatele sõnadele − käändsõnadele ja
pöördsõnadele. Märgenduses kasutatud morfoloogilised kategooriad on
esitatud tabelis 3 ja 4.Tabel 2. Murdekorpuse kasutatud sõnaklassid
Sõnaklass | Lühend | Näide | |
---|---|---|---|
Substantiiv (nimisõna) | S | kas’s | |
Prosubstantiiv (asenimisõna) | ProS | see, too, tema, mina | |
Adjektiiv (omadussõna) | A | vana | |
Proadektiiv (aseomadussõna) | ProA | selline, nisuke | |
Pärisnimi | H | Jüri, Pärnumaa | |
Põhiarvsõna | Nump | kaks | |
Järgarvsõna | Numj | teine | |
Pronumeraal (asearvsõna) | ProNum | mitu | |
Verb (tegusõna) | V | ostma | |
Abiverb (abitegusõna) | Va | olema-verb liitaegades (nt oli teinud, oli tehtud) | |
Adverb (määrsõna) | Adv | täna | |
Proadverb (asemäärsõna) | ProAdv | siin, seal | |
Modaaladverb | ModAdv | tegelikult, äkki | |
Postpositsioon (tagasõna) | Post | maja taga | |
Prepositsioon (eessõna) | Pre | pärast sööki | |
Diskursusepartikkel | Par | noh, jah, oi, no | |
Suhtlussõna | Suht | aitäh, palun, tere | |
Onomatopoeetiline sõna | Ono | mürts | |
Küsisõna | Intr | kas, kes, millal | |
Konjuktsioon (sidesõna) | Konj | ja, et | |
Eitussõna | Mn | ei, mitte | |
Võrdlussõna liitülivõrdes | Ms | kõige parem | |
Hüüdsõna | Intj | hõissa |
Märkused märgendamispõhimõtete kohta (vt ka Lindström jt 2006):
Tabel 3. Käändsõnade morfoloogilised kategooriad
Kategooria | Märgend |
---|---|
ainsus | sg |
mitmus | pl |
nominatiiv (nimetav) | n |
genitiiv (omastav) | g |
partitiiv (osastav) | p |
illatiiv (sisseütlev) | ill |
inessiiv (seesütlev) | in |
elatiiv (seestütlev) | el |
allatiiv (alaleütlev) | all |
adessiiv (alalütlev) | ad |
ablatiiv (alaltütlev) | abl |
translatiiv (saav) | tr |
terminatiiv (rajav) | ter |
essiiv (olev) | es |
abessiiv (ilmaütlev) | ab |
komitatiiv (kaasaütlev) | kom |
instruktiiv (viisiütlev) | inst |
possessiivsufiks (omistusliide) | poss |
komparatiiv (keskvõrre) | cmp |
superlatiiv (ülivõrre) | sprl |
daativ (liivi keeles) | dat |
instrumentaal (liivi keeles) | instl |
Tabel 4. Pöördsõnade morfoloogilised kategooriad
Kategooria | Märgend |
---|---|
da-infinitiiv (tegevusnimi) | inf |
des-gerund (lauselühend) | ger |
ma-supiin (tegevusnimi) | sup |
tav-partitsiip (kesksõna) | tav |
nud-partitsiip (kesksõna) | nud |
tud-partitsiip (kesksõna) | tud |
v-partitsiip (kesksõna) | v |
personaal (isikuline tegumood) | ps |
impersonaalne passiiv (umbisikuline tegumood) | ips |
personaalne passiiv | pas |
indikatiiv (kindel kõneviis) | ind |
konditsionaal (tingiv kõneviis) | knd |
imperatiiv (käskiv kõneviis) | imp |
jussiiv (möönev kõneviis) | jus |
kvotatiiv (kaudne kõneviis) | kvt |
potentsiaal | pot |
preesens (olevik) | pr |
imperfekt (lihtminevik) | ipf |
ainsus | sg |
mitmus | pl |
esimene isik (mina, meie) | 1 |
teine isik (sina, teie) | 2 |
kolmas isik (tema, nemad) | 3 |
eitus | neg |
Osa murdekorpuse tekste (u 650 000 tekstisõna) on saanud morfoloogilise analüüsi põhjal aastatel 2009−2010 ka automaatse süntaktilise analüüsi. Selleks on kasutatud esmalt eesti kirjakeele jaoks loodud ja kitsenduste grammatikal põhinevat automaatset analüsaatorit, mida on kohandatud murdekorpusele (vt täpsemalt Lindström ja Müürisep 2009). Nii korpuses kasutatav XML-failistruktuur kui ka süntaktiline analüsaator on aga vahepeal muutunud, mistõttu ei ole selle tööga süstemaatiliselt jätkatud.
Andmed keelejuhtide, lindistuste ja litereeringute kohta. Iga helisalvetise kohta on kogutud võimalikult palju lisainfot, seda nii kõneleja, salvestuse, salvestajate, litereerijate jm kohta. Olulisemad andmed on esitatud ka iga tekstifaili päises.
See, kui palju materjali erinevatelt murdealadelt ja murrakutest on korpusesse kaasatud, sõltub sellest, 1) kui palju üldse on aegade jooksul tehtud salvestisi eri aladelt ning kui palju neid on juba eelnevalt transkribeeritud, 2) kui suure alaga on tegu (suuremate alade kohta on reeglina rohkem materjali, nt keskmurde või läänemurde alalt). Siin anname ülevaate sellest materjalist, mis on transkribeeritud ja morfoloogiliselt märgendatud.
Murdekorpuses on hetkel 412 morfoloogiliselt märgendatud faili. Järgnevad joonised annavad selle korpuse osa põhjal põgusa ülevaate sellest, millist ajaperioodi ja milliseid piirkondi murdekorpuse andmestik katab. Detailsemad andmed leiab lisas olevatest tabelitest.
Murdekorpuses on hetkeseisuga kokku 1241808 morfoloogiliselt märgendatud sõna. Need jagunevad murrete vahel järgmiselt:
Allolev kaart illustreerib, kui palju teksti on kaasatud eri kihelkondadest ning mis alad on seni katmata.
Kokku on korpuses 381 unikaalset kõnelejat. Enamikult kõnelejatest on ainult üks salvestus, ehkki see võib arhiivis ja korpuses olla jagatud erinevateks failideks. Mõnd kõnelejat on salvestatud aga eri aastatel ka mitu korda.
Kõnelejatest 111 on mehed ja 261 naised. Lisaks on korpuses 9 sporaadiliselt vestluses osalevat kõnelejat, kelle sugu pole olnud lindistustelt võimalik tuvastada (nt lapsed või kuskil taustal kõnelejad).
Nii mees- kui ka naiskõnelejad on korpuses keskmiselt sama
vanad.
Meeskõnelejate vanus ulatub 45 aastast
96 aastani, keskmine vanus on
78.1.
Naiskõnelejate vanus ulatub 42 aastast
101 aastani, keskmine vanus on
79.69.
Meeskõnelejate sünniaastad ulatuvad aastast 1865 aastani 1950,
keskmine sünniaasta on 1888.
Naiskõnelejate sünniaastad ulatuvad aastast 1864 aastani 1932, keskmine
sünniaasta on 1887.
Kuna naiskõnelejaid on korpuses rohkem, panustavad naised korpusesse ka oluliselt enam sõnu (vasakpoolne joonis). Samuti räägivad naised üksikutes vestlustes meestest keskmiselt õige pisut rohkem (parempoolne joonis).
Korpuse morfoloogiliselt märgendatud tekstide põhjal on koostatud ka loendid korpuse märksõnade ja sõnaklasside esinemissageduste kohta. Loendid on tervikuna kättesaadavad TÜ DataDOI repositooriumis.
Murdekorpusesse on lisatud ka vadja ja liivi keele materjale, mida on märgendatud eri projektide raames. Vadja ja liivi materjalid on pärit peamiselt litereeritud salvestustest, aga ka varasematest publitseeritud tekstikogumikest. Varieerub tekstide ülesmärkimine: vadja keele puhul on kasutatud lihtsustatud transkriptsiooni, liivi keele puhul ortograafiat või foneetilist transkriptsiooni.
Murdekorpuse osana käsitleme eelkõige morfoloogiliselt märgendatud tekste, mis on lisatud ka murdekorpuse otsimootorisse. Märgendatud tekstisõnu on liivi keelest umbes 45 000 ja vadja keelest umbes 35 000.
Morfoloogiliselt märgendatud tekstidest otsimiseks on lehel https://www.murre.ut.ee/mkweb/ kättesaadav otsimootor, mis võimaldab teha päringuid mitme erineva välja põhjal.
Joonis 14. Murdekorpuse otsimootor lehel https://www.murre.ut.ee/mkweb/
Märksõna, tähenduse, sõne ja vormi lahtris saab kasutada ka erisümboleid:
?
suvaline sümbol (täht, number,
kirjavahemärk),*
suvaline märgijada.Erisümbolite endi (nt küsimärgi või tärni) otsimiseks tuleb need
otsingus maskeerida kaldkriipsuga, nt \*
.
Võimalik on otsida ka keele (eesti, vadja, liivi),
murde, murraku (kihelkonna) või
lindistusaasta järgi. Samuti on otsingut võimalik
täpsustada vajadusel keelejuhi kohta käiva info põhjal
(vanus ja sugu). Aastaarvu ja vanuse
lahtrisse võib kirjutada nii konkreetse arvu kui ka vahemiku, nt
1960-1970
või ka -1970
.
Vaikimisi lisaks otsitavale sõnale/vormile ja vaste juurde käivale
metainfole konteksti ei näidata, ent konteksti saab vastetele lisada,
kui valida menüüst päringut tehes konteksti suuruse, mis igale
otsisõnale eelneb ja järgneb (nt üks sõna, viis sõna, kümme sõna, terve
lause). Konteksti saab lähemalt näha päringu vastuses, klõpsates ikoonil
Näita detailset konteksti .
Avanenud kontekstikastis on võimalik lisaks konkreetsele kõnevoorule
vaadata ka eelmisi ja järgmisi voorusid, enamikul juhtudel kuulata ka
helilõiku.
Joonis 15. Päringu vaste kontekst
Päringu vastus on esitatud tabeli kujul, mida saab alla laadida csv- või Excelis avaneva xml-failina.
Murdekorpuse ja selle alamosade (sh avalikult mittekättesaadavate materjalide) kasutamise kohta saab rohkem infot, kirjutades aadressil liina.lindstrom [at] ut.ee
Murdekorpuse materjalide kasutamisel palume viidata
Lindström, Liina, Triin Todesk, Maarja-Liisa Pilvik. 2022. Eesti murrete korpus. Tartu Ülikooli eesti ja üldkeeleteaduse instituut. https://datadoi.ee/handle/33/492.
või
Lindström, Liina, Triin Todesk, Maarja-Liisa Pilvik. 2022. Corpus of Estonian Dialects. Institute of Estonian and General Linguistics, University of Tartu. https://datadoi.ee/handle/33/492.