Eesti murrete korpus
Lindström, Liina; Todesk, Triin; Pilvik, Maarja-Liisa
Loading
Nimi | Suurus | Kirjeldus |
---|---|---|
README.txt | 4.800Kb | |
metaandmed_murded.txt | 740baidid | Korpuse ülevaade murdeti |
metaandmed_konelejad_anon.txt | 41.59Kb | Korpuse ülevaade kõnelejati |
sagedusloend_lemma_liik.txt | 407.0Kb | Märksõnade ja sõnaliikide sagedusloend |
sagedusloend_lemma_liik_murdeti.txt | 1.219Mb | Märksõnade ja sõnaliikide sagedusloend murdeti |
metaandmed_konelejad.txt | 50.63Kb | Korpuse ülevaade kõnelejati (nimedega) |
morf_korpus.zip | 13.26Mb | Morfoloogiliselt märgendatud failid |
murdekorpus.html | 14.09Mb |
Kokkuvõte
Eesti murrete korpus on kõiki eesti murdeid hõlmav elektrooniline andmekogu. Korpus koosneb helisalvestistest, foneetilises transkriptsioonis murdetekstidest, lihtsustatud transkriptsioonis murdetekstidest, morfoloogiliselt märgendatud tekstidest, süntaktiliselt märgendatud tekstidest ja metaandmetest. Selles repositooriumis on kättesaadavaks tehtud morfoloogiliselt märgendatud tekstid XML-formaadis ja nende põhjal koostatud märksõnade ja sõnaliikide sagedusloendid. Muude korpuse osadega saab tuutvuda Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi kaudu lehel https://murdearhiiv.ut.ee/.... Rohkem Vähem
The corpus of Estonian dialects is an electronic database comprising data from all Estonian dialects. The corpus consists of audio recordings, dialect texts in phonetic transcription, dialect texts in simplified transcription, morphologically annotated texts, syntactically annotated texts, and metadata. In this repository, only the morphologically annotated texts in XML format along with frequency lists of lemmas and part-of-speech tags are made available. Other parts of the corpus can be accesssed through the University of Tartu Archives of Estonian Dialects and Kindred Languages at https://murdearhiiv.ut.ee/.... Rohkem Vähem