#--------------------------# #---EESTI MURRETE KORPUS---# #--------------------------# #---29.11.2022-------------# #--------------------------# Repositoorium sisaldab järgmisi andmefaile: - murdekorpus.html * Korpust, selle osi, hetkeseisu ja kasutamisvõimalusi kirjeldav lehekülg. Leheküljel on kirjeldatud ära ka kasutatud märgendid ja selgitatud märgendamispõhimõtteid. - metaandmed_murded.txt * Korpuse morfoloogiliselt märgendatud failide põhjal loodud ülevaade murrete kaupa (failide arv, kaasatud kihelkondade arv, unikaalsete kõnelejate arv, sõnade arv, varaseim salvestusaasta, hiliseim salvestusaasta, varaseim kõneleja sünniaasta, hiliseim kõneleja sünniaasta, noorima kõneleja vanus, vanima kõneleja vanus, meeskõnelejate arv, naiskõnelejate arv, muude kõnelejate arv). - metaandmed_konelejad_anon.txt * Korpuse morfoloogiliselt märgendatud failide põhjal loodud ülevaade kõnelejatest ilma kõnelejate nimedeta. Sisaldab iga faili iga kõneleja kohta failinime, murdeala nime, kihelkonna nime, lindistusaastat, kõnelejat identifitseerivat koodi, kõneleja koodi transkriptsioonis, kõneleja sugu, sünniaastat, vanust, sünnikohta ja vestluse jooksul öeldud sõnade arvu. - sagedusloend_lemma_liik.txt * Korpuse morfoloogiliselt märgendatud failide põhjal loodud loend kõikide korpuses esinevate sõnade algvormidest ja esinemissagedustest. Algvormide küljes on ka sõnaliigi info, mille põhjal võib omakorda koostada sõnaliikide sagedusloendi. - sagedusloend_lemma_liik_murdeti.txt * Korpuse morfoloogiliselt märgendatud failide põhjal loodud loend kõikide korpuses esinevate sõnade algvormidest ja esinemissagedustest murrete kaupa. Algvormide küljes on ka sõnaliigi info, mille põhjal võib omakorda koostada murdeti sõnaliikide sagedusloendi. - metaandmed_konelejad.txt * Ülevaade kõnelejatest koos ees- ja perekonnanimedega. - morf_korpus.zip * Korpuse morfoloogiliselt märgendatud XML-failid. Kõik failid on UTF-8 kodeeringus. Korpus on mõeldud eeskätt akadeemiliseks uurimistööks. Korpuse morfoloogiliselt märgendatud faile ja anonümiseerimata metaandmeid saab alla laadida DataDOIsse TÜ kasutajatunnusega sisse logides või kirjutades aadressil liina.lindstrom@ut.ee või maarja-liisa.pilvik@ut.ee. Andmete kasutamisel palume viidata ** Lindström, Liina, Triin Todesk, Maarja-Liisa Pilvik. 2022. Eesti murrete korpus. Tartu Ülikooli eesti ja üldkeeleteaduse instituut. https://datadoi.ee/handle/33/492. ** --- #---------------------------------# #---CORPUS OF ESTONIAN DIALECTS---# #---------------------------------# #---29.11.2022--------------------# #---------------------------------# The repository contains the following data files: - murdekorpus.html * A web page describing the corpus, its subparts, current state, and usage options. Tags and annotation principles are also described here. - metaandmed_murded.txt * A general overview generated from the morphologically annotated files of the corpus by dialect (number of files, number of parishes, number of unique speakers, number of words, earliest recording year, latest recording year, earliest birth year of the speakers, latest birth year, age of the youngest speaker, age of the oldest speaker, number of male speakers, number of female speakers, number of other speakers). - metaandmed_konelejad_anon.txt * An overview of speakers (without names) generated from the morphologically annotated files of the corpus. Contains file name, dialect name, parish name, year of recording, speaker identification code, the code referring to the speaker in the transcription, speaker gender, birth year, age, birth place, and number of words uttered during the conversation. - sagedusloend_lemma_liik.txt * A list of lemmas and their frequencies generated from the morphologically annotated files of the corpus. Lemmas are listed with their part-of-speech tags which enables compiling POS frequency lists. - sagedusloend_lemma_liik_murdeti.txt * A list of lemmas and their frequencies generated from the morphologically annotated files of the corpus by dialect. Lemmas are listed with their part-of-speech tags wich enables compiling POS frequency lists by dialect. - metaandmed_konelejad.txt * An overview of the speakers (with first and last names). - morf_korpus.zip * The morphologically annotated XML-files. All files are encoded in UTF-8. The corpus is intended primarily for academic research. To access the morphologically annotated files and non-anonymous metadata, please log in to DataDOI using your University of Tartu credentials or send an e-mail to liina.lindstrom@ut.ee or maarja-liisa.pilvik@ut.ee. When using the data, please cite ** Lindström, Liina, Triin Todesk, Maarja-Liisa Pilvik. 2022. Corpus of Estonian Dialects. Institute of Estonian and General Linguistics, University of Tartu. https://datadoi.ee/handle/33/492. **