################################################ # TARTU ÃÜLIKOOLI LIIVI KEELE KORPUS # ################################################ 29.06.2024 Liivi keele korpus on osa eesti murrete korpusest, see on valminud samadel põhimõtetel ja kasutab ka sama otsimootorit. Liivi keele korpus koondab liivi keele näiteid, mille seas on esindatud nii idaliivi, lääneliivi kui ka Īra keelekasutus. Suurem osa liivi keele korpuses sisalduvast materjalist (116 531 sõna) pärineb kirjalikest allikatest (tekstikogumikest), kuid mõnevõrra on kasutatud ka lindistuste litereeringuid (kokku 2784 sõna). Repositooriumist leiab morfoloogiliselt märgendatud tekstid XML-formaadis, nende põhjalt koostatud sagedusloendid lemmade, sõnaliikide ja grammatiliste vormide kohta ning samuti keelejuhte puudutavad metaandmed. Korpusest saab teha päringuid aadressil https://www.murre.ut.ee, valides keeleks liivi keele. ### REPOSITOORIUMI SISU ### Siin repositooriumis on järgmised failid: - liivi_korpuse_taustaks.txt * See fail sisaldab taustainfot liivi keele korpuse kohta. Kuna liivi keele korpus kuulub eesti murrete korpuse juurde, siis üldpõhimõtted ja märgendid suuresti kattuvad ning on leitavad korpuse juhendist leheküljel https://www.murre.ut.ee/about. Taustainfo failis on siiski välja toodud liivi keele märgendamist puudutavad erisused. - metaandmed_kirjalikud.csv * Sellest failist leiab metaandmed keelejuhtide kohta, kellelt pärinevad korpuse kirjalike tekstide alla liigituvad tekstid. Failis on esitatud keelejuhi nimi (nii algallikas esineval kui ka ühtlustatud kujul), ID, sugu, sünnikoht, vanus, küla (elukoht) koos koordinaatidega, lindistusaasta, allikainfo (st info selle kohta, millises allikas vastavalt keelejuhilt pärineva teksti leiab). - sagedusloend_sonad_kokku.csv * Korpuses sisalduvate sõnade koguarv kirjalike ja suulistes tekstide lõikes. - sagedusloend_tyyp_murre_kyla.csv * Korpuse morfoloogiliselt märgendatud failide põhjal loodud sagedusloend korpuses esinevatest sõnadest teksti tüübi, murde ja küla kaupa. - sagedusloend_kirjalik_lemma_pos.csv * Korpuse morfoloogiliselt märgendatud failide põhjal loodud sagedusloend kirjalikes tekstides esinevatest sõnadedest lemma ja selle sõnaliigi kaupa. - sagedusloend_kirjalik_liik_vorm.csv * Korpuse morfoloogiliselt märgendatud failide põhjal loodud sagedusloend kirjalikes tekstides esinevatest sõnadest sõnaliigi ja vormi kaupa. - morf_liv_korpus.zip * Korpuse morfoloogiliselt märgendatud XML-failid. Kõik failid on UTF-8 kodeeringus. Eesti murrete korpuses sisalduvate liivi keele andmete kasutamisel palume viidata ** Norvik, Miina, Tuuli Tuisk. 2024. Tartu Ülikooli liivi keele korpus. Tartu Ülikooli eesti ja üldkeeleteaduse instituut. [https://doi.org/10.23673/re-473]. **