Keelekorpus: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
Anastassias (arutelu | kaastöö)
Resümee puudub
Anastassias (arutelu | kaastöö)
Resümee puudub
7. rida:
Eristatakse mitu erinevat märgendamise tehnikat<ref name="märgendamine"> Mis on arvutilingvistika? [http://www.emakeeleselts.ee/omakeel/2004_1/Ariva.pdf''lk. 35-36''.]</ref>:
 
* Tehniline - eraldatakse [[Tekstiosa|tekstiosad]]: pealkirjad, laused, lõigud, fraasid mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid);
* Ortograafiline – määratakse kindlaks mõne märge funktsioon. Näitena võib tuua punkti funktsioon (lause lõpus, lühendites), suurtähe funktsioon (pärisnimi, lause algus, suurtest tähtedest koosnev lühend);
* Semantiline – märgendatakse [[Semantika|semantilisi]] suhteid või tähenduslikku kuuluvust;
* Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine;
* Morfoloogiline – märgendatakse iga sõna sõnaliik, [[Algvorm|algvorm]] ja info grammatiliste kategooriate kohta;
* Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta;
 
Kõne korpustes kasutatakse lisaks [[Prosoodia|prosoodilist]] ja [[Foneetika|foneetilist]] märgendamist. Prosoodiline on vajalik rõhu, intonatsiooni, pauside eristamiseks. Foneetiline aga suulise kõne häälduse märkimiseks.
 
Kõige levinumad maailmas on morfoloogiline ja [[Süntaktika|süntaktiline]] märgendamine. Tüüpiliselt süntaktiliselt märgendatud korpused on ka morfoloogiliselt märgendatud.
 
Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (arvuti interaktiivse abiga) või kombineerides neid kahte meetodit<ref name="märgendamineJatk"> Eesti keele tehnoloogilised ressursid ja vahendid [http://www.hm.ee/index.php?popup=download&id=3993''Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003''.]</ref>.
27. rida:
Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valiku piiranguid ei rakendata, suure osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast.
 
Tasakaalus korpus on jagatud aga [[Ilukirjandus|ilukirjanduse]], [[Ajakirjandus|ajakirjanduse]] ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes 5 miljonit sõna. Tasakaalus korpuse [[Kasutajaliides|kasutajaliides]] on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.
Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Tihti peale on võetud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased.
 
39. rida:
* Ühestatud sõnatähendustega korpus
* Inglise-eesti ja eesti-inglise paralleelkorpus
* Vana kirjakeele korpus<ref name="vanaKirjakeel"> Vana kirjakeele [http://www.murre.ut.ee/vakkur/Korpused/korpused.htm''korpus''.]</ref>
* Vana kirjakeele korpus
* Eesti murrete korpus
* Eesti kõnekeele korpus
49. rida:
Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või vabavara programme. Lisaks saab esitada korpustele päringuid kasutajaliideste kaudu.
 
Keeleveebi portaali<ref name="keeleveeb"> Keeleveebi [http://www.keeleveeb.ee/''portaal''.]</ref> on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud. Leitav seal tasakaalus korpus on lisaks süntaktiliselt ja semantiliselt märgendatud. Tasakaalu korpuse baasil on koostatud sagedusloendeid, mis lubavad arvutada sagedasemad sõnad, sõnavormid, sõnaliigid, käänded ja võrrelda sagedusi näiteks teaduse ja ilukirjanduse keelte vahel.
 
 
Keeleveebi kasutamist õpetav video loodud Tartu Ülikoolis „Multimeedia“ aine raames<ref name="keeleveebKasut"> Keeleveebi portaali [http://www.uttv.ee/naita?id=21284''kasutamist õpetav video''.]</ref>.
 
 
66. rida:
==Välislingid==
*[http://www.emakeeleselts.ee/omakeel/2015_1/OK_2015-1_05.pdf Keelekorpused - sama mitmekesised kui keel ise - Kadri Muischnek 2015]
*[http://www.cl.ut.ee/korpused/ Eesti korpused]
*[http://www.hm.ee/index.php?popup=download&id=3993 Eesti keele tehnoloogilised ressursid ja vahendid - Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003]
*[http://www.cl.ut.ee/kursused/korp_ling01.html Mis on korpuslingvistika ja mis on korpus]
 
*[https://keeleressursid.ee/et/keeleressursid Tekstikorpuste näited]
*[https://www.academia.edu/7912159/%D0%9A%D0%9E%D0%A0%D0%9F%D0%A3%D0%A1%D0%9D%D0%90%D0%AF_%D0%9B%D0%98%D0%9D%D0%93%D0%92%D0%98%D0%A1%D0%A2%D0%98%D0%9A%D0%90 КОРПУСНАЯ ЛИНГВИСТИКА - В.П. Захаров, С.Ю. Богданова, Санкт-Петербург, 2013]
 
[[Kategooria:Keeleteadus]]