Keelekorpus: erinevus redaktsioonide vahel
Eemaldatud sisu Lisatud sisu
P HC: eemaldatud Kategooria:Keeleteadus; lisatud Kategooria:Arvutilingvistika |
Winniepuhh (arutelu | kaastöö) Resümee puudub |
||
1. rida:
'''Korpuseks''' nimetatakse [[lingvistika]]s valitud, digitaliseeritud ja teatud reeglite järgi töödeldud [[tekstide kogum]]it. Korpusi kasutatakse keele uurimise alusena [[Statistiline analüüs|statistilises analüüsis]], statistiliste hüpoteeside kontrollimiseks ja keelereeglite
Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeeline korpus) tekste.
Korpuste tähtsuse tõstmiseks uuringute jaoks
Eristatakse mitu erinevat märgendamise tehnikat<ref name="märgendamine"> Mis on arvutilingvistika? [http://www.emakeeleselts.ee/omakeel/2004_1/Ariva.pdf''lk. 35-36''.]</ref>:
* Tehniline - eraldatakse [[Tekstiosa|tekstiosad]]: pealkirjad, laused, lõigud, fraasid mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid)
* Ortograafiline – määratakse kindlaks mõne märge funktsioon. Näitena võib tuua punkti funktsioon (lause lõpus, lühendites), suurtähe funktsioon (pärisnimi, lause algus, suurtest tähtedest koosnev lühend)
* Semantiline – märgendatakse [[Semantika|semantilisi]] suhteid või tähenduslikku kuuluvust
* Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine
* Morfoloogiline – märgendatakse iga sõna sõnaliik, [[Algvorm|algvorm]] ja info grammatiliste kategooriate kohta
* Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta
Kõige levinumad maailmas on morfoloogiline ja [[Süntaktika|süntaktiline]] märgendamine. Tüüpiliselt on süntaktiliselt märgendatud korpused
Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (
==Ajalugu==
Eesti kõige vanim kirjakeele korpus ulatub 1889. aastasse ja selle uurimisperiood annab võimaluse jälgida eesti keele arengut umbes 650 aasta vältel.
Edasi saab korpuste ajaloos
Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide
Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu.
▲Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Tihti peale on võetud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased.
==Tuntumad korpused==
45. rida ⟶ 44. rida:
==Korpuste kasutamine==
Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või
Keeleveebi portaali<ref name="keeleveeb"> Keeleveebi [http://www.keeleveeb.ee/''portaal''.]</ref> on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud.
Keeleveebi kasutamist õpetav video loodud Tartu Ülikoolis
▲Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või vabavara programme. Lisaks saab esitada korpustele päringuid kasutajaliideste kaudu.
▲Keeleveebi portaali<ref name="keeleveeb"> Keeleveebi [http://www.keeleveeb.ee/''portaal''.]</ref> on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud. Leitav seal tasakaalus korpus on lisaks süntaktiliselt ja semantiliselt märgendatud. Tasakaalu korpuse baasil on koostatud sagedusloendeid, mis lubavad arvutada sagedasemad sõnad, sõnavormid, sõnaliigid, käänded ja võrrelda sagedusi näiteks teaduse ja ilukirjanduse keelte vahel.
▲Keeleveebi kasutamist õpetav video loodud Tartu Ülikoolis „Multimeedia“ aine raames<ref name="keeleveebKasut"> Keeleveebi portaali [http://www.uttv.ee/naita?id=21284''kasutamist õpetav video''.]</ref>.
== Vaata ka ==
|