Keelekorpus: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
Resümee puudub
Resümee puudub
1. rida:
'''Korpuseks''' nimetatakse [[lingvistika]]s valitud, digitaliseeritud ja teatud reeglite järgi töödeldud tekstide kogumit. Korpusi kasutatakse keele uurimise alusena [[Statistiline analüüs|statistilises analüüsis]], statistiliste hüpoteeside kontrollimiseks ja keelereeglite kindlakstegemiseks.
 
Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeelinemitmekeelne korpus) tekste. Mitmekeelseid Mitmekeelelised korpusedkorpuseid, mis olidon loodud erinevate keelte erinevate võrdlemiseks, nimetatakse [[Paralleelne korpus|paralleelseteks korpusteks]].
 
Korpuste tähtsuse tõstmiseks uuringute jaoks kasutatakse [[Märgendamine|märgendamist]] (annotatsiooni)<ref name="korpusedVene"> Keelekorpused (vene keeles) [https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D0%BF%D1%83%D1%81_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2''Корпус текстов''.]</ref>, sest märgendamata tekstikogude (tekstoteekide) rakendamisvõimalused on piiratud. Analüüsitava materjali maht on tavaliselt suur ja tasakaalustatud kujul on rohkem võimalusi objektiivsete uurimistulemuste saavutamiseks.
7. rida:
Eristatakse mitu erinevat märgendamise tehnikat<ref name="märgendamine"> Mis on arvutilingvistika? [http://www.emakeeleselts.ee/omakeel/2004_1/Ariva.pdf''Lilian Ariva, Liina Eskor lk. 35-36''.]</ref>:
 
* Tehniline - eraldatakse [[Tekstiosa|tekstiosad]]: pealkirjad, laused, lõigud, fraasid; mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid).
* Ortograafiline – määratakse kindlaks mõne märgi funktsioon. Näitena võib tuua punkti funktsioonfunktsiooni (lause lõpus, lühendites), suurtähe funktsioonfunktsiooni (pärisnimi, lause algus, suurtest tähtedest koosnev lühend).
* Semantiline – märgendatakse [[Semantika|semantilisi]] suhteid või tähenduslikku kuuluvust.
* Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine.
* Morfoloogiline – märgendatakse iga sõna sõnaliik, [[Algvorm|algvorm]] ja infoteave grammatiliste kategooriate kohta.
* Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta.
 
21. rida:
 
==Ajalugu==
Eesti kõige vanimvanem kirjakeele korpuskirjakeelekorpus ulatub 1889. aastasse ja selle uurimisperiood annab võimaluse jälgida eesti keele arengut umbes 650 aasta vältel.
 
Edasi saab korpuste ajaloos eristada kolme põlvkonda. Esimese põlvkonna korpuste koostamine oli piiratud arvutimälu ressursiga. Olulist osa mängis tekstide valik ja nende kasutusvaldkond. Näiteks 1980. aastate kirjaliku eesti keele korpus koosnes täiskasvanute jaoks Eestis ilmunud tekstidest perioodisperioodil 1984-19871984–1987. Viimase algallikad olid paberkandjatel.
 
Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valikul piiranguid ei rakendata, suurt osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast. Tasakaalus korpus on jagatud [[Ilukirjandus|ilukirjanduse]], [[Ajakirjandus|ajakirjanduse]] ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes 5viis miljonit sõna. Tasakaalus korpuse [[Kasutajaliides|kasutajaliides]] on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.
 
Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Sageli on valitud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased<ref name="keelekorpusedMuischnek"> Keelekorpused – sama mitmekesised
31. rida:
 
==Tuntumad korpused==
* Eesti kirjakeelkirjakeele korpus 1890-1990
* Tasakaalus korpus
* Eesti keele koondkorpus