Keelekorpus: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
Anastassias (arutelu | kaastöö)
Resümee puudub
Resümee puudub
27. rida:
Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valikul piiranguid ei rakendata, suurt osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast. Tasakaalus korpus on jagatud [[Ilukirjandus|ilukirjanduse]], [[Ajakirjandus|ajakirjanduse]] ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes 5 miljonit sõna. Tasakaalus korpuse [[Kasutajaliides|kasutajaliides]] on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.
 
Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Sageli on valitud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased.<ref name="keelekorpusedMuischnek"> Keelekorpused – sama mitmekesised
kui keel ise [http://www.emakeeleselts.ee/omakeel/2015_1/OK_2015-1_05.pdf''Kadri Muischnek 2015'']</ref>.
 
==Tuntumad korpused==