Arvutileksikoloogia

Arvutileksikoloogia on arvutilingvistika osa, mis tegeleb arvutite kasutamisega leksikoloogilises uurimistöös, keskendudes leksikonide arvutiesitustele, leksikaalsete andmete arvutitöötlusele ja ühelt poolt leksikoni(de) ja teisalt keeletöötlussüsteemide muude komponentide vahelistele seostele.[1]

Arvutileksikoloogia aluseks olevad teoreetilised ideed on arenenud käsikäes keeleteooria üldise arenguga. Kui näiteks generatiivse grammatika algvariandis leksikon üldse puudus, siis tänapäeval levinumates unifikatsioonigrammatikates on leksikonil keskne roll. On välja arendatud formalismid info esitamiseks leksikoni üksuste kirjetes.[1]

Arvutileksikoloogia iseseisva valdkonnana tekkis ühendamaks arvutilingvistikat ning masinloetavate sõnastikke 1960. aastatel. Tänapäeval tuntakse arvutileksikoloogiat eelkõige seoses Wordneti ja tema rakendustega. Arvutite võimsuse kasvades kasvasid ka arvutileksikoloogia kasutusvõimalused tekstide töötlemisel.

Üheks esimeseks alaks, kus osutusid piisavalt suurte tekstimaterjalide olemasolu korral väga efektiivseteks vahenditeks, oli sõnade esinemussageduste uurimine, tulemuste põhjal sagedussõnastike koostamine, aga ka sageduste põhjal mitmesuguste oluliste järelduste tegemine sõna positsiooni kohta keele leksikaalses süsteemis.

Teine liin arvutite tulekuks leksikoloogiasse ja leksikograafiasse oli otseselt sõnastike koostamine arvutil ja olemasolevate sõnastike viimine arvutikujule. Üks esimesi tuntud sõnastikke, mis koostati arvutil ja mida levitati ka elektroonilises versioonis, oli "Longman Dictionary of Contemporary English" ehk LDOCE (1978). Tänapäeval on see juba täiesti valitsev praktika.

Kui sõnastike elektroonilised versioonid olid kord juba olemas, leiti peagi, et neid saab edukalt kasutada nii leksikoloogilises uurimistöös kui ka mitmesuguste leksikaalsete ja semantiliste andmebaaside koostamisel. Näiteks võimaldab seletussõnaraamatutes olevate sõnaseletuste analüüs (pool)automaatselt välja selgitada semantilisi seoseid sõnade vahel, koostada sõnade semantilisi hierarhiaid, semantilisi välju kui tähenduslikult kokkukuuluvaid sõnade hulki 

Teiselt poolt on arvutileksikoloogias kasutatavate mõistete lähteks teoreetilis­-lingvistilistest kontseptsioonidest suhteliselt sõltumatult arenenud uurimisala, mida tähistatakse üldnimetusega leksikaalne semantika. See on ala, kus tegeldakse leksikaalsete üksuste tähenduste olemuse, struktuuri ja omavaheliste semantiliste suhetega.[1]

Olulisimad semantilised suhted on:

Tänapäeval on arvutileksikonid korpuste kõrval üks keeleressursside olulisemaid alaliike, mille loomisega tegeleb keeletehnoloogia. Nii on 1990. aastatel Euroopa Liidus käivitatud keeletehnoloogiaprogrammi raames realiseeritud ühe-­ ja mitmekeelsete leksikonide loomise projektid, nagu AQUILEX, DELIS, GENELEX.[1]

Arvutileksikoni on vaja igas arvutuslingvistilises keelekirjelduses või rakendussüsteemis, kus opereeritakse sõnadega. Nii keelekirjeldusi kui rakendussüsteeme võib aga olla väga erinevaid nii oma otstarbelt kui ehituselt. Arvutileksikonide loomise käigus kerkis 1980.–1990. aastate vahetusel niisiis küsimus: kas jätkata nii nagu seni, koostades iga uue rakenduse jaoks oma leksikon, või üritada välja töötada põhimõtted leksikonide loomiseks ja leksikaalse materjali esitamiseks, mis võimaldaksid vältida dubleerimisi ja asjatuid kulutusi. Tänapäeval on teine lähenemine üldaktsepteeritud. Selle taustaks on keeletehnoloogias juurdunud keeleressursside korduvkasutatavuse nõue. Niisugune lähenemine eeldab aga, et leksikonide loomisel juhindutaks teatud üldistest põhimõtetest ja kaalutlustest.

ViitedRedigeeri

  1. 1,0 1,1 1,2 1,3 1,4 Arvutileksikoloogia mõiste, ajalugu, põhimõisted Arvutileksikoloogia kursus, Tartu Ülikool