Ava peamenüü

Distributiivne semantika on teadusharu, mis uurib ja arendab teooriaid ja meetodeid keeleelementide tähenduslike sarnasuste mõõtmiseks ja kategoriseerimiseks nende distributsiooni kaudu. Lähenemise alus on distributiivse semantika hüpotees, mille järgi esinevad sarnase tähendusega sõnad sarnases kontekstis.

Distributiivse semantika hüpoteesRedigeeri

Distributiivse semantika hüpotees lingvistikas on tuletatud keelekasutuse semantilisest teooriast: sõnu, mida kasutatakse ja mis esinevad sarnastest kontekstides, kalduvad väljendama sarnast tähendust[1]. Hüpoteesi kõige levinum definitsioon on J. R. Firthi levitatud "a word is characterized by the company it keeps" (sõna kirjeldab tema kontekst)[2] . Distributiivse semantika hüpoteesi võib pidada statistilise semantika aluseks. Kuigi hüpotees ise jõudis teadusesse lingvistika (täpsemalt fonoloogia) kaudu[3], on sellele tähelepanu pööratud ka kognitiivteaduses sõnakasutuse konteksti uurimisel[4]. Sarnasuslik üldistuslik keeleõppeteooria toetub just distributiivse semantika hüpoteesile: idee, mille kohaselt suudavad lapsed harvaesinevaid sõnu kasutada just sarnaste sõnade distributsiooni kaudu[5][6].

Distributiivse semantika modelleerimineRedigeeri

Distributiivne semantika võimaldab mudelites rakendatuna mõõta keeleelementide (nt sõnatähenduste, tekstide) sarnasusi[3]. Mudelite üldine tööpõhimõte on järgmine: distributiivne info (lingvistilise elemendi esinemistingimused teiste elementide suhtes) kogutakse kokku vektoritena (ehk leitakse sõnade vektoresitused) ning seejärel esitatakse elementide tähenduslik sarnasus nende vektorite sarnasuse kaudu[7]. Vektorite abil on võimalik uurida erinevaid sarnasusi: temaatilise sarnasuste leidmiseks vaadeldakse seda, millistes tekstiosades (nt pealkirjas, sisuosas, tabelis jne) keeleelement esineb; paradigmaatilised sarnasused põhinevad koosesinemisel ehk milliste teiste elementidega keeleelement koos esineb. Samasugust infot sisaldavaid vektoreid saab kasutada ka süntagmaatiliste sarnasuste leidmisel, kui vaadata süvitsi vektori osi.

Distributiivse ja tähendusliku sarnasuse seoseid uuritakse mitmesuguseid mudeleid rakendades: distributiivset semantikat modelleeritakse näiteks varjatud semantilise analüüsi[8], teemamodelleerimise, süntaksi- ja sõltuvuspõhiste[9] mudelitega. Mudelid kasutavaid erinevaid sätteid, nt milline on konteksti aken (ehk kui palju elemente loetakse konteksti), kuidas arvestatakse sageduse osakaalu või millist sarnasusmõõdikut (nt koosinussarnasus, eukleidiline kaugus) rakendatakse vektoritevahelise kauguse mõõtmisel.

Neid distributiivse semantika mudeleid, mis kasutavad kontekstina keeleelemente nimetatakse vektorruumi ehk semantilise ruumi ehk sõnaruumi mudeliteks[10][11], mis tuletavad sõnade tähenduse samas kontekstis koosesinemise põhjal. Sellised mudelid esitavad sõnatähenduste ruumilise esituse, kus tähenduslikku sarnasust esitatakse sõnadevahelise kaugusena selles ruumis.

RakendusedRedigeeri

Distributiivse semantika mudeleid kasutatakse edukalt mitmesuguste ülesannete lahendamisel. Näiteks:

TarkvaraRedigeeri

ViitedRedigeeri

  1. Harris, Zellig. Distributional structure. (1954). Word. Kd. 10. Lk 146–162. Inglise keeles. 
  2. Firth, John Rupert. A synopsis of linguistic theory, 1930-1955. (1957). Studies in linguistic analysis. Inglise keeles. 
  3. 3,0 3,1 Sahlgren, Magnus. The distributional hypothesis. (2008). Italian Journal of Disability Studies. Kd. 20. Lk 33–53. Inglise keeles. 
  4. McDonald, Scott; Ramscar, Michael. Testing the distributional hypothesis: The influence of context on judgements of semantic similarity. (2001). Proceedings of the 23rd Annual Conference of the Cognitive Science Society. Lk 611–616. Inglise keeles. 
  5. Gleitman, Lila R. Verbs of a feather flock together II: The child's discovery of words and their meanings. (2002). The Legacy of Zellig Harris: Language and information into the 21st century: Philosophy of science, syntax and semantics. Current issues in Linguistic Theory. John Benjamins Publishing Company. Lk 209–229. ISBN 9781588112460. Inglise keeles. 
  6. Yarlett, Daniel. (2008). Language Learning Through Similarity-Based Generalization. Stanford University. Inglise keeles. 
  7. Rieger, Burghard B. (1992). On Distributed Representations in Word Semantics. ICSI Berkeley 12-1991. Inglise keeles. 
  8. Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard. Indexing by Latent Semantic Analysis. (1990). Journal of the American Society for Information Science. Kd. 41. Lk 391–407. Inglise keeles. 
  9. Padó, Sebastian; Lapata, Mirella. Dependency-based construction of semantic space models. (2007). Computational Linguistics. Kd. 33. MIT Press. Lk 161–199. Inglise keeles. 
  10. Schütze, Hinrich. Word Space. (1993). Advances in Neural Information Processing Systems. Kd. 5. Lk 895–902. Inglise keeles. 
  11. Sahlgren, Magnus (2006). The Word-Space Model. Stockholm University. Inglise keeles.