Arvutilingvistika

Arvutilingvistika ehk arvutuslingvistika on teadusharu, mis ühendab keeleteaduse ja arvutiteaduse. Arvutuslingvistika põhiülesanded võib jagada kaheks: keele analüüs ja keele genereerimine ehk süntees.

Keeletehnoloogia ja arvutilingvistika tegelevad mõlemad loomuliku keele automaattöötlusega, kuid arvutilingvistika läheneb probleemidele teoreetilisema ja keeletehnoloogia rakenduslikuma nurga alt. Arvutilingvistika erineb keeletehnoloogiast ja masintõlkest, kuid on mõlema valdkonnaga seotud.[1][2]

Teadusharu küljedRedigeeri

Arvutilingvistika jaguneb teoreetiliseks ja rakenduslikuks valdkonnaks. Teoreetises arvutilingvistikas uuritakse inimese keelelisi võimeid. Rakenduslikus arvutilingvistikas luuakse ja arendatakse keele automaattöötluseks vajalikku tarkvara. Arvutilingvistika rakendused hõlmavad keeleressursse ja -töötlusvahendeid ning kõik rakendused koos on keeletehnoloogia.[2]

AjaluguRedigeeri

Arvutilingvistika kui üks tehisintellekti suundadest tekkis XX sajandi 50. aastatel. Selle arengu põhietapid on suures osas samad mis tehisintellekti arenguetapid.

Tehisintellekti ja arvutilingvistika arengu tõukeks oli arvutite ilmumine 1940. aastatel ja nende edukas kasutamine Teises maailmasõjas. Usutakse, et tehisintellekti ülesannete mõistmise esimeseks etapiks on Alan Turingi artikkel "Kas masinad suudavad mõelda?" ("Can machines think?"). Selles klassikalises artiklis oletab Turing, et tehisintellektist saab rääkida siis, kui inimene ei suuda arvuti ja inimkõne vahel vahet teha. Sellest ideest on kujunenud üldtuntud Turingi test, mis on kirjeldatud artiklis "Arvutusmasinad ja intellekt" [3] ("Computing machinery and intelligence"), mis ilmus aastal 1950 filosoofiaajakirjas Vaim (ingl Mind).

Uue arvutite põlvkonna ja programmeerimiskeelte ilmumisega hakati tegelema masintõlkega. Tegelikult olid esimesed ideed masintõlke kohta väljendatud juba 1947. aastal Ameerika Ühendriikides kohe pärast esimeste arvutite ilmumist. Esimene masintõlke avalik demonstratsioon toimus aga 7. jaanuaril 1954 ja seda nimetati "Georgetowni eksperimendiks" (ingl Georgetown-IBM experiment), sest seda korraldas Georgetowni ülikool ja IBM. Eksperiment koosnes sellest, et masin tõlkis automaatselt üle 60 venekeelse lause inglise keelde.

Masintõlke näited Georgetowni eksperimendistRedigeeri

Vene keel (lause tõlkimiseks) Inglise keel (masintõlge) Eesti keel (inimtõlge)
Мы передаем мысли посредством речи. We transmit thoughts by means of speech. Meie edastame mõtteid kõne abil.
Величина угла определяется отношением длины дуги к радиусу. Magnitude of angle is determined by the relation of length of arc to radius. Nurga suurus määratakse kaare pikkuse ja raadiuse suhtega.
Международное понимание является важным фактором в решении политических вопросов. International understanding constitutes an important factor in decision of political questions. Rahvusvaheline mõistmine on oluline faktor poliitiliste küsimuste lahendamises.

ALPAC 1966. aasta aruanneRedigeeri

1964. aastal loodi Ameerika Ühendriikides komitee ALPAC ehk loomulike keelte automaattöötluse konsultatiivkomitee (ingl Automatic Language Processing Advisory Committee), et hinnata arvutuslingvistika ja masintõlke senist edu ja saavutusi. 1966. aastal avaldatud aruandes väljendas komitee tugevat skeptilisust masintõlke uuringute edu kohta ja rõhutas arvutuslingvistika algtõdedel põhineva teadustöö olulisust. Peagi pärast aruande ilmumist vähendas valitsus drastiliselt masintõlke kui teadusharu rahastamist, aeglustades masintõlke uurimise edasist arengut. ALPAC-i 1966. aasta aruande puhul on oluline, et see käsitles ainult üht masintõlke kasutamise eesmärki: Ameerika Ühendriikide valitsuse ja sõjaväe võimalusi venekeelsete dokumentide analüüsimisel. Aruanne jättis kõrvale masintõlke ja masintõlkesüsteemide muud funktsioonid ning imelikul kombel ei käsitletud ka ühtki teist võõrkeelt.[4] Aruande avaldamise tagajärjel langes masintõlge Ameerikas ligemale kümneks aastaks arvutilingvistika üheks vähem tähtsaks aspektiks. Seevastu Kanadas, Prantsusmaal ja Saksamaal uuringud jätkusid.[5] Olgugi et ALPAC 1966. aasta aruanne andis tugeva löögi masintõlke arengule, ei tähendanud see arvutilingvistika olulisuse vähenemist teaduses – rohkem rõhku hakati lihtsalt panema teistele, teoreetilisematele, külgedele.

Keelemudeli hindamineRedigeeri

Arvutuslingvistika rakendusena arendatakse loomuliku keele mudeleid. Iga sellise mudeli arendusel on oluline seada paika hinnangumeetod, mis sätestaks arenduse suuna. Hinnangumeetodit võib koostada mitmel viisil; näiteks võib hinnangumeetod olla sisemine või välimine. Sisemise hinnangumeetodi puhul defineeritakse eelnevalt etalontulemus ja võrreldakse keelemudelite tulemusi selle etaloniga; välimise hinnangumeetodi puhul ei ole etaloni ja erinevate keelemudelite tulemusi võrreldakse otse üksteisega. Sisemist hindamist on lihtsam automatiseerida, kuid keerukamate eesmärkide korral pole etaloni defineerimine triviaalne. Näiteks kui eesmärgiks on luua programm dialoogilausete automaatseks semantilise "eesmärgiga" märgendamiseks, saaks etaloni defineerida käsitsi dialoogikatkendeid märgendades, sest arvuti keeleoskustaseme lähendamine inimese omale on üks arvutuslingvistika põhiülesandeid – ent ka erinevad inimesed võivad parima võimaliku märgenduse suhtes eriarvamustele jääda.

KasutusaladRedigeeri

Tänapäeval on rakendatakse arvutilingvistikat teadus- ja riigiasutustes, kuid selle abil loodu on iga päev kasutatav ja kättesaadav ka tavatarbijale. Eriala saab Eestis õppida Tartu Ülikoolis bakalaureuse- ja magistriõppes.[6]

Eesti keele jaoks on loodud Microsoft Office’i speller, poolitaja ja tesaurus. Samuti on loodud optiline tekstituvastus, kõnesüntees, kaks masintõlkeprogrammi (eesti ja vene) ja kümme elektroonilist sõnaraamatut. Korpuste kasutusmugavuse suurendamiseks on Eestis loodud mitmeid märgendusprogramme.[7]

Suulise keele töötlus ehk kõnetehnoloogiaRedigeeri

Suulise keele töötlusega tegelevad valdkonnad on kõnesüntees, kõnetuvastus ja kõnelejatuvastus. Kõnesünteesi abil teisendatakse ortograafiline tekst loomuliku kõlaga kõneks. Kõnesüntesaatori loomiseks uuritakse suulist suhtlust, tehakse arvutile selgeks kõnelemise eripärad, genereeritakse meloodiakontuur ja kõnesignaal. Kõnetuvastuse abil teisendatakse arvutisse sisestatud kõnesignaal tekstiks. Selle rakendused on näiteks kontoritarkvara, infootsing ja dikteerimine. Kõnelejatuvastuse abil tehakse kindlaks kõneleja isik. Identifitseerimisel otsitakse võrdlusmaterjali hulgast sobivaim vaste. Verifitseerimisega registreeritud isiku kõnenäidet võrreldakse varem salvestatud mudeliga. Kõnelejatuvastust kasutatakse politseis ning turvameetmena. Eesti keele jaoks on loodud kõnesüntesaator ning väikesemahulisi sõnastikke sisaldavaid kõnetuvastussüsteeme. Tallinna Tehnikaülikooli keeletehnoloogia laboratooriumis uurimitakse ja töödeldakse suulist kõnet.[8]

KeeleanalüüsRedigeeri

Keeleanalüüs hõlmab morfoloogilist analüüsi ja sünteesi, süntaksianalüüsi ehk parsimist, semantilist analüüsi ja pragmaatilist analüüsi.[9]

Arvutimorfoloogia on arvutilingvistika allharu, milles uuritakse arvuti abil morfoloogiat ning loob sõnavorme analüüsivaid ja sünteesivaid töövahendeid. Töövahendeid kasutatakse sõnastike loomisel ja uuendamisel, õpikute sõnavara analüüsimisel, tekstituvastuses ja korpuste märgendamisel.[10] Eestis on loodud ja kasutusel morfoloogiline süntesaator ja analüsaator Etmrf (varem tuntud kui Estmorf) koos statistilise ühestajaga Esthymm.[9][11]

Eestis tegelevad morfoloogilise analüüsi ja sünteesiga Tartu Ülikool ja Eesti Keele Instituut (EKI). Tartu Ülikool töötas Lisaks Etmrfile välja ka kahetasemelise mudeli rakenduse eesti keele jaoks. EKI arendab avatud morfoloogiamudelit:  kirjeldatakse ja lahendatakse nähtusi aktiivsete morfoloogiareeglite abil ning analüüsitakse tundmatuid sõnu tüübituvastusreeglite abil. [10][12]

Morfoloogilise ühestamise abil leitakse morfoloogiaanalüsaatori pakutavate morfoloogiliste tõlgenduste hulgast konteksti sobivad. Arvutilingvistika abil on protsessi automatiseeritud ning kasutusele võetud statistikal põhinevad (T3mesta, TreeTagger, TnT) ja reeglipõhised (kitsenduste grammatika programm ESTKG) morfoloogilised ühestajad.[9][11]

KeeleressursidRedigeeri

Süntaktilist analüüsi ehk eesti keele kontekstis lauseliikmete funktsiooni kindlaks määramist on automatiseeritud eesti keele automaatse süntaksianalüsaatoriga. Morfoloogilise ühestaja töö lihtsustamiseks loodi 2001. aastal Tartu Ülikoolis loomulikku keelekasutust kajastav ühestatud sõnatähendustega korpus.[13]

Pragmaatilises analüüsis on peamiselt pööratud tähelepanu dialoogi modelleerimisele. Dialoogi modelleerimise eesmärk on arvutiga suhtlemine loomulikus keeles ja inimestevahelise suhtluse reeglite kohaselt. (Muischnek et al 2012: 87-90) Tartu Ülikoolis uuritakse dialooge suulise kõne baasil Eesti dialoogikorpuse abil. Eesti dialoogikorpus loodi Tartu Ülikoolis välja töötatud dialoogiteooria ja eksperimentaalsete algoritmide põhjal.[14][15]

Semantilise analüüsi hõlbustamiseks on loodud leksikaal-semantiline andmebaas ehk tesaurus Eesti Wordnet. Sõnatähenduste ühestamise lihtsustamise eesmärgil on kirjutatud andmebaasile toetuv automaatne ühestamisprogramm Semyhe.[13]

MasintõlgeRedigeeri

Eestis hakati masintõlkega tegelema 1950. aastatel, mil Tartu Ülikooli uurimisrühm hakkas matemaatilisi tekste vene keelest eesti keelde tõlkima. Varsti töö seiskus ning masintõlkega jätkati Tartu Ülikoolis 2004. aastal, mil võeti uurimisaluseks statistiline masintõlge. Õppimisandmeteks loodi Eesti ja Euroopa Liidu seadusandlike aktide alusel paralleelkorpus ning 2007. aastal on dokumenteeritud esimesed tõlkimise katsed. Uuritakse ka õppimisandmeid ja nende kvaliteeti.[16]

Üks laialt kasutatavaid masintõlkesüsteeme on 1960. alguses loodud reeglipõhist morfoloogiat kasutav SYSTRAN, mis ühendati 2010. aastate alguses statistiliste masintõlke tehnikatega. Masintõlget kasutavad masintõlke teenused Google Translate ja Microsofti Bing Translator, samuti paljud USA ja Euroopa riigiametid. On olemas ka väikeste keelegruppide jaoks mõeldud masintõlkevahendid.[17]

Dokumendihaldus ja infosüsteemidRedigeeri

Dokumendihaldus ja -rühmitamine on andmeanalüüsis kasulikud ja toetavad mitmeid masintöötlusprotsesse. Dokumendiotsing ja -rühmitamine on tihti andmete ekstraheerimise (ingl data extraction) või tekstikaeve eelsamm.[18]

Dokumendiotsing on üks andmeotsingu alaliik, mis võimaldab dokumente seotud sõnade või fraaside abil kiiresti leida. Dokumendirühmitamine toetab mitmeid masintöötlusprotsesse ning lihtsustab suurte andmehulkade töötlemist. Seda kasutatakse andmeanalüüsis, bioloogilistes ja meditsiinilistes uuringutes, epidemioloogias, turu-uuringutes ja ostusoovitustes, haridusuuringutes, sotsiaalsete võrgustike analüüsis, geoloogilises analüüsis jms.[18]

Loomulikus keeles kasutajaliidesed ja dialoogsüsteemidRedigeeri

Loomulikus keeles kasutajaliideste alla kuuluvad dialoogsüsteemid ja rakendustarkvara.[19] Dialoogsüsteemid jagunevad ekspertsüsteemideks ja vestlusprogrammideks. [20]Andmebaaside front-end kasutajaliidesed kasutavad samuti masintöötlustehnoloogiaid. Kuna kõik andmebaasipäringud toimuvad kokkulepitud reeglite alusel, tagab kindel küsimussüntaks kasutusmugavuse.[21]

Ekspertsüsteemid vastavad küsimustele tekstikorpuste ja muude allikate põhjal.  Küsimused klassifitseeritakse, misjärel ekstraheeritakse andmed tuvastatud küsimuse tüübi põhjal ning kitsendatakse lõikudeks ja lauseteks. Sarnaselt rakendatakse ka teadmistepõhistele (kvantitatiivsetele) küsimustele vastavad liidesed, näiteks arvutuslik teadusmootor WolframAlpha ning IBMi superarvuti ja tehisintellekt Watson. Watson kasutab vastuste otsimiseks Wordneti, Vikipeediat, tesauruseid, uudisartikleid ja ilukirjanduslikke tekste.[21]

Vestlusprogrammid on loodud chatbot’idega samadel põhimõtetel.[22] Suhtluse muudabloomulikuks inimsuhtlusele omaste tunnuste kasutamine. [19] Tulevikus on eesmärk luua semantilise ja episoodilise mäluga emotsionaalseid, empaatilisi dialoogsüsteeme, kes omandavad infot inimese kohta ja on kasulikud nõuandjana eri eluvaldkondades.[22]

Rakendustarkvaras kasutatakse dialoogsüsteeme videomängudes ja virtuaalmaailmades. Õppeabivahenditena on dialoogi modelleerimise abil loodud kollaboratiivsed probleemilahendus-, õpetlikud dialoog- ja tuutorsüsteemid. Häälepõhised veebiteenused ja -assistendid põhinevad keeletuvastusel ning neid kasutatakse näiteks auto juhisüsteemides, telefonidiktsiooni kasutavates rakendustes, klienditoeteenustes ja tervisenõustamises. Olemas on ka häälassistendid nagu Apple’i Siri ja Androidi Iris.[22]

Vaata kaRedigeeri

ViitedRedigeeri

  1. Ariva, Lilian, Eskor, Liina (2004). "Mis on arvutilingvistika? [What is computational linguistics?]" (PDF). Oma Keel. Lk 35. Vaadatud 20.02.2022.
  2. 2,0 2,1 Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 67-68. Vaadatud 20.02.2022.
  3. [1]
  4. ALPAC: the (in)famous report
  5. History of machine translation
  6. Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 45. Vaadatud 20.02.2022.
  7. Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 35-36, 43. Vaadatud 20.02.2022.
  8. Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 35-38. Vaadatud 17.02.2022.
  9. 9,0 9,1 9,2 Ariva, Lilian, Eskor, Liina. (2004). "Mis on arvutilingvistika? [What is computational linguistics?]" (PDF). Oma Keel. Lk 38-43. Vaadatud 17.02.2022.
  10. 10,0 10,1 Ariva, Lilian, Eskor, Liina. (2004). "Mis on arvutilingvistika? [What is computational linguistics?]" (PDF). Oma Keel. Lk 38. Vaadatud 20.02.2022.
  11. 11,0 11,1 Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 68, 71. Vaadatud 17.02.2022.
  12. Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 71. Vaadatud 17.02.2022.
  13. 13,0 13,1 Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 83. Vaadatud 17.02.2022.
  14. Ariva, Lilian, Eskor, Liina. (2004). "Mis on arvutilingvistika? [What is computational linguistics?]" (PDF). Oma Keel. Lk 42. Vaadatud 20.02.2022.
  15. Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 87-88. Vaadatud 17.02.2022.
  16. Muischnek, Kadri, Fišel, Mark, Kaalep, Heiki-Jaan, Koit, Mare, Müürisep, Kaili, Orav, Heili, Vare, Kadri, Õim, Haldur, Erelt, Mati (ed), Mäearu, Sirje (ed). (2012). "Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. [Computational linguistics and language technologies in the University of Tartu]" (PDF). Emakeele Seltsi Aastaraamat. Lk 90-93. Vaadatud 17.02.2022.
  17. Schubert, Lenhart, Edward N. Zalta (ed). (2020). "Computational Linguistics [Arvutilingvistika]". The Stanford Encyclopedia of Philosophy (Spring 2020 Edition). Ptk 10.1. Vaadatud 20.02.2022.
  18. 18,0 18,1 Schubert, Lenhart, Edward N. Zalta (ed). (2020). "Computational Linguistics [Arvutilingvistika]". The Stanford Encyclopedia of Philosophy (Spring 2020 Edition). Ptk 10.2-10.3. Vaadatud 20.02.2022.
  19. 19,0 19,1 Treumuth, Margus. (2011). Asünkroonsete dialoogsüsteemide raamistik: mõisted, probleemid ja kavandamise aspektid [A Framework for Asynchronous Dialogue Systems: Concepts, issues and Design Aspects]. Tartu: Tartu Ülikooli Kirjastus.
  20. Koit, Mare, Roosmaa, Tiit. (2011). Tehisintellekt [Artificial Intelligence]. Tartu: Tartu Ülikooli Kirjastus. Lk 183.
  21. 21,0 21,1 Schubert, Lenhart, Edward N. Zalta (ed). (2020). "Computational Linguistics [Arvutilingvistika]". The Stanford Encyclopedia of Philosophy (Spring 2020 Edition). Ptk 10.7. Vaadatud 20.02.2022.
  22. 22,0 22,1 22,2 Schubert, Lenhart, Edward N. Zalta (ed). (2020). "Computational Linguistics [Arvutilingvistika]". The Stanford Encyclopedia of Philosophy (Spring 2020 Edition). Ptk 10.5. Vaadatud 20.02.2022.