Masintõlge: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
Braghify (arutelu | kaastöö)
Ajalugu, lähenemisviisid, hetkeprobleemid
6. rida:
 
Tänapäevast masintõlketarkvara võib sageli kohandada valdkonna järgi (näiteks [[ilmateade|ilmateated]]). See tehnika on eriti tõhus valdkondades, kus kasutatakse formaalset keelt. Nii on masintõlge sobilikum tehniliste ja juriidiliste tõlgete tarbeks kui kõnekeelele või vähem standardiseeritud tekstidele.
 
==Ajalugu==
* 1629 - [[René Descartes]] pakub välja universaalkeele
* 1951 - esimene valdkonna teadlane Yehosha Bar-Hillel alustab uuringuid MITs
* 1954 - Georgetown-IBM süsteemi avalik demo, kus demonstreeritakse automaatset tõlget vene keelest inglise keelde
* 1956 - esimene masintõlke konverents Londonis
* 1966 - ALPACI aruanne leiab, et masintõlge ei ole end õigustanud. Valdkonna rahastus peatatakse USA valitsuse poolt
* 1991 - Harkovi Ülikool annab välja esimese ärilise masintõlkesüsteemi vene-inglise-saksa-ukraina keelte jaoks
* 1997 - AltaVista Babelfish hakkab pakkuma veebis lühikeste tekstide tasuta tõlkimist
* 2007 - Google Translate hakkab reeglipõhise tõlke asemel kasutama statistilisi meetodeid
 
==Tõlkeprotsess==
Inimtõlkeprotsessi saab kirjeldada kui esmalt lähteteksti tähenduse dekodeerimist ning seejärel selle tähenduse kodeerimist sihtkeelde. Sellise lihtsa kirjelduse taga toimub väga keeruline kognitiivne protsess: kogu tekst tuleb analüüsida, mis vajab väga sügavat teadmist grammatikast, semantikast, süntaksist, idioomidest jne. Seega peaks arvuti tekstist sama hästi aru saama nagu inimene.
 
Hetkel ei ole see tehnoloogiliselt võimalik ning ükski automaattõlke meetod ei suuda inimese abita toota kvaliteetset väljundit. Parim, mida arvuti suudab etha, on anda üldine aimdus teksti sisust. Paljude praktiliste rakenduste jaoks, kus ei pruugi inimtõlget isegi vaja minna, on see täiesti piisav.
 
==Lähenemisviisid==
===Otsetõlge ===
Otsetõlke puhul koostatakse kahe keele vahel sõnastik ning kasutatakse seda iga sõna tõlkimiseks.
 
===Ülekanne===
Ülekandemeetodi puhul on sõnastikus vaid algvormid. Tõlkeprogramm teostab sisendil morfoloogilist analüüsi ning kasutab selle tulemusi koos lisareeglitega uude keelde tõlkimiseks.
 
===Interlingvistiline===
Tõlgitav tekst tõlgitakse esmalt vahekeelde ning alles seejärel sihtkeelde. Mida rohkem keeli on vahekeelega liidestatud, seda võimekam selline tõlkesüsteem on.
===Statistiline tõlge===
Statistiline masintõlge kasutab kakskeelseid lähtekorpuseid, kus sama tekst on esitatud mõlemas keeles. Nende tekstide põhjal koostab tarkvara statistilise mudeli, mida kasutada seni veel nägemata tekstide jaoks.
 
==Hetkeprobleemid==
===Tähenduse mitmesus===
See probleem tekib siis, kui ühel sõnal on rohkem kui üks tähendus. Tänapäeval lahendatakse probleemi kahel moel: “madala” ja “sügava” lähenemise abil. “Madala” lähenemise puhul ei eeldata sõna kohta eelteadmist, vaid uuritakse ümbritsevaid sõnu statsitiliste meetodite abil. “Sügava” lähenemise puhul eeldatakse suurt eelteadmust antud sõna kohta.
 
===Mittestandardne keel===
Kõnekeelest või kõnekeelde tõlkimise puhul on see eriti suur probleem reeglipõhise tõlke puhul, kuna vaikimisi ei kasuta reeglipõhine tõlge väljaspool keelenorme olevaid allikaid.
 
===Nimeüksused===
Nimeliste isendite all mõistetakse nii isikuid, kohti, ettevõtteid kui ka aja, ruumi ja koguse väljendusi. Nimelised isendid põhjustavad probleeme just statistiliste meetodite kasutamisel, kuna neid ei pruugi lähteallikates piisavalt tihti esineda.
 
==Vaata ka==