Ava peamenüü

Kõnesüntees (inglise keeles speech synthesis) on inimkõne kunstlik produtseerimine kas inimhääle omaduste sünteesimise abil või salvestatud inimkõne üksuste (foneemid, difoonid, sõnad vms) ühendamise teel.

Kõnesünteesiga tegelevat arvutiprogrammi nimetatakse kõnesüntesaatoriks. Seda kõneanalüsaatoriga kombineerides on võimalik luua keskkond, kus inimene saab arvuti või mõne arvutit sisaldava seadmega suhelda ainult kõne vahendusel.

AjaluguRedigeeri

1779. aastal ehitas Peterburis elanud Taani teadlane Christian Gottlieb Kratzenstein inimese kõnetrakti mudeleid, mis suutsid tekitada viit vokaali. Nende eeskujul lõi 1791. aastal Ungari teadlane Wolfgang von Kempelen akustilis-mehaanilise kõnemasina, mis suutis tänu keele ja huulte mudeli lisamisele tekitada peale vokaalide ka konsonante. Tegemist oli mehaaniliste aparaatidega, mis jäljendasid inimese kõnetrakti tööd rääkimise ajal. Analoogseid mehaanilisi ja poolelektroonilisi süsteeme ehitati ja arendati ilma suurema eduta 1960. aastateni. [1]

1920. aastatel tehti esimesi katsetusi kõne elektroonilise sünteesiga. Esimeste tulemusteni jõuti kolmekümnendate aastate keskel, mil Belli laborites ehitati VOCODER ja selle eeskujul Homer Dudley loodud VODER 1939. aastal. Viimane koosnes heli- ja müraallikast, põhitooni kõrgust juhtivast pedaalist ja sõrmedega juhitavatest filtritest. Esimese formantsünteesil põhineva süntesaatori PAT ehitas Walter Lawrence 1953. aastal.

Esimene artikulatoorne kõnesüntesaator loodi 1958. aastal Massachusettsi Tehnoloogiainstituudi laborites. Üks esimesi teksti kõneks teisendatavaid (Text-To-Speech, TTS) kõnesüntesaatoreid ehitati Jaapanis 1968. aastal. 1980. aastatel oli turul juba hulk kommertssüsteeme.

1990. alustati kompilatiivse kõnesünteesiga, mille puhul võeti aluseks kõnekorpustes olevad üksused ja ühendati need omavahel seotud kõneks. Esimeseks tuntumaks süsteemiks sai MBROLA.

EestisRedigeeri

  • Formantsüntees 1970. ja 1980. aastatel Keele ja Kirjanduse Instituudis (praeguses Eesti Keele Instituudis]) ning Küberneetika Instituudis] (Mart Remmel, Meelis Mihkla, Eugen Künnap, Olev Künnap, Arvo Ott, Imre Siil, Einar Meister, Maidu Raudsepp).
  • Difoonsüntees (alates 1997–2003) Eesti Keele Instituudis], Küberneetika Instituudis] ja Filosoft OÜs (Meelis Mihkla, Einar Meister, Arvo Eek).
  • Kompilatiivne ehk korpuspõhine süntees (alates 2006) Eesti Keele Instituudis (Meelis Mihkla).
  • Audiovisuaalne kõnesüntees (alates 2010) Küberneetika Instituudis (Einar Meister, Rainer Metsvahi)

SünteesimeetodidRedigeeri

Kõnesünteesi puhul kasutatakse erinevaid sünteesimeetodeid [2]:

  • Artikulatoorne süntees – mudel, mille puhul imiteeritakse inimese kõneelundite tegevust.
  • Formantsüntees – elektrooniline mudel, kus heliallikas imiteerib häälekurdude võnkumist ja filter kõnetrakti resonantssagedusi.
  • Kompilatiivne e korpuspõhine süntees – lahendus, mis põhineb kõnekorpuses olevate salvestatud naturaalse kõne kõnelõikude (foneemide, difoonide, trifoonide, silpide, morfeemide, sõnade, lausete jne) omavahelisel ühendamisel.
    • Difoonsüntees (sünteesi aluseks on kahest naaberfoneemist koosnevad lõigud)
    • Muutuva pikkusega segmentide valimine (sünteesi aluseks on eri pikkusega kõnelõigud)

RakendusedRedigeeri

  • Nägemis- ja kõnepuuetega inimeste abivahendid
  • Keeleõpe
  • Infosüsteemid
  • Dialoogsüsteemid
  • Subtiitrite helindamine
  • Emotsionaalse kõne süntees
  • Uudistelugeja

Vaata kaRedigeeri

ViitedRedigeeri

  1. Lemmetty, Sami 1999: Review of Speech Synthesis Technology. Master's thesis. Helsinki University of Technology.
  2. Meister, Einar.; Alumäe, Tanel 2010: Kuidas arvuti kuulab ja kõneleb. Horisont, 5.. Master's thesis. Helsinki University of Technology.

VälislingidRedigeeri