Lõplik muundur

Lõplik muundur või lõplik olekumuundur on Turingi masinate terminoloogia kohaselt kahe mälulindiga (sisend- ja väljundlint) lõplik automaat. Tavalisel lõplikul automaadil on ainult üks mälulint. Lõplik muundur on lõplik automaat, mis seab omavahel vastavusse kaks hulka sümboleid.[1]

Lõpliku muunduri mõiste on üldisem kui lõpliku automaadi oma. Lõplik automaat defineerib formaalse keele aktsepteeritavate sõnede hulga abil, samas kui lõplik muundur defineerib seosed sõnede hulkade vahel. Lõplik muundur loeb sisendlingilt sõnede hulga ning loob väljundlindile hulga seoseid. Lõplikku muundurit võib vaadata kui sõnedevahelist tõlki või sidujat.[2]

Morfoloogilisest parsimisest võib näiteks tuua olukorra, kus muundurisse sisestatakse tähtedest koosnev sõne ning saadakse väljundiks morfeemidest koosnev sõne.

Ülevaade muuda

Öeldakse, et automaat tuvastab sõne, kui vaatame selle lindi sisu sisendina. Teisisõnu leiab automaat funktsiooni, mis vastendab sõned hulga   väärtustega. Samuti võime vaadelda automaadi linti väljundina ning öelda, et automaat genereerib sõnesid. Sel juhul loob automaat konkreetse sõnede hulga ehk formaalse keele. Need kaks viisi automaadi kirjeldamiseks on samaväärsed: automaadi genereeritud funktsioon on enda loodud sõnede hulga karakteristlik funktsioon. Lõpliku automaadi loodud keelte klassi nimetatakse regulaarsete keelte klassiks.[3]

Muunduri kahte linti vaadeldakse tavaliselt kui sisend- ja väljundlinti. Öeldakse, et muundur muundab ehk tõlgib sisendlindil olevad väärtused väljundlindile - sisendlindile antud sõne jaoks genereeritakse väljundlindile uus sõne. Muundur võib seda teha mittedeterministlikult ning ühele sisendsõnele võib vastata mitu väljundsõne. Muundur võib sisendsõne ka tagasi lükata - sel juhul sisendsõnele vastavat väljundsõne ei genereerita.[3]

Üldsõnaliselt võib öelda, et muundur arvutab välja suhte kahe formaalse keele vahel.

Iga sõnest-sõneks-tüüpi lõplik muundur vastendab sisendtähestiku   väljundtähestikuga  . Relatsioone   hulgal  , mis on rakendatavad lõplike muunduritena, nimetatakse ratsionaalrelatsioonideks. Ratsionaalrelatsioone, mis on ühtlasi ka osafunktsioonid (ehk mis vastendavad iga sisendsõne hulgast   kõige enam ühe sõnega hulgast  ), nimetatakse ratsionaalfunktsioonideks.[4]

Lõplikud muundurid leiavad sageli kasutust keeletehnoloogias fonoloogilise ning morfoloogilise analüüsi juures.[5]

Formaalne kirjeldus muuda

Formaalse kirjelduse järgi on lõplik muundur   viiekohaline ennik  , kus

  •   on olekute hulk (lõplik hulk);
  •   on sisendtähestik (lõplik hulk);
  •   on väljundtähestik (lõplik hulk);
  •   on algolekute hulk (  alamhulk);
  •   on lõppolekute hulk (  alamhulk);
  • kehtib  , kus   on siirderelatsioonis tühi sõne.[6]

Võime vaadata paari   kui sildistatud suunatud graafi ehk   siirdegraafi.   on tippude hulk ning  tähendab, et leidub sildistatud kaar tipust q tippu r. Ütleme, et a on selle kaare sisendi ning b väljundi silt.

Defineerime laiendatud siirderelatsiooni   kui vähima hulga, mille puhul kehtivad järgmised tingimused:

  •  ;
  •  iga  korral;
  • alati kui kehtivad   ja  , siis kehtib ka  .

Laiendatud siirderelatsioon on olemuslikult siirdegraafi refleksiivne transitiivne sulund, mis võtab arvesse ka servade silte. Ühe tee sildi leidmiseks konkateneeritakse seda teed moodustavate servade sildid kindlas järjekorras.[7]

Muunduri   käitumine on ratsionaalrelatsioon  , mida defineeritakse järgnevalt:   siis ja ainult siis, kui leiduvad  ja  selliselt, et  . See tähendab, et   muundab sõne  sõneks  , kui algolekust lõppolekuni viib tee, mille sisendi silt on x ning väljundi silt y.

Kaalutud automaat muuda

Lõplikud muundurid võivad olla kaalutud. Sellised juhul on igal siirdel lisaks sisend- ja väljundsildile ka kaalu tähistav silt. Kaalutud lõplik muundur üle kaalude hulga K defineeritakse sarnaselt kaalumata muunduriga kaheksakohalise ennikuna  , kus

  •   defineeritakse samamoodi, kui ülalpool näidatud;
  •  , kus ε tähistab tühisõnet, on lõplik siirete hulk;
  •   vastendab algolekud kaaludega;
  •   vastendab lõppolekud kaaludega.[8]

Võimaldamaks kaalutud lõpliku muunduri operatsioonide täpset defineerimist, kehtib nõue, et kaalude hulk peab moodustama poolringi.[9] Kaks kõige tavalisemat poolringi varianti on log-poolring ja troopiline poolring. Kaalumata automaati võib vaadelda kui juhtu, mil kõik kaalud kuuluvad Booleani poolringi.[10]

Tehted lõplike muunduritega muuda

Järgnevad lõplikel automaatidel defineeritud tehted kehtivad ka lõplike muundurite puhul.

  • Ühend. Kui on antud muundurid   ja  , siis eksisteerib muundur   nii, et   kehtib siis ja ainult siis, kui kehtib   või  .
  • Konkatenatsioon. Kui on antud muundurid   ja  , siis eksisteerib muundur  nii, et  siis ja ainult siis, kui leiduvad   nii, et  .
  • Kleene sulund. Kui on antud muundurid   ja  , siis eksisteerib muundur T*, mille kohta kehtivad järgmised omadused:
    1.   (k1)
    2. kui  ja  siis   (k2)
    3. ei kehti  , kui just (k1) või (k2) vastupidist ei nõua.
  • Kompositsioon. Kui on antud muundur   üle tähestike   ja   ning muundur   üle tähestike   ja  , siis eksisteerib muundur  üle tähestike   ja   nii, et  siis ja ainult siis, kui leidub sõne  nii, et  ja  . See tehe kehtib ka kaalutud juhu korral.[11] See definitsioon järgib tähistust, mis on kasutusel matemaatikas relatsioonide kompositsiooni märkimiseks. Traditsiooniliselt loetakse relatsioonide kompositsiooni aga teisiti: kui on antud relatsioonid   ja  , siis  , kui leidub y selliselt, et  ja  .
  • Projektsioon automaadiks. On antud kaks projektsiooni funktsiooni:  säilitab sisendlinti ning  väljundlinti. Funktsiooni  projektsioon defineeritakse järgnevalt: Kui on antud muundur  , siis leidub lõplik automaat   selliselt, et  aktsepteerib sõne x siis ja ainult siis, kui leidub sõne y, mille puhul kehtib  . Teine projektsioon  defineeritakse analoogselt.
  • Determineerimine. Kui on antud muundur  , soovime luua ekvivalentse muunduri, millel on ainult üks algolek ning mille puhul ei välju ühestki olekust mitu sama sisendsildiga kaart.
  • Kaalutud muunduri minimeerimine.[12]
  • Epsilonsiirete eemaldamine.

Lõplike muundurite omadused muuda

  • On võimalik otsustada, kas muunduri   relatsioon   on tühi.
  • On võimalik otsustada, kas leidub sõne y selliselt, et antud sõne x puhul kehtiks  .
  • Ei ole võimalik otsustada, kas kaks muundurit on ekvivalentsed. [13]Ekvivalentsuse üle on võimalik otsustada erijuhul, kus muunduri   relatsioon   on osafunktsioon.

Rakendused muuda

Kaalutud lõplikud muundurid on kasutusel keeletehnoloogias, muuhulgas masintõlke ning masinõppe juures.[14][15]

Viited muuda

  1. Jurafsky, Daniel (2009). Speech and Language Processing. Pearson. ISBN 9789332518414.
  2. "Speech and Language Technology. Morphology &Transducers" (PDF). Vaadatud 25.11.2018.
  3. 3,0 3,1 Blackburn, P; Striegnitz, K. "Finite State Transducers". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  4. Qasmi, A (14.06.2014). "Formal Language and Automata". Vaadatud 28.11.2018.
  5. Koskenniemi, K. "Two-level morphology: A general computational model of word-form recognition and production" (PDF). Originaali (PDF) arhiivikoopia seisuga 21.12.2018. Vaadatud 23.11.2018.
  6. Holzer, M; Kutrib, M. "Implementation and Application of Automata". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  7. Mohri,M; Pereira, F; Riley, M. "Weighted Finite-State Transducers in Speech Recognition" (PDF). Vaadatud 26.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  8. Holzer, M; Kutrib, M. "Implementation and Application of Automata". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  9. Berstel, Jean; Reutenauer, Cristophe (2011). Noncommutative rational series with applications. Encyclopedia of Mathematics and Its Applications. Cambridge: Cambridge University Press. Lk 16. ISBN 978-0-521-19022-0.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  10. Lothaire, M (2005). Applied combinatorics on words. Encyclopedia of Mathematics and Its Applications. A collective work by Jean Berstel, Dominique Perrin, Maxime Crochemore, Eric Laporte, Mehryar Mohri, Nadia Pisanti, Marie-France Sagot, Gesine Reinert, Sophie Schbath, Michael Waterman, Philippe Jacquet, Wojciech Szpankowski, Dominique Poulalhon, Gilles Schaeffer, Roman Kolpakov, Gregory Koucherov, Jean-Paul Allouche and Valérie Berthé. Cambridge: Cabridge University Press. Lk 211. ISBN 0-521-84802-4.
  11. Mohri, M. "Formal Languages and Applicarions. Weighted Finite-State Transducer Algorithms: An Overview" (PDF). Vaadatud 23.11.2018.
  12. Mohri, M. "Formal Languages and Applicarions. Weighted Finite-State Transducer Algorithms: An Overview" (PDF). Vaadatud 23.11.2018.
  13. Griffiths, T.V (1968). The unsolvability of the Equivalence Problem for Λ-Free nondeterministic generalized machines.
  14. Knight, Kevin; May, Jonathan (2009). Applications of Weighted Automata in Natural Language Processing". In Manfred Droste; Werner Kuich; Heiko Vogler. Handbook of Weighted Automata. Springer Science & Business Media. ISBN 978-3-642-01492-5.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  15. "Learning with Weighted Transducers (PDF)" (PDF). Vaadatud 11.11.2018.