Lõplik muundur

Lõplik muundur või lõplik olekumuundur on Turingi masinate terminoloogia kohaselt kahe mälulindiga (sisend- ja väljundlint) lõplik automaat. Tavalisel lõplikul automaadil on ainult üks mälulint. Lõplik muundur on lõplik automaat, mis seab omavahel vastavusse kaks hulka sümboleid.^[1]

Lõpliku muunduri mõiste on üldisem kui lõpliku automaadi oma. Lõplik automaat defineerib formaalse keele aktsepteeritavate sõnede hulga abil, samas kui lõplik muundur defineerib seosed sõnede hulkade vahel. Lõplik muundur loeb sisendlingilt sõnede hulga ning loob väljundlindile hulga seoseid. Lõplikku muundurit võib vaadata kui sõnedevahelist tõlki või sidujat.^[2]

Morfoloogilisest parsimisest võib näiteks tuua olukorra, kus muundurisse sisestatakse tähtedest koosnev sõne ning saadakse väljundiks morfeemidest koosnev sõne.

Ülevaade

Öeldakse, et automaat tuvastab sõne, kui vaatame selle lindi sisu sisendina. Teisisõnu leiab automaat funktsiooni, mis vastendab sõned hulga $\{0,1\}$ väärtustega. Samuti võime vaadelda automaadi linti väljundina ning öelda, et automaat genereerib sõnesid. Sel juhul loob automaat konkreetse sõnede hulga ehk formaalse keele. Need kaks viisi automaadi kirjeldamiseks on samaväärsed: automaadi genereeritud funktsioon on enda loodud sõnede hulga karakteristlik funktsioon. Lõpliku automaadi loodud keelte klassi nimetatakse regulaarsete keelte klassiks.^[3]

Muunduri kahte linti vaadeldakse tavaliselt kui sisend- ja väljundlinti. Öeldakse, et muundur muundab ehk tõlgib sisendlindil olevad väärtused väljundlindile - sisendlindile antud sõne jaoks genereeritakse väljundlindile uus sõne. Muundur võib seda teha mittedeterministlikult ning ühele sisendsõnele võib vastata mitu väljundsõne. Muundur võib sisendsõne ka tagasi lükata - sel juhul sisendsõnele vastavat väljundsõne ei genereerita.^[3]

Üldsõnaliselt võib öelda, et muundur arvutab välja suhte kahe formaalse keele vahel.

Iga sõnest-sõneks-tüüpi lõplik muundur vastendab sisendtähestiku $\Sigma$ väljundtähestikuga $\Gamma$ . Relatsioone $R$ hulgal $\Sigma *\times \Gamma *$ , mis on rakendatavad lõplike muunduritena, nimetatakse ratsionaalrelatsioonideks. Ratsionaalrelatsioone, mis on ühtlasi ka osafunktsioonid (ehk mis vastendavad iga sisendsõne hulgast $\Sigma *$ kõige enam ühe sõnega hulgast $\Gamma *$ ), nimetatakse ratsionaalfunktsioonideks.^[4]

Lõplikud muundurid leiavad sageli kasutust keeletehnoloogias fonoloogilise ning morfoloogilise analüüsi juures.^[5]

Formaalne kirjeldus

Formaalse kirjelduse järgi on lõplik muundur $T$ viiekohaline ennik $(Q,\Sigma ,\Gamma ,I,F,\delta )$ , kus

$Q$ on olekute hulk (lõplik hulk);
$\Sigma$ on sisendtähestik (lõplik hulk);
$\Gamma$ on väljundtähestik (lõplik hulk);
$I$ on algolekute hulk ( $Q$ alamhulk);
$F$ on lõppolekute hulk ( $Q$ alamhulk);
kehtib $\delta \subseteq Q\times (\Sigma \cup \{\epsilon \})\times (\Gamma \cup \{\epsilon \})\times Q$ , kus $\epsilon$ on siirderelatsioonis tühi sõne.^[6]

Võime vaadata paari $(Q,\delta )$ kui sildistatud suunatud graafi ehk $T$ siirdegraafi. $Q$ on tippude hulk ning $(q,a,b,r)\in \delta$ tähendab, et leidub sildistatud kaar tipust q tippu r. Ütleme, et a on selle kaare sisendi ning b väljundi silt.

Defineerime laiendatud siirderelatsiooni $\delta *$ kui vähima hulga, mille puhul kehtivad järgmised tingimused:

$\delta \subseteq \delta \ast$ ;
$(q,\epsilon ,\epsilon ,q)\in \delta *$ iga $q\in Q$ korral;
alati kui kehtivad $(q,x,y,r)\in \delta *$ ja $(r,a,b,s)\in \delta *$ , siis kehtib ka $(q,xa,yb,s)\in \delta *$ .

Laiendatud siirderelatsioon on olemuslikult siirdegraafi refleksiivne transitiivne sulund, mis võtab arvesse ka servade silte. Ühe tee sildi leidmiseks konkateneeritakse seda teed moodustavate servade sildid kindlas järjekorras.^[7]

Muunduri $T$ käitumine on ratsionaalrelatsioon $[T]$ , mida defineeritakse järgnevalt: $x[T]y$ siis ja ainult siis, kui leiduvad $i\in I$ ja $f\in F$ selliselt, et $(i,x,y,f)\in \delta *$ . See tähendab, et $T$ muundab sõne $x\in \Sigma *$ sõneks $y\in \Gamma *$ , kui algolekust lõppolekuni viib tee, mille sisendi silt on x ning väljundi silt y.

Kaalutud automaat

Lõplikud muundurid võivad olla kaalutud. Sellised juhul on igal siirdel lisaks sisend- ja väljundsildile ka kaalu tähistav silt. Kaalutud lõplik muundur üle kaalude hulga K defineeritakse sarnaselt kaalumata muunduriga kaheksakohalise ennikuna $T=(Q,\Sigma ,\Gamma ,I,F,E,\lambda ,\rho )$ , kus

$Q,\Sigma ,\Gamma ,I,F$ defineeritakse samamoodi, kui ülalpool näidatud;
$E\subseteq Q\times (\Sigma \cup \{\epsilon \})\times (\Gamma \cup \{\epsilon \})\times Q\times K$ , kus ε tähistab tühisõnet, on lõplik siirete hulk;
$\lambda :I\rightarrow K$ vastendab algolekud kaaludega;
$\rho :F\rightarrow K$ vastendab lõppolekud kaaludega.^[8]

Võimaldamaks kaalutud lõpliku muunduri operatsioonide täpset defineerimist, kehtib nõue, et kaalude hulk peab moodustama poolringi.^[9] Kaks kõige tavalisemat poolringi varianti on log-poolring ja troopiline poolring. Kaalumata automaati võib vaadelda kui juhtu, mil kõik kaalud kuuluvad Booleani poolringi.^[10]

Tehted lõplike muunduritega

Järgnevad lõplikel automaatidel defineeritud tehted kehtivad ka lõplike muundurite puhul.

Ühend. Kui on antud muundurid $T$ ja $S$ , siis eksisteerib muundur $T\cup S$ nii, et $x[T\cup S]y$ kehtib siis ja ainult siis, kui kehtib $x[T]y$ või $x[S]y$ .
Konkatenatsioon. Kui on antud muundurid $T$ ja $S$ , siis eksisteerib muundur $T\cdot S$ nii, et $x[T\cdot S]y$ siis ja ainult siis, kui leiduvad $x_{1},x_{2},y_{1},y_{2}$ nii, et $x=x_{1}x_{2},y=y_{1}y_{2},x_{1}[T]y_{1},x_{2}[S]y_{2}$ .
Kleene sulund. Kui on antud muundurid $T$ ja $S$ , siis eksisteerib muundur T*, mille kohta kehtivad järgmised omadused:
1. $\epsilon [T*]\epsilon$ (k1)
2. kui $w[T*]y$ ja $x[T]z$ siis $wx[T*]yz$ (k2)
3. ei kehti $x[T*]y$ , kui just (k1) või (k2) vastupidist ei nõua.
Kompositsioon. Kui on antud muundur $T$ üle tähestike $\Sigma$ ja $\Gamma$ ning muundur $S$ üle tähestike $\Gamma$ ja $\Delta$ , siis eksisteerib muundur $T\circ S$ üle tähestike $\Sigma$ ja $\Delta$ nii, et $x[T\circ S]z$ siis ja ainult siis, kui leidub sõne $y\in \Gamma *$ nii, et $x[T]y$ ja $y[S]z$ . See tehe kehtib ka kaalutud juhu korral.^[11] See definitsioon järgib tähistust, mis on kasutusel matemaatikas relatsioonide kompositsiooni märkimiseks. Traditsiooniliselt loetakse relatsioonide kompositsiooni aga teisiti: kui on antud relatsioonid $T$ ja $S$ , siis $(x,z)\in T\circ S$ , kui leidub y selliselt, et $(x,y)\in S$ ja $(y,z)\in T$ .
Projektsioon automaadiks. On antud kaks projektsiooni funktsiooni: $\pi _{1}$ säilitab sisendlinti ning $\pi _{2}$ väljundlinti. Funktsiooni $\pi _{1}$ projektsioon defineeritakse järgnevalt: Kui on antud muundur $T$ , siis leidub lõplik automaat $\pi _{1}T$ selliselt, et $\pi _{1}T$ aktsepteerib sõne x siis ja ainult siis, kui leidub sõne y, mille puhul kehtib $x[T]y$ . Teine projektsioon $\pi _{2}$ defineeritakse analoogselt.
Determineerimine. Kui on antud muundur $T$ , soovime luua ekvivalentse muunduri, millel on ainult üks algolek ning mille puhul ei välju ühestki olekust mitu sama sisendsildiga kaart.
Kaalutud muunduri minimeerimine.^[12]
Epsilonsiirete eemaldamine.

Lõplike muundurite omadused

On võimalik otsustada, kas muunduri $T$ relatsioon $[T]$ on tühi.
On võimalik otsustada, kas leidub sõne y selliselt, et antud sõne x puhul kehtiks $x[T]y$ .
Ei ole võimalik otsustada, kas kaks muundurit on ekvivalentsed. ^[13]Ekvivalentsuse üle on võimalik otsustada erijuhul, kus muunduri $T$ relatsioon $[T]$ on osafunktsioon.

Rakendused

Kaalutud lõplikud muundurid on kasutusel keeletehnoloogias, muuhulgas masintõlke ning masinõppe juures.^[14]^[15]

Viited

↑ Jurafsky, Daniel (2009). Speech and Language Processing. Pearson. ISBN 9789332518414.
↑ "Speech and Language Technology. Morphology &Transducers" (PDF). Vaadatud 25.11.2018.
↑ ^3,0 ^3,1 Blackburn, P; Striegnitz, K. "Finite State Transducers". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Qasmi, A (14.06.2014). "Formal Language and Automata". Vaadatud 28.11.2018.
↑ Koskenniemi, K. "Two-level morphology: A general computational model of word-form recognition and production" (PDF). Originaali (PDF) arhiivikoopia seisuga 21.12.2018. Vaadatud 23.11.2018.
↑ Holzer, M; Kutrib, M. "Implementation and Application of Automata". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Mohri,M; Pereira, F; Riley, M. "Weighted Finite-State Transducers in Speech Recognition" (PDF). Vaadatud 26.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Holzer, M; Kutrib, M. "Implementation and Application of Automata". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Berstel, Jean; Reutenauer, Cristophe (2011). Noncommutative rational series with applications. Encyclopedia of Mathematics and Its Applications. Cambridge: Cambridge University Press. Lk 16. ISBN 978-0-521-19022-0.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Lothaire, M (2005). Applied combinatorics on words. Encyclopedia of Mathematics and Its Applications. A collective work by Jean Berstel, Dominique Perrin, Maxime Crochemore, Eric Laporte, Mehryar Mohri, Nadia Pisanti, Marie-France Sagot, Gesine Reinert, Sophie Schbath, Michael Waterman, Philippe Jacquet, Wojciech Szpankowski, Dominique Poulalhon, Gilles Schaeffer, Roman Kolpakov, Gregory Koucherov, Jean-Paul Allouche and Valérie Berthé. Cambridge: Cabridge University Press. Lk 211. ISBN 0-521-84802-4.
↑ Mohri, M. "Formal Languages and Applicarions. Weighted Finite-State Transducer Algorithms: An Overview" (PDF). Vaadatud 23.11.2018.
↑ Mohri, M. "Formal Languages and Applicarions. Weighted Finite-State Transducer Algorithms: An Overview" (PDF). Vaadatud 23.11.2018.
↑ Griffiths, T.V (1968). The unsolvability of the Equivalence Problem for Λ-Free nondeterministic generalized machines.
↑ Knight, Kevin; May, Jonathan (2009). Applications of Weighted Automata in Natural Language Processing". In Manfred Droste; Werner Kuich; Heiko Vogler. Handbook of Weighted Automata. Springer Science & Business Media. ISBN 978-3-642-01492-5.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ "Learning with Weighted Transducers (PDF)" (PDF). Vaadatud 11.11.2018.

[1] Jurafsky, Daniel (2009). Speech and Language Processing. Pearson. ISBN 9789332518414.

[2] "Speech and Language Technology. Morphology &Transducers" (PDF). Vaadatud 25.11.2018.

[:1-3] 3,0 ^3,1 Blackburn, P; Striegnitz, K. "Finite State Transducers". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[4] Qasmi, A (14.06.2014). "Formal Language and Automata". Vaadatud 28.11.2018.

[5] Koskenniemi, K. "Two-level morphology: A general computational model of word-form recognition and production" (PDF). Originaali (PDF) arhiivikoopia seisuga 21.12.2018. Vaadatud 23.11.2018.

[6] Holzer, M; Kutrib, M. "Implementation and Application of Automata". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[7] Mohri,M; Pereira, F; Riley, M. "Weighted Finite-State Transducers in Speech Recognition" (PDF). Vaadatud 26.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[8] Holzer, M; Kutrib, M. "Implementation and Application of Automata". Vaadatud 24.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[9] Berstel, Jean; Reutenauer, Cristophe (2011). Noncommutative rational series with applications. Encyclopedia of Mathematics and Its Applications. Cambridge: Cambridge University Press. Lk 16. ISBN 978-0-521-19022-0.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[10] Lothaire, M (2005). Applied combinatorics on words. Encyclopedia of Mathematics and Its Applications. A collective work by Jean Berstel, Dominique Perrin, Maxime Crochemore, Eric Laporte, Mehryar Mohri, Nadia Pisanti, Marie-France Sagot, Gesine Reinert, Sophie Schbath, Michael Waterman, Philippe Jacquet, Wojciech Szpankowski, Dominique Poulalhon, Gilles Schaeffer, Roman Kolpakov, Gregory Koucherov, Jean-Paul Allouche and Valérie Berthé. Cambridge: Cabridge University Press. Lk 211. ISBN 0-521-84802-4.

[11] Mohri, M. "Formal Languages and Applicarions. Weighted Finite-State Transducer Algorithms: An Overview" (PDF). Vaadatud 23.11.2018.

[12] Mohri, M. "Formal Languages and Applicarions. Weighted Finite-State Transducer Algorithms: An Overview" (PDF). Vaadatud 23.11.2018.

[13] Griffiths, T.V (1968). The unsolvability of the Equivalence Problem for Λ-Free nondeterministic generalized machines.

[14] Knight, Kevin; May, Jonathan (2009). Applications of Weighted Automata in Natural Language Processing". In Manfred Droste; Werner Kuich; Heiko Vogler. Handbook of Weighted Automata. Springer Science & Business Media. ISBN 978-3-642-01492-5.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[15] "Learning with Weighted Transducers (PDF)" (PDF). Vaadatud 11.11.2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]