Vähimruutude meetodi regulariseerimine

Vähimruutude meetodi regulariseerimine on vähimruutude meetodi lahendamine, kasutades regularisatsiooni, mis aitab kindlaid probleeme kitsendada, tehes nende lahendamise lihtsamaks ja täpsemaks^[1].

Regularisatsiooni eesmärk on lihtsustada regressioonimudelit, kahandades tunnuste kaale, ning vähendada sellega ülesobitamise riski^[1].

Kui vähimruutude valemi järgi on tunnuste kaalude vektor leitav valemiga $w^{*}={\underset {w}{argmin}}(y-\mathrm {X} w)^{T}(y-\mathrm {X} w)$ , kus $w$ – kaalude vektor, $y$ – märgendite vektor, $\mathrm {X}$ – tunnuste maatriks^[1], siis regularisatsiooni puhul lisatakse kaaludele mingisugune penalti või karistus, mis aitaks erinevusi ühtlustada^[2] ja kaale minimeerida. Kõige enim kasutatud regularisatsioonimeetodid on kant- ja lassoregressioon^[3].

Kantregressioon muuda

Kantregressioon on tuntud ka kui Ridge'i regressioon, Tikhonovi regularisatsioon või L2-regularisatsioon.

Selle meetodi eesmärk on kõik kaalud ühtlaselt minimeerida ning nullile lähendada, kuid mitte täielikult nulliks muuta. Seega ei saa kantregressiooni tulemusena tekkiv mudel ennustamiseks kasutada ainult mingit kindlat osa tunnustest, kuna kõigil tunnustel on mingi nullist suurem kaal^[4].

Kasutamine muuda

Kantregressiooni kasutamise valem on

$w^{*}={\underset {w}{argmin}}(y-\mathrm {X} w)^{T}(y-\mathrm {X} w)+\lambda ||w||^{2}$ , kus $\lambda$ on regularisatsiooniparameeter ja $||w||^{2}=\sum _{i}w_{i}^{2}$ on kaalude vektori norm ruudus^[1].

Suletud süsteemi lahendus muuda

Meetodile leidub ka suletud süsteemi lahendus ${\hat {w}}=(\mathrm {X} ^{T}\mathrm {X} +\lambda I)^{-1}\mathrm {X} ^{T}y$ ^[1].

Lassoregressioon muuda

Lassoregressioon on tuntud ka kui L1-regularisatsioon.

Lassoregressiooni meetod üritab kõikide ebatähtsate tunnuste kaalud nulliks muuta. Juhul, kui tunnuste vahel on tugevad seosed (kollineaarsed tunnused) valib lassoregressioon seotud tunnuste vahelt juhuslikult ühe, mille kaalu ta tõstab, ning muudab ülejäänud nulliks^[1].

Kasutamine muuda

Lassoregressiooni kasutamise valem on

$w^{*}={\underset {w}{argmin}}(y-\mathrm {X} w)^{T}(y-\mathrm {X} w)+\lambda \sum _{i}|w|$ , kus $\lambda$ on regularisatsiooniparameeter ja $\sum _{i}|w|$ on kaalude absoluutväärtuste summa^[1].

Suletud süsteemi lahendus muuda

Lassoregressiooni meetodil puudub suletud süsteemi lahendus.

Lasso- ja kantregressiooni erinevused muuda

Kõige tähtsam erinevus lasso- ja kantregressiooni meetodi vahel on nullkaalude arv: lassoregressioon sunnib kõigi vähegi ebatähtsate tunnuste kaalud nulliks, kuid kantregressiooni tulemusel saadud kaalud on küll väiksed, kuid mitte nullid^[5]. Seega on lassoregressiooni tulemus lihtsam mudel, mis ennustamiseks kasutatakse ainult mingit kogutunnuste hulga osahulka^[6]. See aga ei tähenda, et lassoregressioon oleks iga probleemi jaoks parim lahendus. Lassoregressioon töötab enamjaolt paremini ülesannetes, kus ainult väike osa tunnuste reaalsetest kaaludest on suurem kui null ehk märgendit mõjutab ainult mingi väike osa kogutunnustest. Kantregressioon töötab aga paremini ülesannetes, kus on palju tunnuseid, mis kõik mõjutavad ennustust vähemal või suuremal määral^[5].

Regularisatsiooni parameeter λ muuda

Kui parameetri väärtus on 0, siis kaalude regularisatsiooni ei toimu ja mudel arvutatakse välja tavalise vähimruutude meetodiga.

Mida suurem on lambda väärtus, seda rohkem karistatakse suuremaid kaale ning seda väiksemad on kõigi tunnuste kaalud^[3].

Kuna erinevate ülesannete lähteandmed on erinevad, ei leidu ühtset regularisatsiooni parameetri väärtust, mis igal juhul annaks parima tulemuse. Parima võimaliku lambda väärtuse saab välja arvutada eri viisil, näiteks ristvalideerimise, erinevuse printsiibi või L-kurvi meetodiga^[7].

Vaata ka muuda

Viited muuda

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 Peter Flach. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Lk 204-205.
↑ Christopher M. Bishop. Neural Networks for Pattern Recognition. Lk 338.
↑ ^3,0 ^3,1 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Lk 215.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Arthur E. Hoerl, Robert W. Kennard (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Lk 57.
↑ ^5,0 ^5,1 Joseph O Ogutu, Torben Schulz-Streeck, Hans-Peter Piepho. Genomic selection using regularized linear regression models: ridge regression, lasso, elastic net and their extensions.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Lk 223.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ H. Ahmadian, J. E. Mottershead, M. I. Friswell (1998). Regularisation Methods for Finite Element Model Updating. Lk 1.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[:0-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 Peter Flach. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Lk 204-205.

[2] Christopher M. Bishop. Neural Networks for Pattern Recognition. Lk 338.

[:1-3] 3,0 ^3,1 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Lk 215.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[4] Arthur E. Hoerl, Robert W. Kennard (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Lk 57.

[:2-5] 5,0 ^5,1 Joseph O Ogutu, Torben Schulz-Streeck, Hans-Peter Piepho. Genomic selection using regularized linear regression models: ridge regression, lasso, elastic net and their extensions.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[6] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Lk 223.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[7] H. Ahmadian, J. E. Mottershead, M. I. Friswell (1998). Regularisation Methods for Finite Element Model Updating. Lk 1.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[1]

[2]

[3]

[4]

[5]

[6]

[7]