Lineaarregressioon

Lineaarregressioon on statistiline meetod, mille abil saab lähendada muutujate vahelisi seoseid. Lineaarregressiooni kasutatakse näiteks masinõppes. Selle tarbeks leitakse sobiv lineaarfunktsioon, mis vaadeldud andmete vahelist seost piisaval määral kirjeldab[1]. Ennustada võib nii ühe kui ka mitme tunnuse põhjal. Ühe tunnuse ehk vaba muutuja põhjal ennustamise korral on tegemist lihtsa lineaarregressiooniga ning mitme puhul mitmekordse lineaarregressiooniga.[2]

Juhuslikud andmepunktid ja lineaarregressioon nende põhjal

Otsitav tulemus muuda

Ühe tunnuse põhjal kõige paremini sobiva sirge võrrandit kujutatakse järgmiselt:

 ,

kus   on ennustatud väärtus,   on väärtus, mille põhjal ennustatakse,   on tõus ning   on nullkoht.[3] Suuremates dimensioonides mitmete vabade muutujate kasutamise puhul nimetatakse selle võrrandi tulemust tasandiks või hüpertasandiks. Kui kasutusel on   vabat muutujat  , on tarvis leida väärtused  , mida nimetatakse ka kaaludeks või koefitsientideks. Et neid väärtusi saab kujutada vektoritena, on ülaltoodud lihtne võrrand tihtipeale asendatud vektor- ja maatrikstehetega, mis võtavad arvesse mitmete vabade muutujatega regressiooni arvutamist.[4]

Andmetele sobitamine muuda

 
Sinisega on märgitud regressioonisirge, punased on andmepunktid ning rohelised jooned tähistavad väärtusi, mille ruutusid minimeeritakse vähimruutude meetodiga

Enamasti kasutatakse lineaarregressiooni sirge sobitamiseks vähimruutude meetodit, mida nimetatakse ka tavaliseks vähimruutude meetodiks.[4] Selle meetodi abil arvutatakse välja kõige paremini sobiv sirge, minimeerides iga andmepunkti ja vastava sirge väärtuste vahede ruutude summat piki vertikaaltelge. Vahede suurused võetakse ruutu, et kõik tulemused oleksid positiivsete väärtustega ega nulliks teineteist.[1] Teisisõnu otsitakse väärtusi   ja  nii, et minimeerida väärtust  , mis väljendub valemina[3]

 
kus   tähistab märgendi tegelikku väärtust ning   vaadeldava andmehulga suurust.

Võõrväärtus, ebatüüpiline vaatlus ja erind muuda

Andmestikule leitud regressioonisirgest kaugel asuvaid üksikuid väärtusi nimetatakse võõrväärtusteks. Võõrväärtuste näol on tegemist vaadeldud andmetega, mis kirjeldavad ebatüüpilisi juhtumeid või erindeid ja mis mõjutavad regressioonisirge asendit väga olulisel määral. Mida kaugemal on võõrväärtus teistest mööda horisontaaltelge, seda suuremat mõju avaldab see regressioonisirge tõusule. Selliste võõrväärtuste eemaldamist nimetatakse ka müra vähendamiseks andmestikus.[1]

Kui üksiku vaatluse standardiseeritud jäägi absoluutväärtus[5]

  •   on tegemist ebatüübilise väärtusega
  •   on tegemist erindiga.

Gradientlaskumine muuda

Enam kui ühe sisendtunnusega lineaarregressioonimudelit treenides võib optimeerimiseks kasutada gradientlaskumist. Gradientlaskumise kasutamine näeb ette koefitsientide algväärtustamist suvaliste arvudega ning seejärel itereerides nende väärtuste muutmist sedasi, et need minimeeriks vigade suurust.[4]

Regulariseerimine muuda

Lineaarregressioonimudeli liigse keerukuse vähendamiseks kasutatakse regulariseerimismeetodeid, millest levinumad on Lasso ja Ridge. Nende rakendamise tagajärjel muutub osade koefitsientide väärtus nulliks, st mõnede tunnuste osatähtsus muutub olematuks. Masinõppes peetakse liiga keerukaks mudeleid, mis sisaldavad palju reegleid ning tihtipeale on need ülesobitatud treeninguandmetele.[4]

Ekstrapoleerimine muuda

Lineaarregressioonimudeli sobitamisel andmestikule on tarvis tähelepanu pöörata andmestikus esinevate väärtuste vahemikule. Regressioonimudeli kasutamine andmetel, mis jäävad selle treeninguvahemikust välja, võib päädida uskumatute tulemustega, sest mudel peab ennustamiseks ekstrapoleerima.[1]

Viited muuda

  1. 1,0 1,1 1,2 1,3 "Linear Regression". Vaadatud 16.03.2018.
  2. "Multiple Linear Regression". Vaadatud 16.03.2018.
  3. 3,0 3,1 "What is the "Best Fitting Line"?". Vaadatud 16.03.2018.
  4. 4,0 4,1 4,2 4,3 "Linear Regression for Machine Learning". Vaadatud 16.03.2018.
  5. Ako Sauga (2020). Statistika õpik majanduseriala üliõpilastele. Tallinn: Tallinna Tehnikaülikooli kirjastus. Lk 456. ISBN 978-9949-83-519-5.