Üldistatud lineaarne mudel

Üldistatud lineaarne mudel (inglise keeles generalized linear model, lühend GLM) on analüüsimeetod statistikas, mis võimaldab mingit uuritavat tunnust Y prognoosida teiste, sõltumatute tunnuste X abil, kusjuures erinevalt lineaarregressioonist võimaldab üldistatud lineaarne mudel sobitada lineaarse mudeli ka mittelineaarse seose peale. GLM sobitab lineaarse mudeli uuritavale seosele seosefunktsiooni abil.[1]

Logistiline regressioon on üks näide üldistatud lineaarsest mudelist. Tunnuste komplekti X kasutatakse Y prognoosimiseks, kusjuures et siduda X ja Y omavahel, tuleb Y teisendada skaalale logit-seosefunktsiooniga. Pildil x- ja y-teljed on kujutatud vastupidi tavapärasele tähistusele.

Olemus muuda

Lihtne lineaarregressioon hindab uuritava tunnuse   väärtust, kui see on lineaarkombinatsioon sõltumatu tunnuse   väärtustest (vaadeldud väärtused). Sellisel juhul   allub normaaljaotusele.[2] Olgu meil näiteks lihtne lineaarne mudel, mis hindab õhutemperatuuri põhjal rannas olevate inimeste arvu. Iga 10 °C muutus õhutemperatuuris toob kaasa 1000-pealise muutuse rannasviibijate arvus. Kui on rand, kus inimesi on alguses 50, siis 10 °C languse korral annaks selline lineaarne mudel rannasviibijate arvu hinnanguks võimatu –950 inimest.

Üldistatud lineaarne mudel võimaldab kahte tunnust omavahel siduda nii, et uuritav tunnus   allub mingisugusele juhuslikule jaotusele, mis ei pea olema normaaljaotus.[2] Meie näite kohaselt tähendaks see, et õhutemperatuuri   muutudes rannasviibijate arv   võib muutuda mittelineaarselt.

Jätkates sama näidet, olgu meil nüüd mingisugune üldistatud lineaarne mudel. 10-kraadise õhutemperatuuri languse korral selline mudel ei anna meile hinnanguks mitte –950 aktiivset rannasviibijat, vaid esialgsest 50 inimesest poole vähem ehk 25 rannasviibijat. Samas esialgse temperatuuriga võrreldes 10-kraadise tõusu korral oleks rannas jällegi 1000 inimest rohkem. On näha, et   konstantse muutuse korral   muutub mittelineaarselt. Selles konkreetses näites   allub Poissoni jaotusele.

Üldistatud lineaarne mudel võimaldab sellist mittelineaarset seost esitada lineaarsel kujul, teisisõnu   oleks justkui lineaarne. Sellist teisendamist üldistatud lineaarses mudelis võimaldab mudelis kasutatav seosefunktisoon (sellest täpsemalt allpool).

Ülevaade muuda

Üldistatud lineaarne mudel eeldab, et uuritav tunnus   allub mingisugusele jaotusele, mis kuulub eksponentjaotuste perre (nt normaaljaotus, eksponentjaotus, Bernoulli jaotus, Poissoni jaotus).[3] Sellise jaotuse keskväärtus   sõltub sõltumatu tunnuse   väärtustest.

 , kus:

  •   on   keskväärtus   korral;
  •   on seosefunktsioon;
  •   on lineaarkombinatsioon tundmatutest parameetritest  .

GLM-i eesmärk on hinnata suurust   ehk keskväärtust. Parameetri   hindamiseks kasutatakse üldiselt suurima tõepära meetodit, kvaasitõepära või Bayesi meetodeid.

Mudeli komponendid muuda

Üldistatud lineaarne mudel koosneb kolmest komponendist.[4][5]

  1. Juhuslik komponent (random component). Määrab uuritava tunnuse ( ) jaotuse, kui   sõltub  -st (tähistatakse kui  ). See jaotus kuulub eksponentsjaotuste perre.   jaotuse keskväärtus on  , mille hindamine ongi mudeli eesmärk.
  2. Süsteemne komponent (systematic component). Määrab mudeli sõltumatute tunnuste   hulga, kasutades selleks lineaarkombinatsiooni  .
  3. Seosefunktsioon (link function). Seosefunktsioon   on funktsioon, mis seob juhusliku ja süsteemse komponendi, täpsemini   keskväärtuse   ja  , moodustades seeläbi lineaarfunktsiooni:  .

Seosefunktsioon muuda

Sõltuvalt uuritavate andmete olemusest, on valida mitme seosefunktsiooni vahel.

Tuntud teoreetilised jaotused ja neile vastavad kanoonilised seosefunktsioonid
Jaotus Kasutusala Seosefunktsiooni nimi Seosefunktsioon
Normaaljaotus Lineaarkasvule alluvad andmed. Samasusteisendus  
Poisson Kindlas aja- või ruumiühikus toimunud sündmuste arv. log  
Bernoulli Üksiku jah/ei sündmuse tulem. logit  
Binoom "Jah" sündmuste arv kõikides toimunud jah/ei sündmustes. logit  

Vaata ka muuda

Viited muuda

  1. "Link function". Statistics How To. Vaadatud 13. detsember 2022.
  2. 2,0 2,1 Dobson, Annette J., Barnett, Adrian G. (2008). An Introduction to Generalized Linear Models, Third Edition. Chapman and Hall/CRC.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  3. "Exponential family". Sõnaveeb. Vaadatud 13. detsember 2022.
  4. Käärik, Meelis (2020). "Üldistatud lineaarsed mudelid". Tartu Ülikooli matemaatika ja statistika instituut. Vaadatud 13. detsember 2022.
  5. "Generalized Linear Models: Advanced Methods for Data Analysis" (PDF). Carnegie Mellon University. 2014. Vaadatud 13. detsember 2022.