Multinomiaalne logistiline regressioon

Multinomiaalne logistiline regressioon (ingl multinomial logistic regression) on klassifitseerimismeetod enam kui kahe võimaliku diskreetse tulemuse jaoks. See on binaarse logistilise regressiooni üldistus, kus olemasolevate andmete põhjal luuakse mudel selleks, et hinnata erinevatesse võimalikesse klassidesse kuulumise tõenäosust.[1]

Multinoomjaotus muuda

Multinoomjaotus on binoomjaotuse üldistus, kus igas üksikus katses on enam kui kaks võimalikku katsetulemust. Olgu võimalikud katsetulemused   ning nende esinemise tõenäosused vastavalt  , kusjuures   ja  . Tõenäosus, et   sõltumatus katses sündmused   toimuvad vastavalt   korda, avaldub valemiga

 

Kuna  , siis on ühe sündmuse toimumiste arv avaldatav teiste kaudu ning kasutusele saab võtta lühema vektori  . Siis avaldub tõenäosusfunktsioon valemiga

 

Multinoomjaotuse liikmete   keskväärtus ja dispersioon avalduvad vastavalt   ja   iga   korral.[2][3]

Multinomiaalne logit mudel muuda

Olgu võimalikud katsetulemused   ning seletavate tunnuste arv  . Binaarse logit-mudeli korral hinnatakse uuritava sündmuse toimumise ja vastandsündmuse toimumise šansi logaritmi

 

Multinomiaalse mudeli korral vaadeldakse   logit-mudelit, kus igas mudelis hinnatakse sündmuse toimumise ehk mingile kindlale tasemele kuulumise ja baastasemele kuulumise šansi logaritmi.

Valides baastasemeks taseme  , avaldub  -ndale tasemele vastav logit-mudel järgmiselt

 

kus  . Siinkohal tasub tähele panna, et parameetrid   sõltuvad tasemest   ning baastaseme   võib valida vabalt tasemete   hulgast. [2]

Olgu   kõikide võimalike populatsioonide arv nii et   on vaatluste arv  -ndas populatsioonis ja  , kus   on kõigi vaatluste arv. Suurus   tähistab siis iga  -nda populatsiooni vaatluse tõenäosust kuuluda tasemele  . Multinomiaalsest logit-funktsioonist saame siis

 

Avaldades eelnevast   ning võttes, et iga   korral  , saame

 

kus   ja

 [4]

Parameetrite hindamine suurima tõepära meetodil muuda

Olgu   multinoomjaotusest, mille võimalike tasemete arv on  .

 

Kuna jagatises   ei ole hinnatavaid tõenäosusi  , siis võib seda vaadelda konstandina ja suurima tõepära funktsioon on

 

Asendades   ja  , saame

 

Suurima tõepära hinnangute leidmiseks on vaja eelnev funktsioon maksimeerida. Kuna logaritm on monotoonne funktsioon, siis piisab selleks leida log-tõepära funktsiooni maksimumkohad. Suurima tõepära funktsioonist naturaallogaritmi võtmisel saame log-tõepära funktsiooni

 

Funktsiooni maksimeerimiseks   suhtes, piisab meil leida funktsiooni osatuletised   ning iga   jaoks nullkohad.[4]

Viited muuda

  1. Alan Agresti (2002). Categorical Data Analysis. New Jersey: Wiley. Lk 267. ISBN 0-471-36093-7.
  2. 2,0 2,1 Gerhard Tutz (2012). Regression for Categorical Data. Cambridge: Cambridge University Press. Lk 209–210. ISBN 9780511842061.
  3. Kalev Pärna (2013). Tõenäosusteooria algkursus. Tartu: Tartu Ülikooli Kirjastus. Lk 49. ISBN 978-9949-32-218-3.
  4. 4,0 4,1 Scott A. Czepiel (2002). "Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation" (PDF). Vaadatud 11.04.2018.