Multinomiaalne logistiline regressioon

Multinomiaalne logistiline regressioon (ingl multinomial logistic regression) on klassifitseerimismeetod enam kui kahe võimaliku diskreetse tulemuse jaoks. See on binaarse logistilise regressiooni üldistus, kus olemasolevate andmete põhjal luuakse mudel selleks, et hinnata erinevatesse võimalikesse klassidesse kuulumise tõenäosust.^[1]

Multinoomjaotus muuda

Multinoomjaotus on binoomjaotuse üldistus, kus igas üksikus katses on enam kui kaks võimalikku katsetulemust. Olgu võimalikud katsetulemused $1,\ldots ,k$ ning nende esinemise tõenäosused vastavalt $\mathbf {\pi } =\left(\pi _{1},\ldots ,\pi _{k}\right)$ , kusjuures $\pi _{1}+\ldots +\pi _{k}=1$ ja $\forall i\in \{1,\ldots ,k\}\quad \pi _{i}\in [0,1]$ . Tõenäosus, et $n$ sõltumatus katses sündmused $1,\ldots ,k$ toimuvad vastavalt $\mathbf {y} ^{T}=(y_{1},\ldots ,y_{k})$ korda, avaldub valemiga

P_{n}\left(y_{1},y_{2},\ldots ,y_{k}\right)={\frac {n!}{y_{1}!\ y_{2}!\ \ldots \ y_{k}!}}\pi _{1}^{y_{1}}\ \pi _{2}^{y_{2}}\ \ldots \ \pi _{k}^{y_{k}}

Kuna $\sum _{i=1}^{k}y_{i}=n$ , siis on ühe sündmuse toimumiste arv avaldatav teiste kaudu ning kasutusele saab võtta lühema vektori $\mathbf {y} ^{T}=(y_{1},\ldots ,y_{k-1})$ . Siis avaldub tõenäosusfunktsioon valemiga

P_{n}\left(y_{1},\ldots ,y_{k-1}\right)={\frac {n!}{y_{1}!\ \ldots \ y_{k-1}!\left(n-y_{1}-\ldots -y_{k-1}\right)!}}\pi _{1}^{y_{1}}\ \ldots \ \pi _{k-1}^{y_{k-1}}\cdot (1-\pi _{1}-\ldots -\pi _{k-1})^{n-y_{1}-\ldots -y_{k-1}}.

Multinoomjaotuse liikmete $\mathbf {y} ^{T}=(y_{1},\ldots ,y_{k-1})$ keskväärtus ja dispersioon avalduvad vastavalt $E(y_{i})=n\pi _{i}$ ja $D(y_{i})=n\pi _{i}(1-\pi _{i})$ iga $i=1,\ldots ,k-1$ korral.^[2]^[3]

Multinomiaalne logit mudel muuda

Olgu võimalikud katsetulemused $1,\ldots ,k$ ning seletavate tunnuste arv $m$ . Binaarse logit-mudeli korral hinnatakse uuritava sündmuse toimumise ja vastandsündmuse toimumise šansi logaritmi

\ln {\left({\frac {P(Y=1)}{P(Y=0)}}\right)}=\beta _{0}+\beta _{1}x_{1}+\ldots +\beta _{m}x_{m}.

Multinomiaalse mudeli korral vaadeldakse $k-1$ logit-mudelit, kus igas mudelis hinnatakse sündmuse toimumise ehk mingile kindlale tasemele kuulumise ja baastasemele kuulumise šansi logaritmi.

Valides baastasemeks taseme $k$ , avaldub $r$ -ndale tasemele vastav logit-mudel järgmiselt

\ln {\left({\frac {P(Y=r)}{P(Y=k)}}\right)}=\beta _{r_{0}}+\beta _{r_{1}}x_{1}+\ldots +\beta _{r_{m}}x_{m},

kus $r=1,\ldots ,k-1$ . Siinkohal tasub tähele panna, et parameetrid $\beta _{r_{0}},\ldots ,\beta _{r_{m}}$ sõltuvad tasemest $r$ ning baastaseme $k$ võib valida vabalt tasemete $1,\ldots ,k$ hulgast. ^[2]

Olgu $N$ kõikide võimalike populatsioonide arv nii et $n_{i}$ on vaatluste arv $i$ -ndas populatsioonis ja $\sum _{i=1}^{N}n_{i}=n$ , kus $n$ on kõigi vaatluste arv. Suurus $\pi _{ir}$ tähistab siis iga $i$ -nda populatsiooni vaatluse tõenäosust kuuluda tasemele $r$ . Multinomiaalsest logit-funktsioonist saame siis

\ln \left({\frac {\pi _{ir}}{\pi _{ik}}}\right)=\beta _{r0}+\beta _{r1}x_{i1}+\ldots +\beta _{rm}x_{im}.

Avaldades eelnevast $\pi _{ir}$ ning võttes, et iga $i=1,\ldots ,N$ korral $x_{i0}=1$ , saame

\pi _{ir}={\frac {e^{\sum _{j=0}^{m}\beta _{rj}x_{ij}}}{1+\sum _{r=1}^{k-1}e^{\sum _{j=0}^{m}\beta _{rj}x_{ij}}}},

kus $r=1,\ldots ,k-1$ ja

\pi _{ik}=1-\pi _{i1}-\ldots \pi _{i(k-1)}={\frac {1}{1+\sum _{r=1}^{k-1}e^{\sum _{j=0}^{m}\beta _{rj}x_{ij}}}}.

^[4]

Parameetrite hindamine suurima tõepära meetodil muuda

Olgu $\mathbf {y} _{i}^{T}=(y_{i1},\ldots ,y_{iq})\sim M(n_{i},\mathbf {\pi } _{i}),\quad i=1,\ldots ,N$ multinoomjaotusest, mille võimalike tasemete arv on $k=q+1$ .

P_{n_{i}}\left(\mathbf {y_{i}} \right)={\frac {n_{i}!}{y_{i1}!\ \ldots \ y_{iq}!\left(n_{i}-y_{i1}-\ldots -y_{iq}\right)!}}\pi _{i1}^{y_{i1}}\ \ldots \ \pi _{iq}^{y_{iq}}\cdot (1-\pi _{i1}-\ldots -\pi _{iq})^{n_{i}-y_{i1}-\ldots -y_{iq}}.

Kuna jagatises ${\frac {n_{i}!}{y_{i1}!\ \ldots \ y_{iq}!\left(n_{i}-y_{i1}-\ldots -y_{iq}\right)!}}$ ei ole hinnatavaid tõenäosusi $\pi _{ir}$ , siis võib seda vaadelda konstandina ja suurima tõepära funktsioon on

L(\mathbf {\beta } )\simeq \prod _{i=1}^{N}\pi _{i1}^{y_{i1}}\ \ldots \ \pi _{iq}^{y_{iq}}(1-\pi _{i1}-\ldots -\pi _{iq})^{n_{i}-y_{i1}-\ldots -y_{iq}}=\prod _{i=1}^{N}\prod _{r=1}^{q}\left({\frac {\pi _{ir}}{\pi _{ik}}}\right)^{y_{ir}}\cdot \pi _{ik}^{n_{i}}.

Asendades $\pi _{ir}$ ja $\pi _{ik}$ , saame

\prod _{i=1}^{N}\prod _{r=1}^{q}e^{y_{ir}\sum _{j=0}^{m}\beta _{rj}x_{ij}}\cdot \left(1+\sum _{r=1}^{q}e^{\sum _{j=0}^{m}\beta _{rj}x_{ij}}\right).

Suurima tõepära hinnangute leidmiseks on vaja eelnev funktsioon maksimeerida. Kuna logaritm on monotoonne funktsioon, siis piisab selleks leida log-tõepära funktsiooni maksimumkohad. Suurima tõepära funktsioonist naturaallogaritmi võtmisel saame log-tõepära funktsiooni

l({\boldsymbol {\beta }})=\sum _{i=1}^{N}\sum _{r=1}^{q}\left(y_{ir}\sum _{j=0}^{m}\beta _{rj}x_{ij}\right)-n_{i}\ln \left(1+\sum _{r=1}^{q}e^{\sum _{j=0}^{m}\beta _{rj}x_{ij}}\right).

Funktsiooni maksimeerimiseks ${\boldsymbol {\beta }}$ suhtes, piisab meil leida funktsiooni osatuletised ${\frac {\partial l({\boldsymbol {\beta }})}{\partial \beta _{rj}}}$ ning iga $\beta _{rj}$ jaoks nullkohad.^[4]

Viited muuda

↑ Alan Agresti (2002). Categorical Data Analysis. New Jersey: Wiley. Lk 267. ISBN 0-471-36093-7.
↑ ^2,0 ^2,1 Gerhard Tutz (2012). Regression for Categorical Data. Cambridge: Cambridge University Press. Lk 209–210. ISBN 9780511842061.
↑ Kalev Pärna (2013). Tõenäosusteooria algkursus. Tartu: Tartu Ülikooli Kirjastus. Lk 49. ISBN 978-9949-32-218-3.
↑ ^4,0 ^4,1 Scott A. Czepiel (2002). "Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation" (PDF). Vaadatud 11.04.2018.

[1] Alan Agresti (2002). Categorical Data Analysis. New Jersey: Wiley. Lk 267. ISBN 0-471-36093-7.

[:0-2] 2,0 ^2,1 Gerhard Tutz (2012). Regression for Categorical Data. Cambridge: Cambridge University Press. Lk 209–210. ISBN 9780511842061.

[3] Kalev Pärna (2013). Tõenäosusteooria algkursus. Tartu: Tartu Ülikooli Kirjastus. Lk 49. ISBN 978-9949-32-218-3.

[:1-4] 4,0 ^4,1 Scott A. Czepiel (2002). "Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation" (PDF). Vaadatud 11.04.2018.

[1]

[2]

[3]

[4]