Dispersioonanalüüs

Dispersioonanalüüs ehk ANOVA (ANalysis Of Variance) on kogum statistilisi meetodeid rühmade keskmiste võrdlemiseks. Need on andmeanalüütilised ja struktuuri kontrollivad statistilised meetodid, millel on palju erinevaid rakendusi. Neile on ühine, et nad arvutavad dispersioonid ja kontrollväärtused, et saada aimu nende taga peituvatest seaduspärasustest. Ühe või mitme muutuja dispersiooni seletatakse seejuures ühe või mitme mõjuma muutuja (faktori) mõjuga.

Dispersioonanalüüsi lihtsaim vorm testib üheainsa nominaalskaalaga muutuja mõju ühele intervallskaalaga muutujale, võrreldes sõltuva muutuja keskmisi rühmades, mis on määratud sõltumatu muutuja kategooriatega. Seega on dispersioonanalüüs oma lihtsaimal kujul t-testi alternatiiv, mis sobib rohkem kui kahe rühma vaheliseks võrdluseks.

Dispersioonanalüüs eeldab, et võrreldavad rühmad on sõltumatud, sõltuv tunnus peab olema arvtunnus, võrreldavates rühmades peab olema tulemuste sarnane hajuvus ning tulemused jaotuvad ligilähedaselt normaaljaotusele.

On välja töötatud ka mitteparameetrilisi dispersioonanalüüsi meetodeid, millel on teistsugused eeldused.

ANOVA puhul võrreldakse rühmade seesmist hajuvust üldvalimi hajuvusega. Kui uuritavad tulemused ei erine rühmiti teineteisest, seletab kogu rühmasisese variatiivsuse ära kogu valimi üldine variatiivsus. Kui rühmasisene variatiivsus ei ole seletatav üldise variatiivsusega, on rühmad üksteisest erinevad.

Koguhajuvuse hindamiseks kasutatakse dispersioonanalüüsis F-testi. F-testi puhul jagatakse rühma keskmine variatiivsus rühmasiseste variatiivsuste keskmistega. Saadud F-statistiku väärtus sõltub vabadusastmete arvust ja on seega erineva valimi suuruse ja rühmade arvu korral erinev. Erinevuse statistilise olulisuse määramiseks kasutatakse vastavaid tabeleid.

Ülevaade muuda

Põhimõisted muuda

Sõltuv muutuja ehk sihtmuutuja on meetriline juhuslik suurus, mille väärtust tuleb seletada kategoriaalsete muutujatega. Sõltuvate muutujate hulka kuuluvad näidud.

Sõltumatu muutuja ehk kategoriaalne muutuja ehk faktor annab ette rühmad. Selle mõju tuleb kontrollida, see on nominaalskaalal. Faktori kategooriaid nimetatakse faktori tasemeteks (faktoranalüüsis on sel terminil teine tähendus).

Sihtmuutujate arv muuda

Vastavalt sellele, kui palju sihtmuutujaid on, eristatakse kaht dispersioonanalüüsi vormi:

Vastavalt sellele, kas faktoreid on üks või rohkem, eristatakse ühefaktorilist ja mitmefaktorilist dispersioonanalüüsi.

Uurimisühikute arv muuda

Lihtsaimal juhtumil tehakse igal faktori tasemel ühesugune arv vaatlusi. Sellel juhtumil räägitakse ka ortogonaalsest dispersioonanalüüsist või tasakaalus mudelist. Kui elementide arv faktorite tasemetes on erinev (näiteks mõnes ka 0), siis on töö andmetega ja nende tõlgendamine raskem (tasakaalustamata mudel).

Fikseeritud ja juhuslikud mõjud muuda

Dispersioonanalüüsi mudeleid eristatakse ka selle järgi, kas tegu on fikseeritud mõjuga või juhusliku mõjuga faktoritega.[1] Fikseeritud mõjudega on tegu siis, kui mõjufaktoritel on lõplik arv tasemeid ja need kõik on haaratud või uuringus huvi pakkuv propositsioon käib ainult nende tasemete kohta. Juhuslike mõjudega mudelitega on tegu siis, kui haarata saab ainult valiku kõigist võimalikest tasemetest (vaata ka lineaarsed paneelandmemudelid).

Põhiidee muuda

 
Kogu dispersiooni saab hästi rühmadeks jagada, kui faktori tasemete vaheline varieeruvus on suur, varieeruvus nende sees aga väike.

Meetodit uurivad, kas (ja mõnikord kuidas) meetriliste juhuslike suuruste keskväärtused eri rühmades (ehk klassides) erinevad. Meetodi teststatistikutega kontrollitakse, kas rühmadevaheline dispersioon on suurem kui rühmasisene dispersioon. Nii saab kindlaks teha, kas jaotus rühmadeks on mõttekas või kas rühmad on oluliselt erinevad.

Kui nad on oluliselt erinevad, siis saab oletada, et rühmades toimivad erinevad seaduspärasused. Nii saab näiteks välja selgitada, kas kontrollrühm käitub samamoodi nagu katserühm. Kui näiteks nende kahe rühma vaheline dispersioon on juba tagasi viidud põhjustele (dispersiooni allikatele), siis saab ühesugusest dispersioonist järeldada, et teises rühmas pole (näiteks katsetingimuste tõttu) lisandunud uut mõjuallikat.

Eeldused ja alternatiivid muuda

Olulisustesti usaldatavus dispersioonianalüüsis sõltub sellest, kui hästi eeltingimused on täidetud. Need eeldused on eri rakendustes mõnevõrra erinevad, üldkehtivad on järgmised:

  • püsihajuvus ehk homoskedastsus ehk homoskedastilisus: eri rühmades peaks väärtustel olema ühesugune dispersioon;
  • ennustusvigade normaaljaotus: ennustusvigadel peaks olema normaaljaotusega üldkogum.

Kontrollimine toimub koos teiste testidega väljaspool dispersioonanalüüs, mis tänapäeval antakse statistikaprogrammide standardselt suvandina kaasa. Ennustusvigade normaaljaoust saab kontrollida muu hulgas Shapiro-Wilki testiga, püsihajuvust Levene testiga.

Dispersioonanalüüse ei peeta kuigi tundlikeks normaaljaotuse tungimuse täidetuse suhtes, eriti suurte valimite korral (vt tsentraalne piirteoreem). Püsihajuvuse puudumine on probleem, eriti kui rühmad ei ole ühesuurused. Ühefaktorilise dispersioonanalüüsi puhul saab sel juhul kasutada Browni-Forsythe'i testi. Peale selle on võimalik sõltuvate muutujate teisendamine rühmade dispersioonide võrdsustamiseks, näiteks logaritmimise teel. Kui eeltingimused ei ole piisavalt täidetud, saab kasutada ka mitteparameetrilisi meetodeid, mis ei ole nende suhtes tundlikud, kuid mille võimsus on väiksem ja mis testivad teisi parameetreid kui dispersioon, sest need põhinevad astakutel.

Ühefaktoriline dispersioonanalüüs muuda

Ühefaktorilise dispersioonanalüüsi puhul uuritakse ühe k tasemega (rühmaga) sõltumatu muutuja (faktori) mõju ühe juhusliku suuruse väärtustele. Selleks võrreldakse omavahel rühmade k keskmist, nimelt võrreldaks rühmadevahelist dispersiooni rühmasisese dispersiooniga. Et kogudispersioon koosneb neist kahest komponendist, siis räägitakse dispersioonanalüüsist. Ühefaktoriline dispersioonanalüüs on t-testi üldistus rohkem kui kahele rühmale. Juhtumil, k=2, on see samaväärne t-testiga.

Eeltingimused muuda

  • Vigade komponentidel peab olema normaaljaotus. Vigade komponentidel peab olema normaaljaotus. Vigade komponendid on kogudispersioon, töötlusdispersioon ja vigade dispersioon. Selle tingimuse kehtivus eeldab ühtlasi näitude normaaljaotust igas üldkogumis.
  • Vigade dispersioonid igas rühmas (faktori tasemes) peavad olema võrdsed või homogeensed (püsihajuvus).
  • Näidud või faktori tasemed peavad olema omavahel sõltumatud.

Näide muuda

See dispersioonianalüüsi vorm on sobiv, kui tuleb näiteks uurida, kas suitsetamine mõjutab agressiivsust. Suitsetamine on siin sõltumatu muutuja, mille saab jagada k=3 tasemeks: mittesuitsetajad, mõõdukad suitsetajad ja ahelsuitsetajad. Ankeedi abil kindlaks tehtud agressiivsus on sõltuv muutuja. Uuringus jagatakse katsealused kolmeks rühmaks. Seejärel lastakse neil täita ankeet, mille abil tehakse kindlaks agressiivsus.

Hüpoteesid muuda

Olgu   sõltuva muutuja keskväärtus i. rühmas. . Ühefaktorilise dispersioonanalüüsi nullhüpotees ütleb:

 

Alternatiivne hüpotees ütleb:

 

Nullhüpotees ütleb seega, et (faktori astmetele vastavate) rühmade keskväärtuste vahel pole erinevust. Alternatiivne hüpotees ütleb, et vähemalt kahe keskväärtuse vahel on erinevus. Kui faktori tasemeid on näiteks viis, siis on alternatiivhüpotees kinnitust leidnud, kui vähemalt kaks rühma keskmistet omavahel erinevad. Aga võib ka olla, et kolm, neli või kõik viis keskväärtust on omavahel selgelt erinevad.

Kui nukkhüpotees kummutatakse, ei anna dispersioonanalüüs seega aimu, mitme taseme või milliste tasemete vahel erinevus on. Me teame siis ainult teatud tõenäosusega (vt olulisusnivoo), et vähemalt kahel tasemel on oluline erinevus.

Nüüd võib küsida, kas tohiks teha mitme t-testiga paarikaupa võrdlused tasemete keskmiste vahel. Kui dispersioonanalüüsiga võrreldakse ainult kahte rühma (kahte keskmist), siis annavad t-test ja dispersioonanalüüs sama tulemuse. Kui aga rühmi on üle kahe, siis ei ole dispersioonanalüüsi globaalse nullhüpoteesi kontrollimine paarikaupa t-testide kaudu usaldatav: tekib esimest liiki vigade kuhjumine. Post-hoc-testide (näiteks Bonferroni test ja Scheffé test) abil saab pärast dispersioonanalüüsi olulist tulemust kontrollida, millised keskmised on erinevad. Nende meetodite eelis on selles, et nad võtavad arvesse esimest liiki vigade kuhjumise ohtu.

Arvutamise põhiideed muuda

Dispersioonanalüüsis arvutatakse kõigepealt vaadeldav kogudispersioon kõigi rühmades. Selleks võetakse kõik näidud kõigist rühmadest kokku, arvutatakse kogukeskmine ja kogudispersioon.

Seejärel tahetakse kindlaks teha seda osa dispersioonist, mis läheb ainult faktori arvele. Kui kogu vaadeldav dispersioon läheks faktori arvele, siis peaksid kõik näidud ühel faktori tasemel olema võrdsed, siis saaksid olla erinevused ainult rühmade vahel. Kõigil näitudel ühes rühmas peaks olema sama väärtus, sest faktor oleks dispersiooni ainus allikas. Praktikas aga näidud ühe taseme piires varieeruvad. Need erinevused peavad niisiis pärinema teistest mõjudest (kas juhusest või kolmandatest muutujatest).

Et nüüd välja arvutada, milline dispersioon läheb ainult faktori arvele, tõstetakse andmed korraks "ideaalselt" ümber: kõikidele näitudele taseme piires omistatakse vastava taseme keskmine. Niiviisi tehakse kõik väärtused ühe taseme piires võrdseks, ning ainus erinevus on nüüd faktori tasemete vahel. Nüüd arvutatakse nende "idealiseeritud" andmetega dispersioon uuesti. Seda nimetatakse faktori tekitatud dispersiooniks (töötlusdispersioon).

Kui töötlusdispersioon jagatakse kogudispersiooniga, saadakse faktorile tagasiviidava dispersiooni osakaal.

Kogudispersioon ja töötlusdispersioon reeglina lahknevad: kogudispersioon on töötlusdispersioonist suure. Dispersiooni, mi ei ole faktorile tagasiviidav, nimetatakse vigade dispersiooniks. See põhineb kas juhusel või teistel, uurimata muutujatel.

Vigade dispersiooni arvutamiseks tõstetakse andmed uuesti ümber: iga üksiku näidu jaoks arvutatakse selle hälve rühma keskmisest. Selle järgi arvutatakse uuesti kogu dispersioon. Seda nimetatakse vigade dispersiooniks.


Vaata ka muuda

Viited muuda

  1. Hans Friedrich Eckey. Multivariate Statistik: Grundlagen - Methoden - Beispiele, Dr. Th. Gabler Verlag, 2002, lk 94.