Anscombe'i kvartett

Anscombe'i kvartett on näide statistikas, mille eesmärk on korrelatsioonanalüüsis lineaare korrelatsioonikordaja leidmise korral hajuvusdiagrammide tutvumise tähtsuse rõhutamine.[1] Nimelt iseloomustab lineaarne korrelatsioonikordaja vaid lineaarse seose tugevust. Juhul kui punktikogum järgib mingit mittelineaarset kõverat või sisaldab erindeid, siis seose tugevuse hindamiseks lineaarne korrelatsioonikordaja ei sobi.

Anscombe'i kvartett. Kõikide hajumisdiagrammide korral on lineaarne korrelatsioonikordaja 0,816. Ülal vasakul on tüüpiline korrelatiivne seos, mille tugevuse hindamiseks lineaarne korrelatsioonikordaja sobib. Ülal paremal funktsionaalne mittelineaarne seos. Alumistel diagrammidel on selgesti eristavad erindid.

Näite nimetus tuleneb tema tutvustajast statistikust Francis Anscombe'ist, kes 1973. aastal demonstreeris sellega andmete visuaalse esitlemise vajalikkust statistiliste üldistuste tegemisel, statistilises analüüsis.

Näite lähem kirjeldus

muuda

Iga andmehulk koosneb üheteistkümnest punktist koordinaatidega (x,y), kusjuures x-i väärtused on kõigi nelja andmehulga puhul samad:

Anscombe'i kvarteti andmed
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89


Kõigi andmehulkade puhul:

Parameeter Väärtus
x-i aritmeetiline keskmine on kõigil juhtudel 9 (täpselt)
x-i valimi dispersioon (sample variance) on kõigil juhutudel 11 (täpselt)
y-i aritmeetiline keskmine on kõigil juhtudel 7.50 (ümardatud 2 komakohani)
y-i valimi dispersioon on kõigil juhtudel 4.122 or 4.127 (ümmardatud 3 komakohani)
x-i ja y-i lineaarne korrelatsioonikordaja on kõigil juhtudel 0.816 (ümardatud 3 komakohani)
Lineaarregressiooni tulemusel saadud joon on   (ümardatud vastavalt 2 ja 3 komakohani)

Lisaks on

  • keskmise ruutvigade summad (sum of squared errors) 110,0
  • x-i dispersiooni ruutvigade regressioonisummad (regression sums of squared errors) = 27,5
  • regressioonijoone ruutvigade jääksummad (residual sums of squared errors) = 13,75
  • determinatsioonikoefitsient (coefficient of determination) = 0,67

Ülemine vasakpoolne joonis kujutab enesest lihtsat kahe muutuja lineaarset sõltuvust, mis järgib normaaljaotust.

Ülevalt parempoolse joonise puhul ei ole tegu normaaljaotusega: kuigi võib näha kahe muutuja ilmset sõltuvust, ei ole tegu lineaarse sõltuvusega ning Pearsoni korrelatsioonikoefitsient

Alumisel vasakul jooniel on tegu lineaarse jaotuse, kuid erineva regressioonijoonega.

Alumisel paremal joonisel on näha, kuidas üksik erind (outlier) võib põhjustada piisavalt suure korrelatsioonikoefitsiendi isegi siis, kui kahe muutuja suhe ei ole lineaarne.

Viited

muuda
  1. Ako Sauga (2020). Statistika õpik majanduseriala üliõpilastele. Tallinn: Tallinna Tehnikaülikooli kirjastus. Lk 27. ISBN 978-9949-83-519-5.

Välislingid

muuda