Bootstrap (statistika)

Bootstrap-meetod (ingl bootstrap method) on arvutusmahukas statistiline meetod, mis põhineb taasvalikul. Bootstrapi abil saab hinnata mingit üldkogumi parameetrit (näiteks dispersiooni, keskväärtust või asümmeetriakordajat) või leida selle usaldusvahemikku.[1][2] See meetod võimaldab hinnata peaaegu kõikide statistiliste parameetrite jaotust kasutades juhuslikku taasvalikut tagasipanekuga olemasolevatel andmetel.[3][4] Võimalik on eristada parameetrilist ning mitteparameetrilist bootstrappi.

Levinum kahest variandist on mitteparameetriline bootstrap selle matemaatiliselt lihtsa sisu tõttu. Nagu nimi viitab, ei tehta mitteparameetrilise bootstrapi puhul suuri eeldusi jaotuse (ja selle parameetrite) kohta. Eeldatakse vaid seda, et üldkogum on sama jaotusega nagu olemasolevad andmed.[5]

Parameetrilise bootstrapi puhul eeldatakse, et valim on mingist jaotusest (näiteks normaaljaotusest). Parameetrilist bootstrappi eelistatakse tavaliselt juhul, kui taustateadmistele tuginedes saab teha eelduse valimi ja üldkogumi jaotuse kohta. Samuti on parameetriline bootstrap abiks siis, kui andmeid on väga vähe (alla 10 andmepunkti).[5]

Bootstrap-meetodi idee muuda

Bootstrap põhineb ideel, et valimi andmete põhjal saab teha järeldusi üldkogumi parameetri   käitumise kohta, kui valimi andmeid piisavalt palju juhuslikult taasvalida.

Tavaliselt ei teata, mis jaotusest andmed pärinevad ja seega millised on õiged eeldused andmete jaotuse kohta. Seetõttu on tänapäeval küllaltki populaarsed meetodid, mis võimaldavad vähemalt ligikaudselt hinnata huvipakkuvaid suuruseid ainult olemasolevate andmete põhjal. Selliseid meetodeid nimetatakse taasvaliku meetoditeks.[6]

Üldjuhul kasutatakse bootstrap-meetodit siis, kui on teada vaid andmete empiiriline jaotus ning õige jaotus on tundmatu. Kui õige jaotus oleks teada, siis saaks probleemile (nt keskväärtuse/standardhälbe leidmisele) ka analüütiliselt läheneda.[7] Paraku on aga keerulisemate probleemide puhul analüütiline lähenemine tihtipeale võimalik ainult siis, kui teha ebareaalseid või tõestamata eeldusi. Seega keerulisemaid probleeme on mõistlik lahendada simuleerimismeetodeid kasutades.[8]

Bootstrapi algoritmi kirjeldus muuda

Oletame, et tahame hinnata üldkogumi keskväärtust. Olgu meil valim (andmestik)  , mille elemendid on  . Bootstrap meetod põhineb taasvalikul, mis seisneb selles, et konstrueeritakse uus valim  , kuhu võetakse juhuslikult tagasipanekuga uusi elemente algsest valimist  . Seejärel leitakse valimi   keskväärtus. Seda protsessi korratakse väga palju kordi (minimaalselt   kordust, aga soovituslik oleks vähemalt   kordust) ning tulemus keskmistatakse. Selline teguviis annab meile aimduse sellest, kuidas üldkogumi parameeter käitub (nt mis vahemikku võiks parameeter jääda ja mis on parameetri standardhälve).

Sarnase algoritmiga saab ka leida muud infot üldkogumi keskväärtuse kohta. 95% usaldusintervalli üldkogumi keskväärtusele saame leida, kui võtame kõikidest valimi   keskväärtusest 0,025 ja 0,975 kvantiili väärtuse vastavalt alumiseks ning ülemiseks usalduspiiriks.

Bootstrapi vajalikkusest ja ajaloost muuda

Bootstrap-meetodit tutvustas esimesena Ameerika statistik Bradley Efron 1979. aastal ilmunud artiklis "Bootstrap Methods: Another Look at the Jackknife". Bootstrap-meetodi ("saapapaela meetodi") nimi pärineb Bradley Efronilt: "Pulling oneself up by one's bootstraps", mis peaks ilmestama, et hakkama tuleb saada vaid omaenda vahenditega (andmetega).[8]

Viited muuda

  1. Efron, B.; Tibshirani, R. (1993). "An Introduction to the Bootstrap". Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2.
  2. Bradley Efron (2003). "Second Thoughts on the Bootstrap". Statistical Science. Volume 18, Issue 2 (2003), lk 135–140.
  3. Varian, H. (2005). "Bootstrap Tutorial". Mathematica Journal, 9, 768–775.
  4. Weisstein, Eric W. "Bootstrap Methods.". MathWorld – A Wolfram Web Resource.
  5. 5,0 5,1 Bob Dransfield, Bob Brightwell. "A parametric or non-parametric bootstrap?".
  6. Raul Kangro (2017). "Monte-Carlo meetodid loengukonspekt". Tartu Ülikool.
  7. S. Sawyer (11.03.2005). "Resampling Data: Using a Statistical Jackknife" (PDF). Vaadatud 18.03.2018.
  8. 8,0 8,1 Rauno Viin (2013). "Bootstrap-meetod kahjukindlustuse reservide hindamisel" (PDF). Vaadatud 18.03.2018.