Ava peamenüü
Andmekaeve põhikomponendid

Andmekaeve[1] ehk andmekaevandamine[2] (inglise keeles data mining) on automaatne protsess kasulike mustrite paljastamiseks suurtest andmehulkadest. Andmekaeve on võrdlemisi noor uurimisvaldkond ning selle abil püütakse leida andmeid, mis jäävad oma struktuuri või mahu tõttu traditsioonilistele meetodile varjatuks.

Andmekaeve hõlmab väga erinevaid teadusharusid ja metoodikaid. Neist olulisemad on tehisintellekt (masinõpe, hägusloogika), statistika (sämplimine, hüpoteesi testimine) ja informaatika (otsimis- ja sorteerimisalgoritmid, andmebaasisüsteemid).

DefinitsioonidRedigeeri

Mõiste "andmekaeve" kohta on mitmeid tunnustatud definitsioone:

  • Andmekaeve on üks etapp teadmushõivest, mille eesmärgiks on automaatselt pöörata toorandmed kasulikeks teadmisteks.[3]
  • Andmekaeve on mahukate andmete analüüs, leidmaks uusi seaduspärasusi ja ootamatuid seoseid, ning summeerimaks andmeid sellisel uudsel viisil, et need oleksid samaaegselt arusaadavad ja kasulikud.[4]

AjaluguRedigeeri

Andmekaevandus sai alguse 1980ndate lõpus, kui kanda olid kinnitanud relatsioonilised andmebaasid ning tutvustati esimesi andmekaeve paradigmasid.

Suurem läbimurre toimus alles 1990ndate keskel ning sestpeale võib andmekaevet vaadelda kui infotöötluse loomuliku arengusammu, mis järgnes arvutustehnika võimsuse kasvule ja andmetalletamise odavnemisele, sest olemasolev infohulk ei suutnud rahuldada kasvavat teadmistenälga, mida tol ajal süvendas interneti buum (dot.com).

EesmärgidRedigeeri

Andmekaeve täiendab olulisel määral traditsioonilist andmeanalüüsi meetodit, pakkudes lahendusvõimalusi järgnevaile andmeanalüüsi probleemidele :

  • andmemahud – andmekaeve on skaleeritav erinevatele andmehulkadele, mistõttu suudab paralleelselt käidelda nii ülimahukaid kui ka väiksemahulisi andmeid, mis on sobivad klassikalise andmeanalüüsi meetoditele.
  • kõrgemõõtmelised andmed – andmekaeve suudab hakkama saada andmetega, mis võivad sisaldada tuhandeid atribuute; näitena võib välja tuua geenide mikromassiivid ja asukohapõhiste andmete kaevandamise;
  • keerukad ja heterogeensed andmehulgad – traditsioonilised andmeanalüüsi meetodid saavad hakkama vaid sama tüüpi numbriliste suurustega, mis võivad olla kas pidevad või kategoorilised suurused; andmekaeve suudab toime tulla keerukamate andmetega, mis võivad lisaks numbrilistele suurustele sisaldada tekstiväärtusi, ning on kohandatav andmetele, mis võivad olla hierharhilised või seostega lingitud.
  • andmete kuuluvus ja haldus – andmeanalüüsiks olulised andmestikud ei asu tihti ühes kohas ning on pärit mitme organisatsioonid andmelaost, mistõttu on oluline, et suudetaks vahetatavate andmete mahtu vähendada ning oleks võimalik turvaline hajusarvutamine; andmekaevandus võimaldab vähendada andmete töötlemisel kaasnevaid isikuandmete ja eetika probleeme.
  • hüpoteesi püstitamine – traditsioonilised statistilised meetodid põhinevad põhimõttel "püstita hüpotees ja kontrolli", mis seisneb selles, et püstitati hüpotees ning hakati eksperimendile sobilikke andmeid koguma, mida saaks vastavalt hüpoteesile analüüsida. See protsess on väga töömahukas ning raskesti automatiseeritav, sest nõuab pidevat inimesepoolset juhtimist.

Teadmushõive ja andmekaeveRedigeeri

Traditsiooniliselt loetakse andmekaevandust teadmushõive üheks protsessiks.[3][5]

Jiawei Han on oma raamatus "Data Mining – Concepts and Techniques" toonud andmekaeve nimetuse teadmushõivega samavääristamine põhjenduseks, et kolmandad osapooled (turundajad, andmebaasisüsteemide loojad) on võtnud ühe teadmushõive protsessi etapi ning üldistanud selle kogu protsessile.

Fayyad toob oma teoses [6] välja selgemini mõistetava põhjenduse – andmekaeve on teadmushõive tuum-etapp, teised teadmushõive etapid täidavad vaid toetavat rolli, seetõttu on loomulik andmekaeve mõiste ülekandumine teadmushõivele.

Teadmushõive protsessid:

 
Teadmushõive protsess
  1. Andmete eeltöötlemine:
    1. Andmete puhastamine – müra eemaldamine ja andmete ühtlustamine
    2. Andmete kombineerimine – erinevate andmeallikate koondamine
    3. Andmete alamosadeks jaotamine – edasiseks analüüsiks vajalike andmete hankimine ja valimine
    4. Andmete transformeerimine ja normeerimine – muutujate koondamine üheks, pidevate suuruste diskreetimine, sh ka binaarsete suuruste tekitamine
  2. Teadmiste hankimine:
    1. Andmete kaevandamine – sobivate mudelite valik
  3. Järelanalüüs:
    1. Tulemuste hindamine – testandmete rakendamine; Hinnatakse leitud mustri huviväärsust, selleks peab leitud tulemus olema hõlpsalt tõlgendatav, püsiv (või hinnatava muutlikkusega), kasulik ja informatiivne.
    2. Teadmiste rakendamine – tulemuste rakendamine ülesannetes või info lisamine eskertsüsteemidesse.

Teadmushõive süsteemi põhimõtteline skeem: [5]

  • Andmeallikas : Andmebaasisüsteem, andmeladu, veeb – andmete puhastamine ja koondamine
  • Andmebaasi server, andmelao klastrid – andmete kitsendamine ja ettevalmistamine
  • Teadmistebaas – andmekaeve eksperimendis uuritavate jaoks vajalike üldteadmiste kogum
  • Andmekaevanduse "mootor" – andmekaeve algoritmide tarkvaralised moodulid
  • Tulemuste hindamise süsteem – testandmete rakendamine ja tulemuste hindamine.
  • Kasutajaliides – tulemuste kuvamine ja tegevuste monitoorimine

CRISP-DM protsessimudelRedigeeri

Juhtivate andmeanalüüsi ettevõtete loodud standard, mille eesmärk on kaitsta ärihuve ja ühtlustada andmekaeve protseduure, et protseduurid suudaksid tagada valdkonna ja vahendite sõltumatuse.

Protsesside lühiülevaade:

  1. Valdkonnaga tutvumine -äriliste eesmärkide kinnitamine, alusteadmiste kogumine ja nendega tutvumine.
  2. Andmete mõistmine – andmete kogumine, struktuuri ja andmete kvaliteediga tutvumine.
  3. Andmete ettevalmistamine – suuruste tranformeerimine ja kohandamine algoritmidele sobivale kujule.
  4. Andmekaevandamine – sobivate tehnikate valimine ja rakendamine ettevalmistatud andmetel
  5. Tulemuste hindamine – hinnatakse tulemuste vastavust punktis 1 kokkulepitud äriliste eesmärkidega.
  6. Juurutamine – uute ja kasulike teadmiste integreerimine otsussüsteemidesse või lisamine teadmusbaasi.

Töömahu hinnanguline kulu protsesside kaupa:

Protsess Ajakulu (%) Alamprotsessid Äripool Analüütik IT
Valdkonnaga tutvumine 5–10 Eesmärkide püstitamine, edukuse määratlemine X
Andmete mõistmine 10–15 algandmete kogumine, andmete uurimine, kvaliteedi esmahinnang X X
Andmete ettevalmistamine 30–60 andmete valimine, puhastamine, kohandamine X X
Modelleerimine 20–30 Tehnikate ja tööriistade valimine, mudelite koostamine X
Tulemuste hindamine 20–30 Kasulikuma mudeli valimine, mudeli tulemuste selgitamine X X
Rakendamine 5–10 Teadmiste rakendamine, monitoorimine ja hooldus X X X

AndmekaevetehnikadRedigeeri

Jagunevad üldiselt kahte kategooriasse:

  • Prognoosiv analüüs (inglise Predictive Analysis, vene Предсказательная аналитика) – eesmärk on hetkel olemasolevate andmete põhjal tuleviku või tundmatute väärtuste hindamine.
    • üks näiteid on regression, mis sarnaneb klassifitseerimisega, kuid mille väljund on pidev reaalarvuline suurus.
    • (nt: lineaarne regressioon, ... )
  • Kirjeldav analüüs – ülesanne on kirjeldada andmete omadusi
    • võivad jaguneda veel juhitud/juhtimata
    • klassifitseerimine – kindlasti juhtimisega tegevus – ajaloo/näite olemasolu on oluline
    • klasterdaminejuhendamiseta õppimine, juhindutakse vaid andmete laadi järgi, rühmitatakse põhimõttel "suurendada rühmadevahelist sarnasust ning suurendada rühmadevahelist erinevust."
      • (SOM, ... )
    • seoste, mustrite analüüs – ostukorvi analüüs, põhjuslik-tagajärg jne
    • anomaaliate analüüs – teistest juhtumitest erinevate suuruste väljatoomine, täiendab statistilisi meetodeid, mis hindavad erijuhtumeid hälbe või tõenäosusega
    • evolutsiooni analüüs – eesmärk on uurida trendide muutumist
    • Visualiseerimine – (graafiline kaevandamine (inglise visual mining)) – mõnikord väga kasulik tehnika, sest sageli on inimese mustrite genereerimisvõime on märksa suurem kui programmil, sobiv tehnika tulemuste vahevalideerimiseks

Ekslikud tõlgendusedRedigeeri

Ajakirjanduses võib kohata andmekaevanduse vääriti tõlgendamist ja mõiste liigset laiendamist, mille tulemusena on täiesti omaette tehnoloogiamõisted koondatud andmekaeve alla. Mõistete segiajamine on valdavalt tingitud andmekaeve noorusest, paljud mõisted pole kinnistunud ja tehnoloogiamõistete hulk suureneb väga kiiresti.

  • Otsingumootorid, andmekogud – otsingu algoritmid võivad olla keerulised ja töötada suurte andmehulkadega, kuid tulemuste kuvamisel ei rakendata andmekaevanduse meetodikaid. Segiajamine on tingitud sellest, et otsingumootorid kasutavad teadmiste hankimisel andmekaeve algoritme, kuid ei tee seda otsingutulemuste kuvamisel.
  • OLAPandmelaonduse vaatevinklist võib andmekaeve paista kui täiustatud OLAP. Kuid OLAP seisneb vaid suurte andmekuupide koondamisel ja lõikamisel ning on info esitusviisilt deduktiivne (üldistav), samas on andmekaeve oma olemuselt induktiivne. Segiajajad on samuti ära unustanud, et OLAP pole automaatne, vaid teadmise hankimisel on vaja inimesepoolset juhendamist.
  • Masinõppe süsteem – kui kasutatakse inimese intellekti jäljendamisel, aga mitte informatsiooni paljastamisel andmehulkadest (pole pelgalt ML).
  • Statistilise analüüsi süsteem – graafilised kellad-viled petavad ära ning segiajajad on jällegi ära unustanud, et andmekaeve on automaatne protsess.

Statistika ja andmekaevandusRedigeeri

Andmekaeve algusperioodil põhjustas uus andmetöötluse metoodika tuliseid vaidlusi ja sagedast mõistete segiajamist. Traditsiooniliste statistikute jaoks oli andmekaeve mõiste segane ja nad pidasid seda pelgalt äriliste ettevõtmiste uueks turundustrikiks ning hiljem, kui andmekaeve oli saavutanud arvestatava kõlapinna, hakkasid mitmed juhtivad statistikud andmekaevanduse mõistet suruma statistika alla.[7][8]

Tänapäeval on mõiste "andmekaeve" paika loksunud ning Fayyadi raamatus[6] on esitatud selged piirid statistika ja andmekaeve vahel: "Statistikat defineeritakse kui meetodit andmete kogumiseks, esitlemiseks, kokkuvõtmiseks, hüpoteeside testimiseks ning järelduste tegemiseks, kasutades induktiivseid ja deduktiivseid arutluskäike. Andmekaevanduse eesmärgiks on eelkõige olemasolevatest andmetest huvitavate struktuuride määratlemine ning andmete vaheliste seoste ja mustrite leidmine, kasutades induktiivseid ja tehisintellekti tehnikaid. "

Väike erisuste loend

  • Eesmärk on sama
  • Metoodikad on erinevad
  • Statistika formaliseerib hüpoteesi enne andmete analüüsi
  • Statistika võimaldab testida üht hüpoteesi korraga.
  • Andmekaeve ülesande lahendamine ei eelda hüpoteesi püstitamist
  • Töödeldavad infomahud erinevad kordades
  • Andmekaevel on parem erijuhtumite ja müra tundlikkus
  • Statistika tegeleb vaid numbriliste suurustega
  • Andmekaeve võimaldab teha reaalajalisi analüüse

RakendusvaldkonnadRedigeeri

Finants, kindlustusRedigeeri

  • Kliendi maksejõu hindamine
  • Kliendi riskirühma määramine
  • Maksevõrgustiku analüüs
  • Krediitkaardi pettused
  • Rahapesu analüüs

BioinformaatikaRedigeeri

  • DNA mikromassiivide klasterdamine

KaupmehedRedigeeri

  • Ostukorvi analüüs
  • Otseturundamine
  • Ristmüük
  • Järelmüük
  • Poe kaubalettide asetus

TelekommunikatsioonRedigeeri

  • Klientide mikrosegmenteerimine
  • Kaugkõnede pettuste analüüs
  • Klientide lahkumise (lepingu lõpetamine, kõnekaardi mittekasutamine) tõenäosuste prognoosimine
  • Peale- ja ristmüügi võimaluste (tõenäosuste) prognoosimine

Isikuandmete kaitseRedigeeri

Privaatsuspoliitika ja paranoiline (paraku mitte alati alusetu) hoiak erinevate eraeluliste andmete kogumisel tekitab sageli avalikke diskussioone erinevate andmete analüüsimise eetika kohta, seda ka Eestis.[9]

Reaalajaliste andmete töötlemise tundlikkuse ja kasulikkuse vahel tuleb teha kompromiss, sest saadud kasu on tavaliselt suurem. Näiteks nutitelefonide asukoha kaevandamine võimaldab paremini juhtida liiklust ning vähendada ummikuid. Samas küüniline allikate hägustamine ei pruugi veel tagada isikuandmete varjamist, sest mõnikord on võimalik mitme allika koondamisel tundlikud andmed taastada.[10]

TarkvaraRedigeeri

  • Statistika keskkond R ja moodul Rattle
  • Matlab moodul Spyder
  • Weka, RapidMiner,
  • Programmeerimiskeelte laiendid: Python, Java

OrganisatsioonidRedigeeri

  • Eestis
    • BIIT
  • Rahvusvahelised
    • ACM KDD
    • IEEE CIS
    • PASCAL

Vaata kaRedigeeri

ViitedRedigeeri

  1. EMS
  2. E-teatmik
  3. 3,0 3,1 VIpin Kumar, Pang-Ning Tan, Micheal Steinbach , "Introduction to Data Mining", USA, Pearson, 2006
  4. David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", USA, MIT Press, 2001
  5. 5,0 5,1 Jiawei Han, Micheline Kamber: "Data Mining – Concepts and Techniques", USA, Morgan Kaufmann, 2. trükk, 2005
  6. 6,0 6,1 Usama Fayyad, Georges Grinstein, Andreas Wierse, "Information Visualization in Data Mining and Knowledge Discovery", USA, Morgan Kaufman, 2001
  7. Mannila: "Why do statisticians "hate" us?"
  8. Jerome Friedman: "Data Mining and Statistics: What's the Connection?"
  9. Innar Liiv, "Andmekaevandamine", A&A 2002
  10. Carnegie Mellon intervjuu Tom. M. Mitchelliga 7. märts 2010

VälislingidRedigeeri