Veebi kasutamise andmekaeve

Veebi kasutamise andmekaeve on protsess, mis põhinedes veebikasutajate veebikäitumise kohta käival informatsioonil, sõelub veebiserveri logist välja kasuliku informatsiooni.[1]

Veebikaeve viitab andmekaevetehnikatele veebis. Veebi kasutamise andmekaeve hõlmab andmekaeve aspektist andmekaevetehnikaid, et aru saada ning teenida paremini kasutaja vajadusi veebis navigeerides.[1]

Veebi kasutamise andmekaeve kasutab oma uurimustes statistilisi meetodeid, nagu assotsiatsioonireeglite analüüs, klasterdamine ja sagedusmustrid.[2]

Põhinedes kasutaja vajadustel, selgitatakse veebi kasutamise andmekaevega veebiandmetes mustreid, saamaks aru ning teenimaks paremini veebipõhiseid rakendusi. Veebikasutamise andmekaevet kasutatakse varjatud mustrite avastamiseks veebi logides.[1]

Selline informatsioon on eriti vajalik ettevõtete veebilehtedel, tagamaks kliendirahulolu.[1]

Veebi kasutamise andmekaeveprotsessid muuda

Sarnaselt iga andmekaeveprotsessiga jaguneb ka veebi kasutamise andmekaeve protsess osadeks, millest kaks peamist on andmete eeltöötlemine ja mustrite avastamine.[1]

Andmete eeltöötlemine muuda

Andmete ettevalmistamine muuda

Veebis leiduvad andmed on kogutud ja neid kasutatakse veebi personaliseerimise kontekstis. Need andmed on klassifitseeritud nelja kategooriasse vastavalt[1]

  • Andmete sisu järgi – on esitatud lõplikul kujul, ehk kasutajale mugavalt struktureeritult. Tegemist võib olla teksti, piltide või struktureeritud informatsiooniga (andmebaasidest pärit info).
  • Struktureeritud andmed – väljenduvad sisu andmete sisu organiseerituse järgi. Struktureeritud andmete puhul  võib olla tegu andmeüksustega, mida on kasutatud HTML- või XML-veebilehtedel. Tegemist on andmeüksusega, mida on kasutatud veebisaidi kokkupanemiseks, nagu näiteks hüperlingid ning ühendus ühe või teise veebisaidi lehekülje vahel.[1]
  • Kasutusandmed, ehk veebisaidi kasutus – siia kuuluvad veebilehe külastajate IP-aadressid, veebilehe külastamise kellaaeg ja kuupäev ning kõik veebilehe külastuse käigus tehtud sammud, nagu seda on failid, kataloogid, vaadatud viidete lingid ja palju muud, mis talletub veebilogisse.[1]
  • Kasutaja profiiliandmed – sisaldavad informatsiooni veebilehe kasutajate kohta, sisaldades iga kasutaja kohta individuaalselt demograafilist informatsiooni kui ka informatsiooni kasutaja, kui indiviidi huvidest ja eelistustest. See info saadakse läbi registreerumisankeetide, küsitluste või on saadud veebikasutuslogide analüüsimise järelduste tulemusena. [1]

Andmete eeltöötlemine muuda

Veebis saadaolev informatsioon on heterogeenne ja struktureerimata. Seetõttu on andmete eeltöötlemise faas eelduseks mustrite avastamisele. Eeltöötlemise eesmärgiks on muuta seni defineerimata klõpsamisvoog, kui andmed, kasutaja profiili osaks. Andmete eeltöötlemises saab rakendada algoritme ja heuristilisi meetodeid, mis juhatavad käskudeni nagu liida, kustuta, seansi identifitseerimine jne. Andmete eeltöötlemine jaguneb:

  • Andmete puhastamine – eesmärgiks on vabaneda kõigest ebaolulisest, ehk mürast, nagu seda on JPEG-, GIF-, helifailid ja iseendale tagasi juhtivad viited.
  • Kasutaja identifitseerimine – iga veebisaidi kasutaja individuaalne identifitseeimine. Tegemist on väga olulise sammuga veebi kasutuse andmekaeves.
  • Seansi identifitseerimine – kajastab saidil veedetud aja kogusummat ehk seanssi. Seda võib kirjeldada kui veebilehtede kogumit, mida kasutaja on külastanud ühe veebisaidi külastuskorra jooksul. Kui seejärel on kasutaja identifitseeritud, liigitatakse selle kasutaja klõpsamisvoog loogilisse rühma ehk taastatakse seanss.[1]

Mustrite avastamine muuda

  • Mustrite avastamine – selleks, et kasutaja ning tema toimingud veebilehel oleks identifitseeritud, kasutatakse mustrite leidmise tehnikaid. Neid on eri lähenemisega, mis on tihtipeale kasutusel andmekaeves. Nendeks meetoditeks võivad olla näiteks sarnasuste reeglipärasuse leidmine, tihedusmustrid,  rühmitamine, klassifitseerimine jne[1]
  • Mustrite analüüs – mustrite analüüs on veebi kasutamise andmekaeve viimane faas, kuna saadud mustrid ei sobi ei tõlgendamiseks ega nende põhjal otsuste langetamiseks. Seetõttu on möödapääsmatu, mustrite avastamise faasist leitud, soovimatud ja ebahuvitavad reeglipärasused ning mustrid välja filtreerida. Selles faasis kasutatakse tööriistu/vahendeid, mille abil eelnevatest faasidest saadud informatsioon muutub teadmuseks.[1]

Sarnaselt iga andmekaeveprotsessiga jaguneb ka veebi andmekaeveprotsess osadeks, millest kaks peamist on andmete eeltöötlemine ja mustrite avastamine.[1]

Kasutusalad muuda

Veebi kasutamise andmekaeve on rakendus andmekaeve tehnikatest, avastamaks kasutusmustreid veebiandmetest, et mõista ning teenida paremini veebipõhiste rakenduste vajadusi. Huvi kasv veebi kasutamise andmekaeve vastu on olnud kiire nii uurivate kui ka praktilist kasutust viljelevate suundade poolt.[1]

Põhiliselt kasutatakse veebi kasutamise andmekaevet selleks, et koguda andmeid veebilehe kasutaja veebikasutusmustrite kohta, mida kasutatakse põhiliselt kasutajate silmis veebilehe parendamise tarvis.[2]

Haridus muuda

Veebi kasutamise andmekaevet rakendatakse tihtipeale veebisaitidel saidi kasutaja navigeerimisel, et nad seal ära ei eksiks. On kasvanud ka huvi andmekaeve rakendamises haridussüsteemis, mis aitaks ühitada eri teadusharusid. Samuti ei saa ka mainimata jätta kontaktõppele alternatiivi pakkuvaid veebipõhiseid haridusplatvorme nagu BlackBoard, Moodle jne.[1]

Veebi kasutuse andmekaeve teeb võimalikuks kogu veebis oleva info õpilase kohta, kus saab rakendada veebi kasutuse andmekaevet. See koosneks kolmest osast. Andmete eeltöötlus, mustrite avastamine ja soovitused. Kaks esimest faasi toimiksid võrgust väljas olles, kuid kolmas reaalajas. See peaks lõpptulemusena läbi veebi kasutuse andmekaeve protsesside viima kasutaja personaliseeritud veebilehtede sisusoovituste ja linkideni.[1]

Tervishoiu informaatika muuda

Osad haiglad ning kliinikud on omavahel ühenduses kohalike võrgupõhiste süsteemidega, ehk siis tervishoiu infosüsteemidega, mis hakkasid populaarsust koguma alles interneti leiutamise ja levimisega seoses, mistõttu nende süsteemide tugisambaks ongi internet.[1]

Inimese-arvuti interaktsioon muuda

Veebi kasutamise andmekaeve on andmekaeve liik, kus kasutatakse andmekaevetehnikaid, avastamaks väärtuslikke tehnikaid, internetikasutajate navigatsioonikäitumisest. Teisisõnu veebi kasutuse andmekaeve on uus otsinguterritoorium, mida defineerib andmekaeve tehnikate protsessi rakendamine, avastamaks uusi ja huvitavaid veebi kasutuse andmete mustreid. Veebi kasutuse andmekaeve pakub enam informatsiooni, saamaks aru veebipõhiste rakenduste serveri vajadustest ning veebidomeeni disaini nõuetest.[1]

Sotsiaalmeedia muuda

Veebi kasutamise andmekaeve mängib olulist rolli suhtlusvõrgustiku analüüsis.

Andmekasutuse ja kasutajakommunikatsiooni suhtlusvõrgustike lehtedel saab muuta relatiivseteks andmeteks nende suhtlusvõrgustike ülesehitamisel. Lisaks kasutatakse veebi kasutamise andmekaevet, et mõõta kesksust suhtlusvõrgustikes ning analüüsida nende arengut ja dünaamikat.[1]

Viited muuda

  1. 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 Rodda, S., Gullipalli, N (november 2014). "An Overview on Web Usage Mining". Conference: International Conference on Emerging ICT for bridging the future (CSI-2014) (inglise keeles). JNTU Hyderabad, Hyderabad, India. Vaadatud 24.01.2020.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link) CS1 hooldus: tundmatu keel (link)
  2. 2,0 2,1 Jokar, N., Honarvar, A.R., AgHamirzadeh, S., Esfandiari, K (2016). "Web mining and Web usage mining techniques". Bulletin de la Société des Sciences de Liège (inglise keel). Vol. 85, 2016, p. 321 - 328. Vaadatud 24.01.2020.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link) CS1 hooldus: tundmatu keel (link)