Andmeviimistlus

Andmeviimistlus on puudulike, rikutud, väärade, kooskõlata, vales vormingus või dubleerivate andmete otsing ja parandamine või kõrvaldamine andmestust, tabelist, andmebaasist, erinevalt andmekoristusest mitte mäluressursi vabastamiseks, vaid andmete õigsust ja täpsust taotledes.^[1] Põhjuseks võib olla ebaõiged, rikutud, valesti vormindatud, dubleeritud või mittetäielikud andmed, mida on vaja kustutada, täiendada või muuta, et andmeid saaks kasutada. Mitme andmehulga kombineerimisel on mitmeid võimalusi, et andmed võiksid olla dubleeritud või valesti märgitud. Kui andmed on valed, on ka lõpptulemused ja nendest tulenevad algoritmid ebausaldusväärsed, kuigi esmamulje võib tunduda õige. Andmete viimistlemise protsessi täpsete etappide määramiseks ei ole ühte kindlat viisi, kuna viimistlemise protsessid on andmekogumiti erinevad. Kuid on ülioluline luua teatud andmete viimistlemise jaoks protsessi läbiviimise mudel, et viimistlemine oleks iga kord sarnasel viisil tehtud.^[2]

Andmete viimistlemisele eelneb analüüs, mille eesmärk on saada andmetest ülevaade ja selgitada välja kas andmeid on üldse vaja viimistleda või mitte. Ehk andmete viimistlemine hõlmab kõigi andmebaasis olevate andmete ülevaatamist, et eemaldada või värskendada teavet, mis on mittetäielik, vale, valesti vormindatud, dubleeritud või ebaoluline. Andmete viimistlemine ei aita, kui andmed juba algselt puuduvad, andmed on süstemaatiliselt vigased või kui tehniliselt on korrektsed, kuid sisuliselt on valed. ^[3]

Ettevõtted, kes soovivad oma valitud turgudel edu saavutada, peavad mõistma andmete viimistlemise tähtsust analüütikas. Andmete viimistlemise protsess mängib olulist rolli paljude andmeallikate sujuvamaks muutmisel ja viib ettevõtte paremate otsustusvõimeteni. Viimistletud andmed aitavad luua ettevõtte jaoks usaldusväärset statistikat, parandades seega töötajate tootlikkust ja klientide kaasamist.^[4]

Andmete viimistlemise eesmärgid

Andmete viimistlemise eesmärgiks on tavaliselt üks kolmest suuremast eesmärgist, miks seda läbi viiakse:

Organisatsiooni klientide teabe säilitamine, et võimaldada asjakohast suhtlust
Organisatsiooni andmete kompaktsemaks muutmimine
Äritegevust toetava teabe säilitamine (nagu maksete kogumine ja tarnete sooritamine)
Andmete viimistlemise kaudu erinevate tööstusharude, sealhulgas andmekaitsealaste õigusaktidega vastavusse viimine nagu GDPR^[3]
Andmete töötlemisele eelnev andmete modifitseerimine-häälestamine, et protsessi optimeerida

Andmete viimistlemise sammud

Andmete viimistlemine koosneb järgmistest sammudest:

Alg-andmed
Andmeprobleemide tuvastamine
- Valed või ebatäpsed andmed
- Valel kujul andmed
- Ebavajalikud andmed
Andmeprobleemide ”lahendamine"
- Väärtuse parandamine/ asendamine
- Väärtuse eemaldamine
Viimistletud andmed^[5]

Andmeviimistlemise käigus parandatavad probleemid

Kirjavead ja vigased või puuduvad andmed. Andmete viimistlemine parandab andmekogumites erinevaid struktuurivigu. Näiteks sisaldab see kirjavigu ja muid tüpograafilisi vigu, valesid numbrilisi kirjeid, süntaksivigu ja puuduvaid väärtusi nagu tühjad või tühjad väljad, mis peaksid sisaldama andmeid.

Vastuolulised andmed. Nimed, aadressid ja muud atribuudid vormindatakse sageli süsteemiti erinevalt. Näiteks võib üks andmekogum sisaldada kliendi keskmist algustähte, teine aga mitte. Andmeelemendid, nagu terminid ja identifikaatorid, võivad samuti erineda. Andmete viimistlemine aitab tagada andmete järjepidevuse, et neid saaks täpselt analüüsida.
Dubleeritud andmed. Andmete viimistlemine tuvastab andmekogumites duplikaatkirjed ja eemaldab või liidab need dubleerimismeetmete abil. Näiteks kahe süsteemi andmete kombineerimisel saab dubleeritud andmekirjeid ühtlustada, et luua üks kirje.

Ebaolulised andmed. Mõned andmed – näiteks kõrvalekalded või aegunud kirjed – ei pruugi olla analüütikarakenduste jaoks asjakohased ja võivad nende tulemusi moonutada. Andmete puhastamine eemaldab andmekogumitest üleliigsed andmed, mis muudab andmete ettevalmistamise sujuvamaks ning vähendab vajalikku andmetöötlus- ja salvestusressursside hulka.^[6]

Andmekvaliteedi kriteeriumid andmete viimistlemisel

Andmete viimistlemisel esimene samm on kvaliteedikriteeriumide komplekti kehtestamine. Kriteeriumid peavad olema täpselt määratletud, et andmekogudest välja filtreerida "kasutud andmed".

Andmepiirangud: Kogutud andmete optimaalse kvaliteedi tagamiseks on mitut tüüpi andmepiiranguid, näiteks:

Andmetüübi piirangud: piiratud ulatus registreerida väärtusi, nagu tõeväärtus, numbrid, kuupäev jne.
Vahemiku piirangud: arvväärtused ei ole absoluutsed, pigem on neil minimaalsed ja/või maksimaalsed lubatud väärtused.
Kohustuslikud piirangud: kõik veerud peavad olema täidetud.
Ainulaadsed piirangud: iga väli või väljade kombinatsioon peab kogu andmestiku ulatuses olema kordumatu.
Liikmelisuse piirangud: diskreetsete väärtuste või koodide komplekt igas veerus.
Võõrvõtme piirangud: alamväärtusi saab lisada lubatud väärtuste komplektiga teistele veergudele.
Regulaaravaldise mustrid: määrake lubatud mustrid, nagu telefoninumbri, jaama koodi, PIN-koodi ja nii edasi mustrid.
Valdkondadeülene valideerimine: näiteks organisatsiooni andmebaasis ei tohi töötajaga liitumise andmed olla varasemad kui töölt lahkumise kuupäev.

a* Andmepiirangute seadistamine aitab säilitada andmete kvaliteeti andmete kogumise protsessi alguses.^[viide?]

Täpsuse tagamine

Kuigi andmepiirangud tagavad teatud määral õige andmeväärtuse, jääb täpsus valdkonna subjektiivseid aspekte arvestades siiski väljakutseks. Näiteks kui keegi sisestab aadressi, aitab mustripiirangute seadmine tagada, et sihtnumber ja maakond on õiged, kuid on võimalik, et aadress ei pruugi siiski olla täpne ja seega tõene.^[viide?]

Dubleeritud andmete eemaldamine

Andmekogumites esinev dubleerimine ilmneb siis, kui on ühendatud paremaks ülevaate saamiseks mitu andmekogumit. Dubleerivad andmed võivad olla ebatäielike andmete või andmestruktuuride probleemi tagajärg. Näiteks kui sama patsient külastab vaevuste tõttu teist haiglat, ei pruugi patsiendiga tegelev meedik soovida andmeid arvestada kahe erineva patsiendina, vaid ühena. Selline andmete dubleerimine võib luua vale narratiivi või mõjutada tulemust üldiselt.^[viide?]

Aktsepteerida tuleks ainult täielikke andmeid

Kuigi enamik tarkvaratööriistu ei aktsepteeri mittetäielikke andmeid, võib arvutustabelite või pabervormide kasutamine põhjustada andmete mittetäielikkust. Näiteks auto tehnoülevaatusankeedil võib probleemi tüüp või pakutav lahendus olla teadmatuse või teabe kättesaamatuse tõttu valesti kirjeldatud või teatud väljad tühjaks jäetud.^[viide?]

Säilitada tuleks järjepidevus ja ühtlus

Andmed ei ole järjepidevad, kui kaks väärtust erinevates väljades on üksteisega vastuolus. See juhtub siis, kui kombineeritakse mitme osakonna või ajaraami andmed. Kui andmed pole õigesti sorteeritud, võivad sellised probleemid mõjutada andmete tulemust.

Andmete ühtsuse osas on viidatud mõõtühikule. Näiteks võite mõõta vahemaad miilides või kilomeetrites või valuuta väärtust dollarites, naelates või eurodes. Täpsete tulemuste saavutamiseks on oluline nii andmete järjepidevus kui ka ühtsus.^[viide?]

4-astmeline andmete viimistlemise protsess

Andmete viimistlemise hõlmab andmete terviklikkuse säilitamiseks kõigi ülaltoodud kriteeriumide arvestamist. Kui andmed on ülaltoodud kriteeriumide alusel kogutud, saab täpsuse parandamiseks teha järgmist:

Kontrollimine: vaadake andmed üle, et tuvastada andmete ebatäpsused kvaliteedikriteeriumide lõikes
Viimistlemine: eemaldage andmekogudest kõrvalekalded
Kontrollige: kontrollige viimistlemise protsessi ristvalideerimist tagamaks, et kõik ebatäpsused ja ebakõlad on eemaldatud
Raport: koostage aruanne tehtud muudatuste ja süsteemi salvestatud andmete hetkekvaliteedi kohta.

Andmete viimistlemine peab olema pidev protsess, kuna aja jooksul olukord muutub ja see mõjutab salvestatud andmete kvaliteeti. Vanadest, aegunud andmetest ei pruugi abi olla. Andmete perioodiline puhastamine aitab luua täpse ülevaate, mis mõjutaks ülevaate täpsust, äriotsuseid ja juhiks organisatsiooni strateegiaid positiivsemas suunas.^[7]

Vaata ka

Viited

↑ "andmete viimistlus; andmeviimistlus". akit.cyber.ee. Andmekaitse ja infoturbe leksikon. Vaadatud 9. detsembril 2022.
↑ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau. Vaadatud 7. detsembril 2022.
↑ ^3,0 ^3,1 Reisberg, Sulev. "Andmete puhastamine Ja sellega tihedalt seotud ETL (extract-transform-load)" (PDF). Vaadatud 8. detsembril 2022.
↑ Amadebai, Emidio. "The Importance of Data Cleaning In Analytics Explained" [The Importance of Data Cleaning In Analytics Explained]. Originaali arhiivikoopia seisuga 8. detsember 2022. Vaadatud 8. detsembril 2022.
↑ Kumar, Bharani. "What is Data Cleansing?". Vaadatud 8. juulil 2023.
↑ Stedman, Craig. "data cleansing (data cleaning, data scrubbing)" [The Importance of Data Cleaning In Analytics Explained]. Vaadatud 8. detsembril 2022.
↑ Mittal, Avee (8. aprill 2021). "Data Cleansing: Why It's Important" [The Importance of Data Cleaning In Analytics Explained]. Dataversity Digital LLC. Vaadatud 8. detsembril 2022.

[akit-1] "andmete viimistlus; andmeviimistlus". akit.cyber.ee. Andmekaitse ja infoturbe leksikon. Vaadatud 9. detsembril 2022.

[Tableau_2022-2] "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau. Vaadatud 7. detsembril 2022.

[andmete-pu-3] 3,0 ^3,1 Reisberg, Sulev. "Andmete puhastamine Ja sellega tihedalt seotud ETL (extract-transform-load)" (PDF). Vaadatud 8. detsembril 2022.

[4] Amadebai, Emidio. "The Importance of Data Cleaning In Analytics Explained" [The Importance of Data Cleaning In Analytics Explained]. Originaali arhiivikoopia seisuga 8. detsember 2022. Vaadatud 8. detsembril 2022.

[5] Kumar, Bharani. "What is Data Cleansing?". Vaadatud 8. juulil 2023.

[6] Stedman, Craig. "data cleansing (data cleaning, data scrubbing)" [The Importance of Data Cleaning In Analytics Explained]. Vaadatud 8. detsembril 2022.

[7] Mittal, Avee (8. aprill 2021). "Data Cleansing: Why It's Important" [The Importance of Data Cleaning In Analytics Explained]. Dataversity Digital LLC. Vaadatud 8. detsembril 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]