Andmeteadus

Andmeteadus (data science) on interdistsiplinaarne valdkond, mis kasutab mitmeid tehnikaid ja lähenemisi, mille abil luuakse struktureeritud ja struktureerimata andmetele tähendust.[1][2]

Andmeteadus on seotud andmekaeve (data mining) ja suurandmetega (big data).[2]

Andmeteaduse mõisteRedigeeri

Kuigi mitmed uurijad on püüdnud andmeteadust defineerida, puudub sellel üks kindel ja üldtunnustatud määratlus.[3]

  • Vasant Dahri järgi keskendub andmeteadus andmetest teadmuse väljaselekteerimisele.[4]
  • Foster Provost ja Tom Fawcett defineerivad andmeteadust kui aluspõhimõtete kogumit, mis toetavad ja juhivad informatsiooni ja teadmiste eraldamist andmetest.[5]
  • John W. Foremani hinnangul on andmeteadus andmete muundamine matemaatika ja statistika abil väärtuslikeks teadmisteks, otsusteks ja toodeteks.[6]
  • John D. Kelleher ja Brendan Tierney defineerivad andmeteadust põhimõtete, probleemipüstituste, algoritmide ja protsesside kogumina, mille abil on võimalik eraldada mitmekülgseid ja kasulikke mustreid suurtest andmekogumitest. Nad mainivad veel, et andmeteaduse väljakutsed on näiteks sotsiaalmeedia struktureerimata andmete kogumine, puhastamine ja muundamine, suurandmete tehnoloogia kasutamine suurte andmekogumite säilitamiseks ja töötlemiseks ning andmete kasutamise eetika regulatsioonidega seotud probleemid.[7]
  • Andmeteaduse Ühing (The Data Science Association) defineerib andmeteadust kui andmete loomise, kehtivuse kontrollimise ja muutmise teaduslikku uurimist, mille eesmärk on tähenduse loomine.[8]

Uurijad on üksmeelel selles, et andmeteadus on järjest rohkem esile tõusev interdistsiplinaarne valdkond, mis tegeleb suurandmetest väärtuslike mustrite tuvastamise ja kaevandamisega, andmete muutmisega informatsiooniks ja teadmisteks.[3]

Andmeteadus hõlmab kõiki tegevusi, mis aitavad andmete põhjal kasulikke otsuseid teha. Andmeteadus ei ole eraldi eesmärk – see on kogum meetodeid, mis aitab juba seatud eesmärke paremini saavutada, kasutades selleks andmeid.[2]

Andmeteaduse elutsükkelRedigeeri

Andmeteaduse elutsükli kaheksa sammu.[9]

1. Äri mõistmine Millisele küsimusele vastust otsitakse? Milliseid mõõdikuid hinnatakse?

Hüpoteesi sõnastamine. Ressursside (inimesed, andmed, töövahendid) hindamine.

2. Andmete mõistmine Andmeressursside tuvastamine, andmete taaskasutamise ja integreerimise kava, andmete tuvastamine ja tööriistade üle otsustamine.
3. Andmete ettevalmistamine Andmete hankimine ja profileerimine, puhastamine, teisendamine. Andmete kvaliteedi kontrollimine.
4. Mudeli planeerimine Meetodite, tehnikate ja töövoo kindlaks määramine. Peamiste muutujate valimine ja nendevahelise korrelatsiooni määramine.
5. Mudeli ehitamine Mudeli ehitamine, selle analüüs ja kordamine.
6. Hindamine Hindamine mõõdikute alusel. Tulemuste ja soovituste esitamine.
7. Juurutamine Analüüsiprotseduuride integreerimine töölaua jms süsteemidega.
8. Jälgimine Tegevuse jälgimine ja parandamist vajavate osade väljaselgitamine.

RakendusvaldkonnadRedigeeri

Andmeteadust rakendatakse aina rohkem paljudes valdkondades, sealhulgas äris, majanduses, tööstuses, hariduses, füüsikas, tervishoius, põllumajanduses, poliitikas, juhtimises, turunduses, transpordikorralduses, linnaplaneerimises, kosmoseteaduses ja sotsioloogias.[3] Enim on suurandmete kasutamisest kasu saanud näiteks jaemüük, telekommunikatsioon, nõustamine, tervishoid, lennutransport, ehitus, toiduainetetööstus, tootmine, tööstusvahendid, autotööstus, klienditeenindus, finantsteenused, kirjastamine ja logistika.[10]

Andmeteaduse rakendusvaldkonnad on näiteks:

  • pettuste tuvastamine ja riskide hajutamine – Näiteks pangad ennustavad kliendi maksevõimekust tulevikus;
  • meditsiin ja tervishoid – Näiteks koepiltidest vähirakkude tuvastamine, ravimite väljatöötamine, personaalne meditsiin;
  • interneti otsingumootorid – Google, Bing, Yahoo! ja muud otsingumootorid kasutavad andmeteaduse algoritme, et pakkuda parimaid otsingutulemusi;
  • reklaami sihtimine – algoritmide abil suunatakse reklaami internetis vastavalt kasutaja varasemale käitumisele;
  • pildituvastus (advanced image recognition) – näiteks Google'i pildiotsing;
  • kõnetuvastus – näiteks Google Voice, Siri, Cortana jne, kus häälsõnum teisendatakse tekstiks;
  • lennuliikluse planeerimine – näiteks hilinemiste prognoosimine, lisalennukite ostu planeerimine;
  • mängud (gaming) – on kavandatud masinõppe algoritmidega, mis parandavad/täiendavad ennast mängija jõudmisel järgmisele tasemele. Ka liikumismängude korral analüüsib vastane (arvuti) mängija varasemaid käike ja kujundab vastavalt sellele mängu;
  • liitreaalsus (augmented reality) – andmeteadus ja virtuaalreaalsus (VR) on omavahel seotud. VR-peakomplekt sisaldab algoritme ja andmeid. Näiteks Pokemon GO mäng, mis paneb mängija füüsilises maailmas ringi liikuma ja Pokemone taga ajama.[11]

Andmeteadlasele vajalikud oskusedRedigeeri

Andmeteadlane (data scientist) on oma ala asjatundja, kes otsib suurtest andmekogumitest mustreid ja trende, kasutades selleks mitmesuguseid tööriistu ja tehnikaid ning kriitilist mõtlemist, et pakkuda reaalse eluga seotud andmekesksetele probleemidele kasulikke lahendusi.[12]

Andmeteadlast on peetud üheks 21. sajandi kõige olulisemaks elukutseks.[13] Ameerika Ühendriikide tööotsinguportaal Glassdoor tunnistas andmeteadlase 2018. aastal parimaks ametiks.[14]

Andmeteadlased vajavad komplekssete probleemide lahendamiseks laiapõhjalisi teadmisi ja oskusi mitmetest valdkondadest, näiteks matemaatika ja statistika, arvutiteadus ja infoteadus. Andmeteadus on tihedalt seotud tõenäosusmudelite, andmekaeve, andmete visualiseerimise, aga ka konkreetse käsitlusvaldkonnaga.[3]

Andmeteadlasele vajalikud oskused:

Andmeteaduse õppimine EestisRedigeeri

Tartu Ülikooli arvutiteaduse instituut avab 2020. aasta sügisel andmeteaduse eestikeelse magistriõppekava. Vastu võetakse 60 üliõpilast. Üliõpilastel on võimalik valida kolme suunamooduli vahel:

  • andmeteadus äriettevõttes
  • andmeteadus digihumanitaarias ja sotsiaalteadustes
  • andmeteadus loodus- ja terviseteadustes[16]

Vaata kaRedigeeri

ViitedRedigeeri

  1. EDUCBA. "Data Science Machine Learning". Vaadatud 10.12.2019.
  2. 2,0 2,1 2,2 Data Science Estonia. "Mis on andmeteadus?". Vaadatud 11.12.2019.
  3. 3,0 3,1 3,2 3,3 Virkus, S. & Garoufallou, E. (2019), "Data science from a library and information science perspective", Data Technologies and Applications, Vol. 53 No. 4, lk 422-441. https://doi.org/10.1108/DTA-05-2019-0076
  4. Dhar, V. (2013), “Data science and prediction”, Communications of the ACM, Vol. 56 No. 12, lk 64-73. https://doi.org/10.1145/2500499
  5. Provost, F. & Fawcett, T. (2013), “Data science and its relationship to Big Data and data-driven decision making”, Big Data, Vol. 1 No. 1, lk 51-59. http://doi.org/10.1089/big.2013.1508
  6. Foreman, J.W. (2013), Data Smart: Using Data Science to Transform Information into Insight, John Wiley & Sons, Hoboken, NJ.
  7. "Data Science". Vaadatud 03.01.2020.
  8. Data Science Association. "About Data Science". Vaadatud 10.12.2019.
  9. Song, I-Y, & Zhu, Y. (2017), "Big Data and Data Science: Opportunities and Challenges of iSchools", Journal of Data and Informaton Science, Vol. 2 No. 3, lk 1-18. https://doi.org/10.1515/jdis-2017-0011
  10. Voulgaris, Z. (2014), Data Scientist: The Definitive Guide to Becoming a Data Scientist, Technics Publications, Westfield, NJ.
  11. Upsana. "Top 10 Data Science Applications". 26. november 2019. Vaadatud 01.01.2020.
  12. Asha Saxena. "Is 'Data Scientist' the 'Sexiest Job of the 21st Century'? And How Do You Get One of Your Own?". Entrepreneur, 30. jaanuar 2019. Vaadatud 01.01.2020.
  13. Arvamusfestival. "Mis on andmeteadus?". Vaadatud 10.12.2019.
  14. Amy Elisa Jackson. "The 50 Best Jobs in America for 2018". 23. jaanuar 2018. Vaadatud 01.01.2020.
  15. Taivo Pungas. "Andmeteadus: vajalikud oskused ja kuidas alustada". 11. juuni 2015. Vaadatud 11.12.2019.
  16. Tartu Ülikool. "Andmeteadus". Vaadatud 02.01.2020.