Andmeteadus: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
PResümee puudub
Lisasin pildi ja teksti. Proovisin teha keele- ja üldist toimetamist.
1. rida:
{{Keeletoimeta|kuu=jaanuar|aasta=2020}} {{Vikinda|kuu=jaanuar|aasta=2020}}
[[Fail:PIA23792-1600x1200(1).jpg|pisi|[[C/2020 F3 (NEOWISE)|Komeet NEOWISE]] (pildil kujutatud punaste punktide jadana) olemasolu avastati [[Kosmoseobservatoorium|kosmoseteleskoobi]] [[WISE]] tehtud astronoomiliste mõõtmiste andmete analüüsimise tagajärjel.]]
'''Andmeteadus''' (''data science'') on interdistsiplinaarne valdkond, mismilles kasutabkasutatakse mitmeid tehnikaid ja lähenemisi, milleet abilsaada luuakse[[Teadmine|teadmisi]] ja sügavamat arusaamist struktureeritud ja struktureerimata [[AndmedStruktureerimata andmed|andmetelestruktureerimata andmetest]] tähendust.<ref>{{Netiviide|autor=EDUCBA|url=https://www.educba.com/data-science-machine-learning/|pealkiri=Data Science Machine Learning|väljaanne=|aeg=|vaadatud=10.12.2019}}</ref><ref name=":0">{{Netiviide|autor=Data Science Estonia|url=http://datasci.ee/sissejuhatus/mis-on-andmeteadus|pealkiri=Mis on andmeteadus?|väljaanne=|aeg=|vaadatud=11.12.2019}}</ref> Andmeteadus on seotud [[andmekaeve]] ja [[Suurandmed|suurandmetega]].<ref name=":0" />
 
Andmeteadus ühendab endas [[statistika]], [[Andmeanalüüs|andmete analüüsi]] ja nendega seotud meetodid "mõistmaks, analüüsimaks tegelikke nähtusi" andmete abil.<ref>{{Cite book|last=Hayashi|first=Chikio|kuupäev=1998-01-01|title=Data Science, Classification, and Related Methods|publisher=Springer Japan|isbn=9784431702085|pages=40–51|series=Studies in Classification, Data Analysis, and Knowledge Organization|language=en|editor-last=Hayashi|editor-first=Chikio|chapter=What is Data Science? Fundamental Concepts and a Heuristic Example|doi=10.1007/978-4-431-65950-1_3|editor-last2=Yajima|editor-first2=Keiji|editor-last3=Bock|editor-first3=Hans-Hermann|editor-last4=Ohsumi|editor-first4=Noboru|editor-last5=Tanaka|editor-first5=Yutaka|editor-last6=Baba|editor-first6=Yasumasa|chapter-url=https://www.springer.com/book/9784431702085}}</ref> Andmeteadus kasutab [[matemaatika]], [[statistika]], [[informaatika]], [[Domeeni tundmine|valdkondlike teadmiste]] ja [[Infoteadus|infoteaduste]] valdkondadest pärinevaid tehnikaid ja teooriaid. [[Turingi auhind|Turingi auhinna]] võitja [[Jim Gray (arvutiteadlane)|Jim Gray]] kujutab andmeteadust ette teaduse "neljanda paradigmana" ([[Empiirilised uuringud|empiirilise]], [[Alusuuringud|teoreetilise]], [[Arvutusteadus|arvutusliku]] ja nüüd andmetest juhitavana) ning väitis, et "kõik teaduses on [[infotehnoloogia]] mõju tõttu muutumas" ja rääkis [[Infoplahvatus|andmete üleküllusest]].<ref name="TansleyTolle2009">{{Cite book|last=Tony Hey|year=2009|title=The Fourth Paradigm: Data-intensive Scientific Discovery|publisher=Microsoft Research|isbn=978-0-9825442-0-4|vaadatud=16 December 2016|url=https://books.google.com/books?id=oGs_AQAAIAAJ|last2=Stewart Tansley|last3=Kristin Michele Tolle|archive-url=https://web.archive.org/web/20170320193019/https://books.google.com/books?id=oGs_AQAAIAAJ}}</ref><ref name="BellHey2009">{{Cite journal|last=Bell|first=G.|title=COMPUTER SCIENCE: Beyond the Data Deluge|journal=Science|volume=323|issue=5919|pages=1297–1298|year=2009|last2=Hey|first2=T.|last3=Szalay|first3=A.|doi=10.1126/science.1170411|issn=0036-8075|pmid=19265007}}</ref>
Andmeteadus on seotud [[andmekaeve]] (''[[data mining]]'') ja [[Suurandmed|suurandmetega]] (''big data'').<ref name=":0" />
 
== Andmeteaduse mõiste ==
Kuigi mitmed uurijad on püüdnud andmeteadust defineerida, puudub sellel üks kindel ja üldtunnustatud määratlus.<ref name=":1">Virkus, S. & Garoufallou, E. (2019), "Data science from a library and information science perspective", ''Data Technologies and Applications'', Vol. 53 No. 4, lk 422-441. https://doi.org/10.1108/DTA-05-2019-0076 </ref>
 
* [[Vasant Dahr|Vasant Dahri]] järgi keskendub andmeteadus andmetest [[Teadmus|teadmuse]] väljaselekteerimisele.<ref>Dhar, V. (2013), “Data science and prediction”, Communications of the ACM, Vol. 56 No. 12, lk 64-73. https://doi.org/10.1145/2500499</ref>
 
* [[Foster Provost]] ja [[Tom Fawcett]] defineerivad andmeteadust kui aluspõhimõtete kogumitkogumina, mis toetavadtoetab ja juhivadjuhib [[Informatsioon|informatsiooni]] ja teadmiste eraldamistsaamist andmetest.<ref>Provost, F. & Fawcett, T. (2013), “Data science and its relationship to Big Data and data-driven decision making”, Big Data, Vol. 1 No. 1, lk 51-59. http://doi.org/10.1089/big.2013.1508</ref>
 
* [[John W. Foremani]] hinnangulpeab on andmeteadusandmeteaduseks andmete muundaminemuutmine [[matemaatika]] ja [[statistika]] abil väärtuslikeks teadmisteks, otsusteks ja toodeteks.<ref>Foreman, J.W. (2013), Data Smart: Using Data Science to Transform Information into Insight, John Wiley & Sons, Hoboken, NJ.</ref>
 
* [[John D. Kelleher]] ja [[Brendan Tierney]] defineerivad andmeteadust põhimõtete, probleemipüstituste, [[Algoritm|algoritmide]] ja protsesside kogumina, mille abil on võimalik eraldada mitmekülgseid ja kasulikke mustreidseaduspärasid suurtest andmekogumitest. Nad mainivad veel, et andmeteaduse väljakutsed on näiteks sotsiaalmeedia struktureerimata andmete kogumine, puhastamine ja muundamine, suurandmete tehnoloogia kasutamine suurte andmekogumite säilitamiseks ja töötlemiseks ning andmete kasutamise eetika regulatsioonidega seotud probleemid.<ref>{{Netiviide|autor=|url=https://mitpress.mit.edu/books/data-science|pealkiri=Data Science|väljaanne=|aeg=|vaadatud=03.01.2020}}</ref>
* [[Andmeteaduse Ühing (''The Data Science Association'')]] defineerib andmeteadust kui [[Andmed|andmete]] loomise, kehtivuse kontrollimise ja muutmise teaduslikku uurimist, mille eesmärk on tähenduse loomine.<ref>{{Netiviide|autor=Data Science Association|url=https://www.datascienceassn.org/about-data-science|pealkiri=About Data Science|väljaanne=|aeg=|vaadatud=10.12.2019}}</ref>
 
Seejuures ollakse üksmeelel, et andmeteadus tegeleb [[Suurandmed|suurandmetes]]<nowiki/>t väärtuslike mustrite tuvastamise ja kaevandamisega, [[Andmed|andmete]] muutmisega [[Informatsioon|informatsiooniks]] ja teadmisteks.<ref name=":1" /> Andmeteadus hõlmab kõiki tegevusi, mis aitavad andmete põhjal kasulikke otsuseid teha. Andmeteadus ei ole eraldi eesmärk – see on kogum meetodeid, mis aitab juba seatud eesmärke paremini saavutada, kasutades selleks andmeid.<ref name=":0" />
* Andmeteaduse Ühing (''The Data Science Association'') defineerib andmeteadust kui [[Andmed|andmete]] loomise, kehtivuse kontrollimise ja muutmise teaduslikku uurimist, mille eesmärk on tähenduse loomine.<ref>{{Netiviide|autor=Data Science Association|url=https://www.datascienceassn.org/about-data-science|pealkiri=About Data Science|väljaanne=|aeg=|vaadatud=10.12.2019}}</ref>
 
=== Mõiste seos statistikaga ===
Uurijad on üksmeelel selles, et andmeteadus on järjest rohkem esile tõusev interdistsiplinaarne valdkond, mis tegeleb [[Suurandmed|suurandmetes]]<nowiki/>t väärtuslike mustrite tuvastamise ja kaevandamisega, [[Andmed|andmete]] muutmisega [[Informatsioon|informatsiooniks]] ja teadmisteks.<ref name=":1" />
Statistikud koos [[Nate Silver|Nate Silveriga]] on väitnud, et andmeteadus pole eraldiseisev valdkond ja teda võib pidada uueks statistika nimetuseks.<ref>{{Cite web|url=https://www.statisticsviews.com/details/feature/5133141/Nate-Silver-What-I-need-from-statisticians.html|title=Nate Silver: What I need from statisticians - Statistics Views|website=www.statisticsviews.com|vaadatud=2020-04-03}}</ref> Leidub arvamusi, et andmeteadus erineb statistikast, kuna keskendub probleemidele ja meetoditele, mis on ainuomased vaid digitaalsel kujul esinevatele andmetele.<ref>{{Cite web|url=http://priceonomics.com/whats-the-difference-between-data-science-and/|title=What's the Difference Between Data Science and Statistics?|website=Priceonomics|vaadatud=2020-04-03|language=en}}</ref> Stanfordi professor [[David Donoho]] arvates ei erista andmeteadust statistikast andmekogumite suurus ja masinarvutuste kasutamine. Tema hinnangul nimetavad paljud ülikoolide oma õppekavade analüüsi- ja statistika õppeaineid andmeteadusena reklaami eesmärgil. Tema kirjelduses on andmeteadus rakendusvaldkond, mis on välja kasvanud traditsioonilisest statistikast.<ref name=":7">{{Cite web|last=Donoho|first=David|url=http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf|title=50 years of Data Science|kuupäev=September 18, 2015|vaadatud=April 2, 2020}}</ref> Kokkuvõtvalt võib andmeteadust pidada [[rakendusstatistika]] haruks.
 
== Andmeteaduse elutsükkelsoovituslik töötsükkel ==
Andmeteadus hõlmab kõiki tegevusi, mis aitavad andmete põhjal kasulikke otsuseid teha. Andmeteadus ei ole eraldi eesmärk – see on kogum meetodeid, mis aitab juba seatud eesmärke paremini saavutada, kasutades selleks andmeid.<ref name=":0" />
AndmeteaduseAutorite elutsükliIl-Yeol kaheksaSongi ja Yongjun Su hinnangul peaks andmeteadlane oma töös järgima kaheksat sammu.<ref>Song, I-Y, & Zhu, Y. (2017), "Big Data and Data Science: Opportunities and Challenges of iSchools", ''Journal of Data and Informaton Science'', Vol. 2 No. 3, lk 1-18. https://doi.org/10.1515/jdis-2017-0011</ref>
 
== Andmeteaduse elutsükkel ==
Andmeteaduse elutsükli kaheksa sammu.<ref>Song, I-Y, & Zhu, Y. (2017), "Big Data and Data Science: Opportunities and Challenges of iSchools", ''Journal of Data and Informaton Science'', Vol. 2 No. 3, lk 1-18. https://doi.org/10.1515/jdis-2017-0011</ref>
{| class="wikitable"
|1. Küsimuste ja võimaluste
|1. Äri mõistmine
|''Millisele küsimusele vastust otsitakse? Milliseid mõõdikuid hinnatakse?''
''Hüpoteesi sõnastamine. Ressursside (inimesed, andmed, töövahendid) hindamine.''
32. rida ⟶ 34. rida:
|-
|3. Andmete ettevalmistamine
|''Andmete hankimine ja profileeriminehindamine, puhastamine, teisendamine. Andmete kvaliteedi kontrollimine.''
|-
|4. Mudeli planeerimine
|''Meetodite, tehnikate ja töövoo kindlaks määramine. Peamiste muutujate valimine ja nendevahelise korrelatsiooni määramine.''
|-
|5. Mudeli ehitamineloomine
|''Mudeli ehitamineloomine, selle analüüs ja kordamine.''
|-
|6. Hindamine
65. rida ⟶ 67. rida:
*[[liitreaalsus]] (''augmented reality'') – andmeteadus ja [[virtuaalreaalsus]] (VR) on omavahel seotud. VR-peakomplekt sisaldab algoritme ja andmeid. Näiteks Pokemon GO mäng, mis paneb mängija füüsilises maailmas ringi liikuma ja Pokemone taga ajama.<ref>{{Netiviide|autor=Upsana|url=https://www.edureka.co/blog/data-science-applications/|pealkiri=Top 10 Data Science Applications|väljaanne=|aeg=26. november 2019|vaadatud=01.01.2020}}</ref>
 
== Andmeteadlasele vajalikudAndmeteadlase oskused ==
Andmeteadlane (''data scientist'') on oma ala asjatundja, kes otsib suurtest andmekogumitest mustreid ja trende,seoseid kasutades selleks mitmesuguseid tööriistu javahendeid, tehnikaid ning kriitilist mõtlemist, et pakkudapakkumaks reaalse eluga seotud andmekesksetele probleemidele kasulikke lahendusi.<ref>{{Netiviide|autor=Asha Saxena|url=https://www.entrepreneur.com/article/327162|pealkiri=Is 'Data Scientist' the 'Sexiest Job of the 21st Century'? And How Do You Get One of Your Own?|väljaanne=Entrepreneur|aeg=30. jaanuar 2019|vaadatud=01.01.2020}}</ref> Andmeteadlase elukutset on peetud üheks 21. sajandi kõige olulisemaks.<ref>{{Netiviide|autor=Arvamusfestival|url=https://www.arvamusfestival.ee/stage/mis-on-andmeteadus/|pealkiri=Mis on andmeteadus?|väljaanne=|aeg=|vaadatud=10.12.2019}}</ref> Ameerika Ühendriikide tööotsinguportaal [https://www.glassdoor.com/index.htm Glassdoor] tunnistas andmeteadlase 2018. aastal parimaks ametiks.<ref>{{Netiviide|autor=Amy Elisa Jackson|url=https://www.glassdoor.com/blog/best-jobs-in-america-2018/|pealkiri=The 50 Best Jobs in America for 2018|väljaanne=|aeg=23. jaanuar 2018|vaadatud=01.01.2020}}</ref> Andmeteadlased vajavad komplekssete probleemide lahendamiseks laiapõhjalisi teadmisi ja oskusi mitmetest valdkondadest, näiteks [[matemaatika]] ja [[statistika]], [[Informaatika|arvutiteadus]] ja [[infoteadus]]. Andmeteadus on tihedalt seotud [[Tõenäosus|tõenäosusmudelite]], [[andmekaeve]], [[Andmete visualiseerimine|andmete visualiseerimise]] ja kästitletava valdkonna teadmistega.<ref name=":1" />
 
Andmeteadlast on peetud üheks 21. sajandi kõige olulisemaks elukutseks.<ref>{{Netiviide|autor=Arvamusfestival|url=https://www.arvamusfestival.ee/stage/mis-on-andmeteadus/|pealkiri=Mis on andmeteadus?|väljaanne=|aeg=|vaadatud=10.12.2019}}</ref> Ameerika Ühendriikide tööotsinguportaal [https://www.glassdoor.com/index.htm Glassdoor] tunnistas andmeteadlase 2018. aastal parimaks ametiks.<ref>{{Netiviide|autor=Amy Elisa Jackson|url=https://www.glassdoor.com/blog/best-jobs-in-america-2018/|pealkiri=The 50 Best Jobs in America for 2018|väljaanne=|aeg=23. jaanuar 2018|vaadatud=01.01.2020}}</ref>
 
Andmeteadlased vajavad komplekssete probleemide lahendamiseks laiapõhjalisi teadmisi ja oskusi mitmetest valdkondadest, näiteks [[matemaatika]] ja [[statistika]], [[Informaatika|arvutiteadus]] ja [[infoteadus]]. Andmeteadus on tihedalt seotud [[Tõenäosus|tõenäosusmudelite]], [[andmekaeve]], [[Andmete visualiseerimine|andmete visualiseerimise]], aga ka konkreetse käsitlusvaldkonnaga.<ref name=":1" />
 
Andmeteadlasele vajalikud oskused:
 
* [[programmeerimine]] ja [[Informaatika|arvutiteadus]] ([[Algoritm|algoritmid]] ja andmestruktuurid, veebi kraapimine, [[Struktuurpäringukeel|SQL]], [[R (programmeerimiskeel)|R]], [[Python (programmeerimiskeel)|Python]], [[Microsoft Excel|Excel]], andmebaasid)
* [[andmete visualiseerimine]] (kujunduspõhimõtted, [[Teek|teegid]] – R ggplot2, [[D3.js|D3]])
* domeenivaldonna- ja äriteadmised (domeeniteadmisedvaldkonna, ärianalüütika tööriistad – [https://www.tableau.com/ Tableau])
* [[suurandmed]] ja [[Pilvandmetöötlus|pilveandmetöötlus]] ([[Apache Hadoop]], [https://pig.apache.org/ Apache Pig])
* [[matemaatika]] ([[Masinõppimine|masinõppe]] alused, [[statistika]] alused, [[tõenäosusteooria]] alused)
* pehmed oskused (suhtlemisoskus, lugude jutustamise oskus, esinemisoskus, väljendusoskus, veenmisoskus, kohanemisvõime, pidev enesetäiendamine) <ref>{{Netiviide|autor=Taivo Pungas|url=https://pungas.ee/andmeteadus-vajalikud-oskused-ja-kuidas-alustada/|pealkiri=Andmeteadus: vajalikud oskused ja kuidas alustada|väljaanne=|aeg=11. juuni 2015|vaadatud=11.12.2019}}</ref>
 
== Andmeteaduse õppimineõpetamine Eestis ==
[[Tartu Ülikool|Tartu Ülikooli]] arvutiteaduse instituut avabavas 2020. aasta sügisel andmeteaduse eestikeelse magistriõppekava. VastuAndmeteaduse võetakseüliõpilastel 60on üliõpilast.Tartu Üliõpilastel onÜlikoolis võimalik valida kolme suunamooduliõppesuuna vahel:
 
* andmeteadus äriettevõttes