Suurandmed

Suurandmed (inglise keeles big data) on andmed, mis on sedavõrd suure mahuga või keerulised, et nende töötlemiseks ei piisa tavapärastest vahenditest ja ressurssidest.

Andmete maht on aasta-aastalt järjest kasvanud, seejuures ületas digitaalselt talletatud andmete osakaal analoogandmete oma 2002. aastal – seda murrangulist hetke loetakse ka digitaalajastu alguseks^[1].

Internetti ühendatud seadmete (vt ka nutistu) toodetavate andmete hulk kasvab eksponentsiaalselt. Kui aastal 2017 toodeti globaalselt andmeid ligikaudu 21 zettabaiti, siis 2018. aastaks ennustati selleks koguseks juba üle 30 zettabaiti aastas ja 2019. aastaks 40 zettabaiti aastas^[2].

Märkimisväärne roll digitaalsete andmete loomisel on ka internetikasutajate osakaalul rahvastikust – 2017. aasta lõpuks oli internetikasutajate arv jõudnud 4,17 miljardini^[3]. Sotsiaalmeediasse, näiteks YouTube'i laaditakse igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadatakse iga päev ühtekokku miljard tundi^[4], Twitteris saadetakse päevas 500 miljonit säutsu^[5], Facebookis saadetakse 9 miljonit sõnumit tunnis^[6].

Tekkeviisid

Inimgeograaf Rob Kitchin^[7] (2014) eristab kolme tüüpi andmete tekkimise viisi: otsest, automaatset ja vabatahtlikku.

Otsese andmete kogunemise viisi näited on valvekaamerad, digiseadmeid kasutavad teaduskatsed ja mitmesuguste mittedigitaalsete dokumentide digiteerimine.

Automatiseeritud andmete tekkemehhanismide all võib välja tuua automatiseeritud järelevalve, tundlikud sensorid ja nende kogutavad andmed, ülekande- ja suhtlemistegevustel tekkiv jäädvustus. Lisaks veel internet kui selline ning arvutite omavahelisest suhtlusest alles jääv kirje.

Vabatahtlikku andmete panustamist iseloomustavad sotsiaalmeedia, sousveillance ehk vabatahtlik jälgimisseadmetega sidumine, crowdsourcing ehk ühisloome ja kodanikuteadus. Kitchin^[7] (2014) osutab, et eri andmekogumise vahendid ei ole sugugi viimasel ajal kujunenud, vaid juba aastaid kasutusel. Ilmaprognoosid, turukäitumiste arvutuslikud ennustused jms on kasutusel juba pikemat aega, kuid nende andmete laiema ja kitsama funktsioonivälise uurimise võimaldamiseks vajalikud suhtlusvõimalused ning nende disaini ja säilitamise võimekus on kättesaadav alles viimasel ajal.

Andmete tüübid

Tehnoloogiline areng võimaldab kasutada eri tüüpi struktureeritud ja struktureerimata andmeid. Suurandmed jagatakse struktureerimata, poolstruktureeritud ja struktureeritud andmeteks, seejuures on kiiresti arenemas just struktureerimata andmete uurimine^[8].

Struktureeritud andmed

Struktureeritud andmed, mis hõlmavad vaid 5% andmetest ^[9], viitavad tabelipõhistele andmetele, mida leiab arvutustabelites või vahenduspõhistes andmebaasides. Struktureeritud andmete põhjal tegeldakse näiteks ennustava analüüsiga, mis ongi enim levinud viis suurandmete analüüsiks. Selle kõrval on mittestruktureeritud andmete analüüsimine keerukuse tõttu vähem kasutusel kuid ka see valdkond areneb kiiresti ^[10]. Judith Hurwitz et al. (2013)^[11] kirjeldab, et struktureeritud andmeid on kahte tüüpi: arvuti- või masintekkelised andmed ja inimtekkelised andmed. Viimased on tekivad kui inimene kasutab arvuteid või muid tehnoloogilisi vahendeid. Masintekkelisi andmeid on omakorda nelja tüüpi: sensoripõhine, targad mõõtjad, meditsiinitehnika ning globaalse positsioneerimise süsteemi andmed. Inimtekkelised andmed on näiteks inimese sisestatavad andmed nagu nimi, vanus ja muud parameetrid, mida ta on valmis enda kohta avaldama. Niisuguste andmete alla liigitub enamasti ka isiku kohta sotsiaalmeediasse jagatud info.

Mittestruktureeritud andmed

Mittestruktureeritud andmed viitavad andmetele millel puudub eeldefineeritud andmemudel või nad ei sobi hästi relatsioonandmebaasidesse^[12]. Mittestruktureeritud andmed on kiiresti kasvav andmetüübi liik. Selle alla käivad näiteks pildilised, sensorilised, dokumendid, logiandmed, video- ja e-posti andmed. Nende ühine nimetaja on see, et puudub strukturaalse organiseeruvuse piisav tase, et olla arvutiga analüüsitavad.

Poolstruktureeritud andmed

Struktureeritud ja struktureerimata andmete vahele paigutuvad poolstruktureeritud andmed, mis ei kohandu kindlatele standarditele. Nende tekkimine ja määratlemine on seotud sellega, et andmed on niivõrd uut tüüpi, et ei kohandu olemasoleva andmebaaside tehnoloogiaga. Selliste andmete töötlemiseks on vaja paremaid päringukeeli, andmete optimeerimise tehnikaid või edasiarendusi olemasolevatele andmemudelitele. Poolstruktureeritud andmed nõuavad siiski töötlemiseks mõningat olemasolevat struktuuri ning mõnede andmetüüpide puhul on see keerukas. Buneman kirjeldab, et internetist saab mõelda ja kui andmebaasist, kuid sellest andmete alla tõmbamiseks on vaja omakorda keerukaid vahendeid. Kuna internet ei allu ühele ühtsele andmemudelile, siis on raske uurida selle struktuuri, enamasti uuritakse pigem teatavaid lehekülgi ja saite.^[12]

Omadused

Suurandmeid kirjeldatakse sageli järgmiste põhiomadustega (sulgudes on algsed ingliskeelsed vasted)^[13]:

maht (volume),
kiirus (velocity),
sort (variety),
varieeruvus (variability),
õigsus (veracity),
kehtivus (validity),
haavatavus (vulnerability),
volatiilsus (volatility),
visualiseeritus (visualisation),
väärtus (value).

Suurandmete omadused ning nende arv varieerub allikati suuresti, kuid alati on ingliskeelsed omadused algustähega v^[14].

Rakendamine

Suurandmed, kui on eristatud sordi alusel, omavad teatud tüüpi mustreid ning on töödeldavad masinõppimise abil. Peaasjalikult kasutatakse seni kogutud andmeid prognoositavaks analüüsiks, kasutaja käitumise analüüsiks või rakendatakse muid teatud tüüpi keerulisemaid analüüsimeetodeid, et andmetest olulist väärtuslikku infot koguda [puudub viide]. Analüüsi tulemuslikkuse tagamiseks tuleb koguda õigeid andmeid õiges mahus.

Suurandmete kogumist ja analüüsi kasutatakse näiteks järgmistes valdkondades:

avalik sektor ja valitsus,
rahvusvaheline koostöö ja arendustegevus,
tootmine,
tervishoid,
haridus,
meedia,
nutistu,
infotehnoloogia.

Andmete analüüs

Kuna inimesi on arvuteid ja tehnikat kasutamas palju ja neid kasutatakse mitmetel eri viisidel, on ka kogunevad andmete hulgad suured. Alati ei pea olema palju andmeid selleks, et need oleksid suured. Erinevaid andmete vorme nagu näiteks videoandmeid ei pruugi olla palju, aga need on mahukad. Iseloomust tulenevalt liigituvad nad suurandmete alla. Lisaks on suurel osal seda tüüpi andmetest ka reaalajas tekkimise aspekt, mis võimaldab mõista võimalikke mustreid ning teha järeldusi ja ennustusi.

Andmete analüüsimise protsess jaguneb üldjoontes kahte alaetappi: andmete haldamine ja nende analüüsimine. Andmete haldamine hõlmab protsesse ja tehnoloogiaid, et esitada päring andmetele, neid hoiustada, seejärel analüüsiks ette valmistada ja viimaks analüüsida.

Suurandmete analüüs jaguneb viide etappi (Labrinidis ja Jagadish, 2012)^[15]:

kogumine-talletamine;
eraldamine, puhastamine ja annotatsioon;
integreerimine, agregeerimine ja representatsioon;
modelleerimine ja analüüs;
tõlgendamine.

Sivarajah et al. (2017)^[16] kirjeldab suurandmete analüüsimise ja hoiustamisega seotud probleeme. Esimene etapp, ehk andmete kogumine ja talletamine on keerukas, kuna kogutavad andmed tekivad väga erinevatest allikatest ja keerukas on ka nendest väärtuse eristamine analüüsiprotsessi tarvis. Selle etapi väljakutsed on andmetele piisavate filtrite rakendamist, et talletatud informatsiooni korrapärasusi ja ebakõlasid adekvaatselt jäädvustada. Eraldamise ja puhastamise etapis üritatakse suurest struktureerimata andmemassiivist välja sõeluda vajalik ja kasutatav informatsioon. On tehnoloogiline väljakutse välja töötada andmekaeveks piisavalt võimekad vahendid. Kui andmekaeve on olnud edukas siis järgneb sellele puhastatud andmete integreerimine, mis üritab eraldatud andmed nende pärinemise kontekstis võimalikult süstemaatiliselt organiseerida. Selles faasis on andmete kontekst ja sisu ja muutub näiteks sotsiaalteadlastele juba sisulisemaks uuringus kasutatavaks materjaliks. Sivarajah et al. (2016)^[16] rõhutab, et praegused andmete integreerimise süsteemid on kahjuks veel puudulikud võimaldamaks tõhusat andmete agregeerimist. Järgmine etapp on andmete analüüs ja modelleerimine. Selles faasis üritatakse andmekaeve tulemusel kogutus andmetest eristada mustreid ja suhteid. See aga on väga keeruline, kuna suurandmed on väga "mürarikkad", heterogeensed ja dünaamilised. Sellise analüüsi ja andmete modelleerimiseks on vaja analüüsi jaoks varasemast suuremat tehnoloogilist võimekust. Viimane andmete tõlgendamine, et selle põhjal otsuseid langetada. See on keeruline ja selleks kompetentseid inimesi on seni veel suhteliselt vähe.

Kriitika

Suurandmete analüüsis tuleb eristada kvantitatiivset ja kvalitatiivset lähenemist. Alati ei taga suurem andmete kogus täpsemaid või paremini analüüsitavaid tulemusi, kui analüüsiks kasutatavatest lähteandmetest ei eemaldata ebaolulisi või vale sisuga andmeid. Andmete analüüsiks sageli kasutatav automatiseeritud uurimismeetod võib toota väära tulemuse, kui meetodi koostaja on jätnud arvestamata andmemassiivis esineda võivate eripäradega, mis võivad oluliselt mõjutada tulemuse täpsust. Automatiseeritud meetodi puhul on oht, et mudeli loomise ajal võis see olla täpne ja toimiv, kuid hilisema andmekaeve käigus võidakse laiendada kogutavate andmete hulka, millega mudel ei oska arvestada ning analüüs ei taga enam korrektset tulemust.^[17]

Viited

↑ Hilbert, M., López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Vaadatud 20.03.2018.
↑ "Internet World Stats". 31.12.2017. Originaali arhiivikoopia seisuga 24.11.2017. Vaadatud 20.03.2018.
↑ "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Vaadatud 20.03.2018.
↑ Salman Aslam (01.01.2018). "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.
↑ Salman Aslam (01.01.2018). "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.
↑ ^7,0 ^7,1 Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1(1), 205395171452848. https://doi.org/10.1177/2053951714528481
↑ Dedić, N.; Stanier, C. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd 285. Berlin; Heidelberg: Springer International Publishing. ISSN 1865-1356 ISSN 1865-1356. OCLC 909580101. {{raamatuviide}}: kontrolli parameetri |issn= väärtust (juhend)CS1 hooldus: mitu nime: autorite loend (link)
↑ Cukier K., (2010), The Economist, Data, data everywhere: A special report on managing information February 25, [1]
↑ Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.[2]
↑ Hurwitz, J. (2013). Big data for dummies. Hoboken, NJ: For Dummies, a Wiley brand.
↑ ^12,0 ^12,1 Buneman, P. (1997). Semistructured data. pp. 117–121. ACM Press
↑ George Firican (08.02.2017). "The 10 Vs of Big Data". Vaadatud 20.03.2018.
↑ Tom Shafer (01.04.2017). "The 42 V's of Big Data and Data Science". Originaali arhiivikoopia seisuga 6.08.2017. Vaadatud 20.03.2018.
↑ Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5(12), 2032–2033. https://doi.org/10.14778/2367502.2367572
↑ ^16,0 ^16,1 Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, 70, 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001
↑ Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8

[4UcHL-1] Hilbert, M., López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[kymvq-2] "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Vaadatud 20.03.2018.

[N5Iz9-3] "Internet World Stats". 31.12.2017. Originaali arhiivikoopia seisuga 24.11.2017. Vaadatud 20.03.2018.

[gv9hQ-4] "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Vaadatud 20.03.2018.

[XPoI1-5] Salman Aslam (01.01.2018). "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.

[yCVpJ-6] Salman Aslam (01.01.2018). "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.

[:1-7] 7,0 ^7,1 Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1(1), 205395171452848. https://doi.org/10.1177/2053951714528481

[NSyZi-8] Dedić, N.; Stanier, C. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd 285. Berlin; Heidelberg: Springer International Publishing. ISSN 1865-1356 ISSN 1865-1356. OCLC 909580101. {{raamatuviide}}: kontrolli parameetri |issn= väärtust (juhend)CS1 hooldus: mitu nime: autorite loend (link)

[iS19E-9] Cukier K., (2010), The Economist, Data, data everywhere: A special report on managing information February 25, [1]

[3pt7o-10] Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.[2]

[rNwAG-11] Hurwitz, J. (2013). Big data for dummies. Hoboken, NJ: For Dummies, a Wiley brand.

[:0-12] 12,0 ^12,1 Buneman, P. (1997). Semistructured data. pp. 117–121. ACM Press

[Ax8OC-13] George Firican (08.02.2017). "The 10 Vs of Big Data". Vaadatud 20.03.2018.

[GAAad-14] Tom Shafer (01.04.2017). "The 42 V's of Big Data and Data Science". Originaali arhiivikoopia seisuga 6.08.2017. Vaadatud 20.03.2018.

[1RC3q-15] Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5(12), 2032–2033. https://doi.org/10.14778/2367502.2367572

[:2-16] 16,0 ^16,1 Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, 70, 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001

[Mx7bi-17] Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]