Andmete pakkimine: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
Eilyre (arutelu | kaastöö)
Resümee puudub
Eilyre (arutelu | kaastöö)
Resümee puudub
1. rida:
{{ToimetaAeg|kuu=september|aasta=2012}}{{keeletoimeta}}
 
[[informaatika|Arvutiteaduses]] ja [[informatsiooniteooria|informatsiooniteoorias]] on andmete pakkimine (ka '''andmete tihendamine''', '''andmetihendus'''; '''bitimäära vähendamine'''; (Inglise K. ''"Data compression"'')) andmete kodeerimine selliselt, et väljundandmed on mälu mahult väiksemad kui sisendandmed. <ref>{{cite journal|last=Mahdi|first=O.A.|coauthors=Mohammed, M.A.; Mohamed, A.J.|title=Implementing a Novel Approach an Convert Audio Compression to Text Coding via Hybrid Technique|journal=International Journal of Computer Science Issues|year=2012|month=November|volume=9|issue=6, No. 3|pages=53–59|url=http://ijcsi.org/papers/IJCSI-9-6-3-53-59.pdf|accessdate=6 March 2013}}</ref> Pakkimist on kahte tüüpi: kadudega ja kadudeta. Kadudeta andmetihendus vähendab bitimäära läbi selle, et leiab ja elimineerib statistilise liiasuse (Inglise K. ''"Statistic redundancy"''). <ref>{{cite journal|last=Pujar|first=J.H.|coauthors=Kadlaskar, L.M.|title=A New Lossless Method of Image Compression and Decompression Using Huffman Coding Techniques|journal=Journal of Theoretical and Applied Information Technology|year=2010|month=May|volume=15|issue=1|pages=18–23|url=http://www.jatit.org/volumes/research-papers/Vol15No1/3Vol15No1.pdf}}</ref> Statistiline liiasus tähendab bittide hulka, mida kasutati, et sõnumit edastada miinus see bittide hulk, mis hulk informatsiooni selles sõnumis tegelikult oli. Kadudeta pakkimisel informatsiooni ei lähe kaduma. Kadudega pakkimisel leitakse ebavajalik informatsioon ja eemaldatakse see. Kui andmed on pakitud, saab neid andmeid uuesti kasutada ainult siis, kui need kindlad andmed on lahti pakitud. <ref>{{cite book|last=Salomon|first=David|title=A Concise Introduction to Data Compression|year=2008|publisher=Springer|location=Berlin|isbn=9781848000728}}</ref>
 
Tihendus on vajalik, sest see aitab vähendada ressursikulu, nagu andmete säilitamise ruum või edastusmaht. Kuna andmed peavad olema lahtipakitud, et neid kasutada, on andmete tihendus arvutusvõimsuse suhtes nõudlik. See tähendab seda, et andmete tihendus tähendab muude ressursside eraldamist informatsiooni mahu vähendamise nimel. SeeSeega tähendab seda, etvõib näiteks video vaatamisel võib vaja minna suhteliselt võimsat riistvara, et arvuti suudaks informatsiooni lahti pakkida piisavalt kiiresti, et seda videot ilma probleemideta (puhverdamisvajaduseta) vaadata. Veel on võimalus see videotihendatud andmehulk täielikult lahti pakkida enne, kui videotseda kasutama vaatamatahetakse hakataksehakata, kuid see vajab rohkem ruumi ja aega. Seega, andmete pakkimise süsteemid tähendavad, et andmete mahu vähendamise nimel ohverdatakse muid resursse, nagu aeg, arvutuslik võimsus ja andmete enda moonutus (kasutades kadudega pakkimist).
 
==Statistiline liiasus==
 
Statistiline liiasus (Inglise K. ''"Statistic redundancy"'') tähendab [[Bitt|bittide]] hulka, mida kasutati, et sõnumit edastada miinus see [[Bitt|bittide]] hulk, mis hulk informatsiooni selles sõnumis tegelikult oli. Võib ka defineerida, et see on raisatud "ruumi" hulk, mida kindla andmehulga edastamisel kasutati. Andmete tihendamine on mittetahetud statistilise liiasuse vähendamine või elimineerimine, samas kui [[Kontrollsumma|kontrollsummadega]] on statistilist liiasust võimalik kasvatada. Seda tehakse vahepeal selleks, et leida edastamisvigu, kui näiteks andmeid edastatakse üle suure koormusega võrgu.
 
==Liigid==
11. rida ⟶ 15. rida:
*Kadudega andmetihendus (Inglise K. ''"lossy compression"'')
 
Kadudeta andmete pakkimiseandmetihenduse korral saavutatakse lahti pakkimisel esialgsed andmed. Kasutatakse seda varianti tavaliselt siis, kui on oluline, et andmed säiliksid nii nagu nad alguses olid. Näiteks teksti pakkimiselandmete tihendamisel.
 
Kadudega andmete pakkimiseandmetihenduse korral võib originaaliga võrreldes esineda väikeseid erinevusi. Kasutatakse peamiselt graafiliste failide puhul. Tuntuim failiformaat, kus seda kasutatakse on .jpeg. Kui andmed on pakitud kasutades mõnda kadudega andmete pakkimise [[Algoritm|algoritmi]], siis ei ole võimalik taastada sellest kadudeta versiooni.
 
==Kadudeta andmetihendus==
 
Kadudeta andmete pakkimise [[Algoritm|algoritmid]] tavaliselt kasutavad ära statistilist liiasust, et esitada andmeid sisutihedalt ilma informatsiooni kaotamata. Kadudeta andmetihendus on võimalik, sest enamus päris maailma andmetest sisaldab statistilist liiasust. Näiteks, üks pilt võib endas kanda värvide piirkondi, kus värv ei muutu üle suure hulga pikslite. Selle asemel, et kodeerida "punane piksel asukohal 2000, punane piksel asukohal 2001, ..." võib andmed kodeerida "279 punast pikslit asukohal 2000, 2001, 2002" võib "punased pikslid asukohal 2000-2279". See on algeline näide RLE (Inglise K. ''"Run-length encoding"'') kohta.
 
Grammatikapõhine andmetihendus (Inglise K. ''"Grammar-based compression"'') kujutab endas väga efektiivselt väga korduva teksti pakkimist, näiteks bioloogiliste andmete kollektsioon, internetiarhiivid, suure hulga dokumentide kollektsioon jne. Põhiline tööülesanne grammatikapõhisel pakkimisel on leida kontekstivaba korduv osa dokumendis, kustutada see nendest asukohtadest, luua üks koopia dokumendi algusessesellest ja lisada selle korduva osa asukoht. Näiteks, üks pikk referaat võib endas sisaldada lauset "tiigrite tüüpiline elukoht on" 200 korda. Selle asemel, et seda 208-t baiti iga kord uuesti kirjutada, kustutatakse see igast asukohast, luuakse üks koopia ja selle järgi kirjutatakse selle korduva osa asukoht näiteks nii: ""tiigrite tüüpiline elukoht on" -asukohtadel 2000, 2015, 2090, .." ja selle asemel, et iga kord kasutada 208 baiti, kasutab see ainult 36 baiti.
 
==Kadudega andmetihendus==
 
Kadudega andmetihenduse algoritme kasutatakse ainult olukordades, kus täielik perfektsus pole nii tähtis. Kaotades mittevajalikkud detailid andmete allikast saab säästa mäluruumi. Kadudega pakkimisetihendamise [[Algoritm|algoritmid]] on ehitatud üles erinevate uurimiste põhjal, kuidas inimene tajub võib märkab kindlat informatsiooni. Näiteks, inimese silm on rohkem tundlik väikestele heleduse muutustele kui värvi muutustele. Selle põhjal saab teha väikeseid kompromisse informatsiooni säilitamise ja andmehulga vähendamise vahel. Mitmed populaarsed pakkimise formaadid kasutavad ära neid väikseid tajumise erinevuseiderinevusi, nagu näiteks JPEG või muud muusika, piltide või video pakkimise [[Algoritm|algoritmid]].
 
Kadudega piltide pakkimist saab kasutada digitaalkaamerates, et vähendada mälu kasutust piltide poolt, kuid selle nimel ohverdatakse võimalikult minimaalne hulk pildi kvaliteeti. Sarnaselt, DVD-d kasutavad kadudega MPEG-2 Video pakkimise formaati või "koodeksit" nagu seda kutsutakse heli ja videote pakkimisel.
Kadudega heli pakkimisel, psühhoacustikakasutatakse psühhoakustika (Inglise K. ''"psychoacoustics"'') uuringutega kooskõlas leiutatud meetodeid meetodeid, et eemaldada mitte-kuuldavaid (või vaevu kuuldavaid) komponente kogu andmete hulgast. <ref>{{cite web|last=Arcangel|first=Cory|title=On Compression|url=http://www.coryarcangel.com/downloads/Cory-Arcangel-OnC.pdf|accessdate=12 December 2013}}</ref> Inimese kõne pakkimimist tehakse tihti veelgi spetsiaalsemate tehnikatega. Kõne kodeerimine või hääle kodeerimine on tihti eristatud tavalisest heli pakkimisest. Hääle pakkimist kasutatakse näiteks internetitelefonide puhul ja heli pakkimist kasutatakse näiteks muusika CD-dde puhul, kus muusika kirjutatakse CD plaadile tihendatud vormis ja helimängijad peavad helifailid lahti pakkima.
 
==Arhiveerimine==
61. rida ⟶ 65. rida:
=== Heli ===
 
Heli andmete pakkimisttihendamist, mida eristatakse dünaamilise raadiuse pakkimisesttihendamisest (Inglise K. ''"Dynamic range compression"''), kasutatakse selleks, et vähendada edastamiseks vajalikku [[Ribalaius|ribalaiust]] ja ladustamiseks vajalikku mälumahtu. Heli andmete pakkimisetihendamise [[Algoritm|algoritme]] implementeeritakse tarkvarasse ja neid kutsutakse heli koodeksiteks (Inglise K. ''"Codec"''). Kadudega heli andmete pakkimise [[Algoritm|algoritmid]] või koodeksid võimaldavad efektiivsemat andmete pakkimist, kuid vähendavad kvaliteeti, ja neid kasutatakse väga paljudes heli rakendustes. Need [[Algoritm|algoritmid]] peaaegu kõik tuginevad psühhoakustika uurimustöödele, et vähendada inimesele vähem tajutavad vähem kuuldavad või mittetähenduslikud helid, seega vähendades mäluruumi ja [[Ribalaius|ribalaiuse]] vajadust ladustamise või edastamise puhul.
 
Nii kadudega kui kadudeta pakkimisel vähendatakse informatsiooni liiasust, kasutades meetodeid nagu kodeerimine, mustri eristamine ja lineaarne ennustamine, et vähendada andmete hulka, et esindada pakkimata informatsiooni<ref>{{cite journal|last=Mahdi|first=O.A.|coauthors=Mohammed, M.A.; Mohamed, A.J.|title=Implementing a Novel Approach an Convert Audio Compression to Text Coding via Hybrid Technique|journal=International Journal of Computer Science Issues|year=2012|month=November|volume=9|issue=6, No. 3|pages=53–59|url=http://ijcsi.org/papers/IJCSI-9-6-3-53-59.pdf|accessdate=6 March 2013}}</ref>.
 
Dünaamilise raadiuse tihendamine (Inglise K. ''"Dynamic range compression"'') tähendab valjude helide vaigistamist ja vaiksete helide valjemaks tegemist, mis jätab helitugevuse teatud valjuduse ja vaiksuse limiidi vahele. See eemaldab erandlikud olukorrad, kus helitugevus on liiga kõrge või liiga madal, ja seeläbi vähendab helifaili suurust.
 
=== Video ===