Räsifunktsioon: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu
Supilusikas (arutelu | kaastöö)
P pisitoimetamine
3. rida:
'''Räsifunktsioon''' (inglise ''hash function'') on [[krüptograafia]]s kasutatav ühesuunaline [[Funktsioon (matemaatika)|funktsioon]] [[tekstistring]]ide [[kodeerimine|kodeerimiseks]]<ref name="e-Teatmik" />.
 
Räsifunktsiooni kasutatakse assotsiatiivsete massiivide ülesehituseks, andmekogumite seeriates duplikaatide otsimiseks, unikaalsete identifikaatorite (andmekogumite jaoks) ülesehituseks, kontroll-liitmiseks kogemata või meelega pandud (säilimisel või ülekandmisel) vigade leidmise eesmärgil, ka kaitsesüsteemide paroolide säilitamiseks (sel juhul ligipääs sellele mälukohale, kus asuvad paroolid, ei lase taastada parooli ennast).
 
Üldjuhul ühemõttelist vastavust lähteandmete ning räsikoodi vahel pole seetõttu, et räsifunktsiooni tähenduste arv on väiksem, kui sisendmassiivi variantide arv; on olemas palju massiive erineva sisuga, mis annavad samu räsikoode – siis on tegemist nn kollisioonidega. Kollisioonide tekkimise tõenäosus mängib suurt rolli räsifunktsioonide kvaliteedi hindamisel.
 
On olemas palju erinevate omadustega (arvutuse raskus, krüpteerimiskindlus jne) räsimisalgoritme. Ühe või teise räsifunktsiooni valik oleneb lahendatava ülesande eripärast.
 
== Ajalugu ==
13. rida:
[[Donald Knuth]] peab esimese räsimissüsteemi idee autoriks [[IBM]]i kaastöötajat [[Hans Peter Luhn]]i, kes pakkus välja kodeerimise räsimise abil jaanuaris 1953. [[Arnold Dumey]] esitas oma 1956. aasta töös "Arvutid ja automatiseerimine" esimesena räsimise kontseptsiooni sellisena, nagu enamik programmeerijatest seda tänapäeval tunneb. Dumey nägi räsimises "sõnaraamatu probleemi" lahendust ning pakkus välja idee kasutada räsiaadressiks algarvuga jagamise jääki.
 
Esimeseks tõsiseks tööks, mis tegeles otsimisega suurtest failidest, oli [[W. Wesley Peterson]]i 1957. aasta artikkel, milles ta käsitles avalikku adresseerimist ning osutas tootlikkuse halvenemisele kustutamisel. Kuus aastat hiljem avaldati [[Werner Buchholz]]i töö, milles on läbi viidud räsifunktsioonide põhjalik uurimine. Mitme järgmise aasta jooksul kasutati räsimist küll laialdaselt, kuid ei avaldatud ühtegi olulist uurimust.
 
1967. aastal mainis räsimist kaasaegses tähenduses Herbert Hellerman oma raamatus "Numbriliste arvutisüsteemide põhimõtted". 1968. aastal avaldas [[Robert Morris]] räsimisest põhjaliku ülevaate ning seda tööd peetakse võtmepublikatsiooniks, mis viis räsimise mõiste teaduskeelde ning kinnistas seni vaid spetsialistide argoos kasutatud terminit "räsi".
 
1990. aastate alguseni kasutati venekeelses kirjanduses tänu Andrei Jeršovi töödele termini "räsimine" ekvivalendina sõna "järjestus", ning kollisioonide jaoks kasutati terminit "konflikt". Tänapäeval on jäänud vaid sõna "räsimine".
24. rida:
* minimeerima kollisioonide arvu.
 
Määratletuseks oletame, et võtmete arv on <math>K</math>, ja räsifunktsioonil <math>h(K)</math> on mitte rohkem kui <math>M</math> erinevaid tähendusi:
 
<math>0<h(k)<M</math>
 
Halva räsifunktsiooni näitena võib tuua funktsiooni <math>M=1000</math>, mis kümnekohalisele [[Naturaalarv|naturaalarvulenaturaalarv]]ule <math>K</math> vastastab kolm numbri <math>K</math> kahekümnenda ruudu keskelt valitud arvu. Tundub, et räsikoodide tähendused peaksid ühtlaselt jaotuma «000» ja «999» vahel, kuid reaalsete andmete jaoks sobib selline meetod vaid juhul, kui võtmetel pole suurt nullide arvu vasakul ja paremal.{{sfn|Дональд Кнут. Искусство программирования}}
 
On ka mitu lihtsamat ja kindlamat meetodit, mida kasutavad paljud räsifunktsioonid.
 
=== Jagamisele rajatud räsifunktsioonid ===
Esimene meetod seisneb selles, et me kasutame räsina jagamise <math>M</math>-ga jääki, kus <math>M</math> on kõikide võimalike räside arv:
 
: <math>h(K) = K \mod M </math>
 
Seejuures on ilmselge, et paaris-<math>M</math> puhul funktsiooni tähendus on ka paarisarvuline, paaris-<math>K</math> puhul, ning paaritu – paaritu puhul, mis võib viia failiandmete olulise nihutuseni. Samuti ei tasu kasutada <math>M</math>-na arvuti arvutamise aluse astet, kuna räsikood sõltub ainult <math>K</math> arvu mitmetest paremal asuvatest numbritest, mis viib suure kollisioonide arvuni. Praktikal tavaliselt valitakse hariliku (alg-) <math>M</math> – enamasti on selline valik täiesti rahuldav.
 
Veel tasuks mainida räsimise meetodit, mis on rajatud mooduliga kaks jagamisele polünoomile. Antud meetodi puhul <math>M</math> peab samuti olema kahe aste, ning binaarvõtid (<math>K=k_{n-1}k_{n-2}...k_{0}</math>) on kujutatud polünoomidena. Sel juhul räsikoodina võetakse tegurite tähendusi polünoomist, mis on saadud nagu jääk <math>K</math> jagamisest eelnevalt valitud polünoomiga <math>P</math> astmes <math>m</math>:
 
: <math>K(x) \mod P(x) = h_{m-1}x^{m-1}+h_{1}x+h_{0} </math>
47. rida:
 
=== Räsimise multiplikaatne skeem ===
Teine meetod seisneb mingi terve konstandi <math>A</math>, mis on vastastikult harilik <math>w</math>-ga, valimises, kus <math>w</math> on masinsõna abil esindatavate tähenduste arv (IBM PC arvutites see on <math>2^{32}</math>). Siis võib võtta järgmist räsifunktsiooni:
 
: <math>h(k) = \left[ M \left\lfloor \frac{A}{w}*K \right\rfloor \right]</math>
 
Sel juhul, kahendsüsteemiga arvutil <math>M</math> on kahe aste ning <math>h(K)</math> koosneb korrutise <math>A*K</math> parempoolsetest vanematest bittidest.
 
Nende kahe meetodite eeliste hulgas tasub mainida, et nad kasulikul viisil kasutavad seda, et reaalsed võtmed pole juhuslikud, näiteks juhul, kui võtmed kujutavad endast aritmeetilist progressiooni (näiteks nimede «NIMI1», «NIMI2», «NIMI3» järjestust). Multiplikaatne meetod näitab aritmeetilist progressiooni kui erinevate räsitähenduste lähtestatud aritmeetilist progressiooni, mis vähendab kollisioonide arvu võrreldes juhusliku olukorraga.
 
Selle meetodi üks variatsioonidest on Fibonacci arvu räsimine, mis põhineb kuldlõige omadustel. <math>A</math> arvuna võetakse lähedasemat <math>\varphi^{-1}*w</math> arvule algarvu, mis on vastastikult harilik <math>w</math>-ga.
 
=== Muutliku suurusega ridade räsimine ===
Üleval mainitud meetodid on kasutatavad ka sel juhul, kui me peame tegelema võtmetega, mis koosnevad mitmetest sõnadest, või muutliku suurusega võtmetega. Näiteks võib kombineerida sõnad ühte <math>w</math> mooduliga liitmise või "välistav või" operatsiooni abil. Üks algoritmitest, mis töötab sel põhimõttel, on Pearsoni räsifunktsioon.
 
{{Pearsoni räsimine||en|Pearson hashing}} on Peter Pearsoni pakutud algoritm 8-bitiste registritega protsessorite jaoks, mille ülesandeks on suvalise suurusega rea jaoks räsikoodi kiire arvutus. Sisendile funktsioon saab sõna <math>W</math>, mis koosneb <math>n</math> sümbolitest, igaüks 1 baiti suurusega, ning tagastab tähenduse diapasoonis nullist kuni 255-ni. Seejuures räsikoodi tähendus sõltub sisendsõna iga sümbolist.
 
Algoritmi saab kirjeldada järgmise pseudokoodiga, mis saab sisendile rida <math>W</math> ning kasutab vaheste tabeli <math>T</math>
75. rida:
* Arvutuse lihtsust;
* Pole olemas selliseid sisendandmeid, mille jaoks kollisiooni tõenäosus on suurim;
* Võimalikkus modifitseerida ideaalseks räsifunktsiooniks.
 
Võtmete <math>K</math>, mis koosnevad <math>l</math> sümbolitest (<math>K=x_{1}x_{2}...x_{l}</math>), räsimise alternatiivse viisina võib välja pakkuda arvutust
81. rida:
 
=== Ideaalne räsimine ===
Ideaalseks räsifunktsiooniks ({{lang-en|Perfect hash function}}) nimetatakse sellist funktsiooni, mis kujutab iga võtme <math>S</math> komplektist täisarvude hulka ilma kollisioonideta. Matemaatilistes terminites see on injektiivne kujutis.
 
==== Kirjeldus ====
# Funktsiooni <math>h(k)\colon U\to [m]</math> nimetatakse ideaalseks räsifunktsiooniks <math>S\subseteq U</math> jaoks, kui ta on injektiivne <math>S</math> jaoks;
# Funktsiooni <math>h(k)\colon U\to [m]</math> nimetatakse minimaalseks ideaalseks räsifunktsiooniks <math>S\subseteq U</math> jaoks, kui ta on ideaalne räsifunktsioon ning <math>m = n = |S|</math>;
# <math>k\ge 1</math>, mis on täisarv, jaoks funktsiooni <math>h(k)\colon U\to [m]</math> nimetatakse <math>k</math>-ideaalseks räsifunktsiooniks (k-PHF) <math>S\subseteq U</math> jaoks, kui iga <math>j\in [m]</math> jaoks meil on <math>|\{x\in S | h(x) = j\}|\le k</math>.
 
Ideaalset räsimist kasutatakse nendel juhustel, kui me tahame omistada unikaalset identifikaatori võtmele, säilitamata mingitki infot võtme kohta. Üheks kõige ilmselgemaks ideaalse (võib pigem k-ideaalse) räsimise kasutamise näiteks on olukord, kui meil on käsutusel väike kiire mälu, kuhu me paneme selliste räsi võtmete tähendusi, mis on seotud suures, aga aeglases mälus säilitatavate andmetega. Seejuures ploki suurust võib valida selliseks, et vajatavad andmed, mis säilivad aeglases mälus, võivad olla saadud ühe päringuga. Sellist lähenemist kasutatakse, näiteks, aparaatruuterites. Samuti ideaalset räsimist kasutatakse algoritmide töö graafidel kiirendamiseks, neil juhustel, kui graafi kujundus ei mahu põhimälus.
 
=== Universaalne räsimine ===
{{|Universaalne räsimine|Universaalseks räsimiseks|en|Universal hashing}} nimetatakse räsimist, mille puhul kasutatakse mitte üht konkreetset räsifunktsiooni, vaid toimub valik antud parvest juhusliku algoritmi järgi. Universaalse räsimise kasutamine tavaliselt tagab väikest kollisioonide arvu. Universaalset räsimist kasutatakse mitmel viisil, näiteks, räsitabelite realiseerimises ning krüptograafias.
 
==== Kirjeldus ====
Oletame, et me tahame kujutada võtmed ruumist <math>U</math> arvudesse <math>[m]</math>. Sisendile algoritm saab teatud andmete hulka <math>S\in U</math> suurusega <math>n</math>, kusjuures ta on teadmata ebaselge. Reeglina räsimise eesmärgiks on kollisioonide minimaalse arvu saamine, mida on raske saavutada, kasutades mingit teatud räsifunktsiooni.
 
Sellise probleemi lahendusena võib valida funktsiooni juhuslikul viisil teatud hulgast (kogusest), mida nimetatakse universaalseks parveks <math>H = \{ h : U \to [m] \}</math>.
100. rida:
== Kollisioonitõrje meetodid ==
 
Nagu eespool mainitud, nimetatakse räsifunktsiooni kollisiooniks kaht sellist andmete sisendplokki, mis annavad samasuguseid räsikoode.
 
===Räsitabelites===
Enamik esimestest töödest, mis kirjeldasid räsimist, oli pühendatud kollisioonitõrje meetoditele räsitabelites, kuna räsifunktsioonid olid kasutatud otsimiseks suurtes failides. Räsitabelites kasutatakse kaht meetodit:
#Kettide meetod
#Avatud aadressi meetod
 
Esimene meetod seisneb <math>M</math> seotud nimestike toetuses, igaüks iga räsifunktsiooni tähendusele. Nimestikus säilivad võtmed, mis annavad sama räsikoode tähenduse. Üldjuhul, kui meil on <math>N</math> võtmeid ning <math>M</math> nimestikke, räsifunktsiooni keskmine suurus on <math>\frac{N}{M}</math> ning räsimine viib töö keskmise koguse vähenemiseni võrreldes järjestiku otsimisega ligikaudu <math>M</math> korda.
 
Teine meetod seisneb selles, et tabeli massiivis säilivad paarid võti-tähendus. Sel viisil me loobume täiesti linkidest ning lihtsalt vaatleme tabelikirjeid, kuni leiame otsitud võtme <math>K</math> või tühja koha. Järjestust, milles vaadeldakse tabeli lahtreid, nimetatakse proovide järjestuseks.
 
===Krüptograafiline sool===
Paroolide kaitsmiseks võltsimise eest on mitu viisi, mis töötavad isegi siis, kui krüptoanalüütikule on teada antud räsifunktsiooni jaoks antud kollisioonide ehituse viisid. Üheks sellistest meetoditest on krüptograafilise soola (ehk juhuslike andmete rea) lisamine sisendandmetele (vahel "soola" lisatakse räsikoodile), mis oluliselt raskendab lõplike räsitabelite analüüsi. Antud meetodit, näiteks, kasutatakse paroolide säilitamiseks UNIX-taolistes operatsioonisüsteemides.
 
== Räsifunktsioonide kasutus ==
 
Räsifunktsioone kasutatakse laialt krüptograafias ja paljudes andmestruktuurides – räsitabelites, Blumi filtrites ja Dekarti puudes.
 
=== Krüptograafilised räsifunktsioonid ===
122. rida:
* ''Pööramatus'': räsifunktsiooni ''m'' selle tähenduse jaoks peab olema arvutamise poolest võimatu leida andmeplokk <math>X</math>, mille jaoks <math>H(X)=m</math>.
* Kindlus ''esimese liigi kollisioonide'' suhtes: antud teate ''M'' jaoks peab olema arvutamise poolest võimatu leida teist teadet ''N'', mille jaoks <math>H(N)=H(M)</math>.
* Kindlus ''teise liigi kollisioonide'' suhtes: peab olema arvutamise poolest võimatu leida paari teateid <math>~ (M, M')</math>, millel on sama räsi.
 
Need nõuded pole sõltumatud:
* Pöörduv funktsioon pole kindel esimese ja teise liigi kollisioonide suhtes.
* Funktsioon, mis pole kindel esimese liigi kollisiooni suhtes, pole kindel ka teise liigi kollisiooni suhtes; vastupidine pole õige.
 
Tasub märkida, et pole tõestatud pöördumatute räsifunktsioonide olemasolu, mille jaoks räsifunktsiooni selle tähenduse mingisuguse prototüübi arvutamine on teoreetiliselt võimatu. Tavaliselt vastupidise tähenduse leidmine on vaid arvutamise poolest keeruline ülesanne.
 
"Sünnipäevade" atakk lubab leida kollisioone räsifunktsiooni jaoks keskmiselt tähenduste pikkusega ''n'' bitti ligikaudu <math>2^{n/2}</math> räsifunktsiooni arvutustega. Seepärast ''n''-bitine räsifunktsioon on peetud krüptokindlaks, kui tema jaoks kollisioonide leidmise arvutuslik keerulisus on lähedane <math>2^{n/2}</math>-ni.
 
Kriptograafiliste räsifunktsioonide jaoks on tähtis ka, et argumendi väikseimagi muutumisega funktsiooni tähendus muutuks oluliselt (laviini efekt). Sealhulgas räsi tähendus ei pea andma info kadumist isegi argumendi omaette bittidest. See nõudmine on krüptokindluse tagatiseks sellistele räsimise algoritmidele, mis räsivad kasutaja parooli võtme saamiseks.
 
Räsimist tihti kasutatakse digitaalallkirja algoritmides, kus šifreeritakse mitte teadet, vaid selle räsikoodi, mis vähendab arvutamise aega ning suurendab krüptokindlust. Samuti enamikul juhtudest paroolide asemel hoitakse nende räsikoodide tähendusi.
 
=== Kontrollsummad ===
 
Lihtsad, äärmiselt kiired ning kergesti täidetavad aparaadialgoritmid, mida kasutatakse kaitseks ettekavatsemata moonutustest, sealhulgas aparatuuri vigade eest. Matemaatika seisukohast on räsifunktsiooniks selline, mis arvutab sellist kontrollkoodi, mida kasutatakse vigade avastamiseks info edastamisel ning säilitamisel.
 
Arvutuse kiiruse poolest on kümnete ning sadade kordade kiiremad, kui krüptograafilised räsifunktsioonid, ning oluliselt lihtsamad aparaadi abil teostamise seisukohast.
 
Sellise kõrge kiiruse tasuks on krüptokindluse puudus – kerge võimalus sobitada teadet eelnevalt teadaolevaks summaks. Samuti on kontrollsummade järgulisus (tüüpiline arv:32 bitti) vähem, kui krüptograafiliste räside omad (tüüpilised arvud: 128, 160 ning 256 bitti), mis tähendab tahtmatute kollisioonide tekkimise võimalust.
 
Sellise algoritmi lihtsamaks näiteks on teate jagamine 32- või 16-bittisteks sõnadeks ning nende liitmine, mida kasutatakse näiteks [[TCP/IP]]-s.
 
Reeglina sellisele algoritmile esitatakse tüüpiliste aparaadiga sooritatavate vigade jälgimise nõudmiseid. Nõndanimetatud (nn) tsükliliste üleliigsete koodide algoritmide parv vastab sellistele nõudmistele. Nende hulga võib arvata, näiteks, [[CRC32]], mida kasutatakse [[Ethernet]]i vahendites ning andmete pakkimise formaadis [[2IP]].
 
Kontrollsumma võib näiteks olla kantud üle sidekanali kaudu koos põhitekstiga. Vastuvõtuotsas kontrollsumma võib olla arvutatud üle ning seda võib võrrelda ülekantud (saadetud) tähendusega. Kui on avastatud erinevus, siis see tähendab, et edastamisel tekkisid moonutused ning tuleb veel kord proovida.
 
Räsimise olmeanaloogiks antud juhul võib olla vastuvõtt, kui ülesõidudel mälus hoitakse pagasi kohtade arvu. Siis kontrolliks pole vaja meelde tuletada igat reisikohvrit, vaid piisab nende ülelugemisest. Klappimine tähendab, et mitte ükski kohver pole kaotatud. Teisiti öeldes, pagasi kohtade arv on selle räsikood.
Antud meetodit on lihtne täiendada kaitseks edastatava info võltsimise eest (MAC meetod). Sel juhul teostatakse räsimist krüptokindla funktsiooni abil teatele, mis on ühendatud salavõtmega, mida teavad ainult teate saatja ning vastuvõtja. Niimoodi krüptoanalüütik ei saa koodi taastada ülevõetud teate ning räsifunktsiooni tähenduse abil, see tähendab, ta ei saa teadet võltsida.
 
=== Geomeetriline räsimine ===
Geomeetriline räsimine on laialt arvutigraafikas ning arvutusgeomeetrias kasutatav meetod lahendamiseks ülesandeid tasapinnal või kolmemõõtmelises ruumis, näiteks lähemate paaride leidmiseks punktide hulgas või sarnaste kujutiste otsimiseks. Räsifunktsioon antud meetodi kasutamisel saab sisendile mingisuguse meetrilise ruumi ning jagab seda, moodustades punktidest koosneva võrgu. Tabeliks antud juhul on massiiv kahe või enam indeksiga ning kannab nime võrgufail ({{lang-en|Grid file}}). Geomeetriline räsimine samuti on kasutatud telekommunikatsioonides töötamisel mitmemõõtmeliste signaalidega.
 
=== Andmete otsimise kiirendamine ===
Räsitabeliks nimetatakse andmete struktuuri, mis lubab säilitada paare tüüpe (võti, räsikood) ning toetab elemendi otsimise, sisestamise ning eemaldamise operatsioone. Räsitabelite ülesanneks on otsimise kiirendamine, näiteks, tekstiväljade kirjutamisel andmebaasis võib olla arvutatud nende räsikood ning andmed võivad olla pandud jakku, mis ühtib sellise räsikoodiga. Siis andmete otsimisel tuleb kõigepealt arvutada teksti räsikoodi ning on kohe teada, kus (mis jaos) neid tuleb otsid, see tähendab, neid tuleb otsida mitte kogu baasis, vaid selle ühes jaos (see kiirendab otsingut märgatavalt).
 
Olmeanaloogiks võib sel juhul pidada tähestikulist sõnade järjestust sõnaraamatus. Sõna esimene täht on selle räsikood, ning otsimisel me vaatame üle mitte terve sõnaraamatu, vaid vajaliku tähe.