Ava peamenüü

Objekti tuvastamine on arvutitehnoloogia, mis tegeleb digitaalse video- ja pilditöötlusega.

Objekti tuvastamise raames treenitakse arvuteid märgendama kindlaid objekte iseseisvalt. Tehnoloogiat kasutatakse väga paljudes valdkondades, näiteks inimnägude tuvastamises, videovalvesüsteemides, tööstusdefektide markeerimises, iseliikuvate robotite juhtimises, vähkkasvajate tuvastamises, videomängude loomises ning väikeste detailide märgendamises (näiteks jalgpalli palli asukoht teleülekandes). Arvuteid treenitakse objekte tuvastama kasutades väga suurt hulka sarnaseid pilte või videoid ning tulemuse täpsus on seotud treenimisprotsessi jaoks antud andmemahuga.[1]

AjaluguRedigeeri

Objektide tuvastamise esialgsed ideed arenesid välja koos esimeste võimsamate arvutitega. 1981. aastal leiutati Stanfordi ülikoolis tehnoloogia ruumiliste kujundite tuvastamiseks.[2] 1987. aastal töötas Irving Biederman välja RBC teooria geoonmudelite tuvastamiseks.[3] 1991. aastal hakati treenima Massachusettsi Tehnoloogiainstituudis näotuvastust, üritades eri valemitega tuvastada inimese näo juures kindlaid iseärasusi ja mustreid.[4] Samal aastal töötati Chicago Ülikooli ja Rochesteri Ülikooli arvutiteaduste instituudis välja süsteeme värvide tuvastamiseks piltidel.[5] 1998. aastal töötati välja MNIST-i andmebaas, mis suutis tuvastada käsitsi kirjutatud numbrimärke 88% täpsusega.[6]

Eri süsteemide ja tehnoloogiate koostööl arenes objekti tuvastamine aina kiiremini ning uute meetodite väljatöötamisega kiirenes arvutite treenimise protsess märgatavalt. Ühe pildi tuvastuse kiirus tõusis 21. sajandi esimesel aastakümnel minutitelt sekunditele ning nüüdseks millisekunditele, võimaldades reaalajas märgendamist.[7] 2012. aastaks oli MNIST-i andmebaasi täiustatud 99,77% täpsuseni.[8] Arvestades objektituvastusega seotud ülesannetega, näiteks vähkkasvajate varajane märkamine ja iseliikuvad robotid, ei ole paljudes valdkondades vead aktsepteeritavad. Sellega seoses on järjest töötatud välja uusi meetodeid, et treeninguprotsessi parandada.[9]

MeetodidRedigeeri

Objekti tuvastamise meetodid jagunevad enamjaolt kahte gruppi: masinõppepõhised meetodid ning süvaõppepõhised meetodid. Masinõppepõhised meetodid vajavad üldiselt kindlalt defineeritud parameetreid, mille järgi klassifitseeritakse objekte tuvastamise jaoks. Süvaõppe puhul on treenimisprotsessi jaoks tavaliselt tehisnärvivõrk, mis kujutab teadmisi mustritena. Mõlema meetodi puhul on kasutusele võetud mitmesuguseid lahendusi.

Populaarsemad masinõppemeetodidRedigeeri

  • Assotsiatsioonireeglite õppimine – andmebaasidepõhine süsteem, mis loob relatsioone muutujate vahel. Seoseid luuakse kindlate reeglite põhjal, jagades reeglid omakorda nelja gruppi: juhuslikud seosed, juba teada olevad seosed, uued, ent mitteolulised seosed, ning uued ja olulised seosed.[10]
  • Histogramm orienteeritud gradientidest (HOG) – 2005. aastaks välja töötatud HOG-süsteem muutis töötatava ala väikesteks, omavahel ühendatud tükkideks ning uuris pikslitest koostatud gradientide suundasid nendes tükkides. HOG-süsteem on väga efektiivne kujundite tuvastamiseks, sealhulgas ka inimkuju märkamiseks, ent eeldab, et inimene on loomulikus asendis.[11]
  • Otsustuspuu meetod – diagrammsüsteem, mis kujutab võimalike otsuste tagajärgi eri harudes. Annab loogilise ülevaate, kasutades teekonna väärtusi ning tõenäosusi. Üsna lihtne meetod, mis on tundlik müra ning õpiandmete suhtes. Otsustuspuu võib anda ebakindlaid tulemusi kui õpiandmete vahel on palju keerulisi tunnuseid.[12]
  • Viola-Jonesi meetod – Paul Viola ja Michael Jonesi 2001. aastal välja töötatud meetod suutis väga efektiivselt reaalajas tuvastada nägusid. Süsteem õppis selgeks kindlad näo eripärad ja üldised tunnused ning märgendas sellised omadused vähemalt kaks kaadrit sekundis. See meetod oli üles ehitatud ainult näotuvastusele.[13]

Populaarsemad süvaõppemeetodidRedigeeri

  • Regionaalsed lahendused – R-CNN[14], Fast R-CNN[15], Faster R-CNN[16] leiavad piltide kõikvõimalikke kujundeid ja märgendeid ning tõenäosusi, et mõni neist on vastavalt sobiv antud olukorra puhul
  • You Only Look Once (YOLO) – väga kiire tuvastussüsteem, mis võimaldab lisaks piltidele ka reaalajas video materjali märgendamist[17]

ViitedRedigeeri

  1. Md Zahangir Alom, Tarek M. Taha, Chris Yakopcic, Stefan Westberg, Paheding Sidike, Mst Shamima Nasrin, Brian C Van Essen, Abdul A S. Awwal, Vijayan K. Asari. [https://arxiv.org/ftp/arxiv/papers/1803/1803.01164.pdf"The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches"]. Vaadatud 21.11.2018.
  2. Rodney A. Brooks. [https://www.ijcai.org/Proceedings/81-2/Papers/005.pdf"MODEL-BASED THREE DIMENSIONAL INTERPRETATIONS OF TWO DIMENSIONAL IMAGES"]. Vaadatud 19.11.2018.
  3. Irving Biedermann. "Recognition-by-Components: A Theory of Human Image Understanding". Vaadatud 19.11.2018.
  4. Matthew Turk, Alex Pentland. "Eigenfaces for Recognition". Vaadatud 19.11.2018.
  5. Color Indexing. "Michael J. Swain, Dana H. Ballard". Vaadatud 19.11.2018.
  6. Yann LeCun, Corinna Cortes, Christopher J.C. Burges. "The MNIST Database". Vaadatud 19.11.2018.
  7. Md Zahangir Alom, Tarek M. Taha, Chris Yakopcic, Stefan Westberg, Paheding Sidike, Mst Shamima Nasrin, Brian C Van Essen, Abdul A S. Awwal, Vijayan K. Asari. [https://arxiv.org/ftp/arxiv/papers/1803/1803.01164.pdf"The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches"]. Vaadatud 19.11.2018.
  8. Yann LeCun, Corinna Cortes, Christopher J.C. Burges. "The MNIST Database". Vaadatud 19.11.2018.
  9. Prince Grover. "Evolution of Object Detection and Localization Algorithms". Vaadatud 21.11.2018.
  10. Asko Tiidumaa. [http://www.quretec.com/u/vilo/edu/2003-04/DM_seminar_2003_II/Raport/P01/main.pdf"Assotsiatsioonireeglite leidmine suurtest andmehulkadest"]. Vaadatud 19.11.2018.
  11. Carlo Tomasi. "Histograms of Oriented Gradients". Vaadatud 19.11.2018.
  12. Stuart Eriksen, Candice Hyunh, L. Robin Keller. "Decision trees". Vaadatud 19.11.2018.
  13. Paul Viola, Michael Jones. "Rapid Object Detection using a Boosted Cascade of Simple Features". Vaadatud 19.11.2018.
  14. Ross Girshick, Jeff Donahue, Trevoer Darrell, Jitendra Malik. "Rich feature hierarchies for accurate object detection and semantic segmentation". Vaadatud 19.11.2018.
  15. Ross Girshick. "Fast R-CNN". Vaadatud 19.11.2018.
  16. Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks". Vaadatud 19.11.2018.
  17. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi. "You Only Look Once: Unified, Real-Time Object Detection". Vaadatud 19.11.2018.