Täpsus ja saagis

Mustrituvastuses, otsingus ja klassifitseerimises nimetatakse täpsuseks asjakohaste esemete osakaalu leitud esemetest ning saagiseks ülesleitud asjakohaste esemete osakaalu kõigist asjakohastest esemetest. Nii täpsus kui saagis mõõdavad seega tulemuste asjakohasust.

Täpsus ja saagis

Oletame, et pildilt koerte ülesleidmiseks kirjutatud arvutiprogrammile antakse pilt 12 koerast ning programmi väljund väidab, et pildil on 8 koera, kusjuures nende 8 hulgast 5 on päriselt koerad (tõsipositiivsed) ja 3 on kassid (väärpositiivsed). Selle programmi täpsus on 5/8 ja saagis 5/12. Kui otsingumootor tagastab 30 lehte, millest 20 on asjakohased, ja ei leia üles ülejäänud 40 asjakohast lehte, on otsingumootori täpsus 20/30 = 2/3 ning saagis 20/60 = 1/3. Sel juhul näitab täpsus, kui kasulikud otsingumootori tulemused on, ja saagis näitab, kui täielikud tulemused.

Lihtsustades tähendab kõrge täpsus, et algoritm leiab suuremalt jaolt asjakohaseid tulemusi, ning kõrge saagis, et algoritm leiab enamiku asjakohastest tulemustest üles.

Sissejuhatus muuda

Otsingus, näiteks internetist veebilehtede otsimisel, on vaatluse all mingi hulk dokumente (veebilehti). Meie ülesanne on suvalise otsingu (näiteks "president Kaljulaid") jaoks leida üles kõik asjakohased dokumendid. Seda võib sõnastada ka klassifitseerimisena: meie ülesanne on jaotada kõik olemasolevad dokumendid kahte klassi: "asjakohased" ja "mitte asjakohased", kus "asjakohane" klass sisaldaks näiteks Vabariigi Presidendi Kantselei veebilehte ja "mitte asjakohane" klass sisaldaks näiteks Vikipeedia lehekülge Ukraina lipust. Saagis on siis defineeritud kui süsteemi leitud asjakohaste dokumentide arv jagatud kõigi olemasolevate asjakohaste dokumentide arvuga, ning täpsus on defineeritud kui süsteemi leitud asjakohaste dokumentide arv jagatud kõigi tagastatud dokumentide arvuga.