chal

Hodnotenie úspešnosti
Prednáška z predmetu
Vyhľadávanie informácií
22.10.2012 FIIT STUBA
Bratislava

Hodnotiace charakteristiky
• Softvérové systémy sa najčastejšie hodnotia podľa
systémových charakteristík (performance evaluation)
– čas za ktorý daný systém vykoná všetky potrebné operácie
– priestor na disku alebo inom zariadení ktorý sa pri
vykonávaní týchto operácií spotrebuje.
• V prípade systémov ktoré získavajú dáta sú systémové
charakteristiky veľmi dôležité a asi aj najpodstatnejšie.
• Ak ide o systém na vyhľadávanie informácií tak, okrem
času a priestoru vplývajú na úspešnosť systému aj iné
charakteristiky (retrieval performance evaluation)
– nakoľko je zoznam dokumentov vrátený systémom presný,
resp. nakoľko sa to zhoduje s tým čo chcel používateľ

Retrieval performance evaluation
• Máme množinu dokumentov (doménovo alebo
nedoménovo závislú)
• Jedného alebo viacerých používateľov (môžeme ich
opomenúť ale musíme mať množinu relevantných
dokumentov)
– Na základe požiadavky (query), vyberú množinu (podľa
nich) relevantných dokumentov
– Vyhodnocovaný systém vytvorí vlastnú množinu
– Následne sa tieto množiny porovnajú (množina vytvorená
systémom s množinami vytvorenými používateľmi)
• Vyhodnotíme dve základné charakteristiky:
– Presnosť (precision)
– Pokrytie (recall)

Základné charakteristiky
Máme skupiny dokumentov D={D1,D2,…,Dn} a požiadavku Q pre
ktorú je R={R1,R2,…,Rr} množina relevantných dokumentov, kde
|R|=r. Povedzme že, systém vráti na požiadavku Q množinu
dokumentov I={I1,I2,…,Ii} a teda počet získaných dokumentov je
|I|=i. Ďalej definujeme množinu .RI R I= ∩

• Presnosť (precision):
–
• Pokrytie (recall):
–
– P=tp/(tp+fp) R=tp/(tp+fn)
RI
P
I
=
RI
R
R
=
Relevantné (R) Nerelevantné
Získané (I) true positive (tp = RI) false positive (fp)
Nezískané false negative (fn) true negative (tn)

• Accuracy = (tp + tn)/(tp + f p + f n + tn)
– Pravdepodbnosť, že systém určí získané relevantné aj vylúči nerelevantné
výsledky
• Specifity = tn/(tn + fp)
– Pravdepodobnosť systému určiť/vylúčiť nesprávne výsledky
• Fall-out = fp/(tn + fp)
– Pravdepodobnosť, že systém vráti nesprávny výsledok
• Rozdelenie čo sa týka relevantných a nerelevantných dokumentov pre
požiadavku (query) Q je veľmi zošikmené (99.9% spadá do kategórie
nerelevantné).
• Ak by systém chcel maximalizovať accuracy, specifity a minimalizovať fall-out,
tak by každý dokument označil za nerelevantný!!!
Ďaľšie charakteristiky
Relevantné (R) Nerelevantné
Získané (I) true positive (tp = RI) false positive (fp)
Nezískané false negative (fn) true negative (tn)

Príklad
• Predpokladajme, že máme množinu dokumentov D, ktorá
obsahuje 100 dokumentov týkajúcich sa cestovných
kancelárií. Máme dopyt Q ktorý hovorí, že požadujeme tie
cestovné kancelárie, ktoré poskytujú dovolenky v Grécku a na
priľahlých ostrovoch. Tím špecialistov vybral relevantnú
množinu R obsahujúcu 10 dokumentov. Systém na
vyhľadávanie dovoleniek vrátil 15 dokumentov, z toho 6
relevantných. Určte základné charakteristiky systému:
presnosť, úplnosť, akurátnosť, pravdepodobnosť určiť
nesprávne dokumenty a pravdepodobnosť, že systém vráti
nesprávny dokument.

Riešenie
• P=6/15=0,4=40%
• R=6/10=0,6=60%
• Accuracy=87/100=87%
• Specifity=81/90=90%
• Fall-out=9/90=10%
Relevantné (R = 10) Nerelevantné (90)
Získané (I = 15) true positive (tp = RI = 6) false positive (fp = 9)
Nezískané (85) false negative (fn = 4) true negative (tn = 81)

Vzťah medzi charakteristikami
• Z uvedeného naozaj vidieť, že posledné 3 (Accuracy,
Specifity a Fall-out) charakteristiky nadobúdajú
takmer optimálne hodnoty a preto na vyhodnotenie
systémov na získavanie informácií je výhodnejšie
použiť presnosť a úplnosť.
• Medzi presnosťou a pokrytím je veľmi úzka spojitosť
pretože zvyšovanie jednej prináša zvyčajne
(spravidla) pokles druhej charakteristiky.
• Žiadna sama o sebe nemôže vypovedať o úspešnosti
systému na vyhľadávanie informácií.

Príklad
• Máme množinu dokumentov D ktorá obsahuje 100 dokumentov
týkajúcich sa cestovných kancelárií. Máme dotaz Q ktorý hovorí že
požadujeme tie cestovné kancelárie ktoré poskytujú dovolenky
v Grécku a na priľahlých ostrovoch. Tým špecialistov alebo
používateľov vybral relevantnú množinu R obsahujúcu 10
dokumentov R={r45, r93, r22, r72, r3, r30, r65, r55, r34, r10} v tomto poradí (od
najrelevantnejšieho). Povedzme že systém vrátil 15 dokumentov
daných touto množinou: I={i3, i10, i44, i7, i17, i93, i5, i82, i22, i11, i13, i72, i2, i29, i55}.
Následne po prieniku týchto dvoch množín dostávame RI={ri3, ri10,
ri93, ri22, ri72, ri55}.
• Ak by sme počítali presnosť a pokrytie po jednotlivých
dokumentoch prieniku pre prvý prienik by sme dostali P=100%
(jeden výber a relevantný dokument) a R=10% (máme 1 relevantný
z 10-tich relevantných), pre druhý výber P=100% a R=20%, pre tretí
P=50% (máme tri dokumenty správne zo šiestich vybraných – v
množine I sme už na 6-tej pozícii) a R=30%, atď.

Riešenie
Poradie
Relevantnosť
+/-
1 + 1/1=100% 1/10=10%
2 + 2/2=100% 2/10=20%
3 - 2/3=66% 2/10=20%
4 - 2/4=50% 2/10=20%
5
- 2/5=40% 2/10=20%
6 + 3/6=50% 3/10=30%
7 - 3/7=43% 3/10=30%
8 - 3/8=38% 3/10=30%
9 + 4/9=44% 4/10=40%
10 - 4/10=40% 4/10=40%
11 - 4/11=36% 4/10=40%
12 + 5/12=42% 5/10=50%
13 - 5/13=38% 5/10=50%
14 - 5/14=36% 5/10=50%
15 + 6/15=40% 6/10=60%

Interpolovaná presnosť
• Interpolovaná presnosť Pinterp na určitej úrovni úplnosti
r je definovaná nasledovne: Pinterp(r)=maxr’≥rP(r’). Pre
úroveň úplnosti r=0 je Pinterp(0)=100%.
• Aby sme obmedzili počet úrovni úplnosti vezmeme
do úvahy iba niektoré úrovne. Pri vyhodnocovaní
úspešnosti systémov na vyhľadávanie informácií sa
používa štandardne 11 úrovní úplnosti: R={0%,10%,…
100%}. Predchádzajúca definícia by sa dala rozšíriť
nasledovne: j={0,1,2,…10}, kde Rj je úplnosť na úrovni
j a Pinterp(r)=maxi≤r≤i+1P(r).

Záver príkladu
• Pre určenie presnosti pre 0% pokrytie sme použili
predchádzajúcu definíciu a presnosť pre pokrytie
väčšie ako 60% klesne na 0% pretože, nie všetky
relevantné dokumenty boli systémom získané.
• Vo všeobecnosti je vzťah medzi presnosťou a pokrytím
presne taký istý ako bol ukázaný na obr. Pokiaľ jedna
charakteristika stúpa druhá klesá.
• Otázkou zostáva podľa ktorej štatistiky vyhodnotiť
úspešnosť systému na vyhľadávanie informácií a ako
navzájom porovnávať rôzne systémy na získavanie
informácií!!!

Príklad porovnania dvoch systémov na
jednu a tú istú požiadavku. Kto je
lepší?

Kde je priemerná
presnosť pre úroveň pokrytia r, n je počet
požiadaviek zaslaných do systému a je
presnosť na úrovni pokrytia r pre i-tu
požiadavku.
( )
( )
1
n
i
i
P r
P r
n=
= ∑ ( )P r
( )iP r

Čo ďaľej?
• Ukázalo sa, že presnosť a pokrytie nie sú
celkom dostačujúce
–F1 štatistika (niekde uvádzaná iba ako F
štatistika)
–E štatistika (uvedená prof. Rijsbergenom –
zakladateľom vyhodnocovania IR systémov)

F1 štatistika
kde, je harmonický
priemer pre i-ty dokument v usporiadanom
zozname, a R(i) a P(i) sú pokrytie a presnosť
pre i-ty dokument v utriedenom zozname.
Tento vzťah sa dá ešte prepísať nasledovným
spôsobom: (vo viacerých
literatúrach je používaný práve tento vzťah).
( )
( ) ( )
1
2
1 1
F i
R i P i
=
+ ( )1F i
( )
( ) ( )
( ) ( )1
2R i P i
F i
R i P i
=
+

E štatistika
kde, E(i) je E štatistika pre i-ty
dokument v usporiadanom zozname, a R(i) a P(i) sú
pokrytie a presnosť pre i-ty dokument v utriedenom
zozname a b je používateľom špecifikovaný parameter
ktorý vyjadruje relatívnu dôležitosť ktorú používateľ
prideľuje presnosti alebo pokrytiu.
V prípade že parameter b=1 je E štatistika doplnkom
k F1 štatistike. Ak je b>1 používateľ prikladá väčšiu
dôležitosť presnosti ako pokrytiu a naopak keď je b<1
prikladá väčšiu váhu pokrytiu ako presnosti.
( )
( ) ( )
2
2
1
1
1
b
E i
b
R i P i
+
= −
+

chal

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (10)

chal