SlideShare a Scribd company logo
1 of 19
Hodnotenie úspešnosti
Prednáška z predmetu
Vyhľadávanie informácií
22.10.2012 FIIT STUBA
Bratislava
Hodnotiace charakteristiky
• Softvérové systémy sa najčastejšie hodnotia podľa
systémových charakteristík (performance evaluation)
– čas za ktorý daný systém vykoná všetky potrebné operácie
– priestor na disku alebo inom zariadení ktorý sa pri
vykonávaní týchto operácií spotrebuje.
• V prípade systémov ktoré získavajú dáta sú systémové
charakteristiky veľmi dôležité a asi aj najpodstatnejšie.
• Ak ide o systém na vyhľadávanie informácií tak, okrem
času a priestoru vplývajú na úspešnosť systému aj iné
charakteristiky (retrieval performance evaluation)
– nakoľko je zoznam dokumentov vrátený systémom presný,
resp. nakoľko sa to zhoduje s tým čo chcel používateľ
Retrieval performance evaluation
• Máme množinu dokumentov (doménovo alebo
nedoménovo závislú)
• Jedného alebo viacerých používateľov (môžeme ich
opomenúť ale musíme mať množinu relevantných
dokumentov)
– Na základe požiadavky (query), vyberú množinu (podľa
nich) relevantných dokumentov
– Vyhodnocovaný systém vytvorí vlastnú množinu
– Následne sa tieto množiny porovnajú (množina vytvorená
systémom s množinami vytvorenými používateľmi)
• Vyhodnotíme dve základné charakteristiky:
– Presnosť (precision)
– Pokrytie (recall)
Základné charakteristiky
Máme skupiny dokumentov D={D1,D2,…,Dn} a požiadavku Q pre
ktorú je R={R1,R2,…,Rr} množina relevantných dokumentov, kde
|R|=r. Povedzme že, systém vráti na požiadavku Q množinu
dokumentov I={I1,I2,…,Ii} a teda počet získaných dokumentov je
|I|=i. Ďalej definujeme množinu .RI R I= ∩
Základné charakteristiky
• Presnosť (precision):
–
• Pokrytie (recall):
–
– P=tp/(tp+fp) R=tp/(tp+fn)
RI
P
I
=
RI
R
R
=
Relevantné (R) Nerelevantné
Získané (I) true positive (tp = RI) false positive (fp)
Nezískané false negative (fn) true negative (tn)
• Accuracy = (tp + tn)/(tp + f p + f n + tn)
– Pravdepodbnosť, že systém určí získané relevantné aj vylúči nerelevantné
výsledky
• Specifity = tn/(tn + fp)
– Pravdepodobnosť systému určiť/vylúčiť nesprávne výsledky
• Fall-out = fp/(tn + fp)
– Pravdepodobnosť, že systém vráti nesprávny výsledok
• Rozdelenie čo sa týka relevantných a nerelevantných dokumentov pre
požiadavku (query) Q je veľmi zošikmené (99.9% spadá do kategórie
nerelevantné).
• Ak by systém chcel maximalizovať accuracy, specifity a minimalizovať fall-out,
tak by každý dokument označil za nerelevantný!!!
Ďaľšie charakteristiky
Relevantné (R) Nerelevantné
Získané (I) true positive (tp = RI) false positive (fp)
Nezískané false negative (fn) true negative (tn)
Príklad
• Predpokladajme, že máme množinu dokumentov D, ktorá
obsahuje 100 dokumentov týkajúcich sa cestovných
kancelárií. Máme dopyt Q ktorý hovorí, že požadujeme tie
cestovné kancelárie, ktoré poskytujú dovolenky v Grécku a na
priľahlých ostrovoch. Tím špecialistov vybral relevantnú
množinu R obsahujúcu 10 dokumentov. Systém na
vyhľadávanie dovoleniek vrátil 15 dokumentov, z toho 6
relevantných. Určte základné charakteristiky systému:
presnosť, úplnosť, akurátnosť, pravdepodobnosť určiť
nesprávne dokumenty a pravdepodobnosť, že systém vráti
nesprávny dokument.
Riešenie
• P=6/15=0,4=40%
• R=6/10=0,6=60%
• Accuracy=87/100=87%
• Specifity=81/90=90%
• Fall-out=9/90=10%
  Relevantné (R = 10) Nerelevantné (90)
Získané (I = 15) true positive (tp = RI = 6) false positive (fp = 9)
Nezískané (85) false negative (fn = 4) true negative (tn = 81)
Vzťah medzi charakteristikami
• Z uvedeného naozaj vidieť, že posledné 3 (Accuracy,
Specifity a Fall-out) charakteristiky nadobúdajú
takmer optimálne hodnoty a preto na vyhodnotenie
systémov na získavanie informácií je výhodnejšie
použiť presnosť a úplnosť.
• Medzi presnosťou a pokrytím je veľmi úzka spojitosť
pretože zvyšovanie jednej prináša zvyčajne
(spravidla) pokles druhej charakteristiky.
• Žiadna sama o sebe nemôže vypovedať o úspešnosti
systému na vyhľadávanie informácií.
Príklad
• Máme množinu dokumentov D ktorá obsahuje 100 dokumentov
týkajúcich sa cestovných kancelárií. Máme dotaz Q ktorý hovorí že
požadujeme tie cestovné kancelárie ktoré poskytujú dovolenky
v Grécku a na priľahlých ostrovoch. Tým špecialistov alebo
používateľov vybral relevantnú množinu R obsahujúcu 10
dokumentov R={r45, r93, r22, r72, r3, r30, r65, r55, r34, r10} v tomto poradí (od
najrelevantnejšieho). Povedzme že systém vrátil 15 dokumentov
daných touto množinou: I={i3, i10, i44, i7, i17, i93, i5, i82, i22, i11, i13, i72, i2, i29, i55}.
Následne po prieniku týchto dvoch množín dostávame RI={ri3, ri10,
ri93, ri22, ri72, ri55}.
• Ak by sme počítali presnosť a pokrytie po jednotlivých
dokumentoch prieniku pre prvý prienik by sme dostali P=100%
(jeden výber a relevantný dokument) a R=10% (máme 1 relevantný
z 10-tich relevantných), pre druhý výber P=100% a R=20%, pre tretí
P=50% (máme tri dokumenty správne zo šiestich vybraných – v
množine I sme už na 6-tej pozícii) a R=30%, atď.
Riešenie
Poradie
Relevantnosť
+/-
1 + 1/1=100% 1/10=10%
2 + 2/2=100% 2/10=20%
3 - 2/3=66% 2/10=20%
4 - 2/4=50% 2/10=20%
5
- 2/5=40% 2/10=20%
6 + 3/6=50% 3/10=30%
7 - 3/7=43% 3/10=30%
8 - 3/8=38% 3/10=30%
9 + 4/9=44% 4/10=40%
10 - 4/10=40% 4/10=40%
11 - 4/11=36% 4/10=40%
12 + 5/12=42% 5/10=50%
13 - 5/13=38% 5/10=50%
14 - 5/14=36% 5/10=50%
15 + 6/15=40% 6/10=60%
Interpolovaná presnosť
• Interpolovaná presnosť Pinterp na určitej úrovni úplnosti
r je definovaná nasledovne: Pinterp(r)=maxr’≥rP(r’). Pre
úroveň úplnosti r=0 je Pinterp(0)=100%.
• Aby sme obmedzili počet úrovni úplnosti vezmeme
do úvahy iba niektoré úrovne. Pri vyhodnocovaní
úspešnosti systémov na vyhľadávanie informácií sa
používa štandardne 11 úrovní úplnosti: R={0%,10%,…
100%}. Predchádzajúca definícia by sa dala rozšíriť
nasledovne: j={0,1,2,…10}, kde Rj je úplnosť na úrovni
j a Pinterp(r)=maxi≤r≤i+1P(r).
Pokračovanie riešenia
Záver príkladu
• Pre určenie presnosti pre 0% pokrytie sme použili
predchádzajúcu definíciu a presnosť pre pokrytie
väčšie ako 60% klesne na 0% pretože, nie všetky
relevantné dokumenty boli systémom získané.
• Vo všeobecnosti je vzťah medzi presnosťou a pokrytím
presne taký istý ako bol ukázaný na obr. Pokiaľ jedna
charakteristika stúpa druhá klesá.
• Otázkou zostáva podľa ktorej štatistiky vyhodnotiť
úspešnosť systému na vyhľadávanie informácií a ako
navzájom porovnávať rôzne systémy na získavanie
informácií!!!
Príklad porovnania dvoch systémov na
jednu a tú istú požiadavku. Kto je
lepší?
Základné charakteristiky
Kde je priemerná
presnosť pre úroveň pokrytia r, n je počet
požiadaviek zaslaných do systému a je
presnosť na úrovni pokrytia r pre i-tu
požiadavku.
( )
( )
1
n
i
i
P r
P r
n=
= ∑ ( )P r
( )iP r
Čo ďaľej?
• Ukázalo sa, že presnosť a pokrytie nie sú
celkom dostačujúce
–F1 štatistika (niekde uvádzaná iba ako F
štatistika)
–E štatistika (uvedená prof. Rijsbergenom –
zakladateľom vyhodnocovania IR systémov)
F1 štatistika
kde, je harmonický
priemer pre i-ty dokument v usporiadanom
zozname, a R(i) a P(i) sú pokrytie a presnosť
pre i-ty dokument v utriedenom zozname.
Tento vzťah sa dá ešte prepísať nasledovným
spôsobom: (vo viacerých
literatúrach je používaný práve tento vzťah).
( )
( ) ( )
1
2
1 1
F i
R i P i
=
+ ( )1F i
( )
( ) ( )
( ) ( )1
2R i P i
F i
R i P i
=
+
E štatistika
kde, E(i) je E štatistika pre i-ty
dokument v usporiadanom zozname, a R(i) a P(i) sú
pokrytie a presnosť pre i-ty dokument v utriedenom
zozname a b je používateľom špecifikovaný parameter
ktorý vyjadruje relatívnu dôležitosť ktorú používateľ
prideľuje presnosti alebo pokrytiu.
V prípade že parameter b=1 je E štatistika doplnkom
k F1 štatistike. Ak je b>1 používateľ prikladá väčšiu
dôležitosť presnosti ako pokrytiu a naopak keď je b<1
prikladá väčšiu váhu pokrytiu ako presnosti.
( )
( ) ( )
2
2
1
1
1
b
E i
b
R i P i
+
= −
+

More Related Content

Viewers also liked

Presentation mary grace a. madrona
Presentation mary grace a. madronaPresentation mary grace a. madrona
Presentation mary grace a. madronaghisleenhannah
 
slideshow_name
slideshow_nameslideshow_name
slideshow_nameshort13
 
slideshow_name
slideshow_nameslideshow_name
slideshow_nameshort13
 
Presentation mary grace a. madrona
Presentation mary grace a. madronaPresentation mary grace a. madrona
Presentation mary grace a. madronaghisleenhannah
 
The seven natural wonders
The seven natural wondersThe seven natural wonders
The seven natural wondersxavierd14
 
Startup Career Launchpad 2013 programme
Startup Career Launchpad 2013 programmeStartup Career Launchpad 2013 programme
Startup Career Launchpad 2013 programmeChristopher Pruijsen
 
Dna and genetics_basic_power_point__1-14-11[1]
Dna and genetics_basic_power_point__1-14-11[1]Dna and genetics_basic_power_point__1-14-11[1]
Dna and genetics_basic_power_point__1-14-11[1]bree14
 
Ricerca l'amborghini
Ricerca l'amborghiniRicerca l'amborghini
Ricerca l'amborghinivalterlosa99
 
Retete bucate-retetar-produse-cofetarie-si-patiserie
Retete bucate-retetar-produse-cofetarie-si-patiserieRetete bucate-retetar-produse-cofetarie-si-patiserie
Retete bucate-retetar-produse-cofetarie-si-patiserieSilvia Caraiman
 

Viewers also liked (10)

Presentation mary grace a. madrona
Presentation mary grace a. madronaPresentation mary grace a. madrona
Presentation mary grace a. madrona
 
slideshow_name
slideshow_nameslideshow_name
slideshow_name
 
slideshow_name
slideshow_nameslideshow_name
slideshow_name
 
Presentation mary grace a. madrona
Presentation mary grace a. madronaPresentation mary grace a. madrona
Presentation mary grace a. madrona
 
The seven natural wonders
The seven natural wondersThe seven natural wonders
The seven natural wonders
 
Phan phoi chuan
Phan  phoi chuanPhan  phoi chuan
Phan phoi chuan
 
Startup Career Launchpad 2013 programme
Startup Career Launchpad 2013 programmeStartup Career Launchpad 2013 programme
Startup Career Launchpad 2013 programme
 
Dna and genetics_basic_power_point__1-14-11[1]
Dna and genetics_basic_power_point__1-14-11[1]Dna and genetics_basic_power_point__1-14-11[1]
Dna and genetics_basic_power_point__1-14-11[1]
 
Ricerca l'amborghini
Ricerca l'amborghiniRicerca l'amborghini
Ricerca l'amborghini
 
Retete bucate-retetar-produse-cofetarie-si-patiserie
Retete bucate-retetar-produse-cofetarie-si-patiserieRetete bucate-retetar-produse-cofetarie-si-patiserie
Retete bucate-retetar-produse-cofetarie-si-patiserie
 

chal

  • 1. Hodnotenie úspešnosti Prednáška z predmetu Vyhľadávanie informácií 22.10.2012 FIIT STUBA Bratislava
  • 2. Hodnotiace charakteristiky • Softvérové systémy sa najčastejšie hodnotia podľa systémových charakteristík (performance evaluation) – čas za ktorý daný systém vykoná všetky potrebné operácie – priestor na disku alebo inom zariadení ktorý sa pri vykonávaní týchto operácií spotrebuje. • V prípade systémov ktoré získavajú dáta sú systémové charakteristiky veľmi dôležité a asi aj najpodstatnejšie. • Ak ide o systém na vyhľadávanie informácií tak, okrem času a priestoru vplývajú na úspešnosť systému aj iné charakteristiky (retrieval performance evaluation) – nakoľko je zoznam dokumentov vrátený systémom presný, resp. nakoľko sa to zhoduje s tým čo chcel používateľ
  • 3. Retrieval performance evaluation • Máme množinu dokumentov (doménovo alebo nedoménovo závislú) • Jedného alebo viacerých používateľov (môžeme ich opomenúť ale musíme mať množinu relevantných dokumentov) – Na základe požiadavky (query), vyberú množinu (podľa nich) relevantných dokumentov – Vyhodnocovaný systém vytvorí vlastnú množinu – Následne sa tieto množiny porovnajú (množina vytvorená systémom s množinami vytvorenými používateľmi) • Vyhodnotíme dve základné charakteristiky: – Presnosť (precision) – Pokrytie (recall)
  • 4. Základné charakteristiky Máme skupiny dokumentov D={D1,D2,…,Dn} a požiadavku Q pre ktorú je R={R1,R2,…,Rr} množina relevantných dokumentov, kde |R|=r. Povedzme že, systém vráti na požiadavku Q množinu dokumentov I={I1,I2,…,Ii} a teda počet získaných dokumentov je |I|=i. Ďalej definujeme množinu .RI R I= ∩
  • 5. Základné charakteristiky • Presnosť (precision): – • Pokrytie (recall): – – P=tp/(tp+fp) R=tp/(tp+fn) RI P I = RI R R = Relevantné (R) Nerelevantné Získané (I) true positive (tp = RI) false positive (fp) Nezískané false negative (fn) true negative (tn)
  • 6. • Accuracy = (tp + tn)/(tp + f p + f n + tn) – Pravdepodbnosť, že systém určí získané relevantné aj vylúči nerelevantné výsledky • Specifity = tn/(tn + fp) – Pravdepodobnosť systému určiť/vylúčiť nesprávne výsledky • Fall-out = fp/(tn + fp) – Pravdepodobnosť, že systém vráti nesprávny výsledok • Rozdelenie čo sa týka relevantných a nerelevantných dokumentov pre požiadavku (query) Q je veľmi zošikmené (99.9% spadá do kategórie nerelevantné). • Ak by systém chcel maximalizovať accuracy, specifity a minimalizovať fall-out, tak by každý dokument označil za nerelevantný!!! Ďaľšie charakteristiky Relevantné (R) Nerelevantné Získané (I) true positive (tp = RI) false positive (fp) Nezískané false negative (fn) true negative (tn)
  • 7. Príklad • Predpokladajme, že máme množinu dokumentov D, ktorá obsahuje 100 dokumentov týkajúcich sa cestovných kancelárií. Máme dopyt Q ktorý hovorí, že požadujeme tie cestovné kancelárie, ktoré poskytujú dovolenky v Grécku a na priľahlých ostrovoch. Tím špecialistov vybral relevantnú množinu R obsahujúcu 10 dokumentov. Systém na vyhľadávanie dovoleniek vrátil 15 dokumentov, z toho 6 relevantných. Určte základné charakteristiky systému: presnosť, úplnosť, akurátnosť, pravdepodobnosť určiť nesprávne dokumenty a pravdepodobnosť, že systém vráti nesprávny dokument.
  • 8. Riešenie • P=6/15=0,4=40% • R=6/10=0,6=60% • Accuracy=87/100=87% • Specifity=81/90=90% • Fall-out=9/90=10%   Relevantné (R = 10) Nerelevantné (90) Získané (I = 15) true positive (tp = RI = 6) false positive (fp = 9) Nezískané (85) false negative (fn = 4) true negative (tn = 81)
  • 9. Vzťah medzi charakteristikami • Z uvedeného naozaj vidieť, že posledné 3 (Accuracy, Specifity a Fall-out) charakteristiky nadobúdajú takmer optimálne hodnoty a preto na vyhodnotenie systémov na získavanie informácií je výhodnejšie použiť presnosť a úplnosť. • Medzi presnosťou a pokrytím je veľmi úzka spojitosť pretože zvyšovanie jednej prináša zvyčajne (spravidla) pokles druhej charakteristiky. • Žiadna sama o sebe nemôže vypovedať o úspešnosti systému na vyhľadávanie informácií.
  • 10. Príklad • Máme množinu dokumentov D ktorá obsahuje 100 dokumentov týkajúcich sa cestovných kancelárií. Máme dotaz Q ktorý hovorí že požadujeme tie cestovné kancelárie ktoré poskytujú dovolenky v Grécku a na priľahlých ostrovoch. Tým špecialistov alebo používateľov vybral relevantnú množinu R obsahujúcu 10 dokumentov R={r45, r93, r22, r72, r3, r30, r65, r55, r34, r10} v tomto poradí (od najrelevantnejšieho). Povedzme že systém vrátil 15 dokumentov daných touto množinou: I={i3, i10, i44, i7, i17, i93, i5, i82, i22, i11, i13, i72, i2, i29, i55}. Následne po prieniku týchto dvoch množín dostávame RI={ri3, ri10, ri93, ri22, ri72, ri55}. • Ak by sme počítali presnosť a pokrytie po jednotlivých dokumentoch prieniku pre prvý prienik by sme dostali P=100% (jeden výber a relevantný dokument) a R=10% (máme 1 relevantný z 10-tich relevantných), pre druhý výber P=100% a R=20%, pre tretí P=50% (máme tri dokumenty správne zo šiestich vybraných – v množine I sme už na 6-tej pozícii) a R=30%, atď.
  • 11. Riešenie Poradie Relevantnosť +/- 1 + 1/1=100% 1/10=10% 2 + 2/2=100% 2/10=20% 3 - 2/3=66% 2/10=20% 4 - 2/4=50% 2/10=20% 5 - 2/5=40% 2/10=20% 6 + 3/6=50% 3/10=30% 7 - 3/7=43% 3/10=30% 8 - 3/8=38% 3/10=30% 9 + 4/9=44% 4/10=40% 10 - 4/10=40% 4/10=40% 11 - 4/11=36% 4/10=40% 12 + 5/12=42% 5/10=50% 13 - 5/13=38% 5/10=50% 14 - 5/14=36% 5/10=50% 15 + 6/15=40% 6/10=60%
  • 12. Interpolovaná presnosť • Interpolovaná presnosť Pinterp na určitej úrovni úplnosti r je definovaná nasledovne: Pinterp(r)=maxr’≥rP(r’). Pre úroveň úplnosti r=0 je Pinterp(0)=100%. • Aby sme obmedzili počet úrovni úplnosti vezmeme do úvahy iba niektoré úrovne. Pri vyhodnocovaní úspešnosti systémov na vyhľadávanie informácií sa používa štandardne 11 úrovní úplnosti: R={0%,10%,… 100%}. Predchádzajúca definícia by sa dala rozšíriť nasledovne: j={0,1,2,…10}, kde Rj je úplnosť na úrovni j a Pinterp(r)=maxi≤r≤i+1P(r).
  • 14. Záver príkladu • Pre určenie presnosti pre 0% pokrytie sme použili predchádzajúcu definíciu a presnosť pre pokrytie väčšie ako 60% klesne na 0% pretože, nie všetky relevantné dokumenty boli systémom získané. • Vo všeobecnosti je vzťah medzi presnosťou a pokrytím presne taký istý ako bol ukázaný na obr. Pokiaľ jedna charakteristika stúpa druhá klesá. • Otázkou zostáva podľa ktorej štatistiky vyhodnotiť úspešnosť systému na vyhľadávanie informácií a ako navzájom porovnávať rôzne systémy na získavanie informácií!!!
  • 15. Príklad porovnania dvoch systémov na jednu a tú istú požiadavku. Kto je lepší?
  • 16. Základné charakteristiky Kde je priemerná presnosť pre úroveň pokrytia r, n je počet požiadaviek zaslaných do systému a je presnosť na úrovni pokrytia r pre i-tu požiadavku. ( ) ( ) 1 n i i P r P r n= = ∑ ( )P r ( )iP r
  • 17. Čo ďaľej? • Ukázalo sa, že presnosť a pokrytie nie sú celkom dostačujúce –F1 štatistika (niekde uvádzaná iba ako F štatistika) –E štatistika (uvedená prof. Rijsbergenom – zakladateľom vyhodnocovania IR systémov)
  • 18. F1 štatistika kde, je harmonický priemer pre i-ty dokument v usporiadanom zozname, a R(i) a P(i) sú pokrytie a presnosť pre i-ty dokument v utriedenom zozname. Tento vzťah sa dá ešte prepísať nasledovným spôsobom: (vo viacerých literatúrach je používaný práve tento vzťah). ( ) ( ) ( ) 1 2 1 1 F i R i P i = + ( )1F i ( ) ( ) ( ) ( ) ( )1 2R i P i F i R i P i = +
  • 19. E štatistika kde, E(i) je E štatistika pre i-ty dokument v usporiadanom zozname, a R(i) a P(i) sú pokrytie a presnosť pre i-ty dokument v utriedenom zozname a b je používateľom špecifikovaný parameter ktorý vyjadruje relatívnu dôležitosť ktorú používateľ prideľuje presnosti alebo pokrytiu. V prípade že parameter b=1 je E štatistika doplnkom k F1 štatistike. Ak je b>1 používateľ prikladá väčšiu dôležitosť presnosti ako pokrytiu a naopak keď je b<1 prikladá väčšiu váhu pokrytiu ako presnosti. ( ) ( ) ( ) 2 2 1 1 1 b E i b R i P i + = − +