Penalty Functions for Evaluation Measures of Unsegmented Speech Retrieval
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
1. Evaluácia tematického vyhľadávania
v audiovizuálnych nahrávkach
Mgr. Petra Galuščáková
Ústav formální a aplikované lingvistiky
Matematicko-fyzikální fakulta
Univerzita Karlova v Praze
27. 1. 2014
2. Tématická anotácia archívu
Malach
● 357 českých nahrávok z archívu Malach
● Vyznačené boli úseky v ktorých sa hovorí o vybranej téme
● Manuálne anotácie
● Vybrané témy (116 tém), podrobne definované
– Napr. Detské umění v Terezíne, Židovské děti na
školách, Kolaborace místních obyvatel
● Anotátori naštudovali témy, počúvali nahrávky a
označovali relevantné useky vo výpovediach
● Spolu 5436 anotovaných segmentov
3. Ukážka anotovaných tém
Názov
témy
Description Narrator
Hudba v
holokaustu
Svědectví o tom, zda
hudba pomáhala
(duševně nebo i jinak)
nebo překážela vězňům
internovaným v
koncentračních táborech.
Popis toho, jakou roli hrála
hudba v životě vězňů.
Posilování
víry
Posilování náboženské
víry jako důsledek
holokaustu.
Většina Židů, kteří byli před
příchodem do tábora silně
nábožensky založení, ztratila v
důsledku svých zážitků svou víru
v Boha. Hledáme opačné
případy: lidi, jejichž víra byla v
důsledku zážitků posílena.
4. Tématické vyhľadávanie
● Máme:
● Kolekciu audio alebo audio-vizuálnych
dokumentov
● Tému
● Chceme:
● Dokument, ktorý tému obsahuje
● Presne označený relevantný úsek v dokumente
(začiatok úseku)
5. Speech Retrieval
● Information Retrieval (IR) sa zaoberá vyhľadávaním určitých
materiálov (väčšinou dokumentov), ktoré majú neštrukturovanú
podobu (teda sú to väčšinou texty) a ktoré napĺňajú nejakú
potrebu získania informácií vo veľkej skupine dát (ktorá je
väčšinou uložená na počítači) na základe používateľom zadanej
požiadavky*
● Speech Retrieval je špeciálny prípad IR, pri ktorom sú
dokumenty v hovorenej podobe
● Keyword spotting sa líši od Speech Retrieval – hľadanie výskytov
slova v prepisoch
* Manning, C. D. , Raghavan, P. Schütze, H: Introduction to Information Retrieval, New
York, NY, USA , Cambridge University Press, 2008
6. Vyhodnotenie vyhľadávania
dokumentov
● Precision = počet relevantných vrátených
dokumentov / počet všetkých vrátených
dokumentov
● Recall = počet relevantných vrátených
dokumentov / počet všetkých
relevantných dokumentov
● Average Precision - aritmetický priemer
hodnôt precision. Počíta sa pre každý
nový relevantný dokument, ktorý
vyhľadávací systém vráti.
● Mean Average Precision - priemer
hodnôt Average Precision pre množinu
zadaných požiadaviek
7. Vyhodnotenie vyhľadávania
relevantných segmentov
● Prevod na vyhľadávanie dokumentov
● Rozdelíme nahrávku na segmenty a k tým pristupujeme ako
ku dokumentom v predchádzajúcom prípade
● Metrika mGAP
● Nahrávky nemusia byť segmentované
● Kombinuje relevantnosť vyhľadaných dokumentov a
presnosť odpovedí systému
● Začiatok nájdeného segmentu nesmie byť príliš vzdialený od
začiatku relevantného segmentu
– Kvalita vyhľadávacieho systému závisí na vzdialenosti
týchto dvoch bodov
● Vhodný pre audio-vizuálne vyhľadávacie systémy
8. Metrika mGAP
● Kvalita vyhľadávacieho systému závisí na vzdialenosti
začiatku relevantného segmentu a začiatku nájdeného
segmentu
● Je určená pomocou penalizačnej funkcie
9. Ciele práce
● Overiť vhodnosť použitia metriky mGAP
● Často používaná, ale neexistuje žiadne overenie,
že mGAP zodpovedá správaniu ľudí
● Tvar funkcie – napr. symetria
● Šírka okna – od akej vzdialenosti je nájdený
segment nerelevantný?
● Ak to je potrebné, upraviť penalizačnú
funkciu
10. Postup práce I
● Užívateľský prieskum
● Ako užívatelia vnímajú rôzne postavenie nájdeného
segmentu vzhľadom na relevantný začiatok
segmentu?
● Špeciálne upravený prehrávač dát
● Dáta z projektu Malach – ručne anotované začiatky
tém
● Simulácia vyhľadávacích systémov
– Náhodne generované body namiesto reálnych odpovedí
vyhľadávacieho systému (playback point)
11. Postup práce II
● Užívateľom sme predložili playback point
(simulovaný začiatok)
● Blízko pri ručne označenom začiatku relevantného
segmentu
● Užívatelia sa pohybovali v nahrávke a označili
bod, kde relevantný úsek začína podľa nich
● Merali sme ako rýchlo boli schopní tento bod určiť
● Následne určili ako boli s vyhľadaným (simulovaným)
bodom spokojní
13. Užívateľský prieskum
Priebeh prieskumu 3. 3. 2011 - 18. 3. 2011
Počet účastníkov 24
Počet získaných hodnotení 263
Priemerný počet hodnotení na
jedného užívateľa
11
Priemerný čas strávený jedným
užívateľom pri prieskume
59,95 min
14. Výsledky prieskumu –
rýchlosť hodnotenia
● Čas od spustenia prehrávania do času keď užívateľ označí
začiatok relevantného úseku
● Užívatelia označia začiatok rýchlejšie keď sa playback point
nachádza pred začiatkom relevantného segmentu
15. Výsledky prieskumu –
subjektívne hodnotenie
● Užívatelia označili, ako sú spokojní so simulovaným
začiatkom segmentu
● Najspokojnejší sú keď playback point leží blízko pred
začiatkom relevantného segmentu, ale funkcia klesá
pomalšie keď playback point leží za začiatkom relevantného
segmentu
16. Výsledky prieskumu - závery
● Užívatelia preferujú začiatky vyhľadané pred
skutočnými začiatkami tém
→ penalizačná funkcia je asymetrická
● Ak je vyhľadaný bod vzdialený nanajvýš minútu od
začiatku témy, nemá to vplyv na kvalitu vyhľadávania
→ tieto body by nemali byť penalizované
● Užívatelia sú ochotní hľadať začiatok témy aj v
prípadoch, keď je vyhľadaný bod vo väčšej
vzdialenosti od začiatku témy
→ penalizačná funkcia by mala byť širšia
19. Záver
● Vyhľadávanie relevantného segmentu v audio-
vizuálnych nahrávkach
● Vyhodnotenie vyhľadávania: metrika mGAP
● Chýbajúce empirické výskumy v tejto oblasti
● Vyhodnotenie správania užívateľov vyhľadávacích
systémov
● Na kolekcii Malach
● Metrika mGAP koreluje so správaním respondentov, je
vyhovujúca
... ale môže byť ďalej vylepšená