1. From keywords to concepts:
when semantic meets video
Thomas M. Alisi
Media Integration and Communication Center - UNIFI
Working Capital Camp - Roma, 22.05.09
2. MICC background
• Media Integration and Communication Center - Università di Firenze
• centro di eccellenza riconosciuto dal Ministero dell’Università e della
Ricerca
• 4 laboratori: ingegneria del software, aspetti legali dei media,
telecomunicazione, analisi dell’informazione visuale
• Nel nostro gruppo: 5 professori e ricercatori, 13 post-doc e PhD students, 5
tech. assistants
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
3. MICC background
• Insegnamento
programmi di dottorato e Master in Multimedia Content
Design (attualmente ed. XI)
• Ricerca EU
2 progetti attualmente attivi: VidiVideo e IM3I (IMmersive
MultiMedia Interfaces)
• Trasferimento tecnologico
collaborazioni e progetti di ricerca in collaborazione con
aziende italiane e multinazionali
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
4. Vidi Video - FP6 [feb07 - jan10]
• Ricerca semantica interattiva di video con vocabolario di grandi dimensioni
di concetti audio e video provenienti da riconoscimento automatico
• L’obiettivo del work package è di studiare e sviluppare metodi, dimostratori
e applicazioni che consentono un’interrogazione naturale e esplorazione del
contenuto multimediale annotato in differenti campi applicativi.
• Universiteit van Amsterdam, Olanda
• Informatics and Telematics Institute, Grecia
• Institute for Systems And Computer Eng., Portogallo
• University of Surrey, UK
• Università degli Studi di Firenze - MICC, Italia
• Computer Vision Center, Spagna
• Beeld en Geluid, Olanda
• Fondazione Rinascimento Digitale, Italia
• Università di Modena e Reggio Emilia, Italia [subcontractor]
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
5. IM3I - FP7 [dec09 - dec11]
• IM3I estende il tradizionale sistema di ricerca e visualizzazione basato su
annotazioni di contenuto multimediale. Ad esempio il paradigma di ricerca
testuale diffuso da Google e altri motori convergerà ad una reale ricerca di
contenuti multimediali basato sull’effettivo contenuto
• Stichting Hogeschool voor de Kunsten Utrecht, Olanda
• Università degli Studi di Firenze - MICC, Italia
• Spring Technologies GmbH, Germania
• Neos Sistemi Srl, Italia
• National Audio-Visual Archive, Ungheria
• Musik Informations Centrum Austria, Austria
• IN2 search interfaces development Ltd, UK
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
6. La ricerca sul web: sempre e solo testo
• Siamo abituati a cercare usando semplici keyword testuali
• miliardi di pagine di testo, esistono sempre dei risultati, esempio:
Results 1 - 10 of about 1,020,000,000 for car [definition]. (0.15 seconds)
• Siamo abituati a ottenere interi documenti
• all’interno di un’intera pagina web, non è un problema ricercare
l’occorrenza del termine che ci interessa veramente
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
7. I professionisti del multimedia
• Come e cosa vuole cercare un professionista del multimedia?
• Vuole fare ricerche usando un vocabolario controllato, definito con
standard interni per avere annotazioni coerenti
• Vuole ottenere solo la parte di video che mostra il termine cercato:
basta fast forward/rewind!
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
8. Cosa si può fare per migliorare la ricerca nel
multimedia ?
• L’annotazione di oggetti multimediali è molto costosa e lenta, sia che si usino
tecniche manuali che automatiche
• Si possono annotare pochi concetti, se poi cerchiamo con una keyword
diversa da quella usata per l’annotazione non otteniamo niente...
• Risolviamo il problema con le ontologie!
• Usiamo lo streaming per mostrare subito la parte di video che interessa:
• basta mandare email con scritto: “guarda il video XXX, aspetta il 12°
minuto per vedere la parte interessante”
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
9. Ontologie? Si, ontologie!
• Un’ontologia è una rappresentazione formale di un insieme di concetti di un
dominio
• Ci consente di usare gerarchie e relazioni tra concetti invece di semplici
keywords
• Usa logiche soggetto - predicato - oggetto per descrivere il mondo in un
modo interpretabile da una macchina
• Usiamo tecnologie standard nate nel Semantic Web: OWL e RDF
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
10. Un’ontologia multimediale
• In VidiVideo abbiamo sviluppato un’ontologia che contiene elementi
multimediali (utile per la ricerca basata su contenuti)
• La struttura è creata automaticamente usando le relazioni tra concetti
definite in WordNet (“is a kind of”, “has part”, “is part of”, “synonym”) e
l’analisi di annotazioni già esistenti di video (“correlated to”)
• Possiamo usare l’ontologia per espandere la query usando le relazioni: si
ottengono più risultati!
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
11. Contesto: annotazione
• I tag di YouTube non hanno
semantica o regole, non vanno
bene per un professionista
• I machinetag di Flickr hanno la
forma del predicato, ma l’uso
non segue alcuno standard e
non prevede la definizione di
strutture
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
12. Contesto: annotazione
• L’annotatore si può usare anche per il crowd sourcing o in Amazon
Mechanical Turk
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
13. Contesto: ricerca
• Interfaccia web con più modalità di ricerca:
• componendo una query in modo visuale con drag & drop
• scrivendo una richiesta in linguaggio naturale
• con una ricerca Google-like
• Tutte le ricerche vengono fatte usando l’ontologia, per espandere la query
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
16. Specs
• Rich Internet Application (in Adobe Flex), ma può essere anche eseguita
come applicazione standalone
• Adobe Flash Media Server o Red5 per lo streaming video
• Testato da annotatori professionisti di Sound & Vision (archivio nazionale
radio-televisivo, Olanda) per annotare 23 video con circa 25.000 concetti
audio-visuali (indicando i timecode di inizio e fine)
• Ontologies dataflow: da XML a MPEG-7 a OWL
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
17. Applicazioni
• Broadcaster e altri produttori video (es. agenzie pubblicitarie, giornali e
riviste)
• possono usare il sistema per indicizzare e ricercare nei loro archivi
• riuso dei materiali per nuove produzioni
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
18. Applicazioni
• Servizi di sharing video professionale
• per vendere video e multimedia su internet
• annotazioni di tipo professionale con vocabolari controllati per i vari tipi
di video
• ricerche avanzate: espansione automatica delle query
• ricerche avanzate: uso di relazioni temporali (es. dammi i video dove X
appare prima di Y)
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
19. Applicazioni
• Gestione di archivi video speciali, es. videosorveglianza o sport
• sempre maggiori quantità di video da gestire
• è possibile annotare certi eventi in modo automatico ma spesso un
operatore deve arricchire l’annotazione
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
20. Q&A
• tutto quello che riuscite a chiedere (ed io a rispondere)
• naturalmente in 15’’
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it