Vidi Video at Working Capital

From keywords to concepts:
when semantic meets video
Thomas M. Alisi
Media Integration and Communication Center - UNIFI
Working Capital Camp - Roma, 22.05.09

MICC background

• Media Integration and Communication Center - Università di Firenze

• centro di eccellenza riconosciuto dal Ministero dell’Università e della
Ricerca

• 4 laboratori: ingegneria del software, aspetti legali dei media,
telecomunicazione, analisi dell’informazione visuale

• Nel nostro gruppo: 5 professori e ricercatori, 13 post-doc e PhD students, 5
tech. assistants

MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.uniﬁ.it

MICC background

• Insegnamento
programmi di dottorato e Master in Multimedia Content
Design (attualmente ed. XI)

• Ricerca EU
2 progetti attualmente attivi: VidiVideo e IM3I (IMmersive
MultiMedia Interfaces)

• Trasferimento tecnologico
collaborazioni e progetti di ricerca in collaborazione con
aziende italiane e multinazionali


Vidi Video - FP6 [feb07 - jan10]

• Ricerca semantica interattiva di video con vocabolario di grandi dimensioni
di concetti audio e video provenienti da riconoscimento automatico

• L’obiettivo del work package è di studiare e sviluppare metodi, dimostratori
e applicazioni che consentono un’interrogazione naturale e esplorazione del
contenuto multimediale annotato in differenti campi applicativi.

• Universiteit van Amsterdam, Olanda

• Informatics and Telematics Institute, Grecia

• Institute for Systems And Computer Eng., Portogallo

• University of Surrey, UK

• Università degli Studi di Firenze - MICC, Italia

• Computer Vision Center, Spagna

• Beeld en Geluid, Olanda

• Fondazione Rinascimento Digitale, Italia

• Università di Modena e Reggio Emilia, Italia [subcontractor]


IM3I - FP7 [dec09 - dec11]

• IM3I estende il tradizionale sistema di ricerca e visualizzazione basato su
annotazioni di contenuto multimediale. Ad esempio il paradigma di ricerca
testuale diffuso da Google e altri motori convergerà ad una reale ricerca di
contenuti multimediali basato sull’effettivo contenuto

• Stichting Hogeschool voor de Kunsten Utrecht, Olanda

• Università degli Studi di Firenze - MICC, Italia

• Spring Technologies GmbH, Germania

• Neos Sistemi Srl, Italia

• National Audio-Visual Archive, Ungheria

• Musik Informations Centrum Austria, Austria

• IN2 search interfaces development Ltd, UK


La ricerca sul web: sempre e solo testo

• Siamo abituati a cercare usando semplici keyword testuali

• miliardi di pagine di testo, esistono sempre dei risultati, esempio:
Results 1 - 10 of about 1,020,000,000 for car [deﬁnition]. (0.15 seconds)

• Siamo abituati a ottenere interi documenti

• all’interno di un’intera pagina web, non è un problema ricercare
l’occorrenza del termine che ci interessa veramente


I professionisti del multimedia

• Come e cosa vuole cercare un professionista del multimedia?

• Vuole fare ricerche usando un vocabolario controllato, deﬁnito con
standard interni per avere annotazioni coerenti

• Vuole ottenere solo la parte di video che mostra il termine cercato:
basta fast forward/rewind!


Cosa si può fare per migliorare la ricerca nel
multimedia ?

• L’annotazione di oggetti multimediali è molto costosa e lenta, sia che si usino
tecniche manuali che automatiche

• Si possono annotare pochi concetti, se poi cerchiamo con una keyword
diversa da quella usata per l’annotazione non otteniamo niente...

• Risolviamo il problema con le ontologie!

• Usiamo lo streaming per mostrare subito la parte di video che interessa:

• basta mandare email con scritto: “guarda il video XXX, aspetta il 12°
minuto per vedere la parte interessante”


Ontologie? Si, ontologie!

• Un’ontologia è una rappresentazione formale di un insieme di concetti di un
dominio

• Ci consente di usare gerarchie e relazioni tra concetti invece di semplici
keywords

• Usa logiche soggetto - predicato - oggetto per descrivere il mondo in un
modo interpretabile da una macchina

• Usiamo tecnologie standard nate nel Semantic Web: OWL e RDF


Un’ontologia multimediale

• In VidiVideo abbiamo sviluppato un’ontologia che contiene elementi
multimediali (utile per la ricerca basata su contenuti)

• La struttura è creata automaticamente usando le relazioni tra concetti
deﬁnite in WordNet (“is a kind of”, “has part”, “is part of”, “synonym”) e
l’analisi di annotazioni già esistenti di video (“correlated to”)

• Possiamo usare l’ontologia per espandere la query usando le relazioni: si
ottengono più risultati!


Contesto: annotazione

• I tag di YouTube non hanno
semantica o regole, non vanno
bene per un professionista

• I machinetag di Flickr hanno la
forma del predicato, ma l’uso
non segue alcuno standard e
non prevede la deﬁnizione di
strutture


Contesto: annotazione

• L’annotatore si può usare anche per il crowd sourcing o in Amazon
Mechanical Turk


Contesto: ricerca

• Interfaccia web con più modalità di ricerca:

• componendo una query in modo visuale con drag & drop

• scrivendo una richiesta in linguaggio naturale

• con una ricerca Google-like

• Tutte le ricerche vengono fatte usando l’ontologia, per espandere la query


Contesto: ricerca


Specs

• Rich Internet Application (in Adobe Flex), ma può essere anche eseguita
come applicazione standalone

• Adobe Flash Media Server o Red5 per lo streaming video

• Testato da annotatori professionisti di Sound & Vision (archivio nazionale
radio-televisivo, Olanda) per annotare 23 video con circa 25.000 concetti
audio-visuali (indicando i timecode di inizio e ﬁne)

• Ontologies dataﬂow: da XML a MPEG-7 a OWL


Applicazioni

• Broadcaster e altri produttori video (es. agenzie pubblicitarie, giornali e
riviste)

• possono usare il sistema per indicizzare e ricercare nei loro archivi

• riuso dei materiali per nuove produzioni


Applicazioni

• Servizi di sharing video professionale

• per vendere video e multimedia su internet

• annotazioni di tipo professionale con vocabolari controllati per i vari tipi
di video

• ricerche avanzate: espansione automatica delle query

• ricerche avanzate: uso di relazioni temporali (es. dammi i video dove X
appare prima di Y)


Applicazioni

• Gestione di archivi video speciali, es. videosorveglianza o sport

• sempre maggiori quantità di video da gestire

• è possibile annotare certi eventi in modo automatico ma spesso un
operatore deve arricchire l’annotazione


Q&A

• tutto quello che riuscite a chiedere (ed io a rispondere)

• naturalmente in 15’’


Vidi Video at Working Capital

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (9)

Vidi Video at Working Capital

Hinweis der Redaktion