Il Distretto Tecnologico ICT “Sardegna DistrICT” (19 aprile 2007)
Presentazione_2015
1. Analisi e sperimentazione di tecnologie
per l’identificazione e il riconoscimento
di contenuti multimediali nel Quadruple
Play
Ing. Marco Barbato
Prof. Massimo Panella
Dipartimento di Ingegneria dell’Informazione, Elettronica e Telecomunicazioni (DIET)
Via Eudossiana, 18 00184 Roma
Telecom Italia S.p.A. – Presentazione dei risultati raggiunti
2. Riconoscimento di contenuti
multimediali nel Quad Play
Pagina 2
Inquadramento dello scenario
Starting point: diffusione massiva di smart devices
Aree di riferimento
• Comunicazione Adattiva Multicanale: modello di diffusione delle informazioni che
sfrutta diversi canali di comunicazione per raggiungere interlocutori diversi.
• Quadruple Play: integrazione in un’unica connessione dei flussi voce, dati e video in
ottica wireless, utilizzando uno stesso dispositivo per la fruizione dei suddetti servizi.
• Audio Data Retrieval: estrazione di dati che consente l’indicizzazione su DB e
l’identificazione (acustica) di tracce musicali opportunamente codificate attraverso la
tecnica del FINGERPRINTING.
Il Second Screen consiste nell’ottenimento di un
collegamento diretto con il device durante il
consumo di un contenuto di intrattenimento.
Tipicamente ci si riferisce all’utilizzo in parallelo del
dispositivo mobile mentre si guarda un film, una
trasmissione, un evento sportivo, etc., risultando in
una modalità di fruizione attiva.
dimensioni display
affidabilità connessioni
fruizione di contenuti
3. Riconoscimento di contenuti
multimediali nel Quad Play
Pagina 3
Caratteristiche dell’idea progettuale
• Orientamento alla e all’utente (non più broadcast à canale di ritorno)
• Relazione fortemente con l’utente (mi avvalgo dei diversi sensori)
• Diversificazione dei da trasmettere (più o meno avanzati e
personalizzati)
• Moltiplicazione dei con l’utente
Ambiti applicativi: ADVERISEMENT e INFOTAINMENT
Oggetto dell’identificazione: RICONOSCIMENTO DI SPOT
PUBBLICITARI
Obiettivo finale - CUSTOMER ENGAGEMENT
Instaurare un rapporto diretto con il cliente e
aumentarne il coinvolgimento
• Attivazione contenuti studiati ad hoc
• Integrazione in un’app sperimentale già sviluppata
4. Riconoscimento di contenuti
multimediali nel Quad Play
Pagina 4
Riepilogo del lavoro svolto
La precedente collaborazione tra Telecom e Sapienza aveva portato alla realizzazione di un
applicativo desktop basato su Echoprint, un software con licenza open source orientato
all’identificazione e alla catalogazione dei propri archivi musicali.
Per proseguire tale lavoro, si è scelta la strada dell’integrazione all’interno di un’app (già
sviluppata a livello sperimentale) fortemente orientata all’interazione multicanale e al quad
play;; per tale motivo, è stata implementata un’app per piattaforma Android.
Caratteristiche di base della soluzione
• utilizzo del modello del : l’utente registra una canzone, la
etichetta e la invia
• orientamento al riconoscimento in modalità : sono implementate alcune
funzioni per ripulire il segnale di input
• applicabilità a : musica, spot pubblicitari, eventuali estratti di film
5. Pagina 5Riconoscimento di contenuti
multimediali nel Quad Play
Descrizione dell’architettura di riferimento
Utente
(client)
CODIFICA idTag
Eyzge6hEuw54tg5g…
SERVER
Data
Base
(jingle)
QUERY
Identificazione
e
riconoscimento
Content
Repository
Rich
Content
RISPOSTA
L’idea è quella di creare un opportuno DB con tutti gli spot di interesse, etichettarli e
associargli dei contenuti addizionali da presentare all’utente. L’utilizzatore finale dovrà
semplicemente attivare l’applicazione, attendere l’esito della ricerca, e godere della
visualizzazione di un contenuto appositamente studiato direttamente sul proprio display.
idContent
http://tagMsgSvr/…
6. Pagina 6
Problematiche legate al riconoscimento
ROBUSTEZZA
SCALABILITA`
E
AFFIDABILITA`
ETEROGENEITA`
Riconoscimento di contenuti
multimediali nel Quad Play
Rispetto ad un semplice confronto, la tecnica del fingerprinting consente di stabilire il grado di
somiglianza tra 2 file.
Degradazioni del segnale
- rumore: brusii di sottofondo, interferenze ambientali
- distorsione: riproduzione degradata, riverbero, microfoni a
banda limitata
Gestione database
-ricerca efficiente nel DB: indipendenza dal numero di record
-riduzione dei falsi positivi
-granularità: quanti secondi sono necessari per una query?
Generazione delle impronte acustiche
- fingerprint di dimensioni minime
- fingerprint ad alto contenuto informativo
- invarianza alle traslazioni (temporali)
7. Pagina 7
Composizione del Database
Riconoscimento di contenuti
multimediali nel Quad Play
• Si sono scelti degli spot pubblicitari che fossero sotto diversi punti di
vista:
- lunghezza
- qualità di partenza
- maggiore o minore presenza di parlato
• Verifica del : utilizzo di uno spot che cambia colonna sonora
• Inserimento di 3 spot appartenenti alla
8. Pagina 8
Descrizione del processo funzionale del sistema
Riconoscimento di contenuti
multimediali nel Quad Play
- ID della traccia + foto associata
- Durata totale della registrazione
- Durata del processo di codifica
- Tempo impiegato per la query
1) Codifica di tutte le tracce originali di interesse.
2) Utilizzo di un url attraverso cui accedere al server.
3) Caricamento sul database (ingest) delle relative etichette.
4) Registrazione dal vivo di ciascuno spot:
a. l’utente avvia la registrazione
b. la traccia viene codificata e inviata al server
c. viene effettuato un confronto di somiglianza tra
tag inviato e tag su DB
5) Il risultato contiene le seguenti informazioni:
9. Pagina 9
Aspetti interessanti e limiti riscontrati
Risultati positivi:
• il riconoscimento avviene per tutte le tracce;;
• il riconoscimento avviene a partire da qualsiasi istante, a patto che si rispetti il vincolo
della durata minima della query;;
• esito positivo sia in caso di variazione della percentuale di presenza della voce o della
musica, sia in caso di cambio colonna sonora;;
• distinzione spot simili;;
• la qualità delle registrazioni è bassa!
• percentuale di falsi positivi prossima allo 0%;;
• tempi necessari all’interrogazione e alla codifica minimi (decimi di secondo);;
• riduzione della durata degli estratti (in alcuni casi fino a 7-8 secondi).
Limiti:
• no riconoscimento melodico (versioni dal vivo, riarrangiamenti acustici, remix, etc.);;
• variabilità lunghezza query;;
• database limitato e poche connessioni (contemporanee);;
• maggiore instabilità dovuta a fattori esterni caratteristici dell’ambiente di registrazione e
alla diversificazione dei dispositivi Android.
Riconoscimento di contenuti
multimediali nel Quad Play
10. Pagina 10
Nuovi contesti e sviluppi futuri
L’orientamento alla mobilità e la creazione di sistemi trasversali, eterogenei e
personalizzabili apre allo sviluppo, in ambito adevertisement e infotainment, di strategie
incentrate su nuovi livelli comunicativi:
• relazione interattiva con l’utente
• push di contenuti di diversa natura
La principale conseguenza di tale approccio consiste in una moltiplicazione dei possibili
punti di contatto con il cliente.
Sviluppi futuri:
• estensione del Database in funzione delle nuove specifiche e di eventuali contenuti
appositamente concepiti;;
• livellamento della durata delle query e miglioramento prestazionale dell’interrogazione
al DB;;
• miglioramento della fase di pre-processing ed eventuale sperimentazione con algoritmi
alternativi e intelligenti;;
• progetti di ricerca mirati alla sperimentazione sul campo e al trasferimento tecnologico
in contesti applicativi reali (beni e attività culturali, multimedialità, etc.).
Riconoscimento di contenuti
multimediali nel Quad Play