IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Virginia Bazán Gil

El renacimiento de los archivos:
inteligencia artificial y semántica aplicada a la descripción de contenidos
audiovisuales.
Virginia Bazán Fondo Documental RTVE
Virginia.bazan@rtve.es
@virginiabazang

Quienes son los pretendientes?
Los mas atractivos Los simpáticos
Los que vendrán

Qué ofrecen?
AUDIO ANALYSIS
VIDEO ANALYSIS
SPEECH TO TEXT
ENTITIES RECOGNITION
CONTENT
CLASIFICATION
SENTIMENT ANALYSIS
VIDEO ANOTATION
FACIAL
RECONGNITION
SHOT DETECTION
CONTENT
MODERATIONSPEAKER
DIARIZATION
 Servicios en la nube (Cloud
services) ¡No es necesaria
infraestructura!
 Aprendizaje automático pre –
entrenado. Algunas opciones de
personalización
 Pago por consumo. Si una API
ofrece distintas funcionalidades solo
se paga por las que se emplean.

Lo que el Fondo Documental necesita
 Mejorar los procesos en el archivo para
catalogar un número cada vez mayor de
contenidos.
 Herramientas para la producción y para el
archivo, conservamos contenidos de los 80
con escasos metadatos
 Catalogación automatizada como respuesta.
Pero la verdadera pregunta es cómo
integrarla en los procesos actuals.
 No estamos solos! Es necesario unir
esfuerzos!

RTVE Journal Innovation HUB
 Una iniciativa para estudiar la transformación
digital de los medios de comunicación.
 Se pretende explorer nuevas formas de conectar con
la audiencia, innovando en todos los pasos del
proceso de comunicación.
 Es un proyecto abierto y en constante evolución
cuyos resultados pretenden aplicarse a radio,
televisión y medios interactivos

Desde la perspectiva del archivo
Poner a prueba la IA en el análisis de contenidos
audiovisuales
Saber como integrarla en los actuales MAM

Tareas previas
Definir un modelo de metadatos mínimo y mapearlo con nuestros sistemas actuales
Definir el flujo de archivado de material MOJO
Identificar los metadatos resultantes del proceso automático y determiner su destino en el modelo
actual
Adaptar nuestros vocabularios y comprobar la interfaz.

En un lugar de La Mancha
600 FICHEROS DE VIDEO SUBIDOS
ESTRUCTURA DE CARPETAS PARA ARCHIVADO
350 VIDEOS PROCESADOS EN TIEMPO REAL

Flujos de trabajo VSN
1. EXTRACTING AUDIO FROM VIDEO
2. TRANSFERING AUDIO FILE TO GOOGLE STORAGE
3. REQUESTING THE S2T
4. HOLDING ON, CONSTANTLY CHECKING UNTIL THE END
OF THE PROCESS
5. SENDING THE CLEAN SPEECH AND REQUESTING THE
ENTITY RECOGNITION (API NATURAL LANGUAGE)
6.UPDATING THE ASSET WITH THE METADATA INCLUDING
THE S2T SEGMENTS
ANÁLISIS DE AUDIO
1. TRASFERING THE VIDEO TO GOOGLE STORAGE
2. REQUESTING VIDEO ANALYSIS
3. HOLDING ON, CONSTANTLY CHECKING UNTIL THE END OF
THE PROCESS
4.UPDATING THE ASSET WITH THE METADATA
ANÁLISIS DE VIDEO

Speech to text
Google Cloud Speech to text API
Convierte el audio a texto usando usando redes neuronales y
devuelve el texto en tiempo real
Objetivos
 Analizar cómo de precisa es la transcripción de audio
 Cómo se comporta en diversos contextos, con distintos
acentos y conversaciones superpuestas.

Speech to text para subtitular

Speech to text para el archivo

Speech to text: resultados (WER)
#Words % Right % Sus % Del % Ins % Err
5281 56,4 4,5 39,1 0,8 44,5

Speech to text en contexto
Una sola entrada de audio
DECLARACIONES
Habla espontánea
Distintos acentos
ENTREVISTAS
Dos entradas de audio
Habla espontánea
Distintos acentos
LOCUCIÓN
Lectura texto escrito
Buena entonación
SONIDO AMBIENTE
Sin micro adicional
Habla espontánea
Tasa de error por tipo de audio
Audio #Words % Right % Sus % Del % Ins % Err
Ambiente 2361 26,64 5,01 68,35 0,90 74,23
Declaraciones 630 52,37 3,34 44,30 0,46 48,09
Entrevistas 1548 78,28 4,73 10,19 0,94 15,90
Locucion 742 95,03 3,10 1,88 0,81 5,80

Un ejemplo
Ground-truth reference Google Speech to text
yo te cuento todo lo que tú quieras cuéntame tu nombre
para empezar mi nombre es Ángel Luz un nombre también
muy normalito no está mal para empezar eres voluntario de
los viejos tiempos socio fundador me has contado si
prácticamente si como fue incorporarte desde la primera vez
pues una compañera mía del instituto y me comentó que
había salido la convocatoria de un voluntariado dentro del
festival y a mí que de siempre me gustaba mucho el mundo
del teatro y de la farándula pues me dijo Ángel prueba a ver
qué tal la experiencia y eche bueno los papeles los datos y
aquí me tienes repitiendo un año tras otro porque la verdad
que esto engancha tú cuántos años llevas en la primera vez
es la primera vez por el momento hemos hecho recados
estamos encartando esto luego preparar las bolsas de
protocolo que estuvimos preparando casi 100 bolsas y
demás eso de hacer recados ha quedado un poco raro en
que consiste pues llevar las bolsas de protocolo el vino
Valdepeñas y nos piden ir a por alguna fotocopia o cualquier
cosa pues lo llevamos. Pues muchas gracias. A vosotros
yo te cuento todo lo que tú quieras cuéntame tu nombre
para empezar mi nombre es Ángel Luz un nombre también
muy normalito no está mal para empezar eres voluntario de
los viejos tiempos socio fundador me has contado si
prácticamente si como fue incorporarte desde la primera vez
pues una compañera mía del instituto y me comentó que
había salido la convocatoria de un voluntariado dentro del
festival y a mí que de siempre me gustaba mucho el mundo
del teatro y de la farándula pues me dijo Ángel prueba a ver
qué tal la experiencia y bueno los papeles los datos y aquí
me tienes repitiendo un año tras otro porque la verdad que
esto engancha tú cuántos años llevas en la primera primer
vez por momento hemos hecho recados encantando esto
global a preparar las bolsas de protocolo que estuvimos
preparando casi 100 bolsas y demás eso de hacer recados
ha quedado un poco raro en que consiste recados las
bolsas de protocolo en Valdepeñas y nos piden ir a por
alguna fotocopia o cualquier cosa pues lo llevamos. Pues
muchas gracias. A vosotros

Lo que hemos aprendido sobre S2T
 Buenos resultados con ficheros de audio de buena calidad
 La API es capaz de devolver y transcribir correctamente palabras en un idioma
distinto al predominannte
 Futuras pruebas deben realizarse con contenidos emitidos, entrevistas, ruedas de
prensa
 Si cada solución da buenos resultados en un context determinado ¿por qué usar
solo una?

Reconocimiento de entidades
Natural Language API
 Realiza análisis sintáctico, identifica y clasifica las entidades en 7
grupos diferentes:
Person, organization, event, location, consumer good, work of art
Objetivos
 Determinar la eficacia de la herramienta en la detección y
clasificación de entidades.
 Valorar qué entidades pueden incorporarse a nuestro actual modelo
de metadatos.

Reconocimiento de entidades: Un ejemplo

Reconocimiento de entidades: resultados
TIPO DE ENTIDAD Nº ENTIDADES ÚNICAS % ENTIDADES CORRECTAS
Person 77 26%
Organization 22 55%
Event 25 28%
Location 35 34%
Consumer Good 18 67%
Work of Art 10 20%
Other 220

Lo que hemos aprendido sobre reconocimiento de entidades
 La calidad del speech to text determina la identificación y clasificación de entidades
“Final Internacional de Teatro Clásico” for “Festival Internacional de Teatro Clásico”
 El verdadero reto: el control terminológico
“Festival Internacional de Teatro Clásico de Almagro” “Festival de Almagro”, “Festival Internacional de Almagro”
 Una misma entidad puede clasificarse de forma distinta dependiendo del contexto
Corral de Comedias como Location / Organization
Cyrano de Bergerac como Person / Work of Art
 Entidades sin correlación con nuestro actual modelo de metadatos.

Anotación de video: objetivos
Cloud Video Intelligence
 Anota los videos identificando entidades clave y
cuando aparecen en el video.
Objetivos
 Determinar la eficacia de la descripción de imágenes y
como de útiles son estas descripciones para la
recuperación de información.

Anotación de video, un ejemplo
Category Description Entity id Language Ocurrence
technology audio /m/0h91fqv en-US 00:00:00.000
entertainment theatre /m/03qsdpk en-US 00:00:05.280
person sound mixer /m/0ch6mp2 en-US 00:00:18.240
event,entertainment performance /m/01gq53 en-US 00:00:00.040
musician musical ensemble /m/05229 en-US 00:00:07.440
entertainment disc jockey /m/02dsz en-US 00:00:18.240
person record producer /m/0dz3r en-US 00:00:18.240
musical instrument /m/04szw en-US 00:00:34.960
computer personal computer /m/0643t en-US 00:00:30.720
person mixing engineer /m/0gfj96l en-US 00:00:18.240
audio recording /m/025l19 en-US 00:00:18.240
building auditorium /m/039l3v en-US 00:00:05.280
building performing arts center /m/07l44b en-US 00:00:05.280
technology audio /m/0h91fqv en-US 00:00:18.240
building theatre /m/05npqn en-US 00:00:05.280
entertainment performing arts /m/05qjc en-US 00:00:00.040
entertainment singing /m/015lz1 en-US 00:00:00.040
audio audio equipment /m/01yttv en-US 00:00:18.240

Una escena, distintas descripciones

Lo que hemos aprendido sobre descripción de video
 Alto porcentaje de exactitud (87.97%)
 Solución adecuada para contenidos con pocos metadatos o en lo que lo importante es lo
que se ve y no lo que se escucha (planos de recurso)
 La anotación de video es en inglés, dificultad para integrarlo de un modo inmediato en
nuestros procesos.

Moraleja
 La inteligencia artificial aplicada a los archivos audiovisuales es una realidad.
 APIs basadas en IA son facilmente integrables en los actuals MAM. Los archivos con una larga historia deben
realizar pruebas para decider que funcionalidades son utiles.
 Speech to text: si cada herramienta es útil en un determinado context ¿deberíamos usar solo una?
 Reconocimiento de entidades: El control de autoridades es la clave, o ¿deben los archivos rendirse al mundo del
lenguaje natural?
 Anotación de video: algunas funcionalidades en beta, pero es una herramienta útil para la descripción de contenidos
con pocos metadatos.

Gracias
Ilustraciones Eva Fernández-Cubillo

IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Virginia Bazán Gil

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Virginia Bazán Gil

Ähnlich wie IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Virginia Bazán Gil (20)

Mehr von Artium Vitoria

Mehr von Artium Vitoria (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Virginia Bazán Gil