"El renacimiento de los archivos: inteligencia artificial y semántica aplicada a la descripción de contenidos audiovisuales" por Virginia Bazán Gil, responsable de proyectos. Fondo Documental RTVE.
S02_s1 - Enfoques y alcances modernos de la calidad.pdf
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Virginia Bazán Gil
1. El renacimiento de los archivos:
inteligencia artificial y semántica aplicada a la descripción de contenidos
audiovisuales.
Virginia Bazán Fondo Documental RTVE
Virginia.bazan@rtve.es
@virginiabazang
6. Quienes son los pretendientes?
Los mas atractivos Los simpáticos
Los que vendrán
7. Qué ofrecen?
AUDIO ANALYSIS
VIDEO ANALYSIS
SPEECH TO TEXT
ENTITIES RECOGNITION
CONTENT
CLASIFICATION
SENTIMENT ANALYSIS
VIDEO ANOTATION
FACIAL
RECONGNITION
SHOT DETECTION
CONTENT
MODERATIONSPEAKER
DIARIZATION
Servicios en la nube (Cloud
services) ¡No es necesaria
infraestructura!
Aprendizaje automático pre –
entrenado. Algunas opciones de
personalización
Pago por consumo. Si una API
ofrece distintas funcionalidades solo
se paga por las que se emplean.
8. Lo que el Fondo Documental necesita
Mejorar los procesos en el archivo para
catalogar un número cada vez mayor de
contenidos.
Herramientas para la producción y para el
archivo, conservamos contenidos de los 80
con escasos metadatos
Catalogación automatizada como respuesta.
Pero la verdadera pregunta es cómo
integrarla en los procesos actuals.
No estamos solos! Es necesario unir
esfuerzos!
9. RTVE Journal Innovation HUB
Una iniciativa para estudiar la transformación
digital de los medios de comunicación.
Se pretende explorer nuevas formas de conectar con
la audiencia, innovando en todos los pasos del
proceso de comunicación.
Es un proyecto abierto y en constante evolución
cuyos resultados pretenden aplicarse a radio,
televisión y medios interactivos
10. Desde la perspectiva del archivo
Poner a prueba la IA en el análisis de contenidos
audiovisuales
Saber como integrarla en los actuales MAM
11. Tareas previas
Definir un modelo de metadatos mínimo y mapearlo con nuestros sistemas actuales
Definir el flujo de archivado de material MOJO
Identificar los metadatos resultantes del proceso automático y determiner su destino en el modelo
actual
Adaptar nuestros vocabularios y comprobar la interfaz.
12. En un lugar de La Mancha
600 FICHEROS DE VIDEO SUBIDOS
ESTRUCTURA DE CARPETAS PARA ARCHIVADO
350 VIDEOS PROCESADOS EN TIEMPO REAL
13. Flujos de trabajo VSN
1. EXTRACTING AUDIO FROM VIDEO
2. TRANSFERING AUDIO FILE TO GOOGLE STORAGE
3. REQUESTING THE S2T
4. HOLDING ON, CONSTANTLY CHECKING UNTIL THE END
OF THE PROCESS
5. SENDING THE CLEAN SPEECH AND REQUESTING THE
ENTITY RECOGNITION (API NATURAL LANGUAGE)
6.UPDATING THE ASSET WITH THE METADATA INCLUDING
THE S2T SEGMENTS
ANÁLISIS DE AUDIO
1. TRASFERING THE VIDEO TO GOOGLE STORAGE
2. REQUESTING VIDEO ANALYSIS
3. HOLDING ON, CONSTANTLY CHECKING UNTIL THE END OF
THE PROCESS
4.UPDATING THE ASSET WITH THE METADATA
ANÁLISIS DE VIDEO
14. Speech to text
Google Cloud Speech to text API
Convierte el audio a texto usando usando redes neuronales y
devuelve el texto en tiempo real
Objetivos
Analizar cómo de precisa es la transcripción de audio
Cómo se comporta en diversos contextos, con distintos
acentos y conversaciones superpuestas.
17. Speech to text: resultados (WER)
#Words % Right % Sus % Del % Ins % Err
5281 56,4 4,5 39,1 0,8 44,5
18. Speech to text en contexto
Una sola entrada de audio
DECLARACIONES
Habla espontánea
Distintos acentos
ENTREVISTAS
Dos entradas de audio
Habla espontánea
Distintos acentos
LOCUCIÓN
Lectura texto escrito
Una sola entrada de audio
Buena entonación
SONIDO AMBIENTE
Una sola entrada de audio
Sin micro adicional
Habla espontánea
Tasa de error por tipo de audio
Audio #Words % Right % Sus % Del % Ins % Err
Ambiente 2361 26,64 5,01 68,35 0,90 74,23
Declaraciones 630 52,37 3,34 44,30 0,46 48,09
Entrevistas 1548 78,28 4,73 10,19 0,94 15,90
Locucion 742 95,03 3,10 1,88 0,81 5,80
19. Un ejemplo
Ground-truth reference Google Speech to text
yo te cuento todo lo que tú quieras cuéntame tu nombre
para empezar mi nombre es Ángel Luz un nombre también
muy normalito no está mal para empezar eres voluntario de
los viejos tiempos socio fundador me has contado si
prácticamente si como fue incorporarte desde la primera vez
pues una compañera mía del instituto y me comentó que
había salido la convocatoria de un voluntariado dentro del
festival y a mí que de siempre me gustaba mucho el mundo
del teatro y de la farándula pues me dijo Ángel prueba a ver
qué tal la experiencia y eche bueno los papeles los datos y
aquí me tienes repitiendo un año tras otro porque la verdad
que esto engancha tú cuántos años llevas en la primera vez
es la primera vez por el momento hemos hecho recados
estamos encartando esto luego preparar las bolsas de
protocolo que estuvimos preparando casi 100 bolsas y
demás eso de hacer recados ha quedado un poco raro en
que consiste pues llevar las bolsas de protocolo el vino
Valdepeñas y nos piden ir a por alguna fotocopia o cualquier
cosa pues lo llevamos. Pues muchas gracias. A vosotros
yo te cuento todo lo que tú quieras cuéntame tu nombre
para empezar mi nombre es Ángel Luz un nombre también
muy normalito no está mal para empezar eres voluntario de
los viejos tiempos socio fundador me has contado si
prácticamente si como fue incorporarte desde la primera vez
pues una compañera mía del instituto y me comentó que
había salido la convocatoria de un voluntariado dentro del
festival y a mí que de siempre me gustaba mucho el mundo
del teatro y de la farándula pues me dijo Ángel prueba a ver
qué tal la experiencia y bueno los papeles los datos y aquí
me tienes repitiendo un año tras otro porque la verdad que
esto engancha tú cuántos años llevas en la primera primer
vez por momento hemos hecho recados encantando esto
global a preparar las bolsas de protocolo que estuvimos
preparando casi 100 bolsas y demás eso de hacer recados
ha quedado un poco raro en que consiste recados las
bolsas de protocolo en Valdepeñas y nos piden ir a por
alguna fotocopia o cualquier cosa pues lo llevamos. Pues
muchas gracias. A vosotros
20. Lo que hemos aprendido sobre S2T
Buenos resultados con ficheros de audio de buena calidad
La API es capaz de devolver y transcribir correctamente palabras en un idioma
distinto al predominannte
Futuras pruebas deben realizarse con contenidos emitidos, entrevistas, ruedas de
prensa
Si cada solución da buenos resultados en un context determinado ¿por qué usar
solo una?
21. Reconocimiento de entidades
Natural Language API
Realiza análisis sintáctico, identifica y clasifica las entidades en 7
grupos diferentes:
Person, organization, event, location, consumer good, work of art
Objetivos
Determinar la eficacia de la herramienta en la detección y
clasificación de entidades.
Valorar qué entidades pueden incorporarse a nuestro actual modelo
de metadatos.
23. Reconocimiento de entidades: resultados
TIPO DE ENTIDAD Nº ENTIDADES ÚNICAS % ENTIDADES CORRECTAS
Person 77 26%
Organization 22 55%
Event 25 28%
Location 35 34%
Consumer Good 18 67%
Work of Art 10 20%
Other 220
24. Lo que hemos aprendido sobre reconocimiento de entidades
La calidad del speech to text determina la identificación y clasificación de entidades
“Final Internacional de Teatro Clásico” for “Festival Internacional de Teatro Clásico”
El verdadero reto: el control terminológico
“Festival Internacional de Teatro Clásico de Almagro” “Festival de Almagro”, “Festival Internacional de Almagro”
Una misma entidad puede clasificarse de forma distinta dependiendo del contexto
Corral de Comedias como Location / Organization
Cyrano de Bergerac como Person / Work of Art
Entidades sin correlación con nuestro actual modelo de metadatos.
25. Anotación de video: objetivos
Cloud Video Intelligence
Anota los videos identificando entidades clave y
cuando aparecen en el video.
Objetivos
Determinar la eficacia de la descripción de imágenes y
como de útiles son estas descripciones para la
recuperación de información.
26. Anotación de video, un ejemplo
Category Description Entity id Language Ocurrence
technology audio /m/0h91fqv en-US 00:00:00.000
entertainment theatre /m/03qsdpk en-US 00:00:05.280
person sound mixer /m/0ch6mp2 en-US 00:00:18.240
event,entertainment performance /m/01gq53 en-US 00:00:00.040
musician musical ensemble /m/05229 en-US 00:00:07.440
entertainment disc jockey /m/02dsz en-US 00:00:18.240
person record producer /m/0dz3r en-US 00:00:18.240
musical instrument /m/04szw en-US 00:00:34.960
computer personal computer /m/0643t en-US 00:00:30.720
person mixing engineer /m/0gfj96l en-US 00:00:18.240
audio recording /m/025l19 en-US 00:00:18.240
building auditorium /m/039l3v en-US 00:00:05.280
building performing arts center /m/07l44b en-US 00:00:05.280
technology audio /m/0h91fqv en-US 00:00:18.240
building theatre /m/05npqn en-US 00:00:05.280
entertainment performing arts /m/05qjc en-US 00:00:00.040
entertainment singing /m/015lz1 en-US 00:00:00.040
audio audio equipment /m/01yttv en-US 00:00:18.240
33. Lo que hemos aprendido sobre descripción de video
Alto porcentaje de exactitud (87.97%)
Solución adecuada para contenidos con pocos metadatos o en lo que lo importante es lo
que se ve y no lo que se escucha (planos de recurso)
La anotación de video es en inglés, dificultad para integrarlo de un modo inmediato en
nuestros procesos.
34. Moraleja
La inteligencia artificial aplicada a los archivos audiovisuales es una realidad.
APIs basadas en IA son facilmente integrables en los actuals MAM. Los archivos con una larga historia deben
realizar pruebas para decider que funcionalidades son utiles.
Speech to text: si cada herramienta es útil en un determinado context ¿deberíamos usar solo una?
Reconocimiento de entidades: El control de autoridades es la clave, o ¿deben los archivos rendirse al mundo del
lenguaje natural?
Anotación de video: algunas funcionalidades en beta, pero es una herramienta útil para la descripción de contenidos
con pocos metadatos.