La inteligencia artificial (AI) está a la orden del día, pero ¿qué es realmente? ¿Cómo es capaz una máquina de percibir el mundo real? Diseñadas inicialmente para reconocer patrones sencillos en imágenes, las redes neuronales artificiales han incrementado su complejidad hasta obtener en la actualidad una precisión equivalente a la del ser humano. Esto ha permitido su aplicación en una gran variedad de sectores, desde el médico hasta el automovilístico. Esta charla sirve de introducción a mi campo dentro de la AI, la visión por ordenador, y a mi tema de investigación actual, el aprendizaje de datos multimodales.
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
Inteligencia artificial,visión por ordenador,y datos multimodales - ACE Japón Webinar Series (2022/04/06)
1. Agreement
If you plan to share these slides or to use the content in these slides for
your own work, please include the following reference:
Si tu intención es compartir esta presentación, o usar su contenido para tu
propio trabajo, por favor, incluye la siguiente referencia:
Tejero-de-Pablos, A. (2022) “Inteligencia artificial, visión por ordenador,
y datos multimodales”. ACE Japón Webinar Series.
2. Inteligencia artificial,
visión por ordenador,
y datos multimodales
ACE JAPÓN WEBINAR SERIES
ANTONIO TEJERO DE PABLOS
6 DE ABRIL DE 2022
Image from oracle.com
5. Sobre mí
Universidad de Valladolid (~2012)
Ingeniero de Telecomunicaciones
Máster en Tecnologías de la Información y Comunicaciones
Instituto de Ciencia y Tecnología de Nara (~2017)
Doctorado en ingeniería (ciencias de la información)
Universidad de Tokio – Instituto RIKEN (~2021)
Investigador
CyberAgent AI Lab (Actualidad)
Científico investigador
4
7. Qué es la inteligencia
artificial
¿Robots?
¿Una réplica digital del
cerebro humano?
6
Image from analyticsinsight.net
8. Qué es la inteligencia artificial 7
La inteligencia artificial no es robótica
No siempre intenta imitar el cerebro del ser humano
Pero es fácil de ejemplificar mediante el comportamiento de un robot
Inteligencia artificial vs. aprendizaje máquina
Reconocimiento de patrones
Image from medium.com
9. Aprendizaje máquina 8
Reconocimiento de patrones
Aportar datos (secuencias numéricas, imágenes, etc.) a un
algoritmo de aprendizaje que encuentra similitudes entre ellos a
la hora de realizar una tarea
Implementado en un programa de ordenador
El reconocimiento de patrones permite:
Predecir cambios en la población y otras estadísticas
Traducir textos de un idioma a otro
Reconocer caras para identificar usuarios
Image from simplilearn.com
10. Visión por ordenador
Los ojos (?) del robot
Reconocimiento de patrones en imágenes
Múltiples aplicaciones
Medicina, automóviles, etc.
9
Image from IrisVision.com
Cámara
Fotos/
vídeos
Algoritmo de
aprendizaje
Image from shutterstock.com
Representación
latente
(características)
11. Visión por ordenador: Inicios
El humano determina qué ”características” aprender
Limitado en cuanto a precisión y dificultad de la tarea
¿Qué es una red neuronal?
Redes neuronales pequeñas en sus inicios
10
Image from wikipedia.org
Image from analyticsvidhya.org
Red neuronal
・Coche
・Persona
・…
Representación
mediante contornos
12. Visión por ordenador: Actualidad
Aprendizaje profundo
Aumento exponencial del número de parámetros (~175 billones)
La red neuronal determina las características a aprender de forma óptima
Reconocimiento de patrones más complejos, tareas más complicadas
11
Image from researchgate.net
…
14. Aprendizaje profundo: Ejemplo 2
Generación de imagen
No todo es ideal
Se requieren grandes cantidades de datos (millones)
13
Image from twitter.com/charles2m
15. Mi tema de investigación:
Datos multimodales
y heterogéneos
16. El poder de los datos multimodales
El mundo es multimodal: imagen, video, audio, texto, etc.
Hay tareas que requieren más de un sentido
Conducción: Imagen de la carretera + Voces de niños
Diagnóstico: Imagen del corazon + Señal ECG
15
Image from aare.edu.au
17. El poder de los datos multimodales
Las redes neuronales pueden procesar distintos tipos de información
Pero no es trivial en qué punto, y cómo han de mezclarse
16
・Coche
・Coche
Opción 1 Opción 2, etc.
18. Datos heterogéneos
El aprendizaje profundo requiere reunir grandes cantidades de datos
17
Images from wikipedia.org
Durante el
aprendizaje:
Una vez desplegado
el sistema:
19. Datos heterogéneos
El problema de generalización
Una red neuronal ”naïve” sólo conoce los datos que ha visto
18
Image from Out-of-distribution Generalization and Its Applications for Multimedia (Wang et al.)
20. Algunos de mis resultados
Resumen automático de vídeo deportivo (detección de mejores momentos)
Uso de datos multimodales (imagen y sensores)
Diagnóstico automático de imagen cardiaca
Uso de datos heterogéneos debido a la escasez de pacientes
19
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM MEAN
MAX
…
Input view
images
Feature
extractor
Encoder Classifier Probabilities Final
decision
(ensemble)
N
N
(a)
(b)
(c)
CPR volume
segment
(192×192×N
voxels)
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
MEAN
MAX
…
Input view
images
Feature
extractor
Encoder Classifier Probabilities Final
decision
(ensemble)
N
N
(a)
(b)
(c)
(d)
(e)
CPR volume
segment
(192×192×N
voxels)
CNN
(VGG-M)
CNN
(VGG-M)
CNN
(VGG-M)
CNN
(VGG-M)
Input view
images
Feature
extractor
N
(a)
(b)
(c)
(d)
CPR volume
segment
(192×192×N
voxels)
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
CNN
(VGG-M)
FV
Linear
SVM
…
Input view
images
Feature
extractor
Encoder Classifier Probab
N
N
(a)
(b)
(c)
(d)
(e)
CPR volume
segment
(192×192×N
voxels)
Aprendizaje
Paciente 1
Scanner A
Despliegue
Paciente 2
Scanner B
+
22. El futuro cercano de la IA
¿Va a quitarnos la inteligencia artificial el trabajo?
Posiblemente, con trabajos simples y repetitivos
El ser humano centrado en la creación. Colaboración IA-humano.
Principal problema
El individuo ”de a pie” no tiene fundamentos de ciencia / tecnología
21
Image from espsciencetime.org
23. El futuro lejano de la
inteligencia artificial
¿Va a reemplazar la inteligencia artificial al cerebro
humano?
No con la tecnología actual
Cerebro humano ≠ inteligencia
La humanidad también evoluciona
Idealmente, la inteligencia artificial será una ayuda
Todo esto es ciencia ficción
Objetivos realistas a corto plazo
22
Image from bernardmarr.com
Ojo humano: 576 megapíxeles
Cámaras HD actuales: 61 megapíxeles
Ese montón de señales el cerebro las interpreta. Tu comida favorita, empiezas a salivar.
Dotar a una máquina la habilidad de reconocer el mundo, nos da aplicaciones como la navegación autónoma.
Yo estuve trabajando en diagnóstico automático de imagen médica hasta hace un año, y luego cambié a mi tema de investigación actual
¿Cómo hacemos una red neuronal más profunda?
El tema es mucho más complejo. Hay muchos mas tipos de redes neuronales y operaciones.
Estas personas no son investigadores en vision por
Sin embargo, esta ”inteligencia artificial” que hemos creado, no sabe ni que esto es una persona, ni que debajo de la cabeza tiene un cuerpo, etc.
Hay tareas, que requieren de más de un sentido.
- Volviendo a las aplicaciones anteriores
Voy a hablar de uno de las limitaciones del las tecnologías actuales, que es el de generalizar