Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla

DEEP LEARNING
GABRIEL ANTONIO VALVERDE CASTILLA
BIG & OPEN DATA. ANÁLISIS Y PROGRAMACIÓN CON R.
LICENCIADO EN MATEMÁTICAS Y ESTADÍSTICA EN UNEX
ALUMNO MASTER INGENIERIA MATEMATICAS UCM

SUMARIO
• Introducción Machine Learning
• ¿Qué es Deep Learning? ¿Qué más aporta?
• Clasificación de las técnicas de Deep Learning.
• Ejemplos:
• Autoencoders.
• Stacking Autoencoders.

MACHINE LEARNING
• Rama de la Inteligencia Artificial.
• El objetivo es desarrollar técnicas que permitan a la máquina aprender.
• Origen en datos desestructurados.
• Se centra en la complejidad computacional. Por lo que se centra en encontrar algoritmos factibles para NP-hard.
• Algunos ejemplos son:
• GMM- Gaussian Mixture Model.
• CRFs- Conditional Random Fields.
• MaxEnt- Maximun entropy.
• SVM- Support Vector Machines.
• Logistic Regression.
• Kernel regression.
• Multilayer Perceptrons

¿QUÉ ES DEEP LEARNING?
• DeepLearning= NN+IA+GM+Optimización+PR+SP.
Neuronal Inteligencia Graph Procesamiento Procesamiento
Network Artificial Modeling Patrones Señales.

¿QUÉ ES DEEP LEARNING?
Vamos a analizar el camino seguido a partir de varias definiciones.
Definición: Clase de técnicas de Machine Learning buscando la extracción y transformación de features
referentes al procesamiento de la información. Ya sea de forma supervisada o no.
Definición: Un campo dentro de Machine Learning basados en algoritmos para aprender varios niveles de
representación buscando relaciones complejas. Tenemos por tanto features de alto y bajo nivel, jerarquizandolas,
Deep arquitectura. Generalmente no supervisado.
Definición: CONTINUACION. Las de bajo nivel pueden ayudar a definir las de alto nivel. Es a tener también en cuenta
que algunas representaciones son mejores que otras para depende de que tareas.
Definición: Deep Learning, nueva área creada para devolver a Machine Learning a uno de sus objetivos: Inteligencia
Artificial. Buscar niveles de abstracción que nos permitan dar sentido a imagenes, sonidos y texto.

¿QUÉ MÁS APORTA?
JERARQUÍA.
Son técnicas que reciben mayor cantidad de datos.
Más capas que desarrollan estas jerarquías entre la
información.
- Nos permite obtener features de forma no
supervisada.
- Realizar clasificaciones.

PROBLEMAS
• Muchos de los modelos -> REDES NEURONALES. DNN por
ejemplo.
• Los algoritmos de optimización usados hasta ahora fallan.
Back Propagation.
• Funciones no convexas. No funciona bien gradiente
descendente.
• Muchas capas y muchas neuronas-> Muchos recursos.
• SOLUCIONES:
• Gradiente Descendente Estocastico.
• Hessian Free.
• Kyrlov Suspace Methods.
• SVM,CRF,MAXENT, funciones convexas.

SOLUCIONES ENTRENAMIENTO
Si los modelos se preentrenan con anterioridad los pesos se
acercan a los valores óptimos y hay menos posibilidades de
mínimo local.
• Considerar cada capa como un denoising autoencoders que
se entrena a si mismo.
• Usar autoencoders contractivos que son más robustos ante
variaciones.
• SESM Sparse Autoencoders Symmetric Machine (Ranzano)
• Preentrenamientos no supervisado y supervisado.
• MLP entrenada con un BP.

CLASIFICACIÓN
No supervisadas:
Captura patrones.
Aprendizaje representativo.
Generativos, buscan clases asociadas a distribuciones de probabilidad estimadas a partir
de los datos observados.
Para discriminar usando reglas de bayes.
Generatición de features.
Supervisadas:
Buscan dicriminar patrones con objeto de clasificar.
Conocerter las targets.
Clasificar en importancia la información que discrimina nuestros objetivos.
Llamado redes profundas discriminitivas.
Hibrido:
Los modelos no supervisados son utilizados como procesos de entrenamientos de los
que si lo son. Pretraining con autoencoders sobre DNN.1
O el análisis discriminativo se utiliza para mejorar los no supervisados.

• Los primeros son mejores para entrenar y probar, con una construcción flexible, para aprendizaje de
sistemas complejos.
• Los segundos, más facilidad de interpretación, más fácil integrar conocimiento del dominio, mas sencillo
componer, mas fácil manejar la incertidumbre, peor para inferencia y aprendizaje de sistemas complejos.

EJEMPLOS
Deep Belief Network (DBN): modelos probabilísticos generativos compuestos por muchas capas, y variables
ocultas.
Boltzmann machine(BM): una red conectada de forma simétrica, con neuronas como unidades que toman la
decision de estar conectadas o no.
Restricted Boltzmann machine (RBM): tipo especial de BM donde no se permiten interrelación entre
neuronas del mismo tipo.
Deep Neural Network (DNN): perceptron multicapa con varias capas ocultas, cuyos pesos estan conectados
y suelen ser iniciados usando por otro modelo supervisado o no de técnica de entrenamiento.
Deep autoencoders: modelo discriminativo DNN que toma como salida los propios valores de entrada, se
trata por tanto de un modelo no supervisado. Cuando el objetivo es eliminar ruido se comporta como un
modelo generativo.

NO SUPERVISADOS: AUTOENCODERS.
No tienen clases con los que comparar los indicadores.
Funcionan como filtros.
Creadores de features representativas.
Muestreo de los datos.
• Los conjuntos más comunes son los Energy-based. Siendo Deep autoencoders el más representativo.
También tenemos otros con otras propiedades:
• Transforming Autoencoders. Estos autoencoders lo que hacen es transformar nuestros input en output cuya
destransformación nos devuelve verdaderos valores.
• Predictive Sparse Coders- Los propuestos por Ranzano.
• De-noising autoencoders- Estos autoencoders se encargan de limpiar de ruido los datos de entrada para que
puedan ser evaluados por otros modelos de una forma más sencilla.

• Consideramos un conjunto de valores de entrada
(input,target),
• 𝐷 𝑛 = (𝑥(1), 𝑡(1)). . . , (𝑥(𝑛), 𝑡(𝑛)) i.i.d. Ejemplos de una
distribución desconocida
𝑞 𝑋, 𝑇 𝑐𝑜𝑛 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙𝑒𝑠 𝑞(𝑥), 𝑞(𝑡).
• Denotamos 𝑞⁰(𝑋, 𝑇)y q⁰(X) a las empíricas iniciales.

• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 ∨ 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑡𝑖𝑎𝑙𝑒𝑛𝑡𝑟𝑜𝑝𝑦: 𝐼𝐻(𝑋) = 𝐼𝐻(𝑝) =
𝐸𝑝(𝑋)[−log𝑝(𝑋)].
• 𝐶𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑎𝑙𝑒𝑛𝑡𝑟𝑜𝑝𝑦: 𝐼𝐻(𝑋 ∣ 𝑌) = 𝐸𝑝(𝑋, 𝑌)[−log𝑝(𝑋 ∣ 𝑌)]
• 𝐾𝑢𝑙𝑙𝑏𝑎𝑐𝑘 − 𝐿𝑒𝑖𝑏𝑙𝑒𝑟𝑑𝑖𝑣𝑒𝑟𝑔𝑒𝑛𝑐𝑒: 𝐼𝐷 𝐾𝐿(𝑝 ∣ 𝑞) =
𝐸 𝑝(𝑥)[log𝑝 (𝑋) 𝑞 (𝑋)].
• 𝐶𝑟𝑜𝑠𝑠 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑦: 𝐼𝐻(𝑝 ∣ 𝑞) = 𝐸𝑝(𝑋)[−log𝑞(𝑋)] = 𝐼𝐻(𝑝) +
𝐼𝐷 𝑘𝑙(𝑝 ∣ 𝑞).
• 𝑀𝑢𝑡𝑢𝑎𝑙𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛: 𝐼(𝑋; 𝑌) = 𝐼𝐻(𝑋) − 𝐼𝐻(𝑋 ∣ 𝑌)

NO SUPERVISADOS: STACKING AUTOENCODERS.

BIBLIOGRAFIA
deepLearning.net
https://www.youtube.com/watch?v=n6hpQwq7Inw
https://www.youtube.com/watch?v=dMVLd5URpvs#t=602
http://www.cs.ubc.ca/~nando/540-2013/lectures/l13.pdf
http://www.cs.ubc.ca/~nando/540-2013/lectures.html
http://es.wikipedia.org/wiki/Redes_neuronales_convolucionales#Neuronas_Convolucionales
http://digital.csic.es/bitstream/10261/84753/1/RED%20NEURONAL.pdf
http://books.google.es/books?id=4OgOJLGGrzcC&pg=PA145&lpg=PA145&dq=gato+barra+horizontal&source=bl&ots=
Z4tEuFrkYF&sig=bWjETKt_2RPxLL8O3-B9DIORXYs&hl=es&sa=X&ei=uXTRU-
SWLeOc0QXWzYCYDw&ved=0CFwQ6AEwCw#v=onepage&q&f=false
http://vimeo.com/101582001
http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/filter_visualization.ipynb

Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla

Ähnlich wie Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla (20)

Mehr von Victoria López

Mehr von Victoria López (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla