Algoritmo EM

Algoritmo EM
Ejemplos con Modelos de Mixturas Normales
Análisis Cuantitativo del Riesgo
Estadística I
David Solís

2
Resumen
Antecedentes y Origen
Ejemplos
Generalización e Implementación
1
2
3
4
Referencias 5
Agenda

3
Resumen
El algoritmo EM se usa para encontrar estimadores de máxima
verosimilitud de parámetros en modelos probabilísticos que dependen de
variables no observables.
Descripción
Método iterativo que alterna dos pasos:
Paso E. Se calcula la esperanza de la verosimilitud mediante la inclusión de
variables latentes como si fueran observables.
Paso M. Se calculan estimadores de máxima verosimilitud de los
parámetros mediante la maximización de la verosimilitud esperada del paso
E.
Los parámetros que se encuentran en el paso M se usan para comenzar el
paso E siguiente, y así el proceso se repite hasta encontrar los valores
óptimos.

4
Resumen
Ejemplos
1
2
3
4
Referencias 5
Agenda

5
Antecedentes Experimento Weldon-Pearson
En 1894 Pearson modeló una
mixtura de dos distribuciones
u n i v a r i a d a s n o r m a l e s c o n
diferentes medias μ1 y μ2 y
varianzas σ1 y σ2 con proporciones
π1 y π2 a a l g u n o s d a t o s
proporcionados por Weldon.
Consistió en mediciones de los
caparazones de cangrejos(la
proporción del ancho del frente
sobre la longitud del cuerpo) de n
=1000 cangrejos de una muestra
de la bahía de Nápoles.

5
En 1894 Pearson modeló una
mixtura de dos distribuciones
u n i v a r i a d a s n o r m a l e s c o n
diferentes medias μ1 y μ2 y
varianzas σ1 y σ2 con proporciones
π1 y π2 a a l g u n o s d a t o s
proporcionados por Weldon.
Consistió en mediciones de los
caparazones de cangrejos(la
proporción del ancho del frente
sobre la longitud del cuerpo) de n
=1000 cangrejos de una muestra
de la bahía de Nápoles.
29 intervalos.
Sesgada a la izquierda.

6
Weldon había especulado que la asimetría en el histograma de estos datos
podría ser una señal de que esta población había evolucionando hacia dos
nuevas subespecies.
El resultado del modelo de mixturas de Pearson, mostrado en la parte derecha
sugiere que existen dos subespecies presentes.

8
Resumen
Ejemplos
1
2
3
4
Referencias 5
Agenda

Generalización
X- Muestra completa ~ f(x; θ)
Y - Muestra observada (incompleta) ~ f(y;θ) tal que y(x) = y
Se define Q(θ;θp) = E[lnf(x;θ)|Y, θp]
Se obtiene θp+1,
= 0
Se itera hasta que |θp+1 - θp| o |Q(θp+1;θp) - Q(θp;θp)| son
suficientemente pequeñas, es decir se obtienen valores óptimos
para Q(θ;θp) y θ
Se espera que la verosimilitud no decrezca en cada iteración
Q(θp+1;θp) ≥ Q(θp;θp)
9

10
Implementación del Algoritmo en R

11
Resumen
Ejemplos
1
2
3
4
Referencias 5
Agenda

12
Simulación de 2 Mixturas Normales
Simulación de una mixtura de 1,000 observaciones con la siguiente función de
densidad
Componente μ 𝜎 p
1 6.9841974 0.4764190 0.7048
2 9.9399546 0.5385381 0.2952
Modelo D p-value Interpretación
Mixtura de 2 normales simulada 0.0286 0.3875
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.

13
Ajuste de una Mixtura de 2 Gammas
Se simularon dos mixturas de dos gammas:
Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2:
shape =17, rate = 2, p =1 3
1 3.9251897 1.0163427 0.4117
2 7.2398009 2.3865015 0.5883
Mixtura 1 0.0222 0.7092
hipótesis nula.

13
Se simularon dos mixturas de dos gammas:
shape =17, rate = 2, p =1 3
1 3.9251897 1.0163427 0.4117
2 7.2398009 2.3865015 0.5883
Mixtura 1 0.0222 0.7092
hipótesis nula.
El resultado de la prueba KS nos
permite aceptar la primera
mixtura.

14
1 1.9133099 0.8917386 0.6345
2 10.1737830 2.6468378 0.3655
Mixtura 2 0.0444 0.0386
Hay evidencia moderada en contra de la hipótesis
nula.
shape = 21, rate = 2, p =1 3

14
1 1.9133099 0.8917386 0.6345
2 10.1737830 2.6468378 0.3655
Mixtura 2 0.0444 0.0386
Hay evidencia moderada en contra de la hipótesis
nula.
El resultado de la prueba KS nos permite rechazar o al menos poner en
duda la segunda mixtura. Aunque gráﬁcamente parece aceptable el
ajuste, en realidad fue muy pobre de acuerdo a la prueba de bondad.
shape = 21, rate = 2, p =1 3

15
Ajuste de una Serie de Tiempos Financiera
Ajustar la distribución de los rendimientos logarítmicos de los precios de cierre
de la serie de tiempo de TELMEX de 2011 (de 01/01/2011 a 30/12/2011).
Con la ﬁnalidad de conseguir la mejor bondad de ajuste se quitaron 3 outliers.

16
Alternativas a la Normal para Rendimientos

17
Alternativas a la Normal para Rendimientos

18
1 -0.0001801668 0.0110634290 0.7055
2 0.0009019293 0.0023377669 0.2945
Parte 1. Ajuste con una mixtura de 2 normales
Mixtura 0.0781 0.0983
La evidencia en contra de la hipótesis nula es
poco convincente.

18
1 -0.0001801668 0.0110634290 0.7055
2 0.0009019293 0.0023377669 0.2945
Parte 1. Ajuste con una mixtura de 2 normales
Mixtura 0.0781 0.0983
La evidencia en contra de la hipótesis nula es
poco convincente.
El ajuste parece aceptable ya que la estimación de densidad por
núcleo subestima en los picos. Se puede apreciar que las
normales que componen la mixtura están prácticamente
centradas en 0.

19
α β δ μ
80.6667627555 -6.8113636432 0.0076182371 0.0007840097
Parte 2. Ajuste con la distribución Normal Inversa Gausiana
Modelo D p-valúe Interpretación
Normal Inversa Gausiana 0.0716 0.1593
hipótesis nula.

19
α β δ μ
80.6667627555 -6.8113636432 0.0076182371 0.0007840097
Parte 2. Ajuste con la distribución Normal Inversa Gausiana
Modelo D p-valúe Interpretación
Normal Inversa Gausiana 0.0716 0.1593
hipótesis nula.
Para este caso, con la Normal Inversa Gausiana se obtuvo un
mejor ajuste que con la mixtura normal, sin embargo con ambos
modelos se acepta la hipótesis nula.

20
Resumen
Ejemplos
1
2
3
4
Referencias 5
Agenda

21
Referencias
Otras fuentes
978-0-471-00626-8 978-0-471-20170-0 978-3-540-40502-3 978-0-198-52396-3 978-0-412-24620-3 978-0-412-04251-5

Algoritmo EM

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Algoritmo EM

Similar a Algoritmo EM (20)

Más de David Solis

Más de David Solis (20)

Último

Último (16)

Algoritmo EM