Los modelos de mixturas finitas tienen una larga historia en la estadística, se han utilizado para análisis de homogeneidad de poblaciones en varias disciplinas, y últimamente, en minería de datos, reconocimiento de patrones, aprendizaje automático, es decir son una herramienta que brinda un marco teórico y práctico para agrupación y clasificación. Esta presentación ofrece una introducción a la teoría de los modelos de mixturas de distribuciones normales y proporciona los resultados de una serie de experimentos que tienen la finalidad de ilustrar su amplia flexibilidad y versatilidad.
3. 3
Resumen
El algoritmo EM se usa para encontrar estimadores de máxima
verosimilitud de parámetros en modelos probabilísticos que dependen de
variables no observables.
Descripción
Método iterativo que alterna dos pasos:
Paso E. Se calcula la esperanza de la verosimilitud mediante la inclusión de
variables latentes como si fueran observables.
Paso M. Se calculan estimadores de máxima verosimilitud de los
parámetros mediante la maximización de la verosimilitud esperada del paso
E.
Los parámetros que se encuentran en el paso M se usan para comenzar el
paso E siguiente, y así el proceso se repite hasta encontrar los valores
óptimos.
5. 5
Antecedentes Experimento Weldon-Pearson
En 1894 Pearson modeló una
mixtura de dos distribuciones
u n i v a r i a d a s n o r m a l e s c o n
diferentes medias μ1 y μ2 y
varianzas σ1 y σ2 con proporciones
π1 y π2 a a l g u n o s d a t o s
proporcionados por Weldon.
Consistió en mediciones de los
caparazones de cangrejos(la
proporción del ancho del frente
sobre la longitud del cuerpo) de n
=1000 cangrejos de una muestra
de la bahía de Nápoles.
6. 5
Antecedentes Experimento Weldon-Pearson
En 1894 Pearson modeló una
mixtura de dos distribuciones
u n i v a r i a d a s n o r m a l e s c o n
diferentes medias μ1 y μ2 y
varianzas σ1 y σ2 con proporciones
π1 y π2 a a l g u n o s d a t o s
proporcionados por Weldon.
Consistió en mediciones de los
caparazones de cangrejos(la
proporción del ancho del frente
sobre la longitud del cuerpo) de n
=1000 cangrejos de una muestra
de la bahía de Nápoles.
29 intervalos.
Sesgada a la izquierda.
7. 6
Antecedentes Experimento Weldon-Pearson
Weldon había especulado que la asimetría en el histograma de estos datos
podría ser una señal de que esta población había evolucionando hacia dos
nuevas subespecies.
El resultado del modelo de mixturas de Pearson, mostrado en la parte derecha
sugiere que existen dos subespecies presentes.
11. Generalización
X- Muestra completa ~ f(x; θ)
Y - Muestra observada (incompleta) ~ f(y;θ) tal que y(x) = y
Se define Q(θ;θp) = E[lnf(x;θ)|Y, θp]
Se obtiene θp+1,
= 0
Se itera hasta que |θp+1 - θp| o |Q(θp+1;θp) - Q(θp;θp)| son
suficientemente pequeñas, es decir se obtienen valores óptimos
para Q(θ;θp) y θ
Se espera que la verosimilitud no decrezca en cada iteración
Q(θp+1;θp) ≥ Q(θp;θp)
9
19. 12
Simulación de 2 Mixturas Normales
Simulación de una mixtura de 1,000 observaciones con la siguiente función de
densidad
Componente μ 𝜎 p
1 6.9841974 0.4764190 0.7048
2 9.9399546 0.5385381 0.2952
Modelo D p-value Interpretación
Mixtura de 2 normales simulada 0.0286 0.3875
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
20. 13
Ajuste de una Mixtura de 2 Gammas
Se simularon dos mixturas de dos gammas:
Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2:
shape =17, rate = 2, p =1 3
Componente μ 𝜎 p
1 3.9251897 1.0163427 0.4117
2 7.2398009 2.3865015 0.5883
Modelo D p-value Interpretación
Mixtura 1 0.0222 0.7092
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
21. 13
Ajuste de una Mixtura de 2 Gammas
Se simularon dos mixturas de dos gammas:
Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2:
shape =17, rate = 2, p =1 3
Componente μ 𝜎 p
1 3.9251897 1.0163427 0.4117
2 7.2398009 2.3865015 0.5883
Modelo D p-value Interpretación
Mixtura 1 0.0222 0.7092
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
El resultado de la prueba KS nos
permite aceptar la primera
mixtura.
22. 14
Ajuste de una Mixtura de 2 Gammas
Componente μ 𝜎 p
1 1.9133099 0.8917386 0.6345
2 10.1737830 2.6468378 0.3655
Modelo D p-value Interpretación
Mixtura 2 0.0444 0.0386
Hay evidencia moderada en contra de la hipótesis
nula.
Mixtura 2: Componente 1: shape = 4, rate = 2, p = 2 3; componente 2:
shape = 21, rate = 2, p =1 3
23. 14
Ajuste de una Mixtura de 2 Gammas
Componente μ 𝜎 p
1 1.9133099 0.8917386 0.6345
2 10.1737830 2.6468378 0.3655
Modelo D p-value Interpretación
Mixtura 2 0.0444 0.0386
Hay evidencia moderada en contra de la hipótesis
nula.
El resultado de la prueba KS nos permite rechazar o al menos poner en
duda la segunda mixtura. Aunque gráficamente parece aceptable el
ajuste, en realidad fue muy pobre de acuerdo a la prueba de bondad.
Mixtura 2: Componente 1: shape = 4, rate = 2, p = 2 3; componente 2:
shape = 21, rate = 2, p =1 3
24. 15
Ajuste de una Serie de Tiempos Financiera
Ajustar la distribución de los rendimientos logarítmicos de los precios de cierre
de la serie de tiempo de TELMEX de 2011 (de 01/01/2011 a 30/12/2011).
Con la finalidad de conseguir la mejor bondad de ajuste se quitaron 3 outliers.
27. 18
Componente μ 𝜎 p
1 -0.0001801668 0.0110634290 0.7055
2 0.0009019293 0.0023377669 0.2945
Ajuste de una Serie de Tiempos Financiera
Parte 1. Ajuste con una mixtura de 2 normales
Modelo D p-value Interpretación
Mixtura 0.0781 0.0983
La evidencia en contra de la hipótesis nula es
poco convincente.
28. 18
Componente μ 𝜎 p
1 -0.0001801668 0.0110634290 0.7055
2 0.0009019293 0.0023377669 0.2945
Ajuste de una Serie de Tiempos Financiera
Parte 1. Ajuste con una mixtura de 2 normales
Modelo D p-value Interpretación
Mixtura 0.0781 0.0983
La evidencia en contra de la hipótesis nula es
poco convincente.
El ajuste parece aceptable ya que la estimación de densidad por
núcleo subestima en los picos. Se puede apreciar que las
normales que componen la mixtura están prácticamente
centradas en 0.
29. 19
α β δ μ
80.6667627555 -6.8113636432 0.0076182371 0.0007840097
Ajuste de una Serie de Tiempos Financiera
Parte 2. Ajuste con la distribución Normal Inversa Gausiana
Modelo D p-valúe Interpretación
Normal Inversa Gausiana 0.0716 0.1593
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
30. 19
α β δ μ
80.6667627555 -6.8113636432 0.0076182371 0.0007840097
Ajuste de una Serie de Tiempos Financiera
Parte 2. Ajuste con la distribución Normal Inversa Gausiana
Modelo D p-valúe Interpretación
Normal Inversa Gausiana 0.0716 0.1593
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
Para este caso, con la Normal Inversa Gausiana se obtuvo un
mejor ajuste que con la mixtura normal, sin embargo con ambos
modelos se acepta la hipótesis nula.