CAPITULO 1 Mineria de datos en salud:
Seiries temporales es una forma sencilla de presentar como trabajar con datos espaciados en el tiempo para obtener información util.
Recién Nacido y escalas para determinar la edad gestacional
Minería de datos en salud series temporales
1. MINERÍA DE DATOS EN
SALUD:
SERIES TEMPORALES
JAIRO CESAR ALEXANDER 2017
2. :
HAY TÉCNICAS CUALITATIVAS, CUANTITATIVAS,
BASADAS EN MODELOS CAUSALES Y MIXTOS
• El primero utiliza datos cualitativos como la opinión de los expertos, y puede o no
tener en cuenta el pasado.
• El segundo, por el contrario, se centra exclusivamente en patrones y cambios de
patrón, y por lo tanto se basa enteramente en datos históricos.
• La tercera utiliza la información altamente refinada y específica acerca de las
relaciones entre los elementos del sistema, y es lo suficientemente potente como
para tener eventos especiales formalmente en cuenta. Al igual que con técnicas
de análisis de series temporales y de proyección, el pasado es importante para los
modelos causales.
• Los modelos mixtos dan información cuantitativa a un grupo de expertos para
sacar conclusiones validas.
6. TAREAS: DE LA MINERÍA DE SERIES
TEMPORALES
• Caracterización y comparación temporal:
ejem. Dos departamentos tienen series de
dengue muy similares
• Análisis clustering temporal: ejem cluster costa
atlantica cluster area amazoncia
• Clasificacion temporal: la sifilis congenital esta
bien el el centro, critica en la periferia, y
acceptable en la region costera.
• Reglas de asociación temporal: si la economia
cae 3 puntos y la produccion se mantiene la
desnutrición aumentara 7%
• Analisis de patrones temporales, en carmen de
bolivar se ha detectado un anormal caso de
eventos adeversos a la vacunación que debe
ser atendido.
• Analisis de prediccción y tendencias
temporales: ejemplo de continuar la tendencia
no se cumplirarn las metas de desnutrición en
niños para los proximos 4 años.
• Detección de anomalias: inceremento en los
casos de hemophilia en Colombia.
Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake Time Series using
Symbolic Representation, Ecological Informatics,
7. ETAPAS DE LOS MODELO DE
SERIES TEMPORALES
Formulación
de un
problema
Estudio del
Fenómeno
Parte
descriptiva
70%
Parte
pronostico
30%
Explicación
de supuestos
Presentación
de
escenarios
Generación de un modelo
8. DE LOS FENÓMENOS
• Es necesario la comprensión del fenómenos, definiciones
• Datos , recuentos, porcentajes, tasas, índices
• Causalidad, asociaciones, dependencias
• Estudios y modelos anteriores
• Registros históricos
10. ANÁLISIS DE SERIES TEMPORALES
• Representación de la serie temporal e indexación
• Reducción de dimensionalidad
• Medida de similaridad
• Comparando todas las series
• Distancia euclídea coeficientes DFT y los coeficientes DWT
• Distancia “time warping”
• Comparando sub secuencias de las series (búsqueda por desplazamiento)
• Método General-Match
• Minería en series temporales
• Segmentación
• Visualización
11. EJEMPLOS DE ALGORITMOS
• Support vector regression (SVR)
• algoritmo Gecko
• Neural clustering method
• fuzzy c -means (FCM)
• Autorregresivo de media móvil (ARMA , ARIMA)
• Modelos ocultos de Markov (HMM)
• El análisis de conglomerados
• descomposición wavelet
• clasificación del vecino más cercano
• árboles de decisión basados en DTW
• transformación simbólica
• candle stick charting
Ak-chung Fu, A review on time series data mining, Engineering Applications of Artificial Intelligence, Volume 24, Issue 1, February 2011, Pages 164-181,
12. LOS NUEVOS: APROXIMACIÓN
SIMBÓLICA
Convierte los datos
a palabras y utiliza
algoritmos de
procesamiento de
lenguaje natural
para descubrir y
clasificar los
patrones
Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake
Time Series using Symbolic Representation, Ecological Informatics,
14. LOS DATOS Y LAS FECHAS
La segmentación e
incompatibilidad de
los sistemas de
información puede
ser un problema
La depuración , de
datos errados
faltantes,
inconsistentes, y con
formatos
incompatibles
pueden tomar algún
tiempo, que hay que
tener en cuenta
15. OUTLIER
• Es una observacion que se
desvian mucho de las otras
observaciones y se cree
generada por mecanimos
diferentes
• La mayoria de software
recomendado puede
eliminar este tipo de datos,
pero eso depende de los
objetivos del invetigador.
16. VALORES MISSING FALTANTES U
OCULTOS
• El software puede detectar y
tratar este problemas con
varios métodos como la
interpolación
17. INTEGRACIÓN DE BASE DE DATOS
Y FORMATOS
Mayores capacidades
Los modelos generados deben ser pensados en producción desde el comienzo
Y también en integración para superar los problemas de segmentación de los sistemas
de información
18. MANEJO DE OS FORMATOS Y
ESTANDARES
Es necesario el manejo
adecuado de los formato
(estándar) en este caso la fecha
en GRETL
20. ADQUISICIÓN DE INFORMACIÓN
La información
pueden venir de
base de datos, ejem
PENTAHO- Base de
datos, o KNIME, en
MYSQL.
En la imagen
integración de varios
archivos de
indicadores de salud
(INS) de Excel en
ACCESS
21. Un ejemplo de consulta SQL de
un conjunto de tablas de
EXCEL en ACCES (Indicadores
de salud pública)
22. EJEMPLO DE GRAFICAS Y LA
EXPLORACIÓN INICIAL
Aquí se ve el
comportamie
nto de la
varicela en
Colombia,
nota/ la
varicela tiene
vacuna
efectiva.
Registro
histórico con
proyección a
2018
23. LOS FILTROS
Filtro media móvil
exponencial
Filtro tendencia polinómicaFiltro Hodrick -Prescott
Serie varicela 2012- 2016 (recuento)
PERMITEN:
Mirar la tendencia
Estacionalidad,
componente aleatorio
24. CONSIDERACIONES SOBRE LA
EXPLORACION DE SERIES DE TIEMPO
• Algunos fenómenos son
tan complejos que es
necesario tener en
cuenta ciertas cosas
sobre como se clasifican,
los fenómenos aleatorios,
la teoría del caos, la
causalidad y el manejos
de escalas para tener en
cuenta en los modelos
25. CONSIDERACIONES
• - tipo de fenómeno
• - el azar, la mala suerte o la buena suerte
• - la causalidad
• - la teoría del caos
• - la ley de los grandes números y las escalas
26. -TIPOS DE FENÓMENOS DE
ACUERDO A SU COMPLEJIDAD
ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A
TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA
DE MÉXICO. MÉXICO, D.F. 2004
Todos los fenómenos
no son tan
predecibles como
una Varicela,
algunos rayan en lo
aleatorio y parecen
o se asemejan a
series económicas
En la figura se
pueden ver
diferentes tipos de
fenómenos
27. -CONSIDERACIONES SOBRE LOS
FENÓMENOS
ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A
TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA
DE MÉXICO. MÉXICO, D.F. 2004
Se puede ver que algunos
fenómenos son muy
deterministas, otros
imposibles de predecir
(aleatoriedad) con la
ciencia actual , y otros
están en el limite de lo
predecible y tienen un
comportamiento
matemáticamente
extraño.
28. -DEL DEMONIO DE LAPLACE A LA
FÍSICA CUÁNTICA :
DETERMINISMO VS INDETERMINISMO
Aleatoriedad
Concepto central dentro de la teoría de probabilidades
y en los estudios del comportamiento cuya definición
descansa en la suposición de que todo suceso tiene
una causa, nada es azaroso. La noción de aleatoriedad
aparece asociada al espacio generado por el
desconocimiento humano (parcial o total) de tales
causas. Así, la "aleatoriedad significa que no hay una ley
conocida, capaz de ser expresada en un lenguaje
coherente, que describa o explique los eventos y sus
resultados" (Kerlinger, 1994, p.126).
Demonio del mercurio alquímico, en el libro “Della
trasmutatione metallica”, Giovani Battista Nazario,
Brescia, 1589.
29. -MIS INDICADORES OBEDECEN SOLO A VARIABLES CONOCIDAS A
EFECTO AZAR (PURÍSIMA SUERTE!) A VARIABLES DESCONOCIDAS O
FENÓMENOS COMPLEJOS?
30. -LA CAUSALIDAD
Según la indagación, "hasta el momento
tenemos evidencia de que ningún factor
técnico influyó en el accidente, todo está
involucrado en un factor humano y
gerencial".
32. -PUEDE UN DISCURSO DE DONALD
TRUMP EN WASHINGTON AFECTAR
GRAVEMENTE LA SALUD DE UN NIÑO
EN LA GUAJIRA?
33. -CONSIDERACIONES
• El azar, la suerte, o el libre albedrio es importante?
• Como estimarlos? Existen??
• Basta con cambiar la escala temporal? , o usar proporciones?
• Bata con usar filtros ?
• Toca usar índices de aletoriedad, dimesiones, fractalidad, etc..?
• Que pasa con la predicción si el fenómeno es complejo y el azar cambia los
condiciones iniciales del fenómeno?
• Los diferencia entre lo pronosticado y lo real se debe al azar, a los factores
asociados o a ambos y en que grado?
• Mi predicción o mis acciones puede alterar el futuro?
34. -LEY DE LOS GRANDES NÚMEROS
(APLICADA)
• En la teoría de la probabilidad, bajo el término genérico de ley de los
grandes números se engloban varios teoremas que describen el
comportamiento del promedio de una sucesión de variables aleatorias
conforme aumenta su número de ensayos.
• Estos teoremas prescriben condiciones suficientes para garantizar que dicho
promedio converge al promedio de las esperanzas de las variables
aleatorias involucradas. Ejemplo la difusión de un gas es azarosa a
pequeña escala pero determinística a gran escala.
35. -AUMENTAR LA ESCALA EN EL
TIEMPO
• Aumentar la escala de tiempo
permite filtrar el componente
aleatorio que se anula a si
mismo y permite ver otros
elementos de la serie temporal,
como la tendencia, la
estacionalidad, y los ciclos.
• Disminuir la escala aumenta
el efecto visible del
componente suerte.
• Inconvenientes?
Por día
Por semana
Por mes
Por trimestre
Por semestre
Por año
Por 4 años
36. -AUMENTAR LA ESCALA EN EL
EVENTO
• Tasas x 1000 x 10 000 x 1 000 000 ….
• Proporciones
• Índices
• Funciones
• Inconvenientes
Usar denominadores puede filtrar algunos componentes aleatorios
y otros componentes como el crecimiento de la población, mortalidad
Etc.
38. VOLVIENDO AL MODELO Y LA MINERÍA
HAY QUE SELECCIONAR UN MODELO
OTRAS CONSIDERACIONES ….
• En un modelo determinístico se pueden controlar los factores que intervienen en el
estudio del proceso o fenómeno y por tanto se pueden predecir con exactitud sus
resultados.
• En un modelo estocástico no es posible controlar los factores que intervienen en el
estudio del fenómeno y en consecuencia no produce simples resultados únicos.
Cada uno de los resultados posibles se genera con una función de probabilidad
que le adjudica una probabilidad a cada uno de éstos,
Ejemplo: un modelo para predecir el tamaño de una epidemia en una población
de N individuos. Para el caso determinístico se proporciona un valor único, C, mientras que
el modelo estocástico permite la posibilidad de obtener desde cero hasta N individuos y se
adjudica una cierta probabilidad a cada uno de estos sucesos. La diferencia es más
grande de lo que parece, ya que en un modelo matemático determinístico en el contexto
epidemiológico; un solo sujeto causa una epidemia generalizada, mientras que bajo un
modelo estocástico existe la posibilidad de que la epidemia se extinga
39. SIEMPRE ESTA LA OPCIÓN DE LA
ELABORACIÓN AUTOMÁTICA DEL
MODELO DE SERIE TEMPORAL
• La mayoría de software de alta calidad tiene funciones automatizadas para
seleccionar el mejor modelo según nuestras necesidades y datos
• En el caso de las series temporales JDEMETRA (software libre) o IBM SPSS MODELER y
GMDH SHELL (software comercial) ofrecen herramientas muy sofisticadas para
elaboración automática de modelos.
• Los modelos luego pueden exportarse a medios de producción
40. LOS MODELOS EN R
SON MAS MANUALES, AUNQUE EXISTEN MUCHOS PAQUETES DE AUTOMATIZACIÓN
• Pronostico del
autor
generado
con un
modelo
HOLTWINTERS
en R para la
serie de bajo
peso al nacer
en Colombia
con datos
semanales
44. HAY QUE TENER EN CUENTA EN LA
ELABORACIÓN DEL MODELO PARA
SERIE TEMPORAL
• Información de buena calidad produce resultados de buena calidad
• Datos de pésima calidad, generalmente producen malos resultados
independiente de lo sofisticado de los algoritmos o software usado
• La elaboración de modelos temporales como por ejemplo los ARIMA puede
tomar algún tiempo , por eso puede ser recomendable iniciar con un
proceso automático en MODELER GMDH SHELL Y JDEMETRA que presentan
resultados bastante buenos .
45. MEDIDAS DE BONDAD DE AJUSTE: (SE USAN
PARA SABER QUE TAN BUENO ES EL MODELO)
• R cuadrado estacionaria, R cuadrado (R2), raíz del error cuadrático
promedio (RMSE), error absoluto promedio (MAE), error absoluto porcentual
promedio (MAPE), error absoluto máximo (MaxAE), error absoluto máximo
porcentual (MaxAPE) y criterio de información bayesiano (BIC) normalizado
46. EJEMPLO DE SERIE DE TIEMPO
BAJO PESO AL NACER
Bajo peso al nacer vs Semana Epidemiológica
47. BAJO PESO AL NACER
MAPA DE RECURRENCIA
El grado de
aleatoriedad
puede estimarse
con un mapa de
recurrencia
en este caso en
MATLAB
48. MAPA DE RECURRENCIA
Aquí se puede ver
Un fenómeno
desde completamente
Azaroso (puntos) hasta
Determinista (las líneas)
49. FILTROS - CURVE FITING TOOL
General model Sin3:
f(x) =
a1*sin(b1*x+c1) + a2*sin(b2*x+c2) +
a3*sin(b3*x+c3)
where x is normalized by mean 26.58 and std
14.47
Coefficients (with 95% confidence bounds):
a1 = 2162 (1718, 2606)
b1 = 0.3811 (-0.2769, 1.039)
c1 = 1.541 (1.002, 2.079)
a2 = 6529 (-1.161e+07, 1.162e+07)
b2 = 2.792 (-42.63, 48.21)
c2 = 0.3984 (-41.46, 42.26)
a3 = 6569 (-1.161e+07, 1.162e+07)
b3 = 2.843 (-41.07, 46.75)
c3 = -2.698 (-41.6, 36.2)
Goodness of fit:
SSE: 3.479e+06
R-square: 0.9146
Adjusted R-square: 0.9118
RMSE: 121.4
Los filtros pueden
mostrar patrones no
visibles interesantes..
51. Función previsión
Suaviza cimiento
exponencial AAA
En Excel
Función
agregar
elemento
grafico
líneas de
tendencia
con
proyección
en Excel
Estadística Valor
Alpha 0.50
Beta 0.00
Gamma 0.50
MASE 1.20
SMAPE 0.08
MAE 23.68
RMSE 33.10
ESTE ES UN EJEMPLO DE TEST DE BONDAD DE AJUSTE EN EXCEL
52. EJEMPLO BAJO PESO AL NACER
• El análisis de las series temporales pude determinar que regiones
departamentos y municipios están presentado mas el fenómeno, y si alguna
política esta impactando en la región
• La información estaría disponible no solo para el tomador de decisión sino
también para la opinión publica, el medico y el usuario.
54. DIMENSIONES:
CIRCULO O CUADRADO (2D)?
Hay que pensar
Siempre desde varias
Perspectivas
El trabajo en quipo
Multidiciplinario es
Recomendable,
Los dx poblaciones
Son de equipo
58. •“La mejor manera de predecir el
futuro es crearlo” (“The best way to
predict the future is to create it”).
Dennis Gabor Nobel de Física en Inventando el futuro 1963