Este documento describe los modelos predictivos y descriptivos en minería de datos. Explica que los modelos predictivos se basan en datos de entrenamiento para predecir variables, mientras que los modelos descriptivos forman grupos de datos sin supervisión para describir patrones. También proporciona ejemplos de algoritmos comúnmente usados como redes neuronales, árboles de decisión y análisis de asociaciones. El objetivo es extraer conocimiento útil de grandes bases de datos para la toma de decisiones.
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
1. UNIVERSIDAD POLITÉCNICA DE TLAXCALA
MINERÍA DE DATOS
“MODELOS PREDICTIVOS Y DESCRIPTIVOS EN
MINERÍA DE DATOS”
2. MINERÍA DE DATOS
La Minería de Datos es un proceso que tiene
como propósito descubrir, extraer y almacenar
información relevante de amplias bases de
datos, a través de programas de búsqueda e
identificación de patrones, y que sirva como
base para la toma de decisiones.
3. MODELOS EN MINERÍA DE DATOS
Existen varios métodos y algoritmos que se
pueden aplicar en el proceso de Minería
de Datos, por lo que es importante tener
una clasificación de los métodos existentes.
La elección del método depende del
problema en estudio o el tipo de datos
disponibles, el proceso de extracción de
datos se rige por las aplicaciones, por esta
razón, los métodos utilizados se pueden
clasificar de acuerdo con el objetivo de los
análisis. Se pueden distinguir tres clases
principales:
4. METODOS PREDICTIVOS EN MINERÍA
DE DATOS
Los Métodos predictivos o de Aprendizaje supervisado se basan en
entrenar a un modelo o método por medio de diferentes datos
para poder predecir una variable partiendo de estos mismos datos.
Y con lo que el método ya aprendió, su respuesta será que eso es
un cuadrado, porque ya lo aprendió con los datos anteriores, es
por ello que se le llama aprendizaje supervisado o modelo
predictivo porque queremos predecir ¿qué es? Esa nueva figura.
5. OBJETIVO
El objetivo de los modelos predictivos es describir una o más de las
variables en relación con todas las demás, son conocidos como
métodos asimétricos, supervisados o directos. Se llevan a cabo
mediante la búsqueda de normas de clasificación o de predicción
basada en los datos, estas normas nos ayudan a predecir o
clasificar el resultado futuro de una o más variables de respuesta o
de destino en relación a lo que ocurre en la práctica con los
motivos que la causan o bien en relación con las variables de
entrada. Los principales métodos de este tipo son los desarrollados
en el ámbito de la máquina de aprendizaje, tales como las redes
neuronales (perceptrón de multicapa y árboles de decisión), como
también lo son modelos estadísticos clásicos, como los modelos de
regresión lineal y logística.
6. Un modelo predictivo se basa en dos
tablas, la tabla de aprendizaje o tabla de
entrenamiento, con ella entrenamos al
modelo.
Las variables Id, Reembolso, Estado civil e
ingresos anuales se les llama predictores y
la variable Fraude se le llama variable a
predecir.
En esta tabla es dónde generamos el
modelo con algún algoritmo, ya sea redes
neuronales, árbol de decisión, etc. En la
tabla de testing es dónde aplicamos el
modelo generado para poder medir la
calidad de nuestro modelo y saber si está
prediciendo de manera correcta
comparando lo que tenemos en la tabla
de aprendizaje con lo que contiene la
tabla de testing.
MODELO PREDICTIVO O DE APRENDIZAJE
SUPERVISADO
7. Las Técnicas Predictivas están orientadas a la
predicción de valores de salida.
PREDICCIÓN
Para la estimación de variables cuantitativas, los métodos más empleados son:
Funciones de base radial
- Pueden procesar variables cuantitativas y cualitativas a la vez.
- Detecta el número de centroides óptimo, predefiniendo el número máximo de éstos y el número mínimo
de registros asignados a cada centro.
- Funciona especialmente bien cuando la estructura de los datos tiende a agruparse en conjuntos, ya que
implementa cierto tipo de segmentación.
PREDICCIÓN NEURONAL
- Basada en redes neuronales de propagación hacia atrás.
- Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar
una concreta.
- Permite predecir datos en forma de series temporales.
- Permite implementar regresión logística.
8. MÉTODOS DESCRIPTIVOS EN
MINERÍA DE DATOS
Los Métodos Descriptivos o aprendizaje no supervisado permiten
formar grupos de datos rápidamente, también son conocidos
como métodos simétricos, no supervisados o indirectos. Las
observaciones son generalmente clasificadas en grupos que no son
conocidos con anterioridad, los elementos de las variables pueden
estar conectados entre sí de acuerdo a vínculos desconocidos de
antemano, de esta manera, todas las variables disponibles son
tratados en el mismo nivel y no hay hipótesis de causalidad.
10. Las Técnicas Descriptivas están orientadas a
describir un conjunto de datos.
CLASIFICACIÓN
Como métodos de clasificación supervisada (predicción de variables cualitativas), algunas técnicas son:
Clasificación basada en árboles de decisión
- Modelo de clasificación en forma de árbol de decisión
- Procesando tanto variables cuantitativas como cualitativas
- Técnicas de podado, que proporciona árboles de menor tamaño
- Son escalables, pudiendo procesar conjuntos con independencia del número de clases, atributos y
registros
CLASIFICACIÓN NEURONAL
- Basada en redes neuronales de propagación hacia atrás
- Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar
una concreta
- Realiza un análisis de sensibilidad para detectar las variables más significativas para cada topología
11. ANÁLISIS DE ASOCIACIONES
Los análisis de asociaciones y patrones secuenciales permiten
extraer información desconocida de los hábitos de compra:
Análisis de asociaciones
- Detecta elementos en una transacción que implican la presencia
de otros elementos en ésta misma.
- Expresa las afinidades entre elementos en forma de reglas de
asociación XY, facilitando una serie de métricas como el soporte y
confianza.
12. CONCLUSIONES
Información segura y confiable.
Se usa como alternativa para la toma de decisiones en una
organización.
Permite tener de una manera más organizada los datos con el fin
de poder extraer informes específicos en determinados ciclos de
tiempo.
Brinda una estructura robusta en el almacenamiento de datos.