SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Introducción a la Minería de Datos
Diego García Saiz
Grupo de Lenguajes y Sistemas Informáticos
Departamento de Matemáticas, Estadística y Computación
Universidad de Cantabria
Estructura de la presentación
• Una pequeña introducción al contexto.
• Qué es Minería de Datos…
– … y qué no es Minería de Datos.
• No sólo se trata de modelar: CRISP-DM.
• Los 3 grandes pilares: ejemplos en el mundo real.
– Agrupación (clustering).
– Reglas de Asociación.
– Predicción: clasificación.
• Herramientas de uso libre: Weka, RapidMiner y Knime.
Introducción al contexto
•

Gran cantidad de datos almacenados.
– Por parte de empresas: marketing, hipermercados, servicios, banca,
etc.
– Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas.

– Y en muchos otros ámbitos: educativo (cursos online), institucional
(gobierno), médico, etc.
•

¿Qué hacer con todos esos datos?.
– Podríamos utilizarlos para extraer información relevante con el objeto
de ayudar a la toma de decisiones en el negocio, el gobierno, la
sanidad, la educación, las ventas, etc.
– Para esto tenemos la Minería de Datos.
¿Minería de datos?. Definición formal
• El datamining (minería de datos), es el conjunto de
técnicas y tecnologías que permiten explotar grandes
cantidades de datos, de forma automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado
contexto.
Más simple: La minería de datos es un
proceso consistente en entender y
extraer información relevante para el
desarrollo del negocio, que no podría
extraerse de otra forma.
Qué es y qué no es Minería de Datos
• Extracción de los datos de una Base de Datos.
• Preparación de los datos para extraer
información.
• Generación de gráficos estadísticos de los
datos.
• Extracción del conocimiento “oculto” en los
datos.
No sólo de extraer patrones viven los
“datamineros”: CRIPS-DM
Los 3 grandes pilares
• Reglas de asociación.

• Agrupamiento (clustering).

• Predicción: clasificación.
Reglas de asociación
• Conjunto de técnicas que retornan todos los patrones encontrados
en el conjunto de datos que cumplan los parámetros de entrada.
• Usado cuando no se tiene un objetivo específico sobre la
información que se busca.
• Algunos de los algoritmos más conocidos:
• Apriori
• PredictiveApriori
• Tertitus
• Yacaree
Reglas de asociación: Ejemplo
• Cesta de la compra (problema típico de marketing y ventas): ¿qué
productos se compran usualmente juntos?.
• El conjunto de datos contiene, por cada compra de un cliente,
que productos adquirió y cual fue el precio final de su compra.
• Ejemplo de productos:
• Comestibles (pan, agua, fruta…)
• Consumibles electrónicos (tóners, baterías…)
• Electrodomésticos (lavadoras, laptops, reproductores…)
• …
Reglas de asociación: Ejemplo
• Resultado parcial de aplicar el algoritmo Apriori con una restricción
de las reglas de un 70% en confianza.
• baking needs & biscuits & cheese & fruit & vegetables ==>
bread and cake confianza: 90%
• fruit & potatoes ==> vegetables

confianza: 89%

• milk-cream & beef & vegetables ==> fruit

confianza: 78%
Agrupamiento (clustering)
• Conjunto de técnicas de Minería de Datos que determinan y
asignan a los individuos a grupos de similares características.
• Ejemplo: Perfil de los alumnos en un curso online según la actividad
que desarrollan.
• Como datos, tenemos su actividad en el curso medida en:
•

Tiempo dedicado

• Número de sesiones
• Mensajes leídos y escritos en el foro
• Etc.
Agrupamiento: Ejemplo
• Resultado de aplicar el algoritmo Kmeans:

Attribute
Nº of students
Age
Gender
Total Time
Number of Sessions

Full Data
(resumen)
67
22
Man
1138
74

Cluster
(Grupo) 1
21
22
Man
1394
94

●

Cluster
(Grupo) 2
31
23
Woman
104
8

Cluster
(Grupo) 3
15
19
Man
2917
180
…
Predicción: Clasificación
• Consiste en la clasificación de individuos en una determinada clase
según sus características, para poder inferir predicciones en un
futuro.
• Ejemplos: conocer si…
• … un cliente realizará una hipoteca con el banco.
• … las acciones de una empresa subirán o bajarán en un
momento determinado.
• … un fruto del bosque o una seta es comestible o venenosa.
• … un alumno aprobará o suspenderá una asignatura.
• … un paciente tiene una enfermedad concreta según sus
síntomas y datos personales.
• … una campaña de marketing tendrá éxito.
•
Clasificación: Ejemplo 1
• Doctor, ¿tengo hipertiroidismo?
• Conjunto de datos: contiene la información de pacientes
reales con sus síntomas, niveles de hormonas y diagnóstico.
• Resultados (algoritmo Jrip):
(tumor = t) and (T3level >= 2.9) and (TT4level <= 147) => class=goitre
(T3level >= 3.3) and (age >= 54) and (TT4level <= 142) and (age <= 63) and (T4Ulevel >=
0.95) => class=t3toxic
(FTIlevel >= 168) and (T3level >= 3.5) => class=hyperthyroid
…
(FTIlevel >= 209) and (age <= 41) => class=hyperthyroid
=> class=negative
Clasificación: Ejemplo 2
• Campaña de marketing telefónico de un banco portugués para
atraer clientes de depósitos
• Conjunto de datos: contiene información personal de los
clientes, incluida información bancaria.
• Estado civil (soltero, casado, viudo)
• Sexo
• Edad
• Mes de la llamada
• Hipotecas del cliente en el banco
• Créditos del cliente en el banco
• Y muchos otros…
Clasificación: Ejemplo 2 (2)
• Resultados (algoritmo C4.5)
Duration
> 645

<= 211
> 211 and <=645

Married

NO
Age

> 60
NO

yes

no
…

…

Credit
yes
YES

no
…
Herramientas libres
•

Weka
•
•

Multitud de algoritmos.

•
•

Pionera en su género.
http://www.cs.waikato.ac.nz/ml/weka/

RapidMiner
•
•

Hace uso de todos los algoritmos ofrecidos por Weka y de los suyos propios.

•
•

Interfaz Gráfica sencilla de utilizar.
http://rapid-i.com/content/view/181/190/

KNIME
•

Herramienta joven. Interfaz Gráfico de uso sencillo.

•

Implementada como plugin en Eclipse. Fácil de extender con nuevos
algoritmos “ad hoc”.

•

http://www.knime.org/
Weka: un caso de uso
Weka: un caso de uso
Weka: Tratamiento de datos
Weka: Técnicas de tratamiento
Weka: Clasificación
Weka: Clustering
Weka: Reglas de asociación
Weka: Visualización
Weka: ejemplo de clasificación
Weka: escogiendo la técnica
Weka: clasificación con J48
Weka: resumen de resultados
Las preguntas no son nunca indiscretas. Las respuestas, a veces sí.
Oscar Wilde

Weitere ähnliche Inhalte

Was ist angesagt?

Presentación Minería de Datos
Presentación Minería de DatosPresentación Minería de Datos
Presentación Minería de Datosdataminingperu
 
Minería de datos
Minería de datosMinería de datos
Minería de datosKeopx
 
Gerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data MiningGerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data MiningNicoleaks
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datoselsemieni
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datossaibelr
 
Técnicas y Modelos de Mineria de Datos
Técnicas y Modelos de Mineria de DatosTécnicas y Modelos de Mineria de Datos
Técnicas y Modelos de Mineria de Datosiloylan
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datosArnoldo Gil
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?Scoremind
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kddYaz_Cuapio
 
Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Rodrigo Cabello Silva
 
Aplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datosAplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datosmajitol
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 

Was ist angesagt? (20)

Presentación Minería de Datos
Presentación Minería de DatosPresentación Minería de Datos
Presentación Minería de Datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Gerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data MiningGerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data Mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datos
 
Técnicas y Modelos de Mineria de Datos
Técnicas y Modelos de Mineria de DatosTécnicas y Modelos de Mineria de Datos
Técnicas y Modelos de Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]
 
Aplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datosAplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datos
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 

Ähnlich wie Introducción a la Minería de Datos

Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2CarlosTenelema1
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data miningrenfer64
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Facultad de Informática UCM
 
Sistemas de información i presentacion-tema1
Sistemas de información i presentacion-tema1Sistemas de información i presentacion-tema1
Sistemas de información i presentacion-tema1Angela Chikhani
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaNexolution
 
Análisis de Datos.pdf
Análisis de Datos.pdfAnálisis de Datos.pdf
Análisis de Datos.pdfDarnelyC
 
03 Gestión de la información de marketing.pdf
03 Gestión de la información de marketing.pdf03 Gestión de la información de marketing.pdf
03 Gestión de la información de marketing.pdfbelizariovaldiviezo
 

Ähnlich wie Introducción a la Minería de Datos (20)

Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Dm 01
Dm 01Dm 01
Dm 01
 
Taller 3 Karen Agudelo Carmona
Taller 3 Karen Agudelo CarmonaTaller 3 Karen Agudelo Carmona
Taller 3 Karen Agudelo Carmona
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Sistemas de información i presentacion-tema1
Sistemas de información i presentacion-tema1Sistemas de información i presentacion-tema1
Sistemas de información i presentacion-tema1
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
Unidad II SIM
Unidad II SIMUnidad II SIM
Unidad II SIM
 
Unidad 2
Unidad 2 Unidad 2
Unidad 2
 
Auditoria y advanced analytics
Auditoria y  advanced analyticsAuditoria y  advanced analytics
Auditoria y advanced analytics
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Análisis de Datos.pdf
Análisis de Datos.pdfAnálisis de Datos.pdf
Análisis de Datos.pdf
 
03 Gestión de la información de marketing.pdf
03 Gestión de la información de marketing.pdf03 Gestión de la información de marketing.pdf
03 Gestión de la información de marketing.pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Sistemas_de_información
Sistemas_de_informaciónSistemas_de_información
Sistemas_de_información
 

Mehr von OpenAnalytics Spain

OpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs ROpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs ROpenAnalytics Spain
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics Spain
 
OpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLVOpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLVOpenAnalytics Spain
 
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATAOpen Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATAOpenAnalytics Spain
 
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...OpenAnalytics Spain
 
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...OpenAnalytics Spain
 
Open Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpen Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpenAnalytics Spain
 
Open Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpen Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpenAnalytics Spain
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics Spain
 
OpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics Spain
 
OpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo GarridoOpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo GarridoOpenAnalytics Spain
 
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics Spain
 
OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)OpenAnalytics Spain
 
Open Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de EquifaxOpen Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de EquifaxOpenAnalytics Spain
 
OpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio AriasOpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio AriasOpenAnalytics Spain
 

Mehr von OpenAnalytics Spain (15)

OpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs ROpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs R
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con Hadoop
 
OpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLVOpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLV
 
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATAOpen Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATA
 
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
 
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
 
Open Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpen Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open Source
 
Open Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpen Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
OpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
 
OpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo GarridoOpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo Garrido
 
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
 
OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)
 
Open Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de EquifaxOpen Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de Equifax
 
OpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio AriasOpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio Arias
 

Kürzlich hochgeladen

Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888ElianaValencia28
 
TENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdfTENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdfJoseAlejandroPerezBa
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskbydaniela5
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalEmanuelCastro64
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdflauralizcano0319
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaElizabethLpezSoto
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024anasofiarodriguezcru
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nóminacuellosameidy
 
TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.
TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.
TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.radatoro1
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 

Kürzlich hochgeladen (20)

Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888
 
TENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdfTENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdf
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamental
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestría
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nómina
 
TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.
TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.
TinkerCAD y figuras en 3D. Uso del programa TinkerCAD para crear fuguras.
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 

Introducción a la Minería de Datos

  • 1. Introducción a la Minería de Datos Diego García Saiz Grupo de Lenguajes y Sistemas Informáticos Departamento de Matemáticas, Estadística y Computación Universidad de Cantabria
  • 2. Estructura de la presentación • Una pequeña introducción al contexto. • Qué es Minería de Datos… – … y qué no es Minería de Datos. • No sólo se trata de modelar: CRISP-DM. • Los 3 grandes pilares: ejemplos en el mundo real. – Agrupación (clustering). – Reglas de Asociación. – Predicción: clasificación. • Herramientas de uso libre: Weka, RapidMiner y Knime.
  • 3. Introducción al contexto • Gran cantidad de datos almacenados. – Por parte de empresas: marketing, hipermercados, servicios, banca, etc. – Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas. – Y en muchos otros ámbitos: educativo (cursos online), institucional (gobierno), médico, etc. • ¿Qué hacer con todos esos datos?. – Podríamos utilizarlos para extraer información relevante con el objeto de ayudar a la toma de decisiones en el negocio, el gobierno, la sanidad, la educación, las ventas, etc. – Para esto tenemos la Minería de Datos.
  • 4. ¿Minería de datos?. Definición formal • El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explotar grandes cantidades de datos, de forma automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Más simple: La minería de datos es un proceso consistente en entender y extraer información relevante para el desarrollo del negocio, que no podría extraerse de otra forma.
  • 5. Qué es y qué no es Minería de Datos • Extracción de los datos de una Base de Datos. • Preparación de los datos para extraer información. • Generación de gráficos estadísticos de los datos. • Extracción del conocimiento “oculto” en los datos.
  • 6. No sólo de extraer patrones viven los “datamineros”: CRIPS-DM
  • 7. Los 3 grandes pilares • Reglas de asociación. • Agrupamiento (clustering). • Predicción: clasificación.
  • 8. Reglas de asociación • Conjunto de técnicas que retornan todos los patrones encontrados en el conjunto de datos que cumplan los parámetros de entrada. • Usado cuando no se tiene un objetivo específico sobre la información que se busca. • Algunos de los algoritmos más conocidos: • Apriori • PredictiveApriori • Tertitus • Yacaree
  • 9. Reglas de asociación: Ejemplo • Cesta de la compra (problema típico de marketing y ventas): ¿qué productos se compran usualmente juntos?. • El conjunto de datos contiene, por cada compra de un cliente, que productos adquirió y cual fue el precio final de su compra. • Ejemplo de productos: • Comestibles (pan, agua, fruta…) • Consumibles electrónicos (tóners, baterías…) • Electrodomésticos (lavadoras, laptops, reproductores…) • …
  • 10. Reglas de asociación: Ejemplo • Resultado parcial de aplicar el algoritmo Apriori con una restricción de las reglas de un 70% en confianza. • baking needs & biscuits & cheese & fruit & vegetables ==> bread and cake confianza: 90% • fruit & potatoes ==> vegetables confianza: 89% • milk-cream & beef & vegetables ==> fruit confianza: 78%
  • 11. Agrupamiento (clustering) • Conjunto de técnicas de Minería de Datos que determinan y asignan a los individuos a grupos de similares características. • Ejemplo: Perfil de los alumnos en un curso online según la actividad que desarrollan. • Como datos, tenemos su actividad en el curso medida en: • Tiempo dedicado • Número de sesiones • Mensajes leídos y escritos en el foro • Etc.
  • 12. Agrupamiento: Ejemplo • Resultado de aplicar el algoritmo Kmeans: Attribute Nº of students Age Gender Total Time Number of Sessions Full Data (resumen) 67 22 Man 1138 74 Cluster (Grupo) 1 21 22 Man 1394 94 ● Cluster (Grupo) 2 31 23 Woman 104 8 Cluster (Grupo) 3 15 19 Man 2917 180 …
  • 13. Predicción: Clasificación • Consiste en la clasificación de individuos en una determinada clase según sus características, para poder inferir predicciones en un futuro. • Ejemplos: conocer si… • … un cliente realizará una hipoteca con el banco. • … las acciones de una empresa subirán o bajarán en un momento determinado. • … un fruto del bosque o una seta es comestible o venenosa. • … un alumno aprobará o suspenderá una asignatura. • … un paciente tiene una enfermedad concreta según sus síntomas y datos personales. • … una campaña de marketing tendrá éxito. •
  • 14. Clasificación: Ejemplo 1 • Doctor, ¿tengo hipertiroidismo? • Conjunto de datos: contiene la información de pacientes reales con sus síntomas, niveles de hormonas y diagnóstico. • Resultados (algoritmo Jrip): (tumor = t) and (T3level >= 2.9) and (TT4level <= 147) => class=goitre (T3level >= 3.3) and (age >= 54) and (TT4level <= 142) and (age <= 63) and (T4Ulevel >= 0.95) => class=t3toxic (FTIlevel >= 168) and (T3level >= 3.5) => class=hyperthyroid … (FTIlevel >= 209) and (age <= 41) => class=hyperthyroid => class=negative
  • 15. Clasificación: Ejemplo 2 • Campaña de marketing telefónico de un banco portugués para atraer clientes de depósitos • Conjunto de datos: contiene información personal de los clientes, incluida información bancaria. • Estado civil (soltero, casado, viudo) • Sexo • Edad • Mes de la llamada • Hipotecas del cliente en el banco • Créditos del cliente en el banco • Y muchos otros…
  • 16. Clasificación: Ejemplo 2 (2) • Resultados (algoritmo C4.5) Duration > 645 <= 211 > 211 and <=645 Married NO Age > 60 NO yes no … … Credit yes YES no …
  • 17. Herramientas libres • Weka • • Multitud de algoritmos. • • Pionera en su género. http://www.cs.waikato.ac.nz/ml/weka/ RapidMiner • • Hace uso de todos los algoritmos ofrecidos por Weka y de los suyos propios. • • Interfaz Gráfica sencilla de utilizar. http://rapid-i.com/content/view/181/190/ KNIME • Herramienta joven. Interfaz Gráfico de uso sencillo. • Implementada como plugin en Eclipse. Fácil de extender con nuevos algoritmos “ad hoc”. • http://www.knime.org/
  • 18. Weka: un caso de uso
  • 19. Weka: un caso de uso
  • 21. Weka: Técnicas de tratamiento
  • 24. Weka: Reglas de asociación
  • 26. Weka: ejemplo de clasificación
  • 29. Weka: resumen de resultados
  • 30. Las preguntas no son nunca indiscretas. Las respuestas, a veces sí. Oscar Wilde

Hinweis der Redaktion

  1. &lt;number&gt;
  2. &lt;number&gt;
  3. &lt;number&gt;
  4. &lt;number&gt;
  5. &lt;number&gt;
  6. &lt;number&gt;
  7. &lt;number&gt;
  8. &lt;number&gt;
  9. &lt;number&gt;
  10. &lt;number&gt;
  11. &lt;number&gt;