SlideShare una empresa de Scribd logo
1 de 12
Análisis y modelación de datos a través de
Minería de Datos y algoritmos evolutivos de
Regresión Lineal Múltiple
Juan Pablo Bribiesca Espinosa
ITAM 2015
Conceptos Básicos
Definición de Base de Datos
Exclusión de candidatos
Definición de variable de Respuesta
Inclusión de Base de Datos
Muestreo Aleatorio sin remplazo
Definición de Clases (tuplas)
Exclusión de datos potencialmente
erróneos y estabilización del modelo
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995
Apalancamiento:
Distancia de Cook ∶
𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1
, 1)
25
50
75
0 25 50 75 100
horas trabajadas
edad
Amer-Indian-Eskimo Asian-Pac-Islander Black Other White
𝑦𝑖0 = β00 +
𝑗=1
𝑘
𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
Determinación de Transformaciones
• Modelos no lineales por mínimos cuadrados.
• Relaciones Funcionales - Familias:
– Familia Polinomial
– Familia Exponencial
– Funciones Potencia
– Modelos Rendimiento-Densidad
– Modelos Sigmoidales
– Splines
Determinación de Transformaciones
Correlación de Pearson
Escalamiento
Jerarquización vía Coeficientes de
Determinación Ajustados 𝜌
𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1
Definición de Transformaciones
𝑦𝑖2 = β02 +
𝑗=1
𝜑∗𝑘
𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗))
𝑖 = 1,2, … , 𝑛 2
Criterio de Información de Akaike
• Depuración de regresores vía análisis AIC
𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘
𝑦𝑖3 = β03 +
𝑗=1
𝑘
𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗))
𝑖 = 1,2, … , 𝑛 3
𝑘 ≤ 𝜑 ∗ 𝑘
Inserción de Relaciones
• 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜:
– 𝑝 − 𝑣𝑎𝑙𝑢𝑒
– 𝑑𝑓 ≤ 4: regresores númericos
– 𝑑𝑓 ≤ 6: Regresores categóricos
𝑌𝑖4 =
𝑗=1
𝑤
𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4
+
𝑗=𝑤+1
𝑠
(
𝑟 𝜖 {𝛼,𝛽,…,}
𝜗
𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4
)
𝑖 = 1,2, … , 𝑛4
𝜗: candidatos a transformación
𝑎=1
𝜗−1 𝑎∗(𝑎+1)
2
: posibles interacciones
Modelo final
Stepwise AIC
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995
Distancia de Cook:
𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1
, 1
𝑖 = 1,2, … , 𝑛 𝐹
𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
Criterios
• Análisis Exploratorio de Datos (aproximación)
• Estadísticos:
– Análisis de Varianza.
– Contraste de White.
– Prueba de normalidad de K-S.
“Cuando las estadísticas nos dicen que la
familia mexicana tiene un promedio de cuatro
hijos y medio, nos explicamos por qué
siempre hay uno chaparrito.”
Marco Antonio Almazán

Más contenido relacionado

Destacado

Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesJaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesjuliobayonahernandez
 
Muestreo aguacate
Muestreo aguacateMuestreo aguacate
Muestreo aguacatejcgarma10
 
El Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampEl Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampPepeCambronne
 
28 beneficiosalos empleados
28 beneficiosalos empleados28 beneficiosalos empleados
28 beneficiosalos empleadossantanes
 
5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptxCristian Montes de Oca
 
Bulletin No1 du SNMG
Bulletin No1 du SNMGBulletin No1 du SNMG
Bulletin No1 du SNMGmarocsyndicat
 
MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO TATACABEZAS
 
"Endevina, endevinalla"
"Endevina, endevinalla""Endevina, endevinalla"
"Endevina, endevinalla"RaquelLopez235
 
Aprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesAprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesemilyesperanzahum
 
Procedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesProcedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesgen0003
 
Pasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordPasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordROSIO0412
 
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...dannelaravazquez
 
Météo
MétéoMétéo
Météorco35
 

Destacado (20)

Power
Power Power
Power
 
Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesJaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
 
Muestreo aguacate
Muestreo aguacateMuestreo aguacate
Muestreo aguacate
 
Lupiita
LupiitaLupiita
Lupiita
 
El Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampEl Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel Duchamp
 
28 beneficiosalos empleados
28 beneficiosalos empleados28 beneficiosalos empleados
28 beneficiosalos empleados
 
Tecnología
TecnologíaTecnología
Tecnología
 
5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx
 
Obras en comparación
Obras en comparaciónObras en comparación
Obras en comparación
 
Bulletin No1 du SNMG
Bulletin No1 du SNMGBulletin No1 du SNMG
Bulletin No1 du SNMG
 
MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO
 
"Endevina, endevinalla"
"Endevina, endevinalla""Endevina, endevinalla"
"Endevina, endevinalla"
 
AS
ASAS
AS
 
Aprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesAprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos moviles
 
Diaporama
DiaporamaDiaporama
Diaporama
 
Procedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesProcedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientes
 
Pasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordPasosparacombinarcorrespondenciaenword
Pasosparacombinarcorrespondenciaenword
 
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
 
#FIDmola - Reto_1
#FIDmola - Reto_1#FIDmola - Reto_1
#FIDmola - Reto_1
 
Météo
MétéoMétéo
Météo
 

Similar a Análisis y modelación masiva de datos a través

Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaDataLab Community
 
2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdfVictorZP2
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobiTefy Ruiz
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobiTefy Ruiz
 
Control_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptControl_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptBrandonPuentes2
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulationFer_casas
 
2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricasdaser wicho
 
2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricasDarwin Izurieta Calle
 
IT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaIT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaMiguel Pajuelo Villanueva
 

Similar a Análisis y modelación masiva de datos a través (20)

Introducción al Machine Learning
Introducción al Machine LearningIntroducción al Machine Learning
Introducción al Machine Learning
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando Garcia
 
2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf
 
Ajuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no linealAjuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no lineal
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Final.docx
Final.docxFinal.docx
Final.docx
 
A9 r55a7
A9 r55a7A9 r55a7
A9 r55a7
 
Sistemas Difusos
Sistemas DifusosSistemas Difusos
Sistemas Difusos
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobi
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobi
 
Otto Challenge report
Otto Challenge reportOtto Challenge report
Otto Challenge report
 
Control_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptControl_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.ppt
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulation
 
Trabajo practico - Grafos y Matrices (332) - UNA
Trabajo practico - Grafos y Matrices (332) - UNATrabajo practico - Grafos y Matrices (332) - UNA
Trabajo practico - Grafos y Matrices (332) - UNA
 
2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas
 
2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas
 
02 modelización numerica
02 modelización numerica02 modelización numerica
02 modelización numerica
 
IT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaIT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificada
 
Matematicas 9
Matematicas 9Matematicas 9
Matematicas 9
 
Modelos de elección discreta II
Modelos de elección discreta IIModelos de elección discreta II
Modelos de elección discreta II
 

Último

Análisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOAnálisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOFernando Bravo
 
Determinación de espacios en la instalación
Determinación de espacios en la instalaciónDeterminación de espacios en la instalación
Determinación de espacios en la instalaciónQualityAdviceService
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTElisaLen4
 
Arquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo LimacheArquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo LimacheJuan Luis Menares
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfrefrielectriccarlyz
 
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOeldermishti
 
3er Informe Laboratorio Quimica General (2) (1).pdf
3er Informe Laboratorio Quimica General  (2) (1).pdf3er Informe Laboratorio Quimica General  (2) (1).pdf
3er Informe Laboratorio Quimica General (2) (1).pdfSantiagoRodriguez598818
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacionesRamon Bartolozzi
 
ingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptxingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptxjhorbycoralsanchez
 
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdfGUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdfWILLIAMSTAYPELLOCCLL1
 
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEstadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEduardoBriones22
 
Video sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptxVideo sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptxcarlosEspaaGarcia
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.pptjacnuevarisaralda22
 
portafolio final manco 2 1816827 portafolio de evidencias
portafolio final manco 2 1816827 portafolio de evidenciasportafolio final manco 2 1816827 portafolio de evidencias
portafolio final manco 2 1816827 portafolio de evidenciasIANMIKELMIRANDAGONZA
 
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)samuelsan933
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxwilliam801689
 
Auditoría de Sistemas de Gestión
Auditoría    de   Sistemas     de GestiónAuditoría    de   Sistemas     de Gestión
Auditoría de Sistemas de GestiónYanet Caldas
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheElisaLen4
 
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbbTema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbbantoniolfdez2006
 
Manual deresolucion de ecuaciones por fracciones parciales.pdf
Manual deresolucion de ecuaciones por fracciones parciales.pdfManual deresolucion de ecuaciones por fracciones parciales.pdf
Manual deresolucion de ecuaciones por fracciones parciales.pdfgonzalo195211
 

Último (20)

Análisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOAnálisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECO
 
Determinación de espacios en la instalación
Determinación de espacios en la instalaciónDeterminación de espacios en la instalación
Determinación de espacios en la instalación
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
Arquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo LimacheArquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo Limache
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
 
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
 
3er Informe Laboratorio Quimica General (2) (1).pdf
3er Informe Laboratorio Quimica General  (2) (1).pdf3er Informe Laboratorio Quimica General  (2) (1).pdf
3er Informe Laboratorio Quimica General (2) (1).pdf
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operaciones
 
ingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptxingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptx
 
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdfGUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
 
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEstadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
 
Video sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptxVideo sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptx
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 
portafolio final manco 2 1816827 portafolio de evidencias
portafolio final manco 2 1816827 portafolio de evidenciasportafolio final manco 2 1816827 portafolio de evidencias
portafolio final manco 2 1816827 portafolio de evidencias
 
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
Auditoría de Sistemas de Gestión
Auditoría    de   Sistemas     de GestiónAuditoría    de   Sistemas     de Gestión
Auditoría de Sistemas de Gestión
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbbTema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
 
Manual deresolucion de ecuaciones por fracciones parciales.pdf
Manual deresolucion de ecuaciones por fracciones parciales.pdfManual deresolucion de ecuaciones por fracciones parciales.pdf
Manual deresolucion de ecuaciones por fracciones parciales.pdf
 

Análisis y modelación masiva de datos a través

  • 1. Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de Regresión Lineal Múltiple Juan Pablo Bribiesca Espinosa ITAM 2015
  • 3. Definición de Base de Datos Exclusión de candidatos Definición de variable de Respuesta Inclusión de Base de Datos Muestreo Aleatorio sin remplazo Definición de Clases (tuplas)
  • 4. Exclusión de datos potencialmente erróneos y estabilización del modelo Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995 Apalancamiento: Distancia de Cook ∶ 𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1 , 1) 25 50 75 0 25 50 75 100 horas trabajadas edad Amer-Indian-Eskimo Asian-Pac-Islander Black Other White 𝑦𝑖0 = β00 + 𝑗=1 𝑘 𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
  • 5. Determinación de Transformaciones • Modelos no lineales por mínimos cuadrados. • Relaciones Funcionales - Familias: – Familia Polinomial – Familia Exponencial – Funciones Potencia – Modelos Rendimiento-Densidad – Modelos Sigmoidales – Splines
  • 6. Determinación de Transformaciones Correlación de Pearson Escalamiento Jerarquización vía Coeficientes de Determinación Ajustados 𝜌 𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1 Definición de Transformaciones 𝑦𝑖2 = β02 + 𝑗=1 𝜑∗𝑘 𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 2
  • 7. Criterio de Información de Akaike • Depuración de regresores vía análisis AIC 𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘 𝑦𝑖3 = β03 + 𝑗=1 𝑘 𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 3 𝑘 ≤ 𝜑 ∗ 𝑘
  • 8. Inserción de Relaciones • 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜: – 𝑝 − 𝑣𝑎𝑙𝑢𝑒 – 𝑑𝑓 ≤ 4: regresores númericos – 𝑑𝑓 ≤ 6: Regresores categóricos 𝑌𝑖4 = 𝑗=1 𝑤 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4 + 𝑗=𝑤+1 𝑠 ( 𝑟 𝜖 {𝛼,𝛽,…,} 𝜗 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4 ) 𝑖 = 1,2, … , 𝑛4 𝜗: candidatos a transformación 𝑎=1 𝜗−1 𝑎∗(𝑎+1) 2 : posibles interacciones
  • 9. Modelo final Stepwise AIC Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995 Distancia de Cook: 𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1 , 1 𝑖 = 1,2, … , 𝑛 𝐹 𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
  • 10. Criterios • Análisis Exploratorio de Datos (aproximación) • Estadísticos: – Análisis de Varianza. – Contraste de White. – Prueba de normalidad de K-S.
  • 11.
  • 12. “Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.” Marco Antonio Almazán