SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
Selección de variables en
modelización
David Hervás
Unidad de Bioestadística IIS La Fe
@ddhervas
REUNIÓN GRUPO DE USUARIOS R VALENCIA 09/03/2016
@ValenciaRUsers https://valenciarusers.wordpress.com/
David Hervás Marín - Unidad de Bioestadística, IIS La Fe
Multidimensionalidad
Bases de datos con un número creciente de variables:
Experimentos
controlados
Estudios
observacionales
Datos ómicos
1-20
50-500
300-900000
Cuantas más variables más ruido
Estrategias equivocadas
Screening de variables:
- No contempla factores de confusión
- No contempla interacciones
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento mediocre
Estrategias equivocadas
Screening de variables:
- No contempla factores de confusión
- No contempla interacciones
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento mediocre
Es una de las estrategias más utilizadas
Aumento del error de tipo I:
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑
𝑛
1000 𝑡𝑒𝑠𝑡
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1
En 1000 test esperamos unos 50 falsos positivos
Estrategias equivocadas
Aumento del error de tipo I:
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑
𝑛
1000 𝑡𝑒𝑠𝑡
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1
En 1000 test esperamos unos 50 falsos positivos
Aumento del error de tipo II:
𝑁 ~
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝐸𝑓𝑒𝑐𝑡𝑜 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼
Penalización de los p-valores (Bonferroni, FDR, etc.)
Estrategias equivocadas
Algoritmos stepwise:
- Sobreestimación de los coeficientes
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento muy pobre
Estrategias equivocadas
- Infraestimación de los p - valores
Algoritmos stepwise:
- Sobreestimación de los coeficientes
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento muy pobre
Es otra de las estrategias más utilizadas
Estrategias equivocadas
- Infraestimación de los p - valores
#Generación de ruido (50 observaciones x 40 predictores)
X <- matrix(rnorm(2000), ncol=40)
buena<-rnorm(50) #Generación de una variable que sí tendrá relación con Y
Y <- 1.2*buena + rnorm(50)
prueba <- data.frame(X, buena, Y)
#Modelo lineal con selección stepwise
lm1 <- lm(Y ~., data=prueba)
lm1.1 <- step(lm1)
summary(lm1.1)
Estrategias equivocadas
Ejemplo:
Se seleccionan más de la mitad de las variables
Un problema adicional
Si tenemos más variables que observaciones no existen suficientes
grados de libertad para poder estimar todos los parámetros del
modelo
y = 𝛽0 + 𝛽1 𝑥 + 𝜀
Un problema adicional
Si tenemos más variables que observaciones no existen suficientes
grados de libertad para poder estimar todos los parámetros del
modelo
y = 𝛽0 + 𝛽1 𝑥 + 𝜀
∆𝑥
∆𝑦
𝛽0
𝛽1
¿ 𝜀?
𝛽0
𝛽1
∆𝑥
∆𝑦
𝜀
No se puede realizar inferencia mediante un modelo clásico.
- Métodos de proyección o de reducción de dimensión
 PCR, PLS, sPLS
- Métodos de regresión con penalización
 Regresión ridge, lasso, elastic net
- Métodos basados en árboles
 Random forest, boosting
Enfoques adecuados
Métodos de proyección
Los métodos de proyección consisten en reducir el problema a
estimar M coeficientes en vez de I, con M < I
• Las nuevas variables son una proyección de las originales en un
espacio dimensional inferior
Tres variables: x, y, z Dos variables: x, y
Métodos de proyección
library(mixOmics)
pls.fit <- pls(prueba[,-42], prueba$Y, ncomp=2) #Ajuste del modelo
pls.sel <- vip(pls.fit) #Importancia de variables
dotplot(pls.sel)
Seguimos con el mismo ejemplo:
Métodos de penalización
Error en la
muestra
Error en la
población
Errorenlaspredicciones
Complejidad del modelo
Sesgo elevado
Varianza baja
Sesgo bajo
Varianza elevada
Modelo original
Al trabajar con muchas variables los modelos serán siempre demasiado
complejos (sobreajuste)
Métodos de penalización
Error en la
muestra
Error en la
población
Errorenlaspredicciones
Complejidad del modelo
Sesgo elevado
Varianza baja
Sesgo bajo
Varianza elevada
Modelo original
Al trabajar con muchas variables los modelos serán siempre demasiado
complejos (sobreajuste)
Modelo penalizado
Introducir un sesgo en el modelo reducirá la varianza (y el error)
Métodos de penalización
Penalización L1 (LASSO):
y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀
Restricción: ෍
𝑗=1
𝑝
𝛽𝑗 ≤ 𝑠 𝑠
La restricción es capaz de forzar que la estimación de muchos de los
coeficientes sea cero, por lo que se realiza una selección de variables al mismo
tiempo que se ajusta el modelo.
Esta característica de penalizar hacia cero simplifica mucho los modelos
Métodos de penalización
Penalización L1 (LASSO):
y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀
Restricción: ෍
𝑗=1
𝑝
𝛽𝑗 ≤ 𝑠 𝑠
La restricción es capaz de forzar que la estimación de muchos de los
coeficientes sea cero, por lo que se realiza una selección de variables al mismo
tiempo que se ajusta el modelo.
Esta característica de penalizar hacia cero simplifica mucho los modelos
library(glmnet)
cv <- cv.glmnet(as.matrix(prueba[,-42]), prueba$Y)
plot(cv)
Métodos de penalización
l <- cv$lambda.1se
lasso.fit <- glmnet(as.matrix(prueba[,-42]), prueba$Y)
predict(lasso.fit, s=l, type="coef")
Métodos de penalización
Random Forest
Basado en la combinación de muchos árboles
Cada árbol se ajusta sobre una muestra bootstrap de los datos
En cada nodo sólo se prueban unas pocas variables seleccionadas
de forma aleatoria
Random Forest
library(randomForest)
rf.fit <- randomForest(Y ~., data=prueba)
rf.fit
varImpPlot(rf.fit)
Y <- 1.2*buena+0.4*buena2+rnorm(50)
Subiendo la apuesta
PLS
Subiendo la apuesta
LASSO
buena = 0.59
buena2 = 0.10
Subiendo la apuesta
Random Forest
Evolución de los métodos
Adaptive Lasso – Zou, H. (2006)
- Mejora del sesgo en lasso mediante penalización diferencial de los
coeficientes.
Relaxed Lasso – Meinshausen, N. (2006)
- Mejora en la selección de variables cuando hay mucho ruido
mediante penalización en dos pasos.
Elastic Net – Zou, H. (2005)
- Permite la selección de variables correlacionadas
Sparse PLS – Lê Cao, K.-A. et al (2008)
- Combinación del método de proyección PLS con el de penalización lasso
Conclusiones
Es posible realizar modelos fiables para problemas con muchas
variables, incluso para p >> n
Los distintos métodos tienen diferentes puntos fuertes y débiles.
Según el tipo de datos funcionarán mejor unos u otros (No free lunch)
Estos métodos NO realizan contrastes de hipótesis por lo que no se
puede hablar de efectos/asociaciones estadísticamente significativos
El ajuste de los hiperparámetros de estos modelos se suele realizar
mediante validación cruzada
Bibliografía recomendada

Weitere ähnliche Inhalte

Ähnlich wie Selección de variables en modelización (Selection of variables)

Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosSergio Valenzuela Mayer
 
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdfAprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdfGerard Alba
 
Spss: A user-friendly statistical software for linguistics and teacher
Spss: A user-friendly statistical software for linguistics and teacherSpss: A user-friendly statistical software for linguistics and teacher
Spss: A user-friendly statistical software for linguistics and teacherIris Valenciano
 
Simulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaSimulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaNovarMichellCastaeda
 
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD L...
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD  L...REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD  L...
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD L...Fundación Universitaria Konrad Lorenz
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralbillod
 
SESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.pptSESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.pptAxelAburtoRojas
 
Tecnicas estadsiticas _p_proyecto_2
Tecnicas estadsiticas _p_proyecto_2Tecnicas estadsiticas _p_proyecto_2
Tecnicas estadsiticas _p_proyecto_2Romel Sanchez Ortiz
 
¿En qué la estamos regando en pruebas de software?
¿En qué la estamos regando en pruebas de software?¿En qué la estamos regando en pruebas de software?
¿En qué la estamos regando en pruebas de software?Agustin Ramos
 
Selecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modeloSelecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modeloClinton Davila Medina
 
Teoría de Optimización
Teoría de OptimizaciónTeoría de Optimización
Teoría de OptimizaciónHector Farias
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con EviewsRodrigo Paniagua
 

Ähnlich wie Selección de variables en modelización (Selection of variables) (20)

Optimizacion 1
Optimizacion  1Optimizacion  1
Optimizacion 1
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdfAprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
 
Spss: A user-friendly statistical software for linguistics and teacher
Spss: A user-friendly statistical software for linguistics and teacherSpss: A user-friendly statistical software for linguistics and teacher
Spss: A user-friendly statistical software for linguistics and teacher
 
Simulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaSimulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria Ingeniería
 
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD L...
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD  L...REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD  L...
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD L...
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
 
Regresion
RegresionRegresion
Regresion
 
Andrea_Quijano
Andrea_QuijanoAndrea_Quijano
Andrea_Quijano
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
SESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.pptSESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.ppt
 
Ejemplos aplicados en R.docx
Ejemplos aplicados en R.docxEjemplos aplicados en R.docx
Ejemplos aplicados en R.docx
 
Tecnicas estadsiticas _p_proyecto_2
Tecnicas estadsiticas _p_proyecto_2Tecnicas estadsiticas _p_proyecto_2
Tecnicas estadsiticas _p_proyecto_2
 
20121010141000
2012101014100020121010141000
20121010141000
 
¿En qué la estamos regando en pruebas de software?
¿En qué la estamos regando en pruebas de software?¿En qué la estamos regando en pruebas de software?
¿En qué la estamos regando en pruebas de software?
 
Selecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modeloSelecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modelo
 
Mio
MioMio
Mio
 
Parameter Tuning
Parameter TuningParameter Tuning
Parameter Tuning
 
Teoría de Optimización
Teoría de OptimizaciónTeoría de Optimización
Teoría de Optimización
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con Eviews
 

Kürzlich hochgeladen

DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxYamile Divina Acevedo
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docrobinsonsjuan
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptxceliajessicapinedava
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSLuisDavidGarciaInga2
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 

Kürzlich hochgeladen (20)

DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptx
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.doc
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 

Selección de variables en modelización (Selection of variables)

  • 1. Selección de variables en modelización David Hervás Unidad de Bioestadística IIS La Fe @ddhervas REUNIÓN GRUPO DE USUARIOS R VALENCIA 09/03/2016 @ValenciaRUsers https://valenciarusers.wordpress.com/
  • 2. David Hervás Marín - Unidad de Bioestadística, IIS La Fe
  • 3. Multidimensionalidad Bases de datos con un número creciente de variables: Experimentos controlados Estudios observacionales Datos ómicos 1-20 50-500 300-900000 Cuantas más variables más ruido
  • 4. Estrategias equivocadas Screening de variables: - No contempla factores de confusión - No contempla interacciones - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento mediocre
  • 5. Estrategias equivocadas Screening de variables: - No contempla factores de confusión - No contempla interacciones - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento mediocre Es una de las estrategias más utilizadas
  • 6. Aumento del error de tipo I: 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑 𝑛 1000 𝑡𝑒𝑠𝑡 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 En 1000 test esperamos unos 50 falsos positivos Estrategias equivocadas
  • 7. Aumento del error de tipo I: 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑 𝑛 1000 𝑡𝑒𝑠𝑡 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 En 1000 test esperamos unos 50 falsos positivos Aumento del error de tipo II: 𝑁 ~ 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝐸𝑓𝑒𝑐𝑡𝑜 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼 Penalización de los p-valores (Bonferroni, FDR, etc.) Estrategias equivocadas
  • 8. Algoritmos stepwise: - Sobreestimación de los coeficientes - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento muy pobre Estrategias equivocadas - Infraestimación de los p - valores
  • 9. Algoritmos stepwise: - Sobreestimación de los coeficientes - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento muy pobre Es otra de las estrategias más utilizadas Estrategias equivocadas - Infraestimación de los p - valores
  • 10. #Generación de ruido (50 observaciones x 40 predictores) X <- matrix(rnorm(2000), ncol=40) buena<-rnorm(50) #Generación de una variable que sí tendrá relación con Y Y <- 1.2*buena + rnorm(50) prueba <- data.frame(X, buena, Y) #Modelo lineal con selección stepwise lm1 <- lm(Y ~., data=prueba) lm1.1 <- step(lm1) summary(lm1.1) Estrategias equivocadas Ejemplo: Se seleccionan más de la mitad de las variables
  • 11. Un problema adicional Si tenemos más variables que observaciones no existen suficientes grados de libertad para poder estimar todos los parámetros del modelo y = 𝛽0 + 𝛽1 𝑥 + 𝜀
  • 12. Un problema adicional Si tenemos más variables que observaciones no existen suficientes grados de libertad para poder estimar todos los parámetros del modelo y = 𝛽0 + 𝛽1 𝑥 + 𝜀 ∆𝑥 ∆𝑦 𝛽0 𝛽1 ¿ 𝜀? 𝛽0 𝛽1 ∆𝑥 ∆𝑦 𝜀 No se puede realizar inferencia mediante un modelo clásico.
  • 13. - Métodos de proyección o de reducción de dimensión  PCR, PLS, sPLS - Métodos de regresión con penalización  Regresión ridge, lasso, elastic net - Métodos basados en árboles  Random forest, boosting Enfoques adecuados
  • 14. Métodos de proyección Los métodos de proyección consisten en reducir el problema a estimar M coeficientes en vez de I, con M < I • Las nuevas variables son una proyección de las originales en un espacio dimensional inferior Tres variables: x, y, z Dos variables: x, y
  • 15. Métodos de proyección library(mixOmics) pls.fit <- pls(prueba[,-42], prueba$Y, ncomp=2) #Ajuste del modelo pls.sel <- vip(pls.fit) #Importancia de variables dotplot(pls.sel) Seguimos con el mismo ejemplo:
  • 16. Métodos de penalización Error en la muestra Error en la población Errorenlaspredicciones Complejidad del modelo Sesgo elevado Varianza baja Sesgo bajo Varianza elevada Modelo original Al trabajar con muchas variables los modelos serán siempre demasiado complejos (sobreajuste)
  • 17. Métodos de penalización Error en la muestra Error en la población Errorenlaspredicciones Complejidad del modelo Sesgo elevado Varianza baja Sesgo bajo Varianza elevada Modelo original Al trabajar con muchas variables los modelos serán siempre demasiado complejos (sobreajuste) Modelo penalizado Introducir un sesgo en el modelo reducirá la varianza (y el error)
  • 18. Métodos de penalización Penalización L1 (LASSO): y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀 Restricción: ෍ 𝑗=1 𝑝 𝛽𝑗 ≤ 𝑠 𝑠 La restricción es capaz de forzar que la estimación de muchos de los coeficientes sea cero, por lo que se realiza una selección de variables al mismo tiempo que se ajusta el modelo. Esta característica de penalizar hacia cero simplifica mucho los modelos
  • 19. Métodos de penalización Penalización L1 (LASSO): y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀 Restricción: ෍ 𝑗=1 𝑝 𝛽𝑗 ≤ 𝑠 𝑠 La restricción es capaz de forzar que la estimación de muchos de los coeficientes sea cero, por lo que se realiza una selección de variables al mismo tiempo que se ajusta el modelo. Esta característica de penalizar hacia cero simplifica mucho los modelos
  • 20. library(glmnet) cv <- cv.glmnet(as.matrix(prueba[,-42]), prueba$Y) plot(cv) Métodos de penalización l <- cv$lambda.1se lasso.fit <- glmnet(as.matrix(prueba[,-42]), prueba$Y) predict(lasso.fit, s=l, type="coef")
  • 22. Random Forest Basado en la combinación de muchos árboles Cada árbol se ajusta sobre una muestra bootstrap de los datos En cada nodo sólo se prueban unas pocas variables seleccionadas de forma aleatoria
  • 23. Random Forest library(randomForest) rf.fit <- randomForest(Y ~., data=prueba) rf.fit varImpPlot(rf.fit)
  • 25. Subiendo la apuesta LASSO buena = 0.59 buena2 = 0.10
  • 27. Evolución de los métodos Adaptive Lasso – Zou, H. (2006) - Mejora del sesgo en lasso mediante penalización diferencial de los coeficientes. Relaxed Lasso – Meinshausen, N. (2006) - Mejora en la selección de variables cuando hay mucho ruido mediante penalización en dos pasos. Elastic Net – Zou, H. (2005) - Permite la selección de variables correlacionadas Sparse PLS – Lê Cao, K.-A. et al (2008) - Combinación del método de proyección PLS con el de penalización lasso
  • 28. Conclusiones Es posible realizar modelos fiables para problemas con muchas variables, incluso para p >> n Los distintos métodos tienen diferentes puntos fuertes y débiles. Según el tipo de datos funcionarán mejor unos u otros (No free lunch) Estos métodos NO realizan contrastes de hipótesis por lo que no se puede hablar de efectos/asociaciones estadísticamente significativos El ajuste de los hiperparámetros de estos modelos se suele realizar mediante validación cruzada