Chap III : Cours de Modélisation & Simulation des systèmes
Apprentissage automatique, Régression Ridge et LASSO
1. Quand le cowboy fait le tour de
la montagne
Apprentissage automatique,
régression Ridge et LASSO
2. Plan
La prédiction pour mieux comprendre
Régression linéaire et sélection de modèle
Régression Ridge
LASSO
Comparaison des méthodes de sélection
par simulation
Comparaison des méthodes sur un
exemple pratique
3. La prédiction pour mieux comprendre
Inférence basée sur la signification
statistique des paramètres d’un
modèle
Inférence basée sur la précision des
prédictions d’un modèle
Biais des prédictions
Variance des prédictions
4. La prédiction pour mieux comprendre
Sélection de modèle pour la
prédiction
Critère d’information d’Akaike (AIC)
Données d’entraînement vs Données de
test
Validation Croisée (CV)
6. Régression linéaire et sélection de
modèle
On trouve β qui minimise:
2
Ν π
∑ ι ϕ=1
ψ − ∑ ξιϕβ ϕ
ι=1
7. Régression linéaire et sélection de
modèle
Estimation par moindres carrés
Sélection de modèle
Procédure « stepwise »
Conserver seulement les variables
significatives à chaque étape
Conserver seulement la variable qui réduit
au maximum l’AIC
8. Régression Ridge
On trouve β qui minimise:
2
N p
p
∑ j =1
yi − ∑ xij b j + l
i =1
∑b 2
j
j =1
9. Régression Ridge
Estimation des β par moindres
carrés
Estimation du λ par CV
Ce choix fait effectivement la sélection
du modèle.
10. Régression Ridge
La condition de minimalisation
énoncée ci-haut correspond à une
contrainte sur la taille maximale des
β
p
å β £s
2
j
j =1
11. Régression Ridge
Permet d’estimer un modèle en
présence de covariables fortement
corrélées.
Estimation dépendante de l’échelle
des variables
Centrer et réduire toutes les variables
continues
12. LASSO
On trouve β qui
minimise:
2
N p
p
∑ j =1
yi − ∑ xij b j + l
i =1
∑b j
j =1
13. LASSO
À cause de la valeur absolue,
l’estimation des β ne peut se faire
par les moindres carrés
Algorithme quadratique employé pour
l’estimation
Estimation du λ par CV
Ce choix fait effectivement la sélection
du modèle
14. LASSO
Comme pour la régression Ridge,
centrer et réduire les variables
continues
15. Comparaison des méthodes
Avantage de la régression Ridge
Les effets de variables explicatrices très
corrélées se combinent pour se
renforcer mutuellement
Avantage du LASSO
Les effets peu important sont estimés à
0, donc le modèle sélectionné aura un
nombre de variables d < p.
16. Comparaison des méthodes
Désavantage de la régression Ridge
Toutes les variables incluses
initialement se retrouvent dans le
modèle final, pas moyen de dire quelles
variables sont les plus importantes.
Désavantage du LASSO
En présence de variables explicatrices
corrélées, le LASSO en choisit une
arbitrairement et met les autres à 0.
17. Comparaison des méthodes
La pénalité du filet élastique (Elastic
Net) permet de combiner les avantages
des deux méthodes
On cherche β qui minimise:
2
N p
p
1
∑ yi − ∑ xij b j + l
i =1
∑ 2 (1 − a )b j + a b j
j =1
2
j =1
18. Comparaison des méthodes par
simulation
Jeu d’entraînement: 100 individus,
modèle linéaire, erreur normale, 20
variables explicatrices candidates
Jeu de test: 50 individus, même
modèle que pour le jeu
d’entraînement
32. Logiciels
R
glmnet (Friedman, Hastie, Tibshirani)
SAS
Proc GLMSELECT (LASSO et Stepwise)
Proc REG, MIXED, LOGISTIC, PHREG,
etc… (Ridge)
33. Référence
Trevor Hastie, Robert Tibshirani,
Jerome Friedman. The Elements of
Statistical Learning, 2nd ed., 2008
Hinweis der Redaktion
1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
Les variables éventuellement peu importantes auront un coefficient = 0.