SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Quand le cowboy fait le tour de
la montagne


Apprentissage automatique,
régression Ridge et LASSO
Plan
   La prédiction pour mieux comprendre
   Régression linéaire et sélection de modèle
   Régression Ridge
   LASSO
   Comparaison des méthodes de sélection
    par simulation
   Comparaison des méthodes sur un
    exemple pratique
La prédiction pour mieux comprendre

   Inférence basée sur la signification
    statistique des paramètres d’un
    modèle
   Inférence basée sur la précision des
    prédictions d’un modèle
       Biais des prédictions
       Variance des prédictions
La prédiction pour mieux comprendre

   Sélection de modèle pour la
    prédiction
       Critère d’information d’Akaike (AIC)
       Données d’entraînement vs Données de
        test
       Validation Croisée (CV)
Régression linéaire et sélection de
modèle




  Y = bX + e
Régression linéaire et sélection de
modèle

   On trouve β qui minimise:


                                2
          Ν          π
                           
         ∑  ι ϕ=1 
              ψ − ∑ ξιϕβ ϕ
         ι=1              
Régression linéaire et sélection de
modèle

   Estimation par moindres carrés
   Sélection de modèle
       Procédure « stepwise »
          Conserver seulement les variables
           significatives à chaque étape
          Conserver seulement la variable qui réduit

           au maximum l’AIC
Régression Ridge
   On trouve β qui minimise:


                          2
     N        p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     2
                                         j
                                 j =1
Régression Ridge
   Estimation des β par moindres
    carrés
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle.
Régression Ridge
   La condition de minimalisation
    énoncée ci-haut correspond à une
    contrainte sur la taille maximale des
    β
               p

              å       β £s
                      2
                      j
               j =1
Régression Ridge
   Permet d’estimer un modèle en
    présence de covariables fortement
    corrélées.
   Estimation dépendante de l’échelle
    des variables
       Centrer et réduire toutes les variables
        continues
LASSO
   On trouve β qui
    minimise:

                          2
     N         p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     j
                                 j =1
LASSO
   À cause de la valeur absolue,
    l’estimation des β ne peut se faire
    par les moindres carrés
       Algorithme quadratique employé pour
        l’estimation
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle
LASSO
   Comme pour la régression Ridge,
    centrer et réduire les variables
    continues
Comparaison des méthodes
   Avantage de la régression Ridge
       Les effets de variables explicatrices très
        corrélées se combinent pour se
        renforcer mutuellement
   Avantage du LASSO
       Les effets peu important sont estimés à
        0, donc le modèle sélectionné aura un
        nombre de variables d < p.
Comparaison des méthodes
   Désavantage de la régression Ridge
       Toutes les variables incluses
        initialement se retrouvent dans le
        modèle final, pas moyen de dire quelles
        variables sont les plus importantes.
   Désavantage du LASSO
       En présence de variables explicatrices
        corrélées, le LASSO en choisit une
        arbitrairement et met les autres à 0.
Comparaison des méthodes
   La pénalité du filet élastique (Elastic
    Net) permet de combiner les avantages
    des deux méthodes
   On cherche β qui minimise:

                   2
N        p
                           p
                                1                   
∑  yi − ∑ xij b j  + l
     
i =1 
                          ∑  2 (1 − a )b j + a b j 
                           j =1 
                                           2

                                                     
         j =1      
Comparaison des méthodes par
simulation

   Jeu d’entraînement: 100 individus,
    modèle linéaire, erreur normale, 20
    variables explicatrices candidates
   Jeu de test: 50 individus, même
    modèle que pour le jeu
    d’entraînement
Données simulées
Variable      Modèle   Régression   Stepwise   Ridge    LASSO    Elastic Net
Intercepte    2.4      -1.34        -2.58      -3.88    -2.40    -2.38
X2                     -0.71                   -0.42
X3                     0.68                    0.06
X4                     -0.35                   -0.60
X5            -5       -17.13       -17        -15.18   -15.63   -15.58
X6                     1.66         1.83       0.63     0.35     0.33
X7            5        14.42        14.43      12.26    12.81    12.75
X8                     0.17                    -0.54
X9                     -1.26        -1.21      -1.14    -0.24    -0.24
X10                    1.43         1.48       0.89
X11           -3       -46.22       -46.21     -42.46   -44.72   -44.62
X12                    1.30         1.30       1.18
X13                    -0.06                   0.08
X14           3        46.71        46.47      42.86    44.52    44.42
X15                    -0.45                   -0.68
X16                    0.02                    0.84
X17                    3.48         3.04       2.96     0.71     0.71
X18           -3       -6.38        -6.21      -6.66    -4.13    -4.16
X19                    -1.68                   -0.81
X20                    -1.24                   0.14
X21                    0.15                    0.15
Erreur Test            -0.86        -0.76      -0.66    -1.14    -1.14
Écart-type             18.59        18.29      18.87    17.23    17.24
Comparaison de méthodes
Trajectoire Ridge
Comparaison des méthodes
Trajectoire LASSO
Comparaison des méthodes
Trajectoire Elastic Net
Exemple pratique:
Polychlorobiphényles et pesticides organochlorés

   Données du CSHA: 1848 sujets
       28 Covariables, dont 5 variables
        dichotomiques et 1 variables
        catégoriques
    Variable réponse: maladie
    d’Alzheimer
   Échantillon séparé: 185 sujets
    « test » sélectionnés aléatoirement
    et 1663 sujets d’entraînement
Données pratiques
Variable              Régression   Stepwise   Ridge    LASSO    Elastic Net

Intercepte            -1.64        0.23       -1.29    -1.45    -1.45

BPC105                -0.38                   0.001

BPC118                0.35                    0.003

BPC138                -0.25                   0.003

BPC153                -0.56        -0.10      0.004

BPC156                0.17                    0.004

BPC163                0.74         0.11       0.005

BPC170                -0.14                   0.001

BPC180                0.02                    0.0001

BPC183                0.77         0.10       0.004

BPC187                -0.61        -0.08      0.0009

BPC99                 0.08                    0.003

cisNonachlor          -0.63        -0.04      -0.005

Hexachlorobenzene     0.01                    0.0004

Oxychlordane          -0.43                   -0.001

ppDDE                 0.13                    0.004

ppDDT                 -0.07                   -0.002

BetaHCH               -0.09                   -0.003

transNonachlor        0.68                    -0.003

Éducation             -0.26        -0.04      -0.006   -0.03    -0.04

Âge                   0.52         0.08       0.02     0.39     0.4

Lipides totaux        -0.02                   -0.007

IMC                   -0.16        -0.03      -0.01    -0.09    -0.1

Sexe                  0.38         0.04       0.02     0.08     0.09

Région 2              -0.88        -0.14      -0.03    -0.2     -0.23

Région3               0.18                    0.03     0.16     0.17

Région4               -0.05        -0.05      0.005

Région5               -1.20        -0.18      -0.04    -0.51    -0.54

APOE4                 0.88         0.14       0.04     0.55     0.57

Area                  -0.01                   0.004

Cigarette             0.22                    -0.01

Alcohol               -0.25        -0.03      -0.02    -0.006   -0.02

Erreur Entraînement   20%          20%        21%      21%      21%


Erreur Test           26%          25%        25%      26%      25%
Exemple pratique
Trajectoire Ridge
Exemple pratique
Trajectoire LASSO
Exemple pratique
Trajectoire Elastic Net
Exemple pratique
Comparaison des courbes ROC: Entraînement
Exemple pratique
Comparaison des courbes ROC: Test
Logiciels
   R
       glmnet (Friedman, Hastie, Tibshirani)
   SAS
       Proc GLMSELECT (LASSO et Stepwise)
       Proc REG, MIXED, LOGISTIC, PHREG,
        etc… (Ridge)
Référence
   Trevor Hastie, Robert Tibshirani,
    Jerome Friedman. The Elements of
    Statistical Learning, 2nd ed., 2008

Weitere ähnliche Inhalte

Was ist angesagt?

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
Achraf Manaa
 

Was ist angesagt? (20)

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Optimisation et planification optimale multi-objectifs
Optimisation et  planification optimale multi-objectifsOptimisation et  planification optimale multi-objectifs
Optimisation et planification optimale multi-objectifs
 
1ère Présentation Atelier Vision par ordinateur
1ère Présentation Atelier Vision par ordinateur1ère Présentation Atelier Vision par ordinateur
1ère Présentation Atelier Vision par ordinateur
 
Reseaux de capteurs sans fils - WSN
Reseaux de capteurs sans fils - WSNReseaux de capteurs sans fils - WSN
Reseaux de capteurs sans fils - WSN
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Data Analyse pas à pas avec R
Data Analyse pas à pas avec RData Analyse pas à pas avec R
Data Analyse pas à pas avec R
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Problème De Sac à Dos
Problème De Sac à Dos Problème De Sac à Dos
Problème De Sac à Dos
 
Knn
KnnKnn
Knn
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiques
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Bases de données image : structuration de l'espace des descripteurs et recher...
Bases de données image : structuration de l'espace des descripteurs et recher...Bases de données image : structuration de l'espace des descripteurs et recher...
Bases de données image : structuration de l'espace des descripteurs et recher...
 
Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...
 
Data Mining
Data MiningData Mining
Data Mining
 
Réseaux neurons
Réseaux neuronsRéseaux neurons
Réseaux neurons
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 
Langage vhdl
Langage vhdlLangage vhdl
Langage vhdl
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
 
Chap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesChap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmes
 

Apprentissage automatique, Régression Ridge et LASSO

  • 1. Quand le cowboy fait le tour de la montagne Apprentissage automatique, régression Ridge et LASSO
  • 2. Plan  La prédiction pour mieux comprendre  Régression linéaire et sélection de modèle  Régression Ridge  LASSO  Comparaison des méthodes de sélection par simulation  Comparaison des méthodes sur un exemple pratique
  • 3. La prédiction pour mieux comprendre  Inférence basée sur la signification statistique des paramètres d’un modèle  Inférence basée sur la précision des prédictions d’un modèle  Biais des prédictions  Variance des prédictions
  • 4. La prédiction pour mieux comprendre  Sélection de modèle pour la prédiction  Critère d’information d’Akaike (AIC)  Données d’entraînement vs Données de test  Validation Croisée (CV)
  • 5. Régression linéaire et sélection de modèle Y = bX + e
  • 6. Régression linéaire et sélection de modèle  On trouve β qui minimise: 2 Ν  π  ∑  ι ϕ=1   ψ − ∑ ξιϕβ ϕ ι=1  
  • 7. Régression linéaire et sélection de modèle  Estimation par moindres carrés  Sélection de modèle  Procédure « stepwise »  Conserver seulement les variables significatives à chaque étape  Conserver seulement la variable qui réduit au maximum l’AIC
  • 8. Régression Ridge  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b 2 j  j =1
  • 9. Régression Ridge  Estimation des β par moindres carrés  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle.
  • 10. Régression Ridge  La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β p å β £s 2 j j =1
  • 11. Régression Ridge  Permet d’estimer un modèle en présence de covariables fortement corrélées.  Estimation dépendante de l’échelle des variables  Centrer et réduire toutes les variables continues
  • 12. LASSO  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b j  j =1
  • 13. LASSO  À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés  Algorithme quadratique employé pour l’estimation  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle
  • 14. LASSO  Comme pour la régression Ridge, centrer et réduire les variables continues
  • 15. Comparaison des méthodes  Avantage de la régression Ridge  Les effets de variables explicatrices très corrélées se combinent pour se renforcer mutuellement  Avantage du LASSO  Les effets peu important sont estimés à 0, donc le modèle sélectionné aura un nombre de variables d < p.
  • 16. Comparaison des méthodes  Désavantage de la régression Ridge  Toutes les variables incluses initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.  Désavantage du LASSO  En présence de variables explicatrices corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
  • 17. Comparaison des méthodes  La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes  On cherche β qui minimise: 2 N  p  p 1  ∑  yi − ∑ xij b j  + l  i =1   ∑  2 (1 − a )b j + a b j  j =1  2  j =1 
  • 18. Comparaison des méthodes par simulation  Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates  Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
  • 20. Variable Modèle Régression Stepwise Ridge LASSO Elastic Net Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38 X2 -0.71 -0.42 X3 0.68 0.06 X4 -0.35 -0.60 X5 -5 -17.13 -17 -15.18 -15.63 -15.58 X6 1.66 1.83 0.63 0.35 0.33 X7 5 14.42 14.43 12.26 12.81 12.75 X8 0.17 -0.54 X9 -1.26 -1.21 -1.14 -0.24 -0.24 X10 1.43 1.48 0.89 X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62 X12 1.30 1.30 1.18 X13 -0.06 0.08 X14 3 46.71 46.47 42.86 44.52 44.42 X15 -0.45 -0.68 X16 0.02 0.84 X17 3.48 3.04 2.96 0.71 0.71 X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16 X19 -1.68 -0.81 X20 -1.24 0.14 X21 0.15 0.15 Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14 Écart-type 18.59 18.29 18.87 17.23 17.24
  • 24. Exemple pratique: Polychlorobiphényles et pesticides organochlorés  Données du CSHA: 1848 sujets  28 Covariables, dont 5 variables dichotomiques et 1 variables catégoriques  Variable réponse: maladie d’Alzheimer  Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
  • 26. Variable Régression Stepwise Ridge LASSO Elastic Net Intercepte -1.64 0.23 -1.29 -1.45 -1.45 BPC105 -0.38 0.001 BPC118 0.35 0.003 BPC138 -0.25 0.003 BPC153 -0.56 -0.10 0.004 BPC156 0.17 0.004 BPC163 0.74 0.11 0.005 BPC170 -0.14 0.001 BPC180 0.02 0.0001 BPC183 0.77 0.10 0.004 BPC187 -0.61 -0.08 0.0009 BPC99 0.08 0.003 cisNonachlor -0.63 -0.04 -0.005 Hexachlorobenzene 0.01 0.0004 Oxychlordane -0.43 -0.001 ppDDE 0.13 0.004 ppDDT -0.07 -0.002 BetaHCH -0.09 -0.003 transNonachlor 0.68 -0.003 Éducation -0.26 -0.04 -0.006 -0.03 -0.04 Âge 0.52 0.08 0.02 0.39 0.4 Lipides totaux -0.02 -0.007 IMC -0.16 -0.03 -0.01 -0.09 -0.1 Sexe 0.38 0.04 0.02 0.08 0.09 Région 2 -0.88 -0.14 -0.03 -0.2 -0.23 Région3 0.18 0.03 0.16 0.17 Région4 -0.05 -0.05 0.005 Région5 -1.20 -0.18 -0.04 -0.51 -0.54 APOE4 0.88 0.14 0.04 0.55 0.57 Area -0.01 0.004 Cigarette 0.22 -0.01 Alcohol -0.25 -0.03 -0.02 -0.006 -0.02 Erreur Entraînement 20% 20% 21% 21% 21% Erreur Test 26% 25% 25% 26% 25%
  • 30. Exemple pratique Comparaison des courbes ROC: Entraînement
  • 31. Exemple pratique Comparaison des courbes ROC: Test
  • 32. Logiciels  R  glmnet (Friedman, Hastie, Tibshirani)  SAS  Proc GLMSELECT (LASSO et Stepwise)  Proc REG, MIXED, LOGISTIC, PHREG, etc… (Ridge)
  • 33. Référence  Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008

Hinweis der Redaktion

  1. 1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
  2. Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
  3. Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
  4. Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
  5. Les variables éventuellement peu importantes auront un coefficient = 0.
  6. 20 variables candidates: 6 variables dichotomiques…