SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Downloaden Sie, um offline zu lesen
Arbres de régression et modèles de durée
Université d’été (Paris, le 7 juillet 2014)
ISUP, IA et ENSAE ParisTech
O. Lopez1,2
, X. Milhaud1
et P. Thérond3,4
1
ENSAE ParisTech et CREST (LFA)
2
Université Pierre et Marie Curie
3
ISFA, Laboratoire SAF
4
Galéa & Associés
1 / 47
Plan de l’exposé
1 Introduction à la problématique
2 Exemples d’utilisation
3 Construction de l’arbre
4 Procédure d’élagage de l’arbre
5 Robustesse de la méthode CART
6 Retour au problème de données censurées et extension
2 / 47
Contexte classique d’étude des risques en assurance
L’analyse des engagements d’un assureur nécessite de
comprendre l’impact de caractéristiques sur le risque.
Les bases de données des assureurs comportent un ensemble
d’informations sur
les caractéristiques de l’assuré,
les options du contrat,
les conditions de marché.
Ces informations jouent un rôle crucial dans les prévisions de
sinistralité ⇒ il faut tenir compte de ces caractéristiques indiv.
3 / 47
Deux problèmes de données censurées
On cherche à estimer la durée de vie d’un individu T ayant un
ensemble de caractéristiques X ∈ Rd
.
On sait que l’individu a déjà vécu une durée Y avant de
cesser d’être observé : observation censurée.
4 / 47
Deux problèmes de données censurées
On cherche à estimer la durée de vie d’un individu T ayant un
ensemble de caractéristiques X ∈ Rd
.
On sait que l’individu a déjà vécu une durée Y avant de
cesser d’être observé : observation censurée.
Un sinistre a été ouvert depuis une durée Y (non clos).
Le montant total du sinistre M n’est pas connu, on n’a payé
jusqu’à présent que N ≤ M au titre de ce sinistre.
On cherche à prédire M (éventuellement la durée totale de
développement T) à partir des caractéristiques X ∈ Rd
du
sinistre.
4 / 47
Observations (dans le second exemple)
Observations
On observe des réalisations i.i.d. de variables (Yi, Ni, δi, Xi)1≤i≤n de
même loi que (Y, N, δ, X), où
Y = inf(T, C),
N = inf(M, D),
et
δ = 1T≤C = 1M≤D.
C et D sont des variables de censures. Exemple :
C = temps entre aujourd’hui et la date d’ouverture du sinistre ;
D = montant réglé jusqu’à présent au titre du sinistre.
5 / 47
Formalisation du problème
Le sinistre est ouvert depuis une durée Y, pour un montant
réglé jusqu’à présent de N.
Il n’est pas clos, donc δ = 0.
La meilleure prédiction de M à partir des données disponibles
sur le sinistre est
M∗
= E [M | δ = 0, N, Y, X] .
But : déterminer un estimateur du prédicteur idéal M∗ à partir
des observations.
Difficultés : on n’observe pas des réalisations i.i.d. de M, donc
les méthodes "standards" ne marchent pas.
6 / 47
Objectif : construction d’une classification fine des
individus et analyse du risque sur ces classes
Regrouper des indiv. hétérogènes en classes de risque
homogènes...
∃ de nombreuses techniques de classification (création de
groupes d’assurés homogènes), parmi lesquelles :
pour la classification non-supervisée :
→ les algorithmes dits des k-plus proches voisins ;
→ les techniques ascendantes d’arbre de classification (CAH) ;
→ la classification par model-based clustering (mélanges finis).
pour la classification supervisée :
→ les modèles de choix (LOGIT) ;
→ les réseaux de neurones ;
→ les méthodes descendantes d’arbre (CART, CHAID, ...) ;
7 / 47
Quelques références sur l’utilisation des arbres en
actuariat (non exhaustif)
1) Assurance vie :
Prévision de taux de mortalité par tranche d’âge : [Olb12].
Prévision des comportements de rachat : [MMDL11]
2) Assurance non vie :
R.A. DERRIG et L. FRANCIS, Casualty Actuarial Society
(CAS), Variance, vol. 2 issue 2.
[PPG11] (BFA), mais aussi [Bel14] (mémoire d’actuariat).
Lien entre scoring d’assurés par arbre et pertes : GUSZCZA,
WU et CHENG-SHENG (CAS Forum, 2003).
8 / 47
Arbre et clustering : quelques premiers éléments
Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre...
Mais qu’est-ce qu’un arbre ?
1 Une racine : contient l’ensemble de la population à segmenter
(le portefeuille global) ⇒ c’est le point de départ ;
2 Un tronc et des branches : contiennent les règles de division
qui permettent de segmenter la population ;
3 Des feuilles : contiennent les sous-populations homogènes
créées, fournissent l’estimation de la quantité d’intérêt.
9 / 47
2 Exemples d’utilisation
Une méthode populaire : un premier exemple
Application à la classification du statut propriétaire
10 / 47
Aparté sur la lecture d’un arbre
Un arbre de classification / régression se lit de la racine vers les
feuilles.
A chaque ramification, une règle de division apparait : dans CART,
cette règle ( question) admet une réponse binaire,
elle n’est basée que sur un facteur de risque.
Un noeud est l’intersection d’un ensemble de règles. L’estimation
de la quantité d’intérêt se lit dans les noeuds terminaux (feuilles).
N’importe quel individu de la population initiale appartient à une
unique feuille : les sous-populations créées sont disjointes.
11 / 47
Exemple 1 : prévisions des résultats des primaires aux US
Il s’agit de déterminer les facteurs clefs qui ont joué sur les
résultats des primaires de 2008 aux USA :
Qui de H. Clinton ou B. Obama remportera tel ou tel état ?
Entre Clinton et Obama, deux critères de population de votants
apparaissent comme essentiels :
1 la couleur de peau des votants,
2 leur niveau d’éducation.
On peut visualiser ces résultats sur la publication suivante du NY
Times...
12 / 47
Exemple 2 : prévisions propriétaire | salaire et surface
! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.'
1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#'
4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#'
#2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>'
)*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@
%.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8'
/*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D'
#2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D
13 / 47
Partitionnement et arbre correspondant
Partitionnement qui maximise l’homogénéité dans chq rectangle.
14 / 47
Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs.
nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable cho
15 / 47
3 Construction de l’arbre
Croissance de l’arbre pour estimer une moyenne
Lien avec le problème de régression classique
Arrêt de la ramification
Généralisation et extensions
16 / 47
Notations lorsque la v.a. réponse n’est pas censurée
→ i ∈ 1, n : identifiant de l’individu / l’assuré ;
→ j ∈ 1, k : identifiant du facteur de risque (continu ou discret) ;
→ Yi : réponse OBSERVEE du ième
individu (continue/discrète) ;
→ Xi = (Xi1, ..., Xik ) : vecteur des facteurs de risque de l’indiv. i ;
→ X : espace des covariables (facteurs de risque) ;
→ l ∈ 1, L : identifiant des feuilles de l’arbre ;
→ Xl : ensemble de la partition correspondant à la feuille l.
17 / 47
Arbre de régression : cas classique avec Y continue
Dans le cas d’une régression classique, la quantité d’intérêt est
π0(x) = E0[Y | X = x] (1)
En supposant une relation linéaire (dc se restreignant à une classe
d’estimateurs), on estime les paramètres de régression par MCO.
En toute généralité, on ne peut pas considérer ts les estimateurs
potentiels de π0(x) ⇒ arbres sont 1 autre classe d’estimateurs :
ce sont des fonct. constantes par morceaux pour le problème (1).
Construire un arbre génére une suite d’estimateurs selon une
procédure spécifique : divisions successives de l’espace X.
18 / 47
Construction de l’arbre : critère de division
La ramification de l’arbre est basée sur la définition d’un critère de
division cohérent avec l’estimation de la quantité d’intérêt.
Dans l’estimation de (1), les MCO sont utilisés car la solution est
donnée par
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x], (2)
où Φ(Y, π(x)) = (Y − π(x))2
.
La fonction de perte Φ correspond donc à l’erreur quadratique, et
le critère est la minimisation de l’EQM.
19 / 47
Lien entre régression et arbre : la notion de “règles”
Tout arbre de régression est un ensemble de règles. Pour chaque
noeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X.
Notation : dans la suite, En[Y] désigne la moyenne empirique de
Y, et Xpa(m) est le sous-ensemble associé au noeud parent de m.
L’arbre est associé à la fonction de régression
ˆπ(x) =
M
m=1
ˆβtree
m Rm(x) (3)
où ˆβtree
m = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m racine,
ˆβtree
m = En[Y] sinon.
20 / 47
Cela équivaut en régression classique à chercher
ˆβtree
= arg min
βtree
En Y − βtree
m Rm(x)
2
.
A partir de (3) et en sommant sur ts les noeuds :
ˆπ(x) := ˆπL
(x) =
L
l=1
ˆγl Rl(x) (4)
L est le nombre de feuilles de l’arbre, l leur indice,
Rl(x) = 11(x ∈ Xl) : une “règle” de division,
ˆγl = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l,
les sous-ensembles Xl ⊆ X de la partition sont
disjoints (Xl ∩ Xl = ∅, l l ),
exhaustifs (X = ∪l Xl).
21 / 47
(4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut
être vu comme un estimateur par morceaux.
Interprétation :
chaque morceau est une feuille, dont la valeur est la moyenne
empirique des valeurs de Y de cette feuille,
chaque division vise à minimiser la somme des variances
intra-noeuds résultantes. Idée : maximiser l’homogénéité...
La construction étant récursive, on génère une suite d’estimateurs
depuis le nd racine : soit une suite {ΠK
} de ss-espaces t.q. ΠK
⊆ Π,
ΠK
= πL
(.) =
L
l=1
γl Rl(.) : L ∈ N∗
, L ≤ K . (5)
22 / 47
A K fixé, on cherche πK
0
tq
πK
0 (x) = arg min
π(x)∈ΠK
E0[Φ(Y, π(x)) | X = x].
En pratique on cherche la version empirique, ˆπK
, telle que
ˆπK
(x) = arg min
π(x)∈ΠK
En[ Φ(Y, π(x)) ].
ou encore
ˆπK
(x) = arg min
γ=(γ1,...,γL )
En[ Φ(Y, πL
(x)) ]. (6)
Les estimateurs par arbre ne cherchent pas tous les estimateurs
possibles avec L ≤ K : ils approchent ce minimum récursivement.
23 / 47
Arrêt de la procédure de division
Le principe de l’algorithme CART est de ne pas fixer de règle
d’arrêt arbitraire pour la procédure.
L’algorithme arrête ainsi de diviser les feuilles quand :
il n’y a qu’une observation dans la feuille, ou
les individus de la feuille ont les mêmes valeurs de facteurs
de risque.
On construit ainsi l’arbre “maximal”, qui sera ensuite élagué.
Arbre maximal = estimateur par morceaux final le plus complexe
de la suite d’estimateurs construits → CV garantie ([BFOS84]).
24 / 47
Généralisation et extensions avec Φ fonction de perte
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x]
Estimation de moyenne : π0(x) = E0[Y | X = x]
→ critère de division (MCO) : Φ(Y, π(x)) = (Y − π(x))2
.
Quantile : π0(x) = QY (α | X = x) = inf{y : F(y|X = x) ≥ α}
Φα(y, π(x)) = α|y −π(x)|11(y > π(x)) + (1−α)|y −π(x)|11(y ≤ π(x))
Estimation de densité de la loi de Y
→ Φ(Y, π(x)) = − log π(Y, x), avec π la densité jointe de (Y, X).
25 / 47
4 Procédure d’élagage de l’arbre
Critère d’élagage de l’arbre
Algorithme d’élagage de l’arbre
26 / 47
Elagage : critère coût-complexité
Une fois l’arbre maximal construit (de taille K(n)), on obtient une
suite d’estimateurs (ˆπK
(x))K=1,...,K(n).
Eviter estimateur trop complexe ⇒ trouver le meilleur sous-arbre
de l’arbre maximal selon un critère “adéquation - complexité” :
Rα(ˆπK
(x)) = En[ Φ(Y, ˆπK
(x)) ] + α (K/n).
Pour α fixé, l’estimateur retenu satisfait
ˆπK
α (x) = arg min
(ˆπK )K=1,...,K(n)
Rα(ˆπK
(x)). (7)
27 / 47
Elagage : procédure de sélection de modèle et estimateur final
On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ ,
et on choisit pour chaque αz le meilleur estimateur donné par (7).
Par construction, on a une suite décroissante de sous-arbres
optimaux de l’arbre maximal vers la racine. Dans cette liste
d’estimateurs, on choisit finalement ˆα tel que
ˆπK
ˆα (x) = arg min
(ˆπK
αz )α=α1,...,αZ
Rαz (ˆπK
αz
(x)). (8)
Consistance : voir [GN05] et [MDvdL04] (V-fold).
28 / 47
5 Robustesse de la méthode CART
29 / 47
Un mot sur la robustesse de la méthode CART
Certaines techniques ont été développées afin de stabiliser la
prévision donnée par un estimateur arbre.
En effet, la construction d’un arbre optimal peut varier fortement
quand bien même le jeu de données initial varie peu.
D’où l’idée de proposer des procédures avec
1 choix aléatoire des facteurs de risque considérés lors d’une
division (random forests).
2 tirage aléatoire de sous-jeux de données (bagging : boostrap
aggregating).
30 / 47
Exemple le plus connu : les forêts aléatoires
L’objectif des forêts aléatoires est de proposer un estimateur de
type “bootstrap” afin d’améliorer la robustesse de l’estimation de la
quantité d’intérêt.
Il s’agit de moyenner les prévisions obtenues.
Cette approche est intéressante pour deux raisons principales :
on peut dégager un classement robuste du pouvoir explicatif
de chacun des facteurs de risque,
sa consistance a été démontrée récemment dans plusieurs
articles récents : [IK10], [Mei09], [Mei06].
31 / 47
6 Retour au problème de données censurées et extension
32 / 47
Rappel sur les données
Observations
On observe des réalisations i.i.d. de variables (Yi, Ni, δi, Xi)1≤i≤n de
même loi que (Y, N, δ, X), où
Y = inf(T, C),
N = inf(M, D),
et
δ = 1T≤C = 1M≤D.
C et D sont des variables de censures.
33 / 47
Retour au problème initial
Le sinistre est ouvert depuis une durée Y, pour un montant
réglé jusqu’à présent de N.
Il n’est pas clos, donc δ = 0.
La meilleure prédiction de M à partir des données disponibles
sur le sinistre est
M∗
= E [M|δ = 0, N, Y, X] .
But : déterminer un estimateur du prédicteur idéal M∗ à partir
des observations.
34 / 47
Illustration des problèmes causés par la censure
Considérons le problème plus simple d’estimer m = E[M].
Si j’observe (M1, ..., Mn) i.i.d., je peux estimer m par
˜m =
1
n
n
i=1
Mi →p.s. m.
Que se passe-t-il si je n’observe que (N1, δ1, ..., Nn, δn) ?
Mauvaise idée 1 : ˜m1 = 1
n
n
i=1 Ni.
Mauvaise idée 2 : ˜m2 = 1
n
j=1 δj
n
i=1 δiNi.
35 / 47
Illustration des problèmes causés par la censure
Exemple naif : M ∼ E(λ), et D ∼ E(µ), avec M et D
indépendants.
Dans ce cas, ˜m1 tend vers
E [inf(M, D)] =
1
λ + µ
.
De plus, ˜m2 tend vers
E [δM]
E[δ]
=
1
λ + µ
Dans les deux cas, on sous-estime la valeur moyenne de M.
Solution : corriger la présence de la censure en essayant de
compenser cette sous-estimation.
36 / 47
Premier ingrédient : l’estimateur de Kaplan-Meier
On suppose que T est indépendant de C.
On définit :
ˆF(t) = 1 −
Yi≤t

1 −
δi
n
j=1 1Yj≥Yi

 .
Cet estimateur converge vers F(t) = P(T ≤ t).
Ecriture additive : ˆF(t) = n
i=1 Wi,n1Yi≤t ,
avec
Wi,n =
δi
n[1 − ˆG(Yi−)]
,
et ˆG(t) estimateur de Kaplan-Meier de G(t) = P(C ≤ t).
37 / 47
Comment utiliser Kaplan-Meier pour estimer une
moyenne ?
Supposons que je veuille estimer E[T].
On peut estimer E[T] par l’espérance de la distribution
associée Ã˘a ˆF, i.e.
td ˆF(t) =
n
i=1
Wi,nYi,
i.e. une somme pondérée des Yi observés.
Plus généralement, θ = E[φ(T)] s’estime par
n
i=1
Wi,nφ(Yi).
38 / 47
Pourquoi cela fonctionne ?
On rappelle que Wi,n = 1
n
δi
1−ˆG(Yi−)
.
Wi,n est "proche" de W∗
i,n
= 1
n
δi
1−G(Yi−)
.
De plus,
n
i=1
W∗
i,nφ(Yi) =
1
n
n
i=1
δiφ(Yi)
1 − G(Yi−)
→p.s. E
δφ(Y)
1 − G(Y−)
.
Proposition
Pour toute fonction φ telle que E[φ(T)] < ∞,
E
δφ(Y)
1 − G(Y−)
= E[φ(T)].
39 / 47
2ème
ingrédient : Inverse Prob. of Censoring Weights
Dans l’exemple qui nous intéresse, on va vouloir déterminer des
quantités du type E[φ(T, M, X)].
Proposition
On suppose que :
C indépendant de (T, M, X);
{N < M} = {T < C}.
Alors
E
δφ(Y, N, X)
n(1 − G(Y−))
= E[φ(T, M, X)],
et
E
δφ(Y, N, X)
n(1 − G(Y−))
|X = E[φ(T, M, X)|X].
40 / 47
2ème
ingrédient : Inverse Prob. of Censoring Weights
Donc pour estimer une quantité du type E[φ(T, M, X)], on
utilisera
1
n
n
i=1
δiφ(Yi, Ni, Xi)
1 − ˆG(Yi−)
=
n
i=1
Wi,nφ(Yi, Ni, Xi).
Donc pour estimer, par exemple, des quantités du type
E (φ(Ti, Mi) − a)2
1Xi∈X ,
où X est un ensemble, on calculera
n
i=1
Wi,n(φ(Yi, Ni) − a)2
1Xi∈X.
41 / 47
Décomposition de notre problème
On rappelle qu’on cherche à estimer
E [M | δ = 0, X, Y, N] .
On a
E [M|δ = 0, X = x, Y = y, N = n] = E [M|M ≥ n, T ≥ y, X = x]
=
E M1M≥n,T≥y|X = x
P(T ≥ y, M ≥ n|X = x)
.
On définit φ1(t, m) = m1m≥n,T≥y, et φ2(t, m) = 1t≥y,m≥n. On
doit donc estimer
E[φ1(T, M)|X = x], et E[φ2(T, M)|X = x].
42 / 47
Quelques idées d’application pratique en assurance
Ce type de données est largement utilisé en assurance (vie et
IARD). Nous pourrions par exemple utiliser ces techniques pour...
Provisionnement ligne à ligne et estimation du montant final
du sinistre (en évitant les hyp. de type Merz & Wuthrich).
Détermination de plafond de garantie.
Risque incapacité - invalidité.
Portefeuille de plusieurs entités.
Evaluation de mesure de risque (quantile) à des fins
règlementaires.
43 / 47
Conclusion
Pourquoi cette technique est-elle intéressante pour le big data ?
→ Algorithme naturellement adapté à la gestion de grandes bases
de données ;
→ Technique non-paramétrique : pas d’hypothèses sur le lien
entre quantité d’intérêt et facteurs de risque ;
→ Simplicité de l’estimateur final : faible dimension, interprétation
de l’arbre et visionnage des résultats ;
→ Consistance de la procédure théoriquement prouvée ;
→ Classement naturel du pouvoir discriminant des covariables ;
44 / 47
→ Multiples extensions possibles en travaillant sur les propriétés
de la fonction de perte.
Quels en sont les points faibles ?
→ Hypothèses sous-jacentes pouvant parfois être remises en
cause ;
→ Manque de résultats théoriques (étape élagage) dans des cas
moins classiques ;
→ Instabilité : nécessité de la compléter avec des techniques de
type forêts aléatoires.
45 / 47
Bibliographie
R. Bellina.
Méthodes d’apprentissage appliquées à la tarification non-vie.
Mémoire d’actuariat, 2014.
L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone.
Classification and Regression Trees.
Chapman and Hall, 1984.
Servane Gey and Elodie Nedelec.
Model selection for cart regression trees.
IEEE Transactions on Information Theory, 51(2) :658–670, 2005.
Hemant Ishwaran and Udaya B. Kogalur.
Consistency of random survival forests.
Statistics and Probability Letters, 80(13-14) :1056–1064, 2010.
Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan.
Tree-based multivariate regression and density estimation with right-censored data.
JMVA, 90(1) :154–177, 2004.
46 / 47
Nicolai Meinshausen.
Quantile regression forests.
Journal of Machine Learning Research, 7 :983–999, 2006.
Nicolai Meinshausen.
Forest garrote.
Electronic Journal of Statistics, 3 :1288–1304, 2009.
X. Milhaud, V. Maume-Deschamps, and S. Loisel.
Surrender triggers in life insurance : what main features affect the surrender behavior
in a classical economic context ?
Bulletin Français d’Actuariat, 22 :5–48, 2011.
Walter Olbricht.
Tree-based methods : a useful tool for life insurance.
European Actuarial Journal, 2(1) :129–147, 2012.
A. Paglia and M.V. Phelippe-Guinvarc’h.
Tarification des risques en assurance non-vie, une approche par modèle
d’apprentissage statistique.
Bulletin français d’Actuariat, 11(22) :49–81, 2011.
47 / 47

Weitere ähnliche Inhalte

Was ist angesagt?

Cours d’introduction à LaTeX
Cours d’introduction à LaTeXCours d’introduction à LaTeX
Cours d’introduction à LaTeXAdrien Barbaresi
 
LUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdf
LUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdfLUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdf
LUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdfRedaBelattar
 
Chapitre2 (les systèmes de numération)
Chapitre2 (les systèmes de numération)Chapitre2 (les systèmes de numération)
Chapitre2 (les systèmes de numération)killua zoldyck
 
Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)Adrien Barbaresi
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
the naive bayesien classifier
the naive bayesien classifierthe naive bayesien classifier
the naive bayesien classifierAmrane Alik
 
Ch5 base de données
Ch5   base de donnéesCh5   base de données
Ch5 base de donnéesWael Ismail
 
Cours informatique éléments de présentation - 8ème
Cours  informatique éléments de présentation - 8èmeCours  informatique éléments de présentation - 8ème
Cours informatique éléments de présentation - 8èmeTunisie collège
 
Methodes d'accès dans les réseaux locaux
Methodes d'accès dans les réseaux locauxMethodes d'accès dans les réseaux locaux
Methodes d'accès dans les réseaux locauxInes Kechiche
 
Traitement d'image
Traitement d'imageTraitement d'image
Traitement d'imageAnissa Teyeb
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce Nour El Houda Megherbi
 
Algebre relationelle
Algebre relationelleAlgebre relationelle
Algebre relationellehnsfr
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionInes Ouaz
 

Was ist angesagt? (20)

Cours d’introduction à LaTeX
Cours d’introduction à LaTeXCours d’introduction à LaTeX
Cours d’introduction à LaTeX
 
Programmation Java
Programmation JavaProgrammation Java
Programmation Java
 
LUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdf
LUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdfLUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdf
LUP IRT 2021_2022 - Cours - Programmation Python (Partie I).pdf
 
Chapitre2 (les systèmes de numération)
Chapitre2 (les systèmes de numération)Chapitre2 (les systèmes de numération)
Chapitre2 (les systèmes de numération)
 
Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
the naive bayesien classifier
the naive bayesien classifierthe naive bayesien classifier
the naive bayesien classifier
 
Ch5 base de données
Ch5   base de donnéesCh5   base de données
Ch5 base de données
 
Cours informatique éléments de présentation - 8ème
Cours  informatique éléments de présentation - 8èmeCours  informatique éléments de présentation - 8ème
Cours informatique éléments de présentation - 8ème
 
Methodes d'accès dans les réseaux locaux
Methodes d'accès dans les réseaux locauxMethodes d'accès dans les réseaux locaux
Methodes d'accès dans les réseaux locaux
 
Traitement d'image
Traitement d'imageTraitement d'image
Traitement d'image
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Systeme
SystemeSysteme
Systeme
 
Algebre relationelle
Algebre relationelleAlgebre relationelle
Algebre relationelle
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 

Andere mochten auch

Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohenKezhan SHI
 
Confidentialité des données michel béra
Confidentialité des données   michel béraConfidentialité des données   michel béra
Confidentialité des données michel béraKezhan SHI
 
L'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceL'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceKezhan SHI
 
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des ActuairesNorme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des ActuairesKezhan SHI
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellierKezhan SHI
 
Présentation Françoise Soulié Fogelman
Présentation Françoise Soulié FogelmanPrésentation Françoise Soulié Fogelman
Présentation Françoise Soulié FogelmanKezhan SHI
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Kezhan SHI
 
Insurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre PicardInsurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre PicardKezhan SHI
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geisslerKezhan SHI
 
Les enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scorLes enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scorKezhan SHI
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...Kezhan SHI
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaumKezhan SHI
 
Twitter (version corrigée)
Twitter (version corrigée)Twitter (version corrigée)
Twitter (version corrigée)Françoise Grave
 
Urheberrecht, Creative Commons, Public Domain, OER
Urheberrecht, Creative Commons, Public Domain, OERUrheberrecht, Creative Commons, Public Domain, OER
Urheberrecht, Creative Commons, Public Domain, OERReinhard Wieser
 
Social Search: Die Verknüpfung von Social Media und SEO
Social Search: Die Verknüpfung von Social Media und SEOSocial Search: Die Verknüpfung von Social Media und SEO
Social Search: Die Verknüpfung von Social Media und SEOConnected-Blog
 
Le développement des infrastructures à très haut débit, par Bruno Janet, Orange
Le développement des infrastructures à très haut débit, par Bruno Janet, OrangeLe développement des infrastructures à très haut débit, par Bruno Janet, Orange
Le développement des infrastructures à très haut débit, par Bruno Janet, Orangevendeers
 
Réaliser +30% de productivité
Réaliser +30% de productivitéRéaliser +30% de productivité
Réaliser +30% de productivitéadvyz
 

Andere mochten auch (20)

Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohen
 
Confidentialité des données michel béra
Confidentialité des données   michel béraConfidentialité des données   michel béra
Confidentialité des données michel béra
 
L'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceL'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data science
 
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des ActuairesNorme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
Norme IFRS - Pierre Thérond - Université d'été de l'Institut des Actuaires
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellier
 
Présentation Françoise Soulié Fogelman
Présentation Françoise Soulié FogelmanPrésentation Françoise Soulié Fogelman
Présentation Françoise Soulié Fogelman
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
 
Insurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre PicardInsurance fraud through collusion - Pierre Picard
Insurance fraud through collusion - Pierre Picard
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geissler
 
Les enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scorLes enjeux de la dépendance – laure de montesquieu, scor
Les enjeux de la dépendance – laure de montesquieu, scor
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaum
 
Twitter (version corrigée)
Twitter (version corrigée)Twitter (version corrigée)
Twitter (version corrigée)
 
Saumur
SaumurSaumur
Saumur
 
Urheberrecht, Creative Commons, Public Domain, OER
Urheberrecht, Creative Commons, Public Domain, OERUrheberrecht, Creative Commons, Public Domain, OER
Urheberrecht, Creative Commons, Public Domain, OER
 
Social Search: Die Verknüpfung von Social Media und SEO
Social Search: Die Verknüpfung von Social Media und SEOSocial Search: Die Verknüpfung von Social Media und SEO
Social Search: Die Verknüpfung von Social Media und SEO
 
Le développement des infrastructures à très haut débit, par Bruno Janet, Orange
Le développement des infrastructures à très haut débit, par Bruno Janet, OrangeLe développement des infrastructures à très haut débit, par Bruno Janet, Orange
Le développement des infrastructures à très haut débit, par Bruno Janet, Orange
 
Réaliser +30% de productivité
Réaliser +30% de productivitéRéaliser +30% de productivité
Réaliser +30% de productivité
 

Ähnlich wie Arbres de régression et modèles de durée

Xavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionXavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionKezhan SHI
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
14284 chapitre-8-statistique
14284 chapitre-8-statistique14284 chapitre-8-statistique
14284 chapitre-8-statistiqueAlilo Mabhoour
 
Présentation acp
Présentation acpPrésentation acp
Présentation acpgrandprime1
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringFranck Dernoncourt
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
Into_GA.ppt
Into_GA.pptInto_GA.ppt
Into_GA.pptbetadir
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Arthur Charpentier
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAyoub Abraich
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 

Ähnlich wie Arbres de régression et modèles de durée (20)

Xavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionXavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régression
 
Phd dutangc-defense
Phd dutangc-defensePhd dutangc-defense
Phd dutangc-defense
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
14284 chapitre-8-statistique
14284 chapitre-8-statistique14284 chapitre-8-statistique
14284 chapitre-8-statistique
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Présentation acp
Présentation acpPrésentation acp
Présentation acp
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
Cours masterlyon
Cours masterlyonCours masterlyon
Cours masterlyon
 
Into_GA.ppt
Into_GA.pptInto_GA.ppt
Into_GA.ppt
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
Cox
CoxCox
Cox
 

Mehr von Kezhan SHI

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septKezhan SHI
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Kezhan SHI
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[Kezhan SHI
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septKezhan SHI
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_Kezhan SHI
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standardKezhan SHI
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014Kezhan SHI
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilanKezhan SHI
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Kezhan SHI
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2Kezhan SHI
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2Kezhan SHI
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Kezhan SHI
 
Rapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNILRapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNILKezhan SHI
 

Mehr von Kezhan SHI (15)

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-sept
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2
 
Rapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNILRapport d'activité 2013 - CNIL
Rapport d'activité 2013 - CNIL
 

Kürzlich hochgeladen

Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.docKarimKhrifech
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxpopzair
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxlamourfrantz
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 

Kürzlich hochgeladen (20)

Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.doc
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptx
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptx
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 

Arbres de régression et modèles de durée

  • 1. Arbres de régression et modèles de durée Université d’été (Paris, le 7 juillet 2014) ISUP, IA et ENSAE ParisTech O. Lopez1,2 , X. Milhaud1 et P. Thérond3,4 1 ENSAE ParisTech et CREST (LFA) 2 Université Pierre et Marie Curie 3 ISFA, Laboratoire SAF 4 Galéa & Associés 1 / 47
  • 2. Plan de l’exposé 1 Introduction à la problématique 2 Exemples d’utilisation 3 Construction de l’arbre 4 Procédure d’élagage de l’arbre 5 Robustesse de la méthode CART 6 Retour au problème de données censurées et extension 2 / 47
  • 3. Contexte classique d’étude des risques en assurance L’analyse des engagements d’un assureur nécessite de comprendre l’impact de caractéristiques sur le risque. Les bases de données des assureurs comportent un ensemble d’informations sur les caractéristiques de l’assuré, les options du contrat, les conditions de marché. Ces informations jouent un rôle crucial dans les prévisions de sinistralité ⇒ il faut tenir compte de ces caractéristiques indiv. 3 / 47
  • 4. Deux problèmes de données censurées On cherche à estimer la durée de vie d’un individu T ayant un ensemble de caractéristiques X ∈ Rd . On sait que l’individu a déjà vécu une durée Y avant de cesser d’être observé : observation censurée. 4 / 47
  • 5. Deux problèmes de données censurées On cherche à estimer la durée de vie d’un individu T ayant un ensemble de caractéristiques X ∈ Rd . On sait que l’individu a déjà vécu une durée Y avant de cesser d’être observé : observation censurée. Un sinistre a été ouvert depuis une durée Y (non clos). Le montant total du sinistre M n’est pas connu, on n’a payé jusqu’à présent que N ≤ M au titre de ce sinistre. On cherche à prédire M (éventuellement la durée totale de développement T) à partir des caractéristiques X ∈ Rd du sinistre. 4 / 47
  • 6. Observations (dans le second exemple) Observations On observe des réalisations i.i.d. de variables (Yi, Ni, δi, Xi)1≤i≤n de même loi que (Y, N, δ, X), où Y = inf(T, C), N = inf(M, D), et δ = 1T≤C = 1M≤D. C et D sont des variables de censures. Exemple : C = temps entre aujourd’hui et la date d’ouverture du sinistre ; D = montant réglé jusqu’à présent au titre du sinistre. 5 / 47
  • 7. Formalisation du problème Le sinistre est ouvert depuis une durée Y, pour un montant réglé jusqu’à présent de N. Il n’est pas clos, donc δ = 0. La meilleure prédiction de M à partir des données disponibles sur le sinistre est M∗ = E [M | δ = 0, N, Y, X] . But : déterminer un estimateur du prédicteur idéal M∗ à partir des observations. Difficultés : on n’observe pas des réalisations i.i.d. de M, donc les méthodes "standards" ne marchent pas. 6 / 47
  • 8. Objectif : construction d’une classification fine des individus et analyse du risque sur ces classes Regrouper des indiv. hétérogènes en classes de risque homogènes... ∃ de nombreuses techniques de classification (création de groupes d’assurés homogènes), parmi lesquelles : pour la classification non-supervisée : → les algorithmes dits des k-plus proches voisins ; → les techniques ascendantes d’arbre de classification (CAH) ; → la classification par model-based clustering (mélanges finis). pour la classification supervisée : → les modèles de choix (LOGIT) ; → les réseaux de neurones ; → les méthodes descendantes d’arbre (CART, CHAID, ...) ; 7 / 47
  • 9. Quelques références sur l’utilisation des arbres en actuariat (non exhaustif) 1) Assurance vie : Prévision de taux de mortalité par tranche d’âge : [Olb12]. Prévision des comportements de rachat : [MMDL11] 2) Assurance non vie : R.A. DERRIG et L. FRANCIS, Casualty Actuarial Society (CAS), Variance, vol. 2 issue 2. [PPG11] (BFA), mais aussi [Bel14] (mémoire d’actuariat). Lien entre scoring d’assurés par arbre et pertes : GUSZCZA, WU et CHENG-SHENG (CAS Forum, 2003). 8 / 47
  • 10. Arbre et clustering : quelques premiers éléments Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre... Mais qu’est-ce qu’un arbre ? 1 Une racine : contient l’ensemble de la population à segmenter (le portefeuille global) ⇒ c’est le point de départ ; 2 Un tronc et des branches : contiennent les règles de division qui permettent de segmenter la population ; 3 Des feuilles : contiennent les sous-populations homogènes créées, fournissent l’estimation de la quantité d’intérêt. 9 / 47
  • 11. 2 Exemples d’utilisation Une méthode populaire : un premier exemple Application à la classification du statut propriétaire 10 / 47
  • 12. Aparté sur la lecture d’un arbre Un arbre de classification / régression se lit de la racine vers les feuilles. A chaque ramification, une règle de division apparait : dans CART, cette règle ( question) admet une réponse binaire, elle n’est basée que sur un facteur de risque. Un noeud est l’intersection d’un ensemble de règles. L’estimation de la quantité d’intérêt se lit dans les noeuds terminaux (feuilles). N’importe quel individu de la population initiale appartient à une unique feuille : les sous-populations créées sont disjointes. 11 / 47
  • 13. Exemple 1 : prévisions des résultats des primaires aux US Il s’agit de déterminer les facteurs clefs qui ont joué sur les résultats des primaires de 2008 aux USA : Qui de H. Clinton ou B. Obama remportera tel ou tel état ? Entre Clinton et Obama, deux critères de population de votants apparaissent comme essentiels : 1 la couleur de peau des votants, 2 leur niveau d’éducation. On peut visualiser ces résultats sur la publication suivante du NY Times... 12 / 47
  • 14.
  • 15. Exemple 2 : prévisions propriétaire | salaire et surface ! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.' 1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#' 4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#' #2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>' )*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@ %.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8' /*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D' #2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D 13 / 47
  • 16. Partitionnement et arbre correspondant Partitionnement qui maximise l’homogénéité dans chq rectangle. 14 / 47
  • 17. Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs. nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable cho 15 / 47
  • 18. 3 Construction de l’arbre Croissance de l’arbre pour estimer une moyenne Lien avec le problème de régression classique Arrêt de la ramification Généralisation et extensions 16 / 47
  • 19. Notations lorsque la v.a. réponse n’est pas censurée → i ∈ 1, n : identifiant de l’individu / l’assuré ; → j ∈ 1, k : identifiant du facteur de risque (continu ou discret) ; → Yi : réponse OBSERVEE du ième individu (continue/discrète) ; → Xi = (Xi1, ..., Xik ) : vecteur des facteurs de risque de l’indiv. i ; → X : espace des covariables (facteurs de risque) ; → l ∈ 1, L : identifiant des feuilles de l’arbre ; → Xl : ensemble de la partition correspondant à la feuille l. 17 / 47
  • 20. Arbre de régression : cas classique avec Y continue Dans le cas d’une régression classique, la quantité d’intérêt est π0(x) = E0[Y | X = x] (1) En supposant une relation linéaire (dc se restreignant à une classe d’estimateurs), on estime les paramètres de régression par MCO. En toute généralité, on ne peut pas considérer ts les estimateurs potentiels de π0(x) ⇒ arbres sont 1 autre classe d’estimateurs : ce sont des fonct. constantes par morceaux pour le problème (1). Construire un arbre génére une suite d’estimateurs selon une procédure spécifique : divisions successives de l’espace X. 18 / 47
  • 21. Construction de l’arbre : critère de division La ramification de l’arbre est basée sur la définition d’un critère de division cohérent avec l’estimation de la quantité d’intérêt. Dans l’estimation de (1), les MCO sont utilisés car la solution est donnée par π0(x) = arg min π(x) E0[Φ(Y, π(x)) | X = x], (2) où Φ(Y, π(x)) = (Y − π(x))2 . La fonction de perte Φ correspond donc à l’erreur quadratique, et le critère est la minimisation de l’EQM. 19 / 47
  • 22. Lien entre régression et arbre : la notion de “règles” Tout arbre de régression est un ensemble de règles. Pour chaque noeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X. Notation : dans la suite, En[Y] désigne la moyenne empirique de Y, et Xpa(m) est le sous-ensemble associé au noeud parent de m. L’arbre est associé à la fonction de régression ˆπ(x) = M m=1 ˆβtree m Rm(x) (3) où ˆβtree m = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m racine, ˆβtree m = En[Y] sinon. 20 / 47
  • 23. Cela équivaut en régression classique à chercher ˆβtree = arg min βtree En Y − βtree m Rm(x) 2 . A partir de (3) et en sommant sur ts les noeuds : ˆπ(x) := ˆπL (x) = L l=1 ˆγl Rl(x) (4) L est le nombre de feuilles de l’arbre, l leur indice, Rl(x) = 11(x ∈ Xl) : une “règle” de division, ˆγl = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l, les sous-ensembles Xl ⊆ X de la partition sont disjoints (Xl ∩ Xl = ∅, l l ), exhaustifs (X = ∪l Xl). 21 / 47
  • 24. (4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut être vu comme un estimateur par morceaux. Interprétation : chaque morceau est une feuille, dont la valeur est la moyenne empirique des valeurs de Y de cette feuille, chaque division vise à minimiser la somme des variances intra-noeuds résultantes. Idée : maximiser l’homogénéité... La construction étant récursive, on génère une suite d’estimateurs depuis le nd racine : soit une suite {ΠK } de ss-espaces t.q. ΠK ⊆ Π, ΠK = πL (.) = L l=1 γl Rl(.) : L ∈ N∗ , L ≤ K . (5) 22 / 47
  • 25. A K fixé, on cherche πK 0 tq πK 0 (x) = arg min π(x)∈ΠK E0[Φ(Y, π(x)) | X = x]. En pratique on cherche la version empirique, ˆπK , telle que ˆπK (x) = arg min π(x)∈ΠK En[ Φ(Y, π(x)) ]. ou encore ˆπK (x) = arg min γ=(γ1,...,γL ) En[ Φ(Y, πL (x)) ]. (6) Les estimateurs par arbre ne cherchent pas tous les estimateurs possibles avec L ≤ K : ils approchent ce minimum récursivement. 23 / 47
  • 26. Arrêt de la procédure de division Le principe de l’algorithme CART est de ne pas fixer de règle d’arrêt arbitraire pour la procédure. L’algorithme arrête ainsi de diviser les feuilles quand : il n’y a qu’une observation dans la feuille, ou les individus de la feuille ont les mêmes valeurs de facteurs de risque. On construit ainsi l’arbre “maximal”, qui sera ensuite élagué. Arbre maximal = estimateur par morceaux final le plus complexe de la suite d’estimateurs construits → CV garantie ([BFOS84]). 24 / 47
  • 27. Généralisation et extensions avec Φ fonction de perte π0(x) = arg min π(x) E0[Φ(Y, π(x)) | X = x] Estimation de moyenne : π0(x) = E0[Y | X = x] → critère de division (MCO) : Φ(Y, π(x)) = (Y − π(x))2 . Quantile : π0(x) = QY (α | X = x) = inf{y : F(y|X = x) ≥ α} Φα(y, π(x)) = α|y −π(x)|11(y > π(x)) + (1−α)|y −π(x)|11(y ≤ π(x)) Estimation de densité de la loi de Y → Φ(Y, π(x)) = − log π(Y, x), avec π la densité jointe de (Y, X). 25 / 47
  • 28. 4 Procédure d’élagage de l’arbre Critère d’élagage de l’arbre Algorithme d’élagage de l’arbre 26 / 47
  • 29. Elagage : critère coût-complexité Une fois l’arbre maximal construit (de taille K(n)), on obtient une suite d’estimateurs (ˆπK (x))K=1,...,K(n). Eviter estimateur trop complexe ⇒ trouver le meilleur sous-arbre de l’arbre maximal selon un critère “adéquation - complexité” : Rα(ˆπK (x)) = En[ Φ(Y, ˆπK (x)) ] + α (K/n). Pour α fixé, l’estimateur retenu satisfait ˆπK α (x) = arg min (ˆπK )K=1,...,K(n) Rα(ˆπK (x)). (7) 27 / 47
  • 30. Elagage : procédure de sélection de modèle et estimateur final On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ , et on choisit pour chaque αz le meilleur estimateur donné par (7). Par construction, on a une suite décroissante de sous-arbres optimaux de l’arbre maximal vers la racine. Dans cette liste d’estimateurs, on choisit finalement ˆα tel que ˆπK ˆα (x) = arg min (ˆπK αz )α=α1,...,αZ Rαz (ˆπK αz (x)). (8) Consistance : voir [GN05] et [MDvdL04] (V-fold). 28 / 47
  • 31. 5 Robustesse de la méthode CART 29 / 47
  • 32. Un mot sur la robustesse de la méthode CART Certaines techniques ont été développées afin de stabiliser la prévision donnée par un estimateur arbre. En effet, la construction d’un arbre optimal peut varier fortement quand bien même le jeu de données initial varie peu. D’où l’idée de proposer des procédures avec 1 choix aléatoire des facteurs de risque considérés lors d’une division (random forests). 2 tirage aléatoire de sous-jeux de données (bagging : boostrap aggregating). 30 / 47
  • 33. Exemple le plus connu : les forêts aléatoires L’objectif des forêts aléatoires est de proposer un estimateur de type “bootstrap” afin d’améliorer la robustesse de l’estimation de la quantité d’intérêt. Il s’agit de moyenner les prévisions obtenues. Cette approche est intéressante pour deux raisons principales : on peut dégager un classement robuste du pouvoir explicatif de chacun des facteurs de risque, sa consistance a été démontrée récemment dans plusieurs articles récents : [IK10], [Mei09], [Mei06]. 31 / 47
  • 34. 6 Retour au problème de données censurées et extension 32 / 47
  • 35. Rappel sur les données Observations On observe des réalisations i.i.d. de variables (Yi, Ni, δi, Xi)1≤i≤n de même loi que (Y, N, δ, X), où Y = inf(T, C), N = inf(M, D), et δ = 1T≤C = 1M≤D. C et D sont des variables de censures. 33 / 47
  • 36. Retour au problème initial Le sinistre est ouvert depuis une durée Y, pour un montant réglé jusqu’à présent de N. Il n’est pas clos, donc δ = 0. La meilleure prédiction de M à partir des données disponibles sur le sinistre est M∗ = E [M|δ = 0, N, Y, X] . But : déterminer un estimateur du prédicteur idéal M∗ à partir des observations. 34 / 47
  • 37. Illustration des problèmes causés par la censure Considérons le problème plus simple d’estimer m = E[M]. Si j’observe (M1, ..., Mn) i.i.d., je peux estimer m par ˜m = 1 n n i=1 Mi →p.s. m. Que se passe-t-il si je n’observe que (N1, δ1, ..., Nn, δn) ? Mauvaise idée 1 : ˜m1 = 1 n n i=1 Ni. Mauvaise idée 2 : ˜m2 = 1 n j=1 δj n i=1 δiNi. 35 / 47
  • 38. Illustration des problèmes causés par la censure Exemple naif : M ∼ E(λ), et D ∼ E(µ), avec M et D indépendants. Dans ce cas, ˜m1 tend vers E [inf(M, D)] = 1 λ + µ . De plus, ˜m2 tend vers E [δM] E[δ] = 1 λ + µ Dans les deux cas, on sous-estime la valeur moyenne de M. Solution : corriger la présence de la censure en essayant de compenser cette sous-estimation. 36 / 47
  • 39. Premier ingrédient : l’estimateur de Kaplan-Meier On suppose que T est indépendant de C. On définit : ˆF(t) = 1 − Yi≤t  1 − δi n j=1 1Yj≥Yi   . Cet estimateur converge vers F(t) = P(T ≤ t). Ecriture additive : ˆF(t) = n i=1 Wi,n1Yi≤t , avec Wi,n = δi n[1 − ˆG(Yi−)] , et ˆG(t) estimateur de Kaplan-Meier de G(t) = P(C ≤ t). 37 / 47
  • 40. Comment utiliser Kaplan-Meier pour estimer une moyenne ? Supposons que je veuille estimer E[T]. On peut estimer E[T] par l’espérance de la distribution associée Ã˘a ˆF, i.e. td ˆF(t) = n i=1 Wi,nYi, i.e. une somme pondérée des Yi observés. Plus généralement, θ = E[φ(T)] s’estime par n i=1 Wi,nφ(Yi). 38 / 47
  • 41. Pourquoi cela fonctionne ? On rappelle que Wi,n = 1 n δi 1−ˆG(Yi−) . Wi,n est "proche" de W∗ i,n = 1 n δi 1−G(Yi−) . De plus, n i=1 W∗ i,nφ(Yi) = 1 n n i=1 δiφ(Yi) 1 − G(Yi−) →p.s. E δφ(Y) 1 − G(Y−) . Proposition Pour toute fonction φ telle que E[φ(T)] < ∞, E δφ(Y) 1 − G(Y−) = E[φ(T)]. 39 / 47
  • 42. 2ème ingrédient : Inverse Prob. of Censoring Weights Dans l’exemple qui nous intéresse, on va vouloir déterminer des quantités du type E[φ(T, M, X)]. Proposition On suppose que : C indépendant de (T, M, X); {N < M} = {T < C}. Alors E δφ(Y, N, X) n(1 − G(Y−)) = E[φ(T, M, X)], et E δφ(Y, N, X) n(1 − G(Y−)) |X = E[φ(T, M, X)|X]. 40 / 47
  • 43. 2ème ingrédient : Inverse Prob. of Censoring Weights Donc pour estimer une quantité du type E[φ(T, M, X)], on utilisera 1 n n i=1 δiφ(Yi, Ni, Xi) 1 − ˆG(Yi−) = n i=1 Wi,nφ(Yi, Ni, Xi). Donc pour estimer, par exemple, des quantités du type E (φ(Ti, Mi) − a)2 1Xi∈X , où X est un ensemble, on calculera n i=1 Wi,n(φ(Yi, Ni) − a)2 1Xi∈X. 41 / 47
  • 44. Décomposition de notre problème On rappelle qu’on cherche à estimer E [M | δ = 0, X, Y, N] . On a E [M|δ = 0, X = x, Y = y, N = n] = E [M|M ≥ n, T ≥ y, X = x] = E M1M≥n,T≥y|X = x P(T ≥ y, M ≥ n|X = x) . On définit φ1(t, m) = m1m≥n,T≥y, et φ2(t, m) = 1t≥y,m≥n. On doit donc estimer E[φ1(T, M)|X = x], et E[φ2(T, M)|X = x]. 42 / 47
  • 45. Quelques idées d’application pratique en assurance Ce type de données est largement utilisé en assurance (vie et IARD). Nous pourrions par exemple utiliser ces techniques pour... Provisionnement ligne à ligne et estimation du montant final du sinistre (en évitant les hyp. de type Merz & Wuthrich). Détermination de plafond de garantie. Risque incapacité - invalidité. Portefeuille de plusieurs entités. Evaluation de mesure de risque (quantile) à des fins règlementaires. 43 / 47
  • 46. Conclusion Pourquoi cette technique est-elle intéressante pour le big data ? → Algorithme naturellement adapté à la gestion de grandes bases de données ; → Technique non-paramétrique : pas d’hypothèses sur le lien entre quantité d’intérêt et facteurs de risque ; → Simplicité de l’estimateur final : faible dimension, interprétation de l’arbre et visionnage des résultats ; → Consistance de la procédure théoriquement prouvée ; → Classement naturel du pouvoir discriminant des covariables ; 44 / 47
  • 47. → Multiples extensions possibles en travaillant sur les propriétés de la fonction de perte. Quels en sont les points faibles ? → Hypothèses sous-jacentes pouvant parfois être remises en cause ; → Manque de résultats théoriques (étape élagage) dans des cas moins classiques ; → Instabilité : nécessité de la compléter avec des techniques de type forêts aléatoires. 45 / 47
  • 48. Bibliographie R. Bellina. Méthodes d’apprentissage appliquées à la tarification non-vie. Mémoire d’actuariat, 2014. L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone. Classification and Regression Trees. Chapman and Hall, 1984. Servane Gey and Elodie Nedelec. Model selection for cart regression trees. IEEE Transactions on Information Theory, 51(2) :658–670, 2005. Hemant Ishwaran and Udaya B. Kogalur. Consistency of random survival forests. Statistics and Probability Letters, 80(13-14) :1056–1064, 2010. Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan. Tree-based multivariate regression and density estimation with right-censored data. JMVA, 90(1) :154–177, 2004. 46 / 47
  • 49. Nicolai Meinshausen. Quantile regression forests. Journal of Machine Learning Research, 7 :983–999, 2006. Nicolai Meinshausen. Forest garrote. Electronic Journal of Statistics, 3 :1288–1304, 2009. X. Milhaud, V. Maume-Deschamps, and S. Loisel. Surrender triggers in life insurance : what main features affect the surrender behavior in a classical economic context ? Bulletin Français d’Actuariat, 22 :5–48, 2011. Walter Olbricht. Tree-based methods : a useful tool for life insurance. European Actuarial Journal, 2(1) :129–147, 2012. A. Paglia and M.V. Phelippe-Guinvarc’h. Tarification des risques en assurance non-vie, une approche par modèle d’apprentissage statistique. Bulletin français d’Actuariat, 11(22) :49–81, 2011. 47 / 47