SlideShare ist ein Scribd-Unternehmen logo
1 von 113
Downloaden Sie, um offline zu lesen
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Statistique de l’assurance, STT 6705
Statistique de l’assurance II
Arthur Charpentier
Universit´e Rennes 1 & Universit´e de Montr´eal
arthur.charpentier@univ-rennes1.fr ou ou charpentier@DMS.UMontreal.ca
http ://freakonometrics.blog.free.fr/
8 septembre 2010
1
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les donn´ees en tarification
une base de souscription ...
> contratUdM <- read.table("http://perso.univ-rennes1.fr/arthur.
+ charpentier/contratUdM.txt",header=TRUE,sep=";")
> head(contratUdM)
nocontrat exposition zone puissance agevehicule ageconducteur bonus
19 44 0.74 A 6 2 55 50
73 150 0.11 C 15 0 51 50
80 163 0.05 E 5 0 53 50
87 179 0.03 B 6 1 47 53
marque carburant densite region
19 12 E 94 13
73 12 D 22 13
80 12 E 93 13
87 2 E 91 13
2
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les donn´ees en tarification
... et une base de sinistres,
> sinistreUdM <- read.table("http://perso.univ-rennes1.fr/arthur.
+ charpentier/sinistreUdM.txt",header=TRUE,sep=";")
> head(sinistreUdM)
no nocontrat garantie cout
33 33 4083980 2DO 566.84
35 35 4012009 2DO 683.90
37 37 1011804 4BG 54.70
69 69 4002627 1RC 1204.00
98 98 4013625 2DO 33.49
99 99 4013625 1RC 0.00
On se limitera aux sinistres responsabilit´e civile
> sinistres=sinistreUdM[sinistreUdM$garantie=="1RC",]
> nrow(sinistres)
3
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
[1] 2697
On calcule le nombre de sinistres par contrat,
> T=table(sinistres$nocontrat)
> T1=as.numeric(names(T))
> T2=as.numeric(T)
> nombre1 = data.frame(nocontrat=T1,nbre=T2)
> I = contratUdM$nocontrat%in%T1
> T1=contratUdM$nocontrat[I==FALSE]
> nombre2 = data.frame(nocontrat=T1,nbre=0)
> nombre=rbind(nombre1,nombre2)
> table(nombre$nbre)
0 1 2 3 4 16
47510 2313 162 12 2 1
On peut alors fusionner les bases pour faire de l’´econom´etrie,
4
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> base = merge(contratUdM,nombre)
> head(base)
nocontrat exposition zone puissance agevehicule ageconducteur bonus
1 27 0.87 C 7 0 56 50
2 115 0.72 D 5 0 45 50
3 121 0.05 C 6 0 37 55
4 142 0.90 C 10 10 42 50
5 155 0.12 C 7 0 59 50
6 186 0.83 C 5 0 75 50
marque carburant densite region nbre
1 12 D 93 13 0
2 12 E 54 13 0
3 12 D 11 13 0
4 12 D 93 13 0
5 12 E 73 13 0
6 12 E 42 13 0
5
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les donn´ees
– densite est la densit´e de population dans la commune o`u habite le conducteur
principal,
– zone : zone A B C D E ou F, selon la densit´e en nombre d’habitants par km2
de la commune de r´esidence
– marque : marque du v´ehicule selon la table suivante (1 Renault Nissan ; 2
Peugeot Citron ; 3 Volkswagen Audi Skoda Seat ; 4 Opel GM ; 5 Ford ; 6 Fiat ;
10 Mercedes Chrysler ; 11 BMW Mini ;12 Autres japonaises et cor´eennes ; 13
Autres europ´eennes ; 14 Autres marques et marques inconnues)
– region : code `a 2 chiffres donnant les 22 r´egions franaises (code INSEE)
– ageconducteur : ge du conducteur principal en d´ebut de la couverture,
– agevehicule : ge du v´ehicule en d´ebut de p´eriode.
On supposera le mod`ele lin´eaire connu (sinon quelques rappels) avant de passer
aux glm.
6
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les mod`eles lin´eaires g´en´eralis´es
Consid´erons une densit´e de la forme suivante, dite exponentielle,
f(y|θ, φ) = exp
yθ − b(θ)
φ
+ c(y, φ)
La loi normale N(µ, σ2
) appartient `a cette famille, avec θ = µ, φ = σ2
,
b(θ) = θ2
/2 et
c(y, φ) = −
1
2
y2
σ2
+ log(2πσ2
) , y ∈ R,
La loi de Poisson P(λ) appartient `a cette famille,
f(y|λ) = exp(−λ)
λy
y!
= exp y log λ − λ − log y! , y ∈ N,
avec θ = log λ, φ = 1, b(θ) = exp θ = λ et c(y, φ) = − log y!.
La loi binomiale B(n, p) correspond au cas θ = log{p/(1 − p)},
b(θ) = n log(1 + exp(θ)), φ = 1 et c(zy, φ) = log
n
y
.
7
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
La loi Gamma est ´egalement dans la famille exponentielle,
f(y|µ, ν) =
1
Γ(ν)
ν
µ
ν
yν−1
exp −
ν
µ
y , y ∈ R+,
avec θ = −
1
µ
, b(θ) = − log(−θ) et φ = ν−1
.
Pour une variable al´eatoire Y dont la densit´e est de la forme exponentielle, alors
E(Y ) = b (θ) et Var(Y ) = b (θ)φ
de telle sorte que la variance de Y apparaˆıt comme le produit de deux fonctions,
– la premi`ere, b (θ) , qui d´epend uniquement du param`etre θ est appel´ee
fonction variance
– la seconde est ind´ependante de θ et d´epend uniquement de φ
En notant µ = E(Y ), on voit que le param`etre θ est li´e `a la moyenne µ. La
fonction variance peut donc ˆetre d´efinie en fonction de µ , nous la noterons
dor´enavant V (µ).
Dans le cas de la loi normale, V (µ) = 1, dans le cas de la loi de Poisson,
8
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
V (µ) = µ alors que dans le cas de la loi Gamma, V (µ) = µ2
.
La fonction variance caract´erise compl`etement la loi de la famille exponentielle.
Chacune des lois de la famille exponentielle poss`ede une fonction de lien
sp´ecifique, dite fonction de lien canonique, permettant de relier l’esp´erance µ au
param`etre naturel θ. Le lien canonique est tel que g (µ) = θ. Or, µ = b (θ) donc
g (·) = b (·)−1
.
Dans le cas de la loi normale, θ = µ (link=’identity’), dans le cas de la loi de
Poisson, θ = log(µ) (link=’log’) alors que dans le cas de la loi Gamma, θ = 1/µ
(link=’inverse’).
9
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Mod`eles lin´eaires g´en´eralis´ees avec R
Sous R, la syntaxe des mod`eles lin´eaires g´en´eralis´ees est :
> glm(Y~X1+X2+X3+offset(Z), family =quasipoisson(link=’log’),
+ data, weights)
ce qui correspond `a un mod`ele
E(Yi|Xi) = µi = g−1
Xiβ + ξi et Var(Yi|Xi) =
φV (µi)
ωi
o`u
– Y est le vecteur des Yi que l’on cherche `a mod´eliser (le nombre de sinistres de la
police i par exemple),
– X1, X2 et X3 sont les variables explicatives qui peuvent ˆetre qualitatives (on
parlera de facteurs) ou quantitatives,
– link=’log’ indique que g est la fonction log,
– family=poisson revient `a choisir une fonction variance V identit´e, et
family=quasipoisson revient `a choisir une fonction variance V identit´e avec
10
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
un param`etre de dispersion φ `a estimer,
– offset correspond `a la variable ξi,
– weights le vecteur ωi.
Cette fonction glm calcule alors des estimateurs de β et φ, entre autres, car
comme pour le mod`ele lin´eaire gaussien (la fonction lm) on peut obtenir des
pr´edictions, des erreurs, ainsi qu’un grand nombre d’indicateurs relatifs `a la
qualit´e de l’ajustement.
On supposera que, conditionnellement aux variables explicatives X, les variables
Y sont ind´ependantes, et identiquement distribu´ees. En particulier, on partira
d’un mod`ele de la forme
f(yi|θi, φ) = exp
yiθi − b(θi)
φ
+ c(yi, φ)
o`u l’on supposera que g(µi) = ηi = Xiβ pour une fonction de lien g(·) donn´ee
(on gardera ainsi un score lin´eaire en les variables explicatives), et o`u, pour
rappel, µi = E(Yi|Xi).
11
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Mod`eles lin´eaires g´en´eralis´ees avec R
La fonction lien est la fonction qui permet de lier les variables explicatives X `a la
pr´ediction µ, alors que la loi apparaˆıt via la fonction variance, sur la forme de
l’h´et´erosc´edasticit´e et l’incertitude associ´ee `a la pr´ediction. Le petit exemple
ci-dessous permet de visualiser sur un petit de donn´ees simple six r´egressions
GLM diff´erentes,
> x <- c(1,2,3,4,5)
> y <- c(1,2,4,2,6)
> base <- data.frame(x,y)
> plot(x,y,pch=19,cex=1.5)
> regNId <- glm(y~x,family=gaussian(link="identity"))
> regNlog <- glm(y~x,family=gaussian(link="log"))
> regPId <- glm(y~x,family=poisson(link="identity"))
> regPlog <- glm(y~x,family=poisson(link="log"))
> regGId <- glm(y~x,family=Gamma(link="identity"))
> regGlog <- glm(y~x,family=Gamma(link="log"))
12
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> plot(x,y,pch=19,cex=1.5)
> abs <- seq(0,7,by=.1)
> yp <- predict(regNId,newdata=data.frame(x=abs),se.fit = TRUE,
+ type="response")
> lines(abs,yp$fit,lwd=2)
> lines(abs,yp$fit+2*yp$se.fit,lty=2)
> lines(abs,yp$fit-2*yp$se.fit,lty=2)
13
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
1 2 3 4 5
123456
x
y
q
q
q
q
q
Modèle Gaussien lien identité
q
q
q
q
q
1 2 3 4 5
123456
x
y
q
q
q
q
q
Modèle Poisson lien identité
q
q
q
q
q
1 2 3 4 5
123456
x
y
q
q
q
q
q
Modèle Gamma lien identité
q
q
q
q
q
1 2 3 4 5
123456
x
y
q
q
q
q
q
Modèle Gaussien lien logarithmique
q
q
q
q
q
1 2 3 4 5
123456
x
y
q
q
q
q
q
Modèle Poisson lien logarithmique
q
q
q
q
q
1 2 3 4 5
123456
x
y
q
q
q
q
q
Modèle Gamma lien logarithmique
14
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Lire une sortie de r´egression
> reg1 <- glm(nombre~ageconducteur,data=nombre,family=
+ poisson(link="log"),offset=log(exposition))
> summary(reg1)
Call:
glm(formula = nombre ~ ageconducteur, family = poisson(link = "log"),
data = nombre, offset = log(exposition))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.5685 -0.3527 -0.2611 -0.1418 13.3247
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.1369116 0.0207723 -102.87 <2e-16 ***
15
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
ageconducteur -0.0101679 0.0004397 -23.12 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 171919 on 678012 degrees of freedom
Residual deviance: 171373 on 678011 degrees of freedom
AIC: 222190
Number of Fisher Scoring iterations: 6
On peut aussi transformer la variable continue en une variable discr`ete (en
classes d’ˆage),
> seuils = c(17,21,25,30,45,55,65,80,120)
> nombre$agecut <- cut(nombre$ageconducteur,breaks=seuils)
> reg2 <- glm(nombre~agecut ,data=nombre,family=
+ poisson(link="log"),offset=log(exposition))
16
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> summary(reg2)
Call:
glm(formula = nombre ~ agecut, family = poisson(link = "log"),
data = nombre, offset = log(exposition))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.6566 -0.3522 -0.2601 -0.1413 13.2465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.55416 0.03277 -47.42 <2e-16 ***
agecut(21,25] -0.52724 0.04186 -12.60 <2e-16 ***
agecut(25,30] -0.95181 0.03865 -24.62 <2e-16 ***
agecut(30,45] -1.08673 0.03441 -31.58 <2e-16 ***
agecut(45,55] -1.04649 0.03500 -29.90 <2e-16 ***
17
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
agecut(55,65] -1.19279 0.03709 -32.16 <2e-16 ***
agecut(65,80] -1.27536 0.03876 -32.90 <2e-16 ***
agecut(80,120] -1.24017 0.06743 -18.39 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 171919 on 678012 degrees of freedom
Residual deviance: 170589 on 678005 degrees of freedom
AIC: 221417
Number of Fisher Scoring iterations: 6
Au lieu de comparer `a la classe des jeunes conducteurs, on peut aussi comparer
au conducteur moyen.
> seuils = c(17,21,25,30,45,55,65,80,120)
> reg2 = glm(nombre~0+cut(ageconducteur,breaks=seuils),
18
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
+ data=nombre,family=poisson(link="log"),offset=log(exposition))
> reg2b <- glm(nombre~1,data=nombre,family=poisson(link="log"),
+ offset=log(exposition))
> moyenne <- exp(coefficients(reg2b))
> reg2c <- glm(nombre~0+cut(ageconducteur,breaks=seuils),
+ data=nombre,family=poisson(link="log"),offset=log(exposition))
> exp(coefficients(reg2c))/moyenne
19
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les r´esidus d’un mod`ele lin´eaire g´en´eralis´e
Les r´esidus de gauche sont les r´esidus bruts, c’est `a dire la diff´erence entre Yi et
Yi. A droite, ce sont les r´esidus de Pearson, i.e.
εi =
Yi − Yi
V (Yi)
o`u V est la fonction variance.
> RNIr <- residuals(regNId,type="response")
> RNIp <- residuals(regNId,type="pearson")
20
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q q
q
q
q
1 2 3 4 5
−2−1012
Résidus(bruts)
q Gaussien, identité
Poisson, identité
Gamma, identité
Gaussien, log
Poisson, log
Gamma, log
q q
q
q
q
1 2 3 4 5
−2−1012
RésidusdePearson
q Gaussien, identité
Poisson, identité
Gamma, identité
Gaussien, log
Poisson, log
Gamma, log
21
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
La d´eviance d’un mod`ele lin´eaire g´en´eralis´e
Rappelons que l’outil de base pour quantifier la qualit´e de la r´egression est la
d´eviance
D(β) = −2[log L(β|Y ) − log L (Y )]
o`u log L(β|Y ) d´esigne la log-vraisemblance du mod`ele, et o`u log L (Y ) est la
log-vraisemblance satur´ee (obtenue avec un mod`ele parfait).
> logLik(regPlog)
’log Lik.’ -7.955383 (df=2)
> deviance(regPlog)
[1] 1.760214
> AIC(regPlog)
[1] 19.91077
> -2*logLik(regPlog)+2*2
[1] 19.91077
attr(,"df")
22
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V



AIC : −2 log L(β) + 2k
BIC : −2 log L(β) + k log(n)
> cat("AIC (Poisson-log) =",extractAIC(regPlog,k=2)[2])
AIC (Poisson-log) = 19.91077
> cat("BIC (Poisson-log) =",extractAIC(regPlog,k=log(nrow(base)))[2])
BIC (Poisson-log) = 19.12964
On peut comparer tous les mod`eles via :
> AIC(regNId,regNlog,regPId,regPlog,regGId,regGlog)
df AIC
regNId 3 21.10099
regNlog 3 20.63884
regPId 2 19.86546
regPlog 2 19.91077
regGId 3 18.01344
regGlog 3 18.86736
23
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Du lin´eaire au nonlin´eaire
Le but de la tarification (et plus g´en´eralement de toute pr´ediction) est d’estimer
une esp´erance conditionnelle,
E(S|X = X) = ϕ(X) o`u S = ϕ(X1, · · · , Xk) + ε
o`u ϕ : Rk
→ R. Supposer un mod`ele lin´eaire est problement une hypoth`ese trop
forte.
Mais on se doute qu’estimer une fonction d´efinie sur Rk
serait trop complexe
num´eriquement. Un bon compromis est propos´e par les mod`eles dit additifs.
Quelques rappels) sont donn´es sur les mod`eles nonlin´eaires (nonparam´etriques).
On peut regarder l’impact de la densit´e de population dans la commune de
l’assur´e sur la fr´equence de sinistre.
Les points noirs correspondent `a la fr´equence moyenne empirique observ´ee pour
diff´erents niveaux de densit´e
> library(mgcv)
24
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> reg.gam <- gam(nombre~s(densite),offset=log(exposition),
+ family=poisson(link="log"),data=sinistres)
> dens.x <- seq(0,30000,100)
> pred <- predict(reg.gam,newdata=data.frame(densite=dens.x,expo=1),
+ se=TRUE,type="response")
> plot(dens,pred$fit,col="blue",lwd=2)
> lines(dens,pred$fit+2*N1RC0as1$se.fit,col="red",lty=2)
> lines(dens,pred$fit-2*N1RC0as1$se.fit,col="red",lty=2)
25
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
qqq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
qqq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
qqqq
q
qqqqqqqqqqqqq
q
qqqqqqqqqq
q
q
q
qqqq
q
q
q
qqqqqqqqq
q
qq
q
qqq
q
q
q
q
q
qqqqq
q
qqqqqqqqqq
q
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
q
qqqqq
q
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
0 5000 10000 15000 20000 25000 30000
0.000.050.100.15
Densité de population
Fréquenceannuelledesinistre
Les mod`eles additifs ont ´et´e introduits par Stone (1985) qui notait qu’estimer
une fonction ϕ : Rk
→ R serait num´eriquement trop complexe (et probablement
26
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
peu robuste). On cherche ici une d´ecomposition de la forme
S = ϕ1(X1) + · · · + ϕk(Xk) + ε
o`u les fonctions ϕj : R → R sont suppos´ees suffisament r´eguli`eres. En fait, ce
mod`ele n’est valable que pour les variables Xj continues, les variables
qualitatives continuant - g´en´eralement - `a intervenir sous une forme lin´eaire.
Autrement dit, un mod`ele additif serait
S = ϕ1(X1) + β2X2 + ε
o`u X1 est l’ge du conducteur, et X2 le carburant du v´ehicule. Notons qu’il serait
aussi possible de consid´erer un mod`ele de la forme
S =



ϕ1,E(X1) + ε si X2 = essence
ϕ1,D(X1) + ε si X2 = diesel
Ces deux types de mod`eles sont estim´es ci-dessous.
> library(mgcv)
27
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> reg <- gam(nombre~s(ageconducteur)+offset(exposition),
+ data=sinistres,family=poisson)
> age <- seq(17,100)
> AGE <- data.frame(ageconducteur=age,exposition=1)
> Y <- predict(reg,AGE,type="response")
> reg = gam(nombre~s(ageconducteur)+carburant+offset(exposition),
+ data=sinistres,family=poisson)
> AGE <- data.frame(ageconducteur=age,exposition=1,carburant="E")
> YE <- predict(reg,AGE,type="response")
> AGE <- data.frame(ageconducteur=age,exposition=1,carburant="D")
> YD <- predict(reg,AGE,type="response")
> plot(age,Y,type=’l’)
> lines(age,YD,col=’blue’)
> lines(age,YE,col=’red’)
Pour le premier type de mod`ele, ou le code suivant pour le second,
> library(mgcv)
28
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> reg <- gam(nombre~s(ageconducteur)+offset(exposition),
+ data=sinistres,family=poisson)
> age <- seq(17,100)
> AGE <- data.frame(ageconducteur=age,exposition=1)
> Y <- predict(reg,AGE,type="response")
> reg <- gam(nombre~s(ageconducteur)+offset(exposition),
+ data=sinistres[sinistres$carburant=="E",],family=poisson)
> YE <- predict(reg,AGE,type="response")
> reg <- gam(nombre~s(ageconducteur)+offset(exposition),
+ data=sinistres[sinistres$carburant=="D",],family=poisson)
> YD=predict(reg,AGE,type="response")
> plot(age,Y,type=’l’)
> lines(age,YD,col=’blue’)
> lines(age,YE,col=’red’)
29
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 40 60 80 100
0.000.050.100.150.20
Age du conducteur principal
Fréquenceannuelledesinistres
30
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 40 60 80 100
0.000.050.100.150.20
Age du conducteur principal
Fréquenceannuelledesinistres
31
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Du lin´eaire au nonlin´eaire
Une autre possibilit´e est ´egalement d’uiliser la fonction glm avec la
library(splines). On peut alors changer facilement le nombre de degr´es de
libert´e, i.e. le param`etre de lissage de la transformation,
> library(splines)
> reg3 <- glm(nombre~bs(ageconducteur,df=3)+offset(exposition),
+ data=nombre,family=poisson)
On peut s’autoriser ´eventuellement encore un peu plus de souplesse en prenant
en compte le couple constitu´e de deux variables continues,
S = ϕ(X1, X2) + ε
o`u ϕ : R2
→ R, au lieu d’un mod`ele GAM classique,
S = ϕ1(X1) + ϕ2(X2) + ε
Cette option est propos´ee par exemple dans library(mgcv)
32
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
âge conducteur
âgeduvéhicule
fréquence
espérée
33
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 30 40 50 60 70 80
0510152025
âge conducteur
âgeduvéhicule
0.05
0.06
0.07
0.08
34
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 30 40 50 60 70 80
0510152025
âge conducteur
âgeduvéhicule
0.05
0.06
0.06
0.07
0.07
0.08
0.08
0.1
0.15
0.2
35
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 30 40 50 60 70 80
0510152025
âge conducteur
âgeduvéhicule
0.05
0.06
0.06
0.07
0.08
0.08
0.1
0.15
0.2
36
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 30 40 50 60 70 80
0510152025
âge conducteur
âgeduvéhicule
37
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les r´egression logit et probit
La r´egression logistique suppose que si π(Y |X) = P(Y = 1|X), alors
π(Y |X)
1 − π(Y |X)
=
P(Y = 1|X)
P(Y = 0|X)
= exp (Xβ)
Dans le cas du mod`ele probit, on suppose qu’il existe un mod`ele latent Gaussien,
tel que
Yi = Xiβ + εi
et que Yi = 0 si Yi < s, et Yi = 1 si Yi > s, et εi ∼ N(0, σ2
).
La synthaxe de ces deux mod`eles est tr`es proche, car seule la fonction de lien
change.
> sinistres$touche <- sinistres$nombre>0
> reglogit <- glm(touche~ageconducteur,
+ data=sinistres,family=binomial(link="logit"))
> regprobit <- glm(touche~ageconducteur,
+ data=sinistres,family=binomial(link="probit"))
38
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> age <- seq(17,100)
> AGE <- data.frame(ageconducteur=age,exposition=1)
> Yl <- predict(reglogit,AGE,type="response")
> Yp <- predict(regprobit,AGE,type="response")
> plot(age,Yp-Yl,type="l")
> abline(h=0,lty=2)
On notera que ces deux mod`eles donnent des pr´edictions tr`es proches,
39
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 40 60 80 100
0.0340.0350.0360.0370.038
Age du conducteur principal
Probabilitéd'avoiraumoinsunaccident
20 40 60 80 100
−0.050.000.05
Age du conducteur principal
Différencerelative(%)
40
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les arbres de r´egression
Les arbres de r´egression sont des outils nonparam´etriques de segmentation. Dans
un arbre de d´ecision, on cherche `a d´etecter des crit`eres permettant de r´epartir les
individus en 2 classes, caract´eris´ees par Y = 0 et Y = 1. On commence par
choisir la variable, qui, par ses modalit´es, s´epare le mieux les individus de
chacune des classes. On constitue alors un premier noeud. On r´eint`ere alors la
proc´edure sur chaque nouveau noeud. Dans la m´ethode CART (), on regarde
toutes les possibilit´es. On continue soit jusqu’`a ce qu’il ne reste plus qu’un seul.
individu dans chaque noeud, soit suivant un crit`ere d’arrˆet. Les crit`eres de
discrimination et de constitution des noeuds sont g´en´eralement les suivants,
– lorsque les variables explicatives Xj sont qualitatives, ou discr`etes, on utilise la
distance du χ2
(on parle d’arbre CHAID),
– en pr´esence de variables de tous types, on peut utiliser l’indice de Gini
(m´ethode CART),
– ou l’entropie (m´ethode C5.0),
Pour un varible continue, on distinguera {X1 ≤ s} et {X1 > s}. Pour une
41
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
variable qualitative, on distinguera {X1 = x} et {X1 = x}.
Pour chacune des variables, on regarde l’ensemble des classifications possibles.
Quelles que soient les variables, on d´efinit :
> seuilagecond <- unique(nombre$ageconducteur)
> seuilregion <- unique(nombre$region)
Pour les variables quantitatives, on distingue :
> k=5
> classe0 <- nombre$ageconducteur<=seuilagecod[k]
> classe1 <- nombre$ageconducteur>seuilagecod[k]
alors que pour les variables qualitatives,
> k=5
> classe0 <- nombre$region==seuilregion[k]
> classe1 <- nombre$region!=seuilregion[k]
Une fois constitu´ees les 2 classes, on calcule un des crit`eres possibles.
42
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Si on regarde la d´ecomposition obtenue sur le premier noeud, on observe que
pour les conducteurs de moins de 25 ans, la probabilit´e d’avoir un accident est de
10%, contre 5% pour les conducteurs de plus de 25 ans. Dans le cas des r´egions,
avec une distance du chi-deux, on cherche `a minimiser
χ2
= −
classe∈{0,1} y∈{0,1}
[nclasse,y − n⊥
classe,y]2
n⊥
classe,y
o`u nclasse,y d´esigne le nombre de personnes dans la classe consid´er´ee pour
lesquelles la variable Y prend la modalit´e y.
> base=sinistres[sinistres$ageconducteur<=85,]
> seuil=sort(unique(base$ageconducteur))
> TABLE=rep(NA,length(seuil))
> names(TABLE)=seuil
> for(k in 1:(length(seuil)-1)){
+ classe0 <- base$ageconducteur<=seuil[k]
+ classe1 <- base$ageconducteur>seuil[k]
+ M=matrix(
43
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
+ rbind(c(sum(base$touche[classe0]==FALSE),
+ sum(base$touche[classe0]==TRUE)),
+ c(sum(base$touche[classe1]==FALSE),
+ sum(base$touche[classe1]==TRUE))),2,2)
+ TABLE[k]=-chisq.test(M)$statistic
}
> which.min(TABLE)
23
6
> plot(seuil,TABLE)
Autrement dit le meilleur d´ecoupage possible est (17,23] et (23,85]
44
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
20 30 40 50 60 70 80
−600−500−400−300−200−1000
Age du conducteur
Distanceduchi−deux
q
A la seconde ´etape, on cherche une autre partition, en consid´erant la pr´ec´edente
comme acquise,
> k1 = which(seuil==23)
45
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> for(k in 1:(length(seuil)-1)){
+ if(k!=k1){
+ classe0 <- (base$ageconducteur<=seuil[k])&(base$ageconducteur<=seuil[k1
+ classe2 <- (base$ageconducteur>seuil[k])&(base$ageconducteur>seuil[k1])
+ classe1 <- 1-classe0-classe2
+ M=matrix(
+ rbind(c(sum(base$touche[classe0]==FALSE),
+ sum(base$touche[classe0]==TRUE)),
+ c(sum(base$touche[classe1]==FALSE),
+ sum(base$touche[classe1]==TRUE)),
+ c(sum(base$touche[classe2]==FALSE),
+ sum(base$touche[classe2]==TRUE))),3,2)
+ TABLE[k]=-chisq.test(M)$statistic
+ }}
> which.min(TABLE)
84
67
46
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> plot(seuil,TABLE)
q q q q q q q q q q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q q
20 30 40 50 60 70 80
−40000−30000−20000−100000
Age du conducteur
Distanceduchi−deux
47
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Parmi les autres crit`eres, on peut aussi utiliser la distance de Gini,
G = −
classe∈{0,1}
nclasse
n
y∈{0,1}
nclasse,y
nclasse
1 −
nclasse,y
nclasse
ou l’entropie,
E = −
classe∈{0,1}
nclasse
n
y∈{0,1}
nclasse,y
nclasse
log
nclasse,y
nclasse
Les arbres permettent une lecture relativement ais´ee pour l’utilisateur, et
reposent sur des techniques nonparam´etriques. Aussi, contrairement aux
m´ethodes GLM que nous verrons par la suite, le choix des lois ou la recherche
d’´eventuelles nonlin´earit´es n’intervient pas ici. Les arbres sont ´egalement peu
sensibles aux outliers. Mais les arbres, de par leur construction, posent aussi
certains soucis. En particulier, on ne peut pas revenir en arri`ere, et le
s´equencement est tr`es important.
Cette ´etude sera particuli`erement int´eressante pour ´ecrˆeter les gros sinistres.
48
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
On supposera (arbitrairement) que les gros sinistres sont ceux dont le montant
d´epasse 50 000 euros.
> library(tree)
> sinistres$GS <- sinistres$cout>50000
> ARBRE <- tree(GS ~ puissance + zone + agevehicule ,
+ data=sinistres,split="gini")
Cet arbre ´etant manifestement trop ´etendu, on peut limiter en demandant `a
avoir au moins 5 000 assur´e par branche,
> ARBRE <- tree(GS ~ puissance + zone + agevehicule ,
+ data=sinistres,split="gini",minsize = 5000)
> ARBRE
> ARBRE
node), split, n, deviance, yval
* denotes terminal node
1) root 26444 87.710 0.003328
49
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
2) zone: B,C,D,E,F 23080 68.790 0.002990
4) puissance < 5.5 8028 17.960 0.002242
8) zone: B,D,F 3442 3.995 0.001162 *
9) zone: C,E 4586 13.960 0.003053 *
5) puissance > 5.5 15052 50.830 0.003388
10) zone: B,C,E 10372 30.910 0.002989
20) agevehicule < 10.5 7541 17.960 0.002387
40) puissance < 7.5 5274 14.960 0.002844
80) agevehicule < 2.5 1291 5.972 0.004648 *
81) agevehicule > 2.5 3983 8.980 0.002260 *
41) puissance > 7.5 2267 2.996 0.001323 *
21) agevehicule > 10.5 2831 12.940 0.004592 *
11) zone: D,F 4680 19.910 0.004274 *
3) zone: A 3364 18.890 0.005648 *
On note qu’en fonction de la zone, de la puissance du v´ehicule et de l’anciennet´e
du v´ehicule, on peut d´eterminer avec une bonne assurance la probabilit´e d’avoir
50
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
un tr`es gros sinistre. Par exemple, pour les personnes n’habitant pas un endroit
trop dense (les zones les plus denses correspondant `a zone=A), en particulier les
zones B, D et E, et si la puissance n’est pas trop ´elev´ee, puissance<5.5 la
probabilit´e d’avoir un tr`es gros sinistres est de l’ordre de 1/1000. La probabilit´e
sera 4 fois plus grande si la le v´ehicule est puissant (puissance>5.5) et ancien,
(agevehicule>10.5). Dans une zone dense, la probabilit´e sera plus de 5 fois plus
grande (quelles que soient les autres variables).
Si on trace l’arbre, on obtient le dessin de la Figure suivante
> plot(ARBRE)
> text(ARBRE,cex=.9,col="blue")
51
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
|
zone:bcdef
puissance < 5.5
zone:bdf zone:bce
agevehicule < 10.5
puissance < 7.5
agevehicule < 2.5
0.001162 0.003053
0.004648 0.002260
0.001323
0.004592
0.004274
0.005648
52
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les nombres de sinistres par police
Une hypoth`ese forte de la loi de Poisson est que E(N) = Var(N)
0
200
400
600
800
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Nombre de sinistres
Fréquence(racinecarrée)
Ajustement d’une loi de Poisson
q
q
q
q q q q q q q q q q q q q q
Si l’on compare les valeurs num´eriques, cela donne l’ajustement suivant (si l’on
53
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
estime le param`etre par la m´ethode des moments (ou par maximum de
vraisemblance, ML qui ici concident) :
> library(vcd)
> gof = goodfit(N,type= "poisson",method= "ML")
> gof
Observed and fitted values for poisson distribution
with parameters estimated by ‘ML’
count observed fitted
[1,] 653047 653047 652055
[2,] 23592 23592 25453
[3,] 1299 1299 496
[4,] 62 62 6
[5,] 5 5 0
[6,] 2 2 0
54
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
[7,] 1 1 0
[8,] 0 0 0
[9,] 1 1 0
[10,] 1 1 0
[11,] 0 0 0
[12,] 2 2 0
[13,] 0 0 0
[14,] 0 0 0
[15,] 0 0 0
[16,] 0 0 0
[17,] 1 1 0
La diff´erence entre la valeur pr´edite par le mod`ele Poissonnien et les valeurs
observ´ees nous poussent `a essayer de mieux comprendre l’h´et´erog´en´eit´e qui existe
au sein de nos donn´ees.
55
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les variables explicatives qualitatives
Les facteurs sont des codifications de variables qualitatives. Dans la base, nous
disposons de plusieurs variables qualitatives comme le carburant carburant cod´e
en E pour essence et D pour diesel, ou encore region pour la r´egion franaise.
56
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
5%
6%
7%
8%
9%
10%
57
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
R´egresser une variable quantitative (comme le nombre de sinistres) sur une
variable factorielle correspond `a faire une analyse de la variance.
> summary(lm(nombre~as.factor(region), data=nombre))
Call:
lm(formula = nombre ~ as.factor(region), data = nombre)
Residuals:
Min 1Q Median 3Q Max
-0.16115 -0.03477 -0.03477 -0.03477 15.96523
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.161150 0.002341 68.84 <2e-16 ***
as.factor(region)0 -0.091614 0.002763 -33.16 <2e-16 ***
as.factor(region)1 -0.102853 0.002819 -36.48 <2e-16 ***
58
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
as.factor(region)2 -0.113822 0.002815 -40.43 <2e-16 ***
as.factor(region)3 -0.112168 0.002796 -40.12 <2e-16 ***
as.factor(region)4 -0.112059 0.002760 -40.60 <2e-16 ***
as.factor(region)5 -0.115453 0.002737 -42.18 <2e-16 ***
as.factor(region)6 -0.116853 0.002711 -43.10 <2e-16 ***
as.factor(region)7 -0.119643 0.002688 -44.51 <2e-16 ***
as.factor(region)8 -0.131576 0.002798 -47.03 <2e-16 ***
as.factor(region)9 -0.129934 0.002818 -46.11 <2e-16 ***
as.factor(region)10 -0.133945 0.002804 -47.77 <2e-16 ***
as.factor(region)11 -0.134594 0.002818 -47.77 <2e-16 ***
as.factor(region)12 -0.134683 0.002858 -47.12 <2e-16 ***
as.factor(region)13 -0.126384 0.002362 -53.50 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.2067 on 677998 degrees of freedom
Multiple R-squared: 0.005699, Adjusted R-squared: 0.005678
59
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
F-statistic: 277.6 on 14 and 677998 DF, p-value: < 2.2e-16
ou directement, `a l’aide de la fonction aov,
> summary(aov(nombre~as.factor(region), data=nombre))
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(region) 14 166 11.8542 277.56 < 2.2e-16 ***
Residuals 677998 28956 0.0427
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
qui montre que la fr´equence de sinistres est sensiblement diff´erente d’une r´egion `a
l’autre.
60
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les variables quantitatives continues
Parmi les variables continues permettant d’expliquer la fr´equence de sinistres, on
retiendra l’ge du v´ehicule agevehicule, ou l’ge du conducteur ageconducteur.
On pourrait ´egalement utiliser le bonus observ´e `a la souscription du contrat
bonus. Cette variable est li´ee `a l’anciennet´e du permis et peut s’av´erer d´elicate `a
prendre en compte dans le mod`ele.
Calculons la fr´equence empirique oberv´ee en fonction de l’ge du conducteur
principal (fr´equence brute).
> age = seq(18,100,by=1)
> FREQ = rep(NA,length(age))
> for(k in 1:length(FREQ)){
+ I=nombre$ageconducteur==age[k]
+ X=nombre$nombre[I]
+ W=nombre$exposition[I]
+ FREQ[k]=weighted.mean(X/W,W)
+ }
61
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> plot(age,FREQ)
La moyenne empirique est ici corrig´ee par l’exposition. La fr´equence annuelle
devrait ˆetre le nombre de sinistres observ´e divis´e par l’exposition, et on met un
poids proportionnel `a l’exposition.
q
q
q
q
q
q
q
q q
q q q
q q q
q
q q q q q q q q q q
q q
q
q
q q q q q q q
q q q q q q
q q
q q
q
q q q
q q
q
q
q q
q q
q
q q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
20 40 60 80 100
0.000.050.100.150.200.250.30
Age du conducteur principal
Fréquenceannuelledesinistre
62
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
La m´ethode des marges
Bailey (1963) a propos´e une m´ethode relativement simple pour faire de la
tarification, appel´ee method of marginal totals.
Plaons nous dans le cas o`u les variables exog`ene X sont qualitatives, de telle
sorte que l’on puisse d´efinir des classes de risques. Alors
(N = n|X = X) = exp[−λX]
λn
X
n!
o`u λX = exp[−X β]
ce qui donne une log-vraisemblance de la forme
L(β|ni, Xi) =
n
i=1
[−λXi
] + ni log[λXi
] − log[ni!]
dont la condition du premier ordre donne les ´equations normales,
i,Xi=X
ni =
i,Xi=X
λX
pour toute classe de risque X.
63
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Si on regarde le cas o`u les classes de risque sont constitu´es par la puissance du
v´ehicule (d´efinie en tant que facteur),
> nombre$puissance=as.factor(nombre$puissance)
> marges=glm(nombre~puissance,
+ data=nombre,family=poisson(link="log"))
> summary(marges)
Call:
glm(formula = nombre ~ puissance, family = poisson(link = "log"),
data = nombre)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
puissance4 -3.35967 0.01580 -212.70 <2e-16 ***
puissance5 -3.19353 0.01397 -228.53 <2e-16 ***
puissance6 -3.16181 0.01259 -251.14 <2e-16 ***
64
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
puissance7 -3.25744 0.01337 -243.68 <2e-16 ***
puissance8 -3.34965 0.02463 -135.98 <2e-16 ***
puissance9 -3.20436 0.02862 -111.97 <2e-16 ***
puissance10 -3.24813 0.02865 -113.36 <2e-16 ***
puissance11 -3.24661 0.03742 -86.75 <2e-16 ***
puissance12 -3.32324 0.05812 -57.17 <2e-16 ***
puissance13 -3.14545 0.08482 -37.08 <2e-16 ***
puissance14 -3.14705 0.09950 -31.63 <2e-16 ***
puissance15 -3.41704 0.10206 -33.48 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1307478 on 678013 degrees of freedom
Residual deviance: 175926 on 678001 degrees of freedom
AIC: 226763
65
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Number of Fisher Scoring iterations: 6
> exp(marges$coefficients[6])
puissance9
0.04058501
Ce que nous dit la m´ethode des marges est que cette valeur pr´edite correspond `a
la moyenne empirique au sein de la classe de risque,
> I=(nombre$puissance=="9")
> mean(nombre$nombre[I])
[1] 0.04058501
L’id´ee est `a la fois simple et naturelle sur les mod`eles ne comportant que des
classes de risques (et pas de variable continue).
66
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Prise en compte de l’exposition et variable offset
Dans un mod`ele collectif, on a besoin de connaˆıtre le nombre de sinistres
survenus sur une police d’assurance. Dans l’optique de tarifer un contrat, il faut
pouvoir pr´edire le nombre de sinistres qui surviendront, en moyenne, l’ann´ee
suivante. Or si certains polices n’ont ´et´e observ´ees que 6 mois dans la base, il
convient de pond´erer la fr´equence de sinistre par l’exposition. Compte tenu de la
propri´et´e multiplicative d’un processus de Poisson, une police observ´ee 1 an aura,
en moyenne, 4 fois plus de sinistres qu’une police observ´ee 3 mois. Dans le cas
d’un mod`ele log-Poisson, il est alors naturel de supposer que
Y |X ∼ P(exp[Xβ + log(e)])
o`u e d´esigne l’exposition, mesur´ee en ann´ees.
Dans le cas des r´egressions de Poisson, cela peut se faire de la mani`ere suivante
> marges=glm(nombre~0+puissance+region,
+ data=nombre,family=poisson(link="log"),offset=log(exposition))
67
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
On peut noter que la r´egression pouvait s’´ecrire
Y |X ∼ P(exp[β0 + β1X1 + · · · + βkXk + e])
autrement dit on rajoute l’exposition dans la r´egression, tout en forant le
coefficient `a ˆetre ´egal `a 1. Ceci l´egitime ainsi la seconde ´ecriture possible
> marges=glm(nombre~0+puissance+region+offset(exposition),
+ data=nombre,family=poisson(link="log"))
Dans une r´egression poissonnienne, on suppose que dans une classe de risque (ou
conditionnellement aux variables explicatives), la fr´equence et l’esp´erance
concident, i.e. Var(Y |X) = E(Y |X). Dans l’exemple ci-dessous, on consid`ere le
nombre de sinistres RC. On consistue quelques classes tarifaires,
> moyenne = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant,
+ "puissance"")], mean)
> variance = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant,
+ "puissance"")], var)
> taille = tapply(BASENB$expo , BASENB[,c("agecond","carburant",
68
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
+ "puissance")], sum)
> plot(as.vector(moyenne),as.vector(variance))
> abline(a=0,b=1,col="red")
> abline(lm(as.vector(variance)~as.vector(moyenne)),col="blue",lty=2)
qq
qqqq
q qqqqqqqq qqqqqqqqqqqq qq qq qqqqqqqqqqqq qqqq qq
q
q qqq q
qq
qqq q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qqqq
qq
q qqqqqq qqq qq qqq q qq q qqqqqqqq
q
q
qq qqqq qqqq q qqq q qqq qqqq qq q qq
q q qqq
q
qq
q
q
q
qq
q
q
qqq
q
q
0.00 0.05 0.10 0.15
0.00.20.40.60.81.0
Moyenne par classe de risque
Variance
69
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
On peut commencer par faire un premier test, afin de voir si la pente de la
r´egression semble significativement diff´erente
> library(AER)
> (regression=lm(as.vector(variance)~as.vector(moyenne),
+ weight=as.vector(taille))
Call:
lm(formula = as.vector(variance) ~ as.vector(moyenne),
weights = as.vector(taille))
Coefficients:
(Intercept) as.vector(moyenne)
-0.003966 1.200848
> linear.hypothesis(regression,"as.vector(moyenne)=1")
Linear hypothesis test
70
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Hypothesis:
as.vector(moyenne) = 1
Model 1: as.vector(variance) ~ as.vector(moyenne)
Model 2: restricted model
Res.Df RSS Df Sum of Sq F Pr(>F)
1 1653 67.658
2 1654 70.460 -1 -2.8024 68.468 2.623e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Une mani`ere de prendre en compte la surdispersion peut ˆetre de prendre non une
loi de poisson, mais une loi quasipoisson, telle que Var(Y |X) = φE(Y |X), o`u
φ devient un param`etre `a estimer (tout comme la volatilit´e des r´esidus dans une
r´egression lin´eaire Gaussienne).
> regglm <- glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),
71
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
+ offset=log(expo), data=BASENB,family=quasipoisson)
> summary(regglm)
Call:
glm(formula = N1RC ~ as.factor(agecond) + carburant + as.factor(puissance
family = quasipoisson, data = BASENB[I, ], offset = log(expo))
(Dispersion parameter for quasipoisson family taken to be 1.583862)
> (summary(regglm)$dispersion)
[1] 1.583862
Pour tester la pr´esence d’une ´eventuelle surdispersion, on peut noter que la
surdispersion correspond `a une h´et´erog´en´eit´e r´esiduelle, c’est `a dire un effet
al´eatoire. Par exemple on peut supposer que
(Y |X = X, Z = z) ∼ P(exp[X β + z α])
72
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
de telle sorte que si u = z α − E(Z α|X = X), alors
(Y |X = X, Z = z) ∼ P(exp[X γ + u])
On a un mod`ele dit `a effets fixes, au sens o`u
(Y |X = X) ∼ P(exp[X γ + U])
o`u U = Z α − E(Z α|X = X). Par exemple, si on suppose que U ∼ γ(a, a), i.e.
d’esp´erance 1 et de variance σ2
= 1/a, alors
(Y |U = u) ∼ P(λu) o`u λ = exp[X γ]
de telle sorte que
E(Y |U = u) = Var(Y |U = u).
Mais si on regarde la loi nonconditionnelle, E(Y ) = λ alors que
Var(Y ) = Var(E[Y |U]) + EVar(Y |)) = λ + λ2
σ2
.
73
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
On peut alors proposer un test de la forme suivante : on suppose que
Var(Y |X = X) = E(Y |X = X) + τ · E(Y |X = X)2
on on cherche `a tester
H0 : τ = 0 contre τ > 0
Parmi les statistiques de test classique, on pourra consid´erer
T =
n
i=1[(Yi − µi)2
− Yi]
2
n
i=1 µ2
i
qui suit, sous H0, une loi normale centr´ee r´eduite. On utilise simplement
dispersiontest() de library(MASS).
> regpoisson=glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),o
+ data=BASENB,family=poisson)
> dispersiontest(regpoisson)
Overdispersion test
74
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
data: regpoisson
z = 6.4039, p-value = 7.572e-11
alternative hypothesis: true dispersion is greater than 1
sample estimates:
dispersion
1.069558
Une autre possibilit´e est de faire une r´egression binomiale n´egative (qui
permettra de prendre en compte de la surdispersion). Elle se fait `a l’aide de la
fonction glm.nb() de library(MASS).
> regbn <- glm.nb(N1RC~as.factor(agecond)+carburant+as.factor(puissance)
+ offset(log(expo)),data=BASENB[I,])
Remark 1. La loi Binomial N´egative est obtenue comme un m´elange
Poisson-Gamma. Dans library(gamlss) on parle de loi binomiale n´egative de
type I. Une loi de type II est obtenue en consid´erant un m´elange Poisson-inverse
Gaussienne.
75
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les mod`eles `a inflation de z´eros
Afin d’´eviter l’al´ea moral, il n’est pas rare de mettre en place des contrats
participatifs. En assurance, l’exemple le plus connu est probablement le
m´ecanisme de bonus-malus.
Une personne qui n’a pas d’accident responsable une ann´ee a le droit `a un rabais
l’ann´ee suivante (un bonus) alors qu’une personne ayant eu un ou plusieurs
sinistres subit une majoration de prime (un malus). D’un point de vue
´econom´etrique, cette solution pr´esente un biais puisqu’elle peut insiter des
personnes `a ne pas d´eclarer certains sinistres (d`es lors que la majoration exc`ede
le cot du sinistre). Il n’est alors pas rare d’observer trop de personnes
non-sinistr´ees dans la population totale (par rappport `a un mod`ele Poissonnien).
Un mod`ele dit zero inflated est un m´elange entre une masse en 0 et un mod`ele
classique de comptage, typiquement un mod`ele de Poisson, ou binomial n´egatif.
Pour mod´eliser la probabilit´e de ne pas d´eclarer un sinistre (et donc d’avoir un
76
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
surpoids en 0), consid´erons un mod`ele logistique par exemple,
πi =
exp[Xiβ]
1 + exp[Xiβ]
Pour le mod`ele de comptage, on note pi(k) la probabilit´e que l’individu i ait k
sinistres. Aussi,
P(Ni = k) =



πi + [1 − πi] · pi(0) si k = 0,
[1 − πi] · pi(k) si k = 1, 2, · · ·
Si pi correspond `a un mod`ele Poissonnien, on peut alors montrer facilement que
ENi) = [1 − πi]µi et Var(Ni) = πiµi + πiµ2
i [1 − πi].
library(gamlss) propose la fonction ZIP (pour zero inflated Poisson), mais
aussi ZINBI (lorsque pi correspond `a une loi binomiale n´egative), ou ZIPIG (pour
un m´elange Poisson-inverse Gaussien), par exemple. La library(pscl) propose
´egalement une fonction zeroinfl plus simple d’utilisation, proposant aussi bien
un mod`ele de Poisson qu’un mod`ele binomial n´egatif.
77
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Il existe aussi des mod`eles dits zero adapted, o`u l’on suppose que
P(Ni = k) =



πi si k = 0,
[1 − πi] ·
pi(k)
1 − pi(0)
si k = 1, 2, · · ·
Dans library(gamlss) il s’agit du mod`ele ZAP. Comme auparavant, il existe des
fonctions ZANBI ou ZAPIG.
Ces mod`eles `a inflation z´ero peuvent ˆetre particuli`erement utiles pour prendre en
compte un exc`es de non-d´eclarations de sinistres, g´en´eralement attribu´ees `a une
peur de perdre un niveau int´eressant de bonus-malus : la perte financi`ere associ´ee
au malus des ann´ees suivantes peut exc´eder l’indemnit´e vers´ee aujourd’hui. On
peut ajuster ici un mod`ele zero-inflated (logit) avec une loi de Poisson afin
d’expliquer la sinistralit´e en fonction de l’ge du conducteur (en prenant en
compte l’ge via une fonction nonlin´eaire que l’on estimera `a l’aide de splines).
> reg1 <- glm(nombre~ageconducteur,offset=exposition,data=nombre,
+ family=poisson)
78
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> reg2 <- glm(nombre~bs(ageconducteur,df=4),offset=exposition,
+ data=nombre,family=poisson)
> reg3 <- zeroinfl(nombre~ageconducteur | ageconducteur,
+ data = nombre,offset=exposition,dist = "poisson",link="logit")
> reg4 <- zeroinfl(nombre~bs(ageconducteur,df=4) | bs(ageconducteur),
+ data = nombre,dist = "poisson",link="logit",offset=exposition)
La pr´ediction obtenue pour les ges usuels est pr´esent´ee sur la figure ci-dessous. Si
l’on ne prend pas en compte l’ge de mani`ere nonlin´eaire, les deux mod`eles
pr´edisent sensiblement la mˆeme chose.
79
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
20 30 40 50 60 70
0.020.040.060.080.100.12
Age du conducteur princpal
Fréquenceannuelledesinistre
Poisson, linéaire
Poisson, nonlinéaire
Zero inflated Binomiale Negative, linéaire
Zero inflated Binomiale Negative, nonlinéaire
On peut s’int´eresser plus particuli`erement `a l’impact de l’ge sur la probabilit´e de
ne pas d´eclarer de sinistres (correspondant au param`etre de la loi binomiale).
> age=seq(18,80)
80
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
> DT=data.frame(ageconducteur=age,exposition=1)
> Y4z <- predict(reg4,newdata=DT,type="zero")
> plot(age,Y4z)
20 30 40 50 60 70 80
0.50.60.70.80.9
Age du conducteur princpal
Probabilitédenepasdéclarerunsinistre
81
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
On notera que l’interpr´etation en terme de niveau de bonus-malus semble
pertinente, en particulier si l’on regarde le bonus moyen en fonction de l’ge du
conducteur : le taux de bonus (et donc la prime) diminue avec l’ge, ce qui incite
probablement `a ne pas d´eclarer certains petits sinistres responsables.
20 30 40 50 60 70 80
5060708090100110
Age du conducteur principal
Niveaudebonusmoyen
82
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
R´egression simple versus r´egression multiple
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q
q q
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
20 40 60 80
0.000.050.100.15
Age du conducteur principal
Fréquenceannuelledesinistre
83
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q
q q
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
20 40 60 80
0.000.050.100.15
Age du conducteur principal
Fréquenceannuelledesinistre
q
q
q
q
q
q
q
q q
q
q
q
q
q
q q q q
q
q
q q q
q
q
q
q
q
q
q q
q q q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q
q
q
q q
q
q q
q
q
q
q
q
q
q q
q
q
q q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
Diesel
Essence
84
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q
q q
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
20 40 60 80
0.000.050.100.15
Age du conducteur principal
Fréquenceannuelledesinistre
q
q
q
q
q
q
q
q q
q
q q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q q q q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
q
q
q
q q
q
q
q
q
q q
q
q q
q
q
q
q
q q q
q
q
q
q
q
q
q q q
q
q
q q q
q q q q
q
q
q
q
q
q q
q
q q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
Voiture récente (<5 ans)
Voiture ancienne (>6 ans)
85
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q
q q
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
20 40 60 80
0.000.050.100.15
Age du conducteur principal
Fréquenceannuelledesinistre
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
q
q
q
q
q
q q
q q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q q
q q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
Faible densité
Densité élevée
86
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Rappels d’´econom´etrie lin´eaire
Le mod`ele lin´eaire (lm) s’´ecrit
Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i)
Xi
β0
βk
β
+εi
o`u
• Y est la variable `a expliquer, ou r´eponse, output, variable d´ependante,
predicteur, ou variable endog`ene
• les Xj sont les variables explicatives, ou pr´edicteurs, input, variables
ind´ependantes, r´egresseurs ou variables exog`enes
• ε est un bruit, suppos´e non expliqu´e (ou orthogonal) par les variables
explicatives.
87
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
ou encore





Y1
...
Yn





Y,n×1
=





1 X1,1 · · · X1,k
...
...
...
...
1 Xn,1 · · · Xn,k





X,n×(k+1)








β0
β1
...
βk








β,(k+1)×1
+





ε1
...
εn





ε,n×1
.
Consid´erons - pour commencer un mod`ele lin´eaire simple,
Yi = β0 + β1Xi + εi ou Yi = (1, Xi)
Xi
β0
β1
β
+εi
o`u εi est un bruit. Si X est suppos´e “exog`ene”, d´eterministe, ou donn´e, on
suppose que εi est
• centr´e E(εi) = 0,
• de variance constante V ar(εi) = σ2
,
• non autocorr´el´e, Cov(εi, εj) = 0 pour i = j,
88
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Aussi, pour les r´esidus, on suppose que l’on a
E(ε) = E





ε1
...
εn





=





0
...
0





V ar(ε) = σ2
In = σ2








1 0 · · · 0
0 1 · · · 0
...
...
...
0 · · · · · · 1








=








σ2
0 · · · 0
0 σ2
· · · 0
...
...
...
0 · · · · · · σ2








89
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Soit β l’estimateur par moindres carr´es, β = (X X)−1
X Y ,
• β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2
(X X)−1
.
• Th´eor`eme de Gauss-Markov : parmi les estimateurs lin´eaires et sans biais de β,
l’estimateur par moindres carr´ees est de variance minimale, i.e. BLUE
• σ2
=
1
n − k
n
i=1
n
i=1
(Yi − Xiβ)2
estime sans-biais σ2
.
Si ε ∼ N(0, σ2
),
• β est ´egalement l’estimateur du maximum de vraisemblance
• parmi les estimateurs sans biais de β est l’estimateur de variance minimale, i.e.
BUE,
• β ∼ N(β, σ2
(X X)−1
) et (n − k)
σ2
σ
∼ χ2
(n − k).
Sous l’hypoth`ese o`u εi ∼ N(0, σ2
), Yi ∼ N(Xβ, σ2
), et comme
β = (X X)−1
X Y
∼ N((X X)−1
X Xβ, [(X X)−1
X ] [(X X)−1
X ]σ2
)
∼ N(β, (X X)−1
σ2
),
90
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
soit, pour tout j,
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ N(0, 1),
or comme σ est inconnue, on la remplace par un estimateur ind´ependant de
l’estimateur des βj.
Aussi
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ St(n − k),
o`u k est le nombre de variables explicatives. Aussi,
βj ∈ βj ± t1−α/2 [(X X)−1]jjσ2 ,
sous l’hypoth`ese o`u εi ∼ N(0, σ2
).
Les r´esultats pr´ec´edants permettent de proposer un test simple de
H0 : βj = 0 contre l’hypoth`ese H1 : βj = 0.
91
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
La statistique de test
Tj =
βj
V ar(βj)
∼ St(n − k) sous H0.
Les deux lectures possibles d’un test
• donner la region de rejet, de la forme [±T1−α/2], avec un seuil α fix´e
arbitrairement ( par d´faut 95%)
• donner le seuil α tel que la r´egion de rejet soit [±t] (la plus petite region de
rejet `a laquelle appartienne la statistique observ´ee), i.e. la probabilit´e que de
rejeter H0 si H0 ´etait vraie.
Dans ce dernier cas, on parle de p-value, p = P(rejeter H0|H0 vraie) : si p est
faible, on rejette H0, car il y a peu de chances qu’H0 soit vraie.
92
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Lecture du test de Student
−6 −4 −2 0 2 4 6
0.00.10.20.30.4
Region de rejet du test de Student
ACCEPTATION
DE H0
REJET
DE H0
REJET
DE H0
Aire totale = 5%
93
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Lecture du test de Student
−6 −4 −2 0 2 4 6
0.00.10.20.30.4
p−value associée à un test de Student
Aire totale = 1,23%
Le crit`ere d’Akaike, not´e souvent AIC
AIC = 2k − 2 log(L) = 2k + n log 2π
1
n
n
i=1
ε2
i + 1
94
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
dans le cas Gaussien.
Le crit`ere de Schwarz, not´e SIC (Schwarz Information Criterion), ou crit`ere
Bay´esien, not´e BIC
BIC = −2 log(L) + k ln(n) = n ln
n
i=1
ε2
i + k ln(n).
•
95
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Quelques id´ees g´en´erales en estimation nonparam´etrique
Rappelons qu’un esp´erance conditionnelle est l’esp´erance associ´ee `a la loi
conditionnelle, i.e.
m(x) = E(Y |X = x) = yfY |X=x(u|x)du = y
fY,X(u, x)
fX(x)
du
qui peut se r´e´ecrire simplement
m(x) =
yfY,X(u, x)du
fX(x)
=
yfY,X(u, x)du
fY,X(u, x)du
.
Tukey (1961) a propos´e de transposer l’histogramme au `a l’approximation
(nonparam´etrique) de l’esp´erance conditionelle.
96
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Soit (Bj)j=1,·,m une partition du support de X,
ϕ(x) =
n
i=1
Yi1(Xi ∈ Bj)
n
i=1
1(Xi ∈ Bj)
pour tout x ∈ Bj.
On parle de r´egressogramme, propos´e par Tukey (1961)
97
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120 vitesse du véhicule
distancedefreinage
98
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Naturellement, on peut consid´erer un r´egressogramme glissant,
ϕ(x) =
n
i=1
Yi1(Xi ∈ [xh; x + h])
n
i=1
1(Xi ∈ [xh; x + h])
pour tout x,
o`u h > 0.
99
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120 vitesse du véhicule
distancedefreinage
100
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Notons qu’on peut ´egalement obtenir un intervalle de confiance, soit en utilisant
un intervalle de confiance gaussien (avec l’´ecart-type estim´e sur le voisinage, -) ou
en utilisant les quantiles empiriques (-).
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
101
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Nous venons de prendre la moyenne sur les voisins de x distants d’au plus ±h.
Une autre id´ee peut ˆetre de chercher les k plus proches voisins
ϕ(x) =
n
i=1
Yi1(Xi ∈ Vx)
n
i=1
1(Xi ∈ Vx)
pour tout x,
o`u Vx contient les k plus proches voisins de x.
102
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120 vitesse du véhicule
distancedefreinage
103
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Au vu de l’expression pr´ec´dante, on a simplement besoin d’estimer la loi
conditionnelle de Y sachant X = x. Stone (1977) a sugg´er´e une forme tr`es
g´en´erale,
Fn(y|x) =
n
i=1
ωi,n(x)1(Yi ≤ y),
o`u ωi,n(x) est le poid associ´e `a la i`eme observation, parmi les n.
Intuitivement, les poids doivent ˆetre importants pour les poids dont les Xi sont
au voisinage imm´ediat de x
Nadaraya (1964) et Watson (1964) ont sugg´er´e des poids de la forme suivante
ωi,n(x) =
K
x − Xi
h
n
i=1 K x−Xi
h
o`u K est appel´e noyau et h fenˆetre.
104
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Royall (1966) propose d’utiliser des m´ethodes dites des plus proches voisins,
ωi,n(x) = crx(i),n, o`u rx(i) est le rang de x − Xi
o`u la fonction c mets des poids importants pour les premiers rangs (observations
dont Xi est proche de x).
Yang (1981) propose de m´elanger ces m’ethodes en consid´erant des poids
ωi,n(x) ∝ K
Fn(x) − Fn(Xi)
h
.
Friedman (1984) a propos´e de consid´erer des r´egressions localement lin´eaires. Soit
ωi,n(x) = wi,n · 1 +
(x − X)
s
(Xi − X)
s
o`u X = wi,nXi et s2 = wi,n[Xi − X]2.
Enfin, Reinsch (1967) et Silverman (1985, JRSS B) propose d’utiliser des
105
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
fonctions splines, i.e. on cherche une fonction g qui minimise
1
n
n
i=1
[Yi − g(x)]2 + λ g (z)2dz.
On peut montrer que la solution est alors
g(x) =
n
i=1
G(x, i)Yi, o`u G(x, i) =
1
n
1
f(Xi)
1
h(Xi)
κ
x − Xi
h(xi)
h(xi)4 =
λ
f(xi)
et κ(z) =
1
2
exp −
|z|
√
2
sin
|z|
√
2
+
π
4
O`U f est la densit´e de
X.
L’estimateur `a noyau de l’esp´erance conditionnelle m(x) = E(Y |X = x) `a partir
d’un ´echantillon {(X1, Y1), · · · , (Xn, Yn)} est
mn(x) =
n
i=1 Kh(x − Xi)Yi
n
i=1 Kh(x − Xi)
o`u Kh(u) =
1
h
K
u
h
o`u h est un param`etre d’´echelle. On parlera d’estimateur de Nadaraya-Watson.
106
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Notons que si h → 0, alors mn(Xi) → Yi. En revanche, si h → ∞, alors
mn(Xi) → Y .
Paramètre de lissage
0.0 0.2 0.4 0.6 0.8 1.0
VARIANCE
BIAS
L’id´ee est d’ajuster, au voisinage de x0 un polynme. Pour cela, on utiliser
107
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
l’expansion de Taylor,
f(x) ≈ f(x0) + (x − x0)f (x0) +
(x − x0)2
2!
f (x0) + · · ·
Il est alors naturel de chercher un estimateur de la forme
β = argmin
n
i=1
ωi Yi − [β0 + β1(Xi − x0) + β2(Xi − x0)2
+ · · · ]
2
o`u ωi = Kh(Xi − x0).
L’estimation de β peut alors ˆetre vu comme un probl`eme de moindres carr´es
pond´er´es, i.e.
β = argmin {(Y − Xβ) Ω(Y − Xβ)}
o`u Ω = diag(Kh(X1 − x0), · · · , Kh(Xn, x0)) et
X = [Xi,j] o`u Xi,j = (Xi − x0)j−1
Si l’on se contente de r´egresser localement sur une constante, on obtient
l’estimateur de Nadaraya-Watson.
108
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Les ajustements locaux
> loess(dist ~ speed, cars,span=0.75,degree=2)
> predict(REG, data.frame(speed = seq(5, 25, 0.25)), se = TRUE)
Le param`etre span correpond au pourcentage de points gard´es pour faire
l’ajustement local, et degree est le typoe de r´egression polynomiale.
Ici ajustement local au voisinage de x = 15, avec 25% de points pour d´efinir le
voisinage (on garde 25% des points les plus proches, en x), et un ajustement
lin´aire.
109
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Vitesse du véhciule
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120 Vitesse du véhciule
Distancedefreinage
110
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Ici ajustement local au voisinage de x = 15, avec 50% de points pour d´efinir le
voisinage (on garde 50% des points les plus proches, en x), et un ajustement
lin´aire.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Vitesse du véhciule
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Vitesse du véhciule
Distancedefreinage
111
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
R´egression spline
Nous avons vu la r´egression locale et par ajustement locaux de polynˆomes. Une
solution alternative est d’approcher ϕ par des fonctions polynˆomiales par
morceaux, les morceaux ´etant s´epar´es par des noeuds, avec des recollements entre
les morceaux plus ou moins lisses.
Formellement, les splines d’ordre q sont
• compos´ees de (q + 1) polynˆomes de degr´e q,
• avec q raccords (int´erieurs),
• en chaque noeud, les d´eriv´ees d’ordre j, j = 1, 2, · · · , q − 1 sont continues
• dont le support est un intervalle contenant les q noeuds.
On suppose que E(Y |X = x) = ϕ(x) o`u ϕ est la fonction que l’on cherche `a
estimer. Supposons que l’on cherche `a r´esoudre le programme d’optimisation
suivant,
ϕλ,n = argmin
g∈L2



n
i=1
|Yi − g(Xi)|2
+
1
0
|g (x)|2
dx



112
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V
Il est possible de montrer que la solution appartient forc´ement `a l’ensemble des
splines cubiques de noeuds Y1, · · · , Yn.
•
113

Weitere ähnliche Inhalte

Was ist angesagt? (20)

Slides ensae 5
Slides ensae 5Slides ensae 5
Slides ensae 5
 
Slides ensae-2016-4
Slides ensae-2016-4Slides ensae-2016-4
Slides ensae-2016-4
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
Slides ensae 7
Slides ensae 7Slides ensae 7
Slides ensae 7
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Slides 2040-6
Slides 2040-6Slides 2040-6
Slides 2040-6
 
Slide 2040-1
Slide 2040-1Slide 2040-1
Slide 2040-1
 
Slides 2040-6-a2013
Slides 2040-6-a2013Slides 2040-6-a2013
Slides 2040-6-a2013
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
Slides Prix Scor
Slides Prix ScorSlides Prix Scor
Slides Prix Scor
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2
 
Slides ensae-2016-7
Slides ensae-2016-7Slides ensae-2016-7
Slides ensae-2016-7
 
Slides 2040-3
Slides 2040-3Slides 2040-3
Slides 2040-3
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Slides 2040-2-0
Slides 2040-2-0Slides 2040-2-0
Slides 2040-2-0
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Slides ensae 6
Slides ensae 6Slides ensae 6
Slides ensae 6
 

Andere mochten auch

CursoProgramacionNFC-Dia1
CursoProgramacionNFC-Dia1CursoProgramacionNFC-Dia1
CursoProgramacionNFC-Dia1Aditium
 
Interactive Things: Empfehlen von Objekten im Social Web
Interactive Things: Empfehlen von Objekten im Social WebInteractive Things: Empfehlen von Objekten im Social Web
Interactive Things: Empfehlen von Objekten im Social WebAlexander Stocker
 
Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...
Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...
Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...Rezonance
 
CocoaHeads Toulouse - NFC
CocoaHeads Toulouse - NFCCocoaHeads Toulouse - NFC
CocoaHeads Toulouse - NFCthomasnicholls
 
De la RFID à la NFC par Bernard JEANNE-BEYLOT @JB Thèque
De la RFID à la NFC par Bernard JEANNE-BEYLOT @JB ThèqueDe la RFID à la NFC par Bernard JEANNE-BEYLOT @JB Thèque
De la RFID à la NFC par Bernard JEANNE-BEYLOT @JB ThèqueBernard Jeanne-Beylot
 
technologie NFC-stouchi mobile
technologie NFC-stouchi mobiletechnologie NFC-stouchi mobile
technologie NFC-stouchi mobilemehdi87
 
Futur du shopping lafrenchmobile juin2013
Futur du shopping lafrenchmobile juin2013Futur du shopping lafrenchmobile juin2013
Futur du shopping lafrenchmobile juin2013servicesmobiles.fr
 
Les différents Segments & Applications RFID & NFC par Bernard JEANNE-BEYLOT ...
Les différents Segments & Applications RFID & NFC  par Bernard JEANNE-BEYLOT ...Les différents Segments & Applications RFID & NFC  par Bernard JEANNE-BEYLOT ...
Les différents Segments & Applications RFID & NFC par Bernard JEANNE-BEYLOT ...Bernard Jeanne-Beylot
 
Louzir,marc rfid & nfc vague3-v3
Louzir,marc rfid & nfc vague3-v3Louzir,marc rfid & nfc vague3-v3
Louzir,marc rfid & nfc vague3-v3Marc Louzir
 
Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...
Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...
Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...MONA
 
Community applications for Near Field Communication - Florian Resatsch
Community applications for Near Field Communication - Florian ResatschCommunity applications for Near Field Communication - Florian Resatsch
Community applications for Near Field Communication - Florian ResatschFlorian Resatsch
 
DocDoku - Mobile Monday Toulouse 1ère : la NFC
DocDoku - Mobile Monday Toulouse 1ère : la NFCDocDoku - Mobile Monday Toulouse 1ère : la NFC
DocDoku - Mobile Monday Toulouse 1ère : la NFCDocDoku
 
Agiles como proceso de Innovación
Agiles como proceso de InnovaciónAgiles como proceso de Innovación
Agiles como proceso de InnovaciónJose Ramón Díaz
 
QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...
QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...
QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...LaFrenchMobile
 
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...TELECOM I+D 2011
 

Andere mochten auch (19)

Android
AndroidAndroid
Android
 
CursoProgramacionNFC-Dia1
CursoProgramacionNFC-Dia1CursoProgramacionNFC-Dia1
CursoProgramacionNFC-Dia1
 
Interactive Things: Empfehlen von Objekten im Social Web
Interactive Things: Empfehlen von Objekten im Social WebInteractive Things: Empfehlen von Objekten im Social Web
Interactive Things: Empfehlen von Objekten im Social Web
 
Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...
Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...
Des application ludiques pour démocratiser les NFC - Rémi La Marra - Everdrea...
 
CocoaHeads Toulouse - NFC
CocoaHeads Toulouse - NFCCocoaHeads Toulouse - NFC
CocoaHeads Toulouse - NFC
 
De la RFID à la NFC par Bernard JEANNE-BEYLOT @JB Thèque
De la RFID à la NFC par Bernard JEANNE-BEYLOT @JB ThèqueDe la RFID à la NFC par Bernard JEANNE-BEYLOT @JB Thèque
De la RFID à la NFC par Bernard JEANNE-BEYLOT @JB Thèque
 
technologie NFC-stouchi mobile
technologie NFC-stouchi mobiletechnologie NFC-stouchi mobile
technologie NFC-stouchi mobile
 
Futur du shopping lafrenchmobile juin2013
Futur du shopping lafrenchmobile juin2013Futur du shopping lafrenchmobile juin2013
Futur du shopping lafrenchmobile juin2013
 
Les différents Segments & Applications RFID & NFC par Bernard JEANNE-BEYLOT ...
Les différents Segments & Applications RFID & NFC  par Bernard JEANNE-BEYLOT ...Les différents Segments & Applications RFID & NFC  par Bernard JEANNE-BEYLOT ...
Les différents Segments & Applications RFID & NFC par Bernard JEANNE-BEYLOT ...
 
Louzir,marc rfid & nfc vague3-v3
Louzir,marc rfid & nfc vague3-v3Louzir,marc rfid & nfc vague3-v3
Louzir,marc rfid & nfc vague3-v3
 
Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...
Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...
Panorama des outils numériques qui facilitent l'accueil sadi mopa biganos jan...
 
Community applications for Near Field Communication - Florian Resatsch
Community applications for Near Field Communication - Florian ResatschCommunity applications for Near Field Communication - Florian Resatsch
Community applications for Near Field Communication - Florian Resatsch
 
DocDoku - Mobile Monday Toulouse 1ère : la NFC
DocDoku - Mobile Monday Toulouse 1ère : la NFCDocDoku - Mobile Monday Toulouse 1ère : la NFC
DocDoku - Mobile Monday Toulouse 1ère : la NFC
 
Intergicielsrfid
IntergicielsrfidIntergicielsrfid
Intergicielsrfid
 
Agiles como proceso de Innovación
Agiles como proceso de InnovaciónAgiles como proceso de Innovación
Agiles como proceso de Innovación
 
QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...
QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...
QR Code, QR+ et NFC, des raccourcis vers les contenus et service de l’Interne...
 
Nfc in android
Nfc in androidNfc in android
Nfc in android
 
Fracciones parciales
Fracciones parcialesFracciones parciales
Fracciones parciales
 
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
 

Ähnlich wie Slides udm-080910

Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bArthur Charpentier
 
c h02EspaceProbTr.pdf
c h02EspaceProbTr.pdfc h02EspaceProbTr.pdf
c h02EspaceProbTr.pdfMbarkiIsraa
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2Ettaoufik Elayedi
 
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles202023133 es-maths-cned-sequence-4-probabilites-conditionnelles
202023133 es-maths-cned-sequence-4-probabilites-conditionnellesEttaoufik Elayedi
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotes202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotesEttaoufik Elayedi
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2Ettaoufik Elayedi
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearChristian Robert
 
cours-5.1.pdf
cours-5.1.pdfcours-5.1.pdf
cours-5.1.pdfGonnaBe1
 

Ähnlich wie Slides udm-080910 (16)

Slides ensae-2016-3
Slides ensae-2016-3Slides ensae-2016-3
Slides ensae-2016-3
 
Slides ensae 3
Slides ensae 3Slides ensae 3
Slides ensae 3
 
Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2b
 
Slides udm-010910
Slides udm-010910Slides udm-010910
Slides udm-010910
 
c h02EspaceProbTr.pdf
c h02EspaceProbTr.pdfc h02EspaceProbTr.pdf
c h02EspaceProbTr.pdf
 
Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles 2
 
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles202023133 es-maths-cned-sequence-4-probabilites-conditionnelles
202023133 es-maths-cned-sequence-4-probabilites-conditionnelles
 
Slides desjardins-2011
Slides desjardins-2011Slides desjardins-2011
Slides desjardins-2011
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotes202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotes
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
 
Slides act2040-a2013-2
Slides act2040-a2013-2Slides act2040-a2013-2
Slides act2040-a2013-2
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
cours-5.1.pdf
cours-5.1.pdfcours-5.1.pdf
cours-5.1.pdf
 
Cours econometrie-uqam-st-3
Cours econometrie-uqam-st-3Cours econometrie-uqam-st-3
Cours econometrie-uqam-st-3
 

Mehr von Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Slides udm-080910

  • 1. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Statistique de l’assurance, STT 6705 Statistique de l’assurance II Arthur Charpentier Universit´e Rennes 1 & Universit´e de Montr´eal arthur.charpentier@univ-rennes1.fr ou ou charpentier@DMS.UMontreal.ca http ://freakonometrics.blog.free.fr/ 8 septembre 2010 1
  • 2. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les donn´ees en tarification une base de souscription ... > contratUdM <- read.table("http://perso.univ-rennes1.fr/arthur. + charpentier/contratUdM.txt",header=TRUE,sep=";") > head(contratUdM) nocontrat exposition zone puissance agevehicule ageconducteur bonus 19 44 0.74 A 6 2 55 50 73 150 0.11 C 15 0 51 50 80 163 0.05 E 5 0 53 50 87 179 0.03 B 6 1 47 53 marque carburant densite region 19 12 E 94 13 73 12 D 22 13 80 12 E 93 13 87 2 E 91 13 2
  • 3. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les donn´ees en tarification ... et une base de sinistres, > sinistreUdM <- read.table("http://perso.univ-rennes1.fr/arthur. + charpentier/sinistreUdM.txt",header=TRUE,sep=";") > head(sinistreUdM) no nocontrat garantie cout 33 33 4083980 2DO 566.84 35 35 4012009 2DO 683.90 37 37 1011804 4BG 54.70 69 69 4002627 1RC 1204.00 98 98 4013625 2DO 33.49 99 99 4013625 1RC 0.00 On se limitera aux sinistres responsabilit´e civile > sinistres=sinistreUdM[sinistreUdM$garantie=="1RC",] > nrow(sinistres) 3
  • 4. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V [1] 2697 On calcule le nombre de sinistres par contrat, > T=table(sinistres$nocontrat) > T1=as.numeric(names(T)) > T2=as.numeric(T) > nombre1 = data.frame(nocontrat=T1,nbre=T2) > I = contratUdM$nocontrat%in%T1 > T1=contratUdM$nocontrat[I==FALSE] > nombre2 = data.frame(nocontrat=T1,nbre=0) > nombre=rbind(nombre1,nombre2) > table(nombre$nbre) 0 1 2 3 4 16 47510 2313 162 12 2 1 On peut alors fusionner les bases pour faire de l’´econom´etrie, 4
  • 5. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > base = merge(contratUdM,nombre) > head(base) nocontrat exposition zone puissance agevehicule ageconducteur bonus 1 27 0.87 C 7 0 56 50 2 115 0.72 D 5 0 45 50 3 121 0.05 C 6 0 37 55 4 142 0.90 C 10 10 42 50 5 155 0.12 C 7 0 59 50 6 186 0.83 C 5 0 75 50 marque carburant densite region nbre 1 12 D 93 13 0 2 12 E 54 13 0 3 12 D 11 13 0 4 12 D 93 13 0 5 12 E 73 13 0 6 12 E 42 13 0 5
  • 6. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les donn´ees – densite est la densit´e de population dans la commune o`u habite le conducteur principal, – zone : zone A B C D E ou F, selon la densit´e en nombre d’habitants par km2 de la commune de r´esidence – marque : marque du v´ehicule selon la table suivante (1 Renault Nissan ; 2 Peugeot Citron ; 3 Volkswagen Audi Skoda Seat ; 4 Opel GM ; 5 Ford ; 6 Fiat ; 10 Mercedes Chrysler ; 11 BMW Mini ;12 Autres japonaises et cor´eennes ; 13 Autres europ´eennes ; 14 Autres marques et marques inconnues) – region : code `a 2 chiffres donnant les 22 r´egions franaises (code INSEE) – ageconducteur : ge du conducteur principal en d´ebut de la couverture, – agevehicule : ge du v´ehicule en d´ebut de p´eriode. On supposera le mod`ele lin´eaire connu (sinon quelques rappels) avant de passer aux glm. 6
  • 7. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les mod`eles lin´eaires g´en´eralis´es Consid´erons une densit´e de la forme suivante, dite exponentielle, f(y|θ, φ) = exp yθ − b(θ) φ + c(y, φ) La loi normale N(µ, σ2 ) appartient `a cette famille, avec θ = µ, φ = σ2 , b(θ) = θ2 /2 et c(y, φ) = − 1 2 y2 σ2 + log(2πσ2 ) , y ∈ R, La loi de Poisson P(λ) appartient `a cette famille, f(y|λ) = exp(−λ) λy y! = exp y log λ − λ − log y! , y ∈ N, avec θ = log λ, φ = 1, b(θ) = exp θ = λ et c(y, φ) = − log y!. La loi binomiale B(n, p) correspond au cas θ = log{p/(1 − p)}, b(θ) = n log(1 + exp(θ)), φ = 1 et c(zy, φ) = log n y . 7
  • 8. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V La loi Gamma est ´egalement dans la famille exponentielle, f(y|µ, ν) = 1 Γ(ν) ν µ ν yν−1 exp − ν µ y , y ∈ R+, avec θ = − 1 µ , b(θ) = − log(−θ) et φ = ν−1 . Pour une variable al´eatoire Y dont la densit´e est de la forme exponentielle, alors E(Y ) = b (θ) et Var(Y ) = b (θ)φ de telle sorte que la variance de Y apparaˆıt comme le produit de deux fonctions, – la premi`ere, b (θ) , qui d´epend uniquement du param`etre θ est appel´ee fonction variance – la seconde est ind´ependante de θ et d´epend uniquement de φ En notant µ = E(Y ), on voit que le param`etre θ est li´e `a la moyenne µ. La fonction variance peut donc ˆetre d´efinie en fonction de µ , nous la noterons dor´enavant V (µ). Dans le cas de la loi normale, V (µ) = 1, dans le cas de la loi de Poisson, 8
  • 9. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V V (µ) = µ alors que dans le cas de la loi Gamma, V (µ) = µ2 . La fonction variance caract´erise compl`etement la loi de la famille exponentielle. Chacune des lois de la famille exponentielle poss`ede une fonction de lien sp´ecifique, dite fonction de lien canonique, permettant de relier l’esp´erance µ au param`etre naturel θ. Le lien canonique est tel que g (µ) = θ. Or, µ = b (θ) donc g (·) = b (·)−1 . Dans le cas de la loi normale, θ = µ (link=’identity’), dans le cas de la loi de Poisson, θ = log(µ) (link=’log’) alors que dans le cas de la loi Gamma, θ = 1/µ (link=’inverse’). 9
  • 10. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Mod`eles lin´eaires g´en´eralis´ees avec R Sous R, la syntaxe des mod`eles lin´eaires g´en´eralis´ees est : > glm(Y~X1+X2+X3+offset(Z), family =quasipoisson(link=’log’), + data, weights) ce qui correspond `a un mod`ele E(Yi|Xi) = µi = g−1 Xiβ + ξi et Var(Yi|Xi) = φV (µi) ωi o`u – Y est le vecteur des Yi que l’on cherche `a mod´eliser (le nombre de sinistres de la police i par exemple), – X1, X2 et X3 sont les variables explicatives qui peuvent ˆetre qualitatives (on parlera de facteurs) ou quantitatives, – link=’log’ indique que g est la fonction log, – family=poisson revient `a choisir une fonction variance V identit´e, et family=quasipoisson revient `a choisir une fonction variance V identit´e avec 10
  • 11. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V un param`etre de dispersion φ `a estimer, – offset correspond `a la variable ξi, – weights le vecteur ωi. Cette fonction glm calcule alors des estimateurs de β et φ, entre autres, car comme pour le mod`ele lin´eaire gaussien (la fonction lm) on peut obtenir des pr´edictions, des erreurs, ainsi qu’un grand nombre d’indicateurs relatifs `a la qualit´e de l’ajustement. On supposera que, conditionnellement aux variables explicatives X, les variables Y sont ind´ependantes, et identiquement distribu´ees. En particulier, on partira d’un mod`ele de la forme f(yi|θi, φ) = exp yiθi − b(θi) φ + c(yi, φ) o`u l’on supposera que g(µi) = ηi = Xiβ pour une fonction de lien g(·) donn´ee (on gardera ainsi un score lin´eaire en les variables explicatives), et o`u, pour rappel, µi = E(Yi|Xi). 11
  • 12. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Mod`eles lin´eaires g´en´eralis´ees avec R La fonction lien est la fonction qui permet de lier les variables explicatives X `a la pr´ediction µ, alors que la loi apparaˆıt via la fonction variance, sur la forme de l’h´et´erosc´edasticit´e et l’incertitude associ´ee `a la pr´ediction. Le petit exemple ci-dessous permet de visualiser sur un petit de donn´ees simple six r´egressions GLM diff´erentes, > x <- c(1,2,3,4,5) > y <- c(1,2,4,2,6) > base <- data.frame(x,y) > plot(x,y,pch=19,cex=1.5) > regNId <- glm(y~x,family=gaussian(link="identity")) > regNlog <- glm(y~x,family=gaussian(link="log")) > regPId <- glm(y~x,family=poisson(link="identity")) > regPlog <- glm(y~x,family=poisson(link="log")) > regGId <- glm(y~x,family=Gamma(link="identity")) > regGlog <- glm(y~x,family=Gamma(link="log")) 12
  • 13. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > plot(x,y,pch=19,cex=1.5) > abs <- seq(0,7,by=.1) > yp <- predict(regNId,newdata=data.frame(x=abs),se.fit = TRUE, + type="response") > lines(abs,yp$fit,lwd=2) > lines(abs,yp$fit+2*yp$se.fit,lty=2) > lines(abs,yp$fit-2*yp$se.fit,lty=2) 13
  • 14. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q 1 2 3 4 5 123456 x y q q q q q Modèle Gaussien lien identité q q q q q 1 2 3 4 5 123456 x y q q q q q Modèle Poisson lien identité q q q q q 1 2 3 4 5 123456 x y q q q q q Modèle Gamma lien identité q q q q q 1 2 3 4 5 123456 x y q q q q q Modèle Gaussien lien logarithmique q q q q q 1 2 3 4 5 123456 x y q q q q q Modèle Poisson lien logarithmique q q q q q 1 2 3 4 5 123456 x y q q q q q Modèle Gamma lien logarithmique 14
  • 15. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Lire une sortie de r´egression > reg1 <- glm(nombre~ageconducteur,data=nombre,family= + poisson(link="log"),offset=log(exposition)) > summary(reg1) Call: glm(formula = nombre ~ ageconducteur, family = poisson(link = "log"), data = nombre, offset = log(exposition)) Deviance Residuals: Min 1Q Median 3Q Max -0.5685 -0.3527 -0.2611 -0.1418 13.3247 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.1369116 0.0207723 -102.87 <2e-16 *** 15
  • 16. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V ageconducteur -0.0101679 0.0004397 -23.12 <2e-16 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 171919 on 678012 degrees of freedom Residual deviance: 171373 on 678011 degrees of freedom AIC: 222190 Number of Fisher Scoring iterations: 6 On peut aussi transformer la variable continue en une variable discr`ete (en classes d’ˆage), > seuils = c(17,21,25,30,45,55,65,80,120) > nombre$agecut <- cut(nombre$ageconducteur,breaks=seuils) > reg2 <- glm(nombre~agecut ,data=nombre,family= + poisson(link="log"),offset=log(exposition)) 16
  • 17. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > summary(reg2) Call: glm(formula = nombre ~ agecut, family = poisson(link = "log"), data = nombre, offset = log(exposition)) Deviance Residuals: Min 1Q Median 3Q Max -0.6566 -0.3522 -0.2601 -0.1413 13.2465 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.55416 0.03277 -47.42 <2e-16 *** agecut(21,25] -0.52724 0.04186 -12.60 <2e-16 *** agecut(25,30] -0.95181 0.03865 -24.62 <2e-16 *** agecut(30,45] -1.08673 0.03441 -31.58 <2e-16 *** agecut(45,55] -1.04649 0.03500 -29.90 <2e-16 *** 17
  • 18. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V agecut(55,65] -1.19279 0.03709 -32.16 <2e-16 *** agecut(65,80] -1.27536 0.03876 -32.90 <2e-16 *** agecut(80,120] -1.24017 0.06743 -18.39 <2e-16 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 171919 on 678012 degrees of freedom Residual deviance: 170589 on 678005 degrees of freedom AIC: 221417 Number of Fisher Scoring iterations: 6 Au lieu de comparer `a la classe des jeunes conducteurs, on peut aussi comparer au conducteur moyen. > seuils = c(17,21,25,30,45,55,65,80,120) > reg2 = glm(nombre~0+cut(ageconducteur,breaks=seuils), 18
  • 19. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V + data=nombre,family=poisson(link="log"),offset=log(exposition)) > reg2b <- glm(nombre~1,data=nombre,family=poisson(link="log"), + offset=log(exposition)) > moyenne <- exp(coefficients(reg2b)) > reg2c <- glm(nombre~0+cut(ageconducteur,breaks=seuils), + data=nombre,family=poisson(link="log"),offset=log(exposition)) > exp(coefficients(reg2c))/moyenne 19
  • 20. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les r´esidus d’un mod`ele lin´eaire g´en´eralis´e Les r´esidus de gauche sont les r´esidus bruts, c’est `a dire la diff´erence entre Yi et Yi. A droite, ce sont les r´esidus de Pearson, i.e. εi = Yi − Yi V (Yi) o`u V est la fonction variance. > RNIr <- residuals(regNId,type="response") > RNIp <- residuals(regNId,type="pearson") 20
  • 21. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q 1 2 3 4 5 −2−1012 Résidus(bruts) q Gaussien, identité Poisson, identité Gamma, identité Gaussien, log Poisson, log Gamma, log q q q q q 1 2 3 4 5 −2−1012 RésidusdePearson q Gaussien, identité Poisson, identité Gamma, identité Gaussien, log Poisson, log Gamma, log 21
  • 22. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V La d´eviance d’un mod`ele lin´eaire g´en´eralis´e Rappelons que l’outil de base pour quantifier la qualit´e de la r´egression est la d´eviance D(β) = −2[log L(β|Y ) − log L (Y )] o`u log L(β|Y ) d´esigne la log-vraisemblance du mod`ele, et o`u log L (Y ) est la log-vraisemblance satur´ee (obtenue avec un mod`ele parfait). > logLik(regPlog) ’log Lik.’ -7.955383 (df=2) > deviance(regPlog) [1] 1.760214 > AIC(regPlog) [1] 19.91077 > -2*logLik(regPlog)+2*2 [1] 19.91077 attr(,"df") 22
  • 23. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V    AIC : −2 log L(β) + 2k BIC : −2 log L(β) + k log(n) > cat("AIC (Poisson-log) =",extractAIC(regPlog,k=2)[2]) AIC (Poisson-log) = 19.91077 > cat("BIC (Poisson-log) =",extractAIC(regPlog,k=log(nrow(base)))[2]) BIC (Poisson-log) = 19.12964 On peut comparer tous les mod`eles via : > AIC(regNId,regNlog,regPId,regPlog,regGId,regGlog) df AIC regNId 3 21.10099 regNlog 3 20.63884 regPId 2 19.86546 regPlog 2 19.91077 regGId 3 18.01344 regGlog 3 18.86736 23
  • 24. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Du lin´eaire au nonlin´eaire Le but de la tarification (et plus g´en´eralement de toute pr´ediction) est d’estimer une esp´erance conditionnelle, E(S|X = X) = ϕ(X) o`u S = ϕ(X1, · · · , Xk) + ε o`u ϕ : Rk → R. Supposer un mod`ele lin´eaire est problement une hypoth`ese trop forte. Mais on se doute qu’estimer une fonction d´efinie sur Rk serait trop complexe num´eriquement. Un bon compromis est propos´e par les mod`eles dit additifs. Quelques rappels) sont donn´es sur les mod`eles nonlin´eaires (nonparam´etriques). On peut regarder l’impact de la densit´e de population dans la commune de l’assur´e sur la fr´equence de sinistre. Les points noirs correspondent `a la fr´equence moyenne empirique observ´ee pour diff´erents niveaux de densit´e > library(mgcv) 24
  • 25. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > reg.gam <- gam(nombre~s(densite),offset=log(exposition), + family=poisson(link="log"),data=sinistres) > dens.x <- seq(0,30000,100) > pred <- predict(reg.gam,newdata=data.frame(densite=dens.x,expo=1), + se=TRUE,type="response") > plot(dens,pred$fit,col="blue",lwd=2) > lines(dens,pred$fit+2*N1RC0as1$se.fit,col="red",lty=2) > lines(dens,pred$fit-2*N1RC0as1$se.fit,col="red",lty=2) 25
  • 26. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q qqq q q q qq q q q q q q q q q q q q q q q q q q qqq q q q qqq q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q qq q q q q q qq q qqqq q qqqqqqqqqqqqq q qqqqqqqqqq q q q qqqq q q q qqqqqqqqq q qq q qqq q q q q q qqqqq q qqqqqqqqqq q qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q q qqqqq q qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q qqqqqqqqqqqqqqqqqqqqqqqqqqqqqq 0 5000 10000 15000 20000 25000 30000 0.000.050.100.15 Densité de population Fréquenceannuelledesinistre Les mod`eles additifs ont ´et´e introduits par Stone (1985) qui notait qu’estimer une fonction ϕ : Rk → R serait num´eriquement trop complexe (et probablement 26
  • 27. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V peu robuste). On cherche ici une d´ecomposition de la forme S = ϕ1(X1) + · · · + ϕk(Xk) + ε o`u les fonctions ϕj : R → R sont suppos´ees suffisament r´eguli`eres. En fait, ce mod`ele n’est valable que pour les variables Xj continues, les variables qualitatives continuant - g´en´eralement - `a intervenir sous une forme lin´eaire. Autrement dit, un mod`ele additif serait S = ϕ1(X1) + β2X2 + ε o`u X1 est l’ge du conducteur, et X2 le carburant du v´ehicule. Notons qu’il serait aussi possible de consid´erer un mod`ele de la forme S =    ϕ1,E(X1) + ε si X2 = essence ϕ1,D(X1) + ε si X2 = diesel Ces deux types de mod`eles sont estim´es ci-dessous. > library(mgcv) 27
  • 28. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > reg <- gam(nombre~s(ageconducteur)+offset(exposition), + data=sinistres,family=poisson) > age <- seq(17,100) > AGE <- data.frame(ageconducteur=age,exposition=1) > Y <- predict(reg,AGE,type="response") > reg = gam(nombre~s(ageconducteur)+carburant+offset(exposition), + data=sinistres,family=poisson) > AGE <- data.frame(ageconducteur=age,exposition=1,carburant="E") > YE <- predict(reg,AGE,type="response") > AGE <- data.frame(ageconducteur=age,exposition=1,carburant="D") > YD <- predict(reg,AGE,type="response") > plot(age,Y,type=’l’) > lines(age,YD,col=’blue’) > lines(age,YE,col=’red’) Pour le premier type de mod`ele, ou le code suivant pour le second, > library(mgcv) 28
  • 29. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > reg <- gam(nombre~s(ageconducteur)+offset(exposition), + data=sinistres,family=poisson) > age <- seq(17,100) > AGE <- data.frame(ageconducteur=age,exposition=1) > Y <- predict(reg,AGE,type="response") > reg <- gam(nombre~s(ageconducteur)+offset(exposition), + data=sinistres[sinistres$carburant=="E",],family=poisson) > YE <- predict(reg,AGE,type="response") > reg <- gam(nombre~s(ageconducteur)+offset(exposition), + data=sinistres[sinistres$carburant=="D",],family=poisson) > YD=predict(reg,AGE,type="response") > plot(age,Y,type=’l’) > lines(age,YD,col=’blue’) > lines(age,YE,col=’red’) 29
  • 30. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 40 60 80 100 0.000.050.100.150.20 Age du conducteur principal Fréquenceannuelledesinistres 30
  • 31. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 40 60 80 100 0.000.050.100.150.20 Age du conducteur principal Fréquenceannuelledesinistres 31
  • 32. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Du lin´eaire au nonlin´eaire Une autre possibilit´e est ´egalement d’uiliser la fonction glm avec la library(splines). On peut alors changer facilement le nombre de degr´es de libert´e, i.e. le param`etre de lissage de la transformation, > library(splines) > reg3 <- glm(nombre~bs(ageconducteur,df=3)+offset(exposition), + data=nombre,family=poisson) On peut s’autoriser ´eventuellement encore un peu plus de souplesse en prenant en compte le couple constitu´e de deux variables continues, S = ϕ(X1, X2) + ε o`u ϕ : R2 → R, au lieu d’un mod`ele GAM classique, S = ϕ1(X1) + ϕ2(X2) + ε Cette option est propos´ee par exemple dans library(mgcv) 32
  • 33. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V âge conducteur âgeduvéhicule fréquence espérée 33
  • 34. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 30 40 50 60 70 80 0510152025 âge conducteur âgeduvéhicule 0.05 0.06 0.07 0.08 34
  • 35. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 30 40 50 60 70 80 0510152025 âge conducteur âgeduvéhicule 0.05 0.06 0.06 0.07 0.07 0.08 0.08 0.1 0.15 0.2 35
  • 36. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 30 40 50 60 70 80 0510152025 âge conducteur âgeduvéhicule 0.05 0.06 0.06 0.07 0.08 0.08 0.1 0.15 0.2 36
  • 37. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 30 40 50 60 70 80 0510152025 âge conducteur âgeduvéhicule 37
  • 38. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les r´egression logit et probit La r´egression logistique suppose que si π(Y |X) = P(Y = 1|X), alors π(Y |X) 1 − π(Y |X) = P(Y = 1|X) P(Y = 0|X) = exp (Xβ) Dans le cas du mod`ele probit, on suppose qu’il existe un mod`ele latent Gaussien, tel que Yi = Xiβ + εi et que Yi = 0 si Yi < s, et Yi = 1 si Yi > s, et εi ∼ N(0, σ2 ). La synthaxe de ces deux mod`eles est tr`es proche, car seule la fonction de lien change. > sinistres$touche <- sinistres$nombre>0 > reglogit <- glm(touche~ageconducteur, + data=sinistres,family=binomial(link="logit")) > regprobit <- glm(touche~ageconducteur, + data=sinistres,family=binomial(link="probit")) 38
  • 39. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > age <- seq(17,100) > AGE <- data.frame(ageconducteur=age,exposition=1) > Yl <- predict(reglogit,AGE,type="response") > Yp <- predict(regprobit,AGE,type="response") > plot(age,Yp-Yl,type="l") > abline(h=0,lty=2) On notera que ces deux mod`eles donnent des pr´edictions tr`es proches, 39
  • 40. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 40 60 80 100 0.0340.0350.0360.0370.038 Age du conducteur principal Probabilitéd'avoiraumoinsunaccident 20 40 60 80 100 −0.050.000.05 Age du conducteur principal Différencerelative(%) 40
  • 41. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les arbres de r´egression Les arbres de r´egression sont des outils nonparam´etriques de segmentation. Dans un arbre de d´ecision, on cherche `a d´etecter des crit`eres permettant de r´epartir les individus en 2 classes, caract´eris´ees par Y = 0 et Y = 1. On commence par choisir la variable, qui, par ses modalit´es, s´epare le mieux les individus de chacune des classes. On constitue alors un premier noeud. On r´eint`ere alors la proc´edure sur chaque nouveau noeud. Dans la m´ethode CART (), on regarde toutes les possibilit´es. On continue soit jusqu’`a ce qu’il ne reste plus qu’un seul. individu dans chaque noeud, soit suivant un crit`ere d’arrˆet. Les crit`eres de discrimination et de constitution des noeuds sont g´en´eralement les suivants, – lorsque les variables explicatives Xj sont qualitatives, ou discr`etes, on utilise la distance du χ2 (on parle d’arbre CHAID), – en pr´esence de variables de tous types, on peut utiliser l’indice de Gini (m´ethode CART), – ou l’entropie (m´ethode C5.0), Pour un varible continue, on distinguera {X1 ≤ s} et {X1 > s}. Pour une 41
  • 42. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V variable qualitative, on distinguera {X1 = x} et {X1 = x}. Pour chacune des variables, on regarde l’ensemble des classifications possibles. Quelles que soient les variables, on d´efinit : > seuilagecond <- unique(nombre$ageconducteur) > seuilregion <- unique(nombre$region) Pour les variables quantitatives, on distingue : > k=5 > classe0 <- nombre$ageconducteur<=seuilagecod[k] > classe1 <- nombre$ageconducteur>seuilagecod[k] alors que pour les variables qualitatives, > k=5 > classe0 <- nombre$region==seuilregion[k] > classe1 <- nombre$region!=seuilregion[k] Une fois constitu´ees les 2 classes, on calcule un des crit`eres possibles. 42
  • 43. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Si on regarde la d´ecomposition obtenue sur le premier noeud, on observe que pour les conducteurs de moins de 25 ans, la probabilit´e d’avoir un accident est de 10%, contre 5% pour les conducteurs de plus de 25 ans. Dans le cas des r´egions, avec une distance du chi-deux, on cherche `a minimiser χ2 = − classe∈{0,1} y∈{0,1} [nclasse,y − n⊥ classe,y]2 n⊥ classe,y o`u nclasse,y d´esigne le nombre de personnes dans la classe consid´er´ee pour lesquelles la variable Y prend la modalit´e y. > base=sinistres[sinistres$ageconducteur<=85,] > seuil=sort(unique(base$ageconducteur)) > TABLE=rep(NA,length(seuil)) > names(TABLE)=seuil > for(k in 1:(length(seuil)-1)){ + classe0 <- base$ageconducteur<=seuil[k] + classe1 <- base$ageconducteur>seuil[k] + M=matrix( 43
  • 44. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V + rbind(c(sum(base$touche[classe0]==FALSE), + sum(base$touche[classe0]==TRUE)), + c(sum(base$touche[classe1]==FALSE), + sum(base$touche[classe1]==TRUE))),2,2) + TABLE[k]=-chisq.test(M)$statistic } > which.min(TABLE) 23 6 > plot(seuil,TABLE) Autrement dit le meilleur d´ecoupage possible est (17,23] et (23,85] 44
  • 45. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 30 40 50 60 70 80 −600−500−400−300−200−1000 Age du conducteur Distanceduchi−deux q A la seconde ´etape, on cherche une autre partition, en consid´erant la pr´ec´edente comme acquise, > k1 = which(seuil==23) 45
  • 46. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > for(k in 1:(length(seuil)-1)){ + if(k!=k1){ + classe0 <- (base$ageconducteur<=seuil[k])&(base$ageconducteur<=seuil[k1 + classe2 <- (base$ageconducteur>seuil[k])&(base$ageconducteur>seuil[k1]) + classe1 <- 1-classe0-classe2 + M=matrix( + rbind(c(sum(base$touche[classe0]==FALSE), + sum(base$touche[classe0]==TRUE)), + c(sum(base$touche[classe1]==FALSE), + sum(base$touche[classe1]==TRUE)), + c(sum(base$touche[classe2]==FALSE), + sum(base$touche[classe2]==TRUE))),3,2) + TABLE[k]=-chisq.test(M)$statistic + }} > which.min(TABLE) 84 67 46
  • 47. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > plot(seuil,TABLE) q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 30 40 50 60 70 80 −40000−30000−20000−100000 Age du conducteur Distanceduchi−deux 47
  • 48. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Parmi les autres crit`eres, on peut aussi utiliser la distance de Gini, G = − classe∈{0,1} nclasse n y∈{0,1} nclasse,y nclasse 1 − nclasse,y nclasse ou l’entropie, E = − classe∈{0,1} nclasse n y∈{0,1} nclasse,y nclasse log nclasse,y nclasse Les arbres permettent une lecture relativement ais´ee pour l’utilisateur, et reposent sur des techniques nonparam´etriques. Aussi, contrairement aux m´ethodes GLM que nous verrons par la suite, le choix des lois ou la recherche d’´eventuelles nonlin´earit´es n’intervient pas ici. Les arbres sont ´egalement peu sensibles aux outliers. Mais les arbres, de par leur construction, posent aussi certains soucis. En particulier, on ne peut pas revenir en arri`ere, et le s´equencement est tr`es important. Cette ´etude sera particuli`erement int´eressante pour ´ecrˆeter les gros sinistres. 48
  • 49. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V On supposera (arbitrairement) que les gros sinistres sont ceux dont le montant d´epasse 50 000 euros. > library(tree) > sinistres$GS <- sinistres$cout>50000 > ARBRE <- tree(GS ~ puissance + zone + agevehicule , + data=sinistres,split="gini") Cet arbre ´etant manifestement trop ´etendu, on peut limiter en demandant `a avoir au moins 5 000 assur´e par branche, > ARBRE <- tree(GS ~ puissance + zone + agevehicule , + data=sinistres,split="gini",minsize = 5000) > ARBRE > ARBRE node), split, n, deviance, yval * denotes terminal node 1) root 26444 87.710 0.003328 49
  • 50. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 2) zone: B,C,D,E,F 23080 68.790 0.002990 4) puissance < 5.5 8028 17.960 0.002242 8) zone: B,D,F 3442 3.995 0.001162 * 9) zone: C,E 4586 13.960 0.003053 * 5) puissance > 5.5 15052 50.830 0.003388 10) zone: B,C,E 10372 30.910 0.002989 20) agevehicule < 10.5 7541 17.960 0.002387 40) puissance < 7.5 5274 14.960 0.002844 80) agevehicule < 2.5 1291 5.972 0.004648 * 81) agevehicule > 2.5 3983 8.980 0.002260 * 41) puissance > 7.5 2267 2.996 0.001323 * 21) agevehicule > 10.5 2831 12.940 0.004592 * 11) zone: D,F 4680 19.910 0.004274 * 3) zone: A 3364 18.890 0.005648 * On note qu’en fonction de la zone, de la puissance du v´ehicule et de l’anciennet´e du v´ehicule, on peut d´eterminer avec une bonne assurance la probabilit´e d’avoir 50
  • 51. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V un tr`es gros sinistre. Par exemple, pour les personnes n’habitant pas un endroit trop dense (les zones les plus denses correspondant `a zone=A), en particulier les zones B, D et E, et si la puissance n’est pas trop ´elev´ee, puissance<5.5 la probabilit´e d’avoir un tr`es gros sinistres est de l’ordre de 1/1000. La probabilit´e sera 4 fois plus grande si la le v´ehicule est puissant (puissance>5.5) et ancien, (agevehicule>10.5). Dans une zone dense, la probabilit´e sera plus de 5 fois plus grande (quelles que soient les autres variables). Si on trace l’arbre, on obtient le dessin de la Figure suivante > plot(ARBRE) > text(ARBRE,cex=.9,col="blue") 51
  • 52. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V | zone:bcdef puissance < 5.5 zone:bdf zone:bce agevehicule < 10.5 puissance < 7.5 agevehicule < 2.5 0.001162 0.003053 0.004648 0.002260 0.001323 0.004592 0.004274 0.005648 52
  • 53. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les nombres de sinistres par police Une hypoth`ese forte de la loi de Poisson est que E(N) = Var(N) 0 200 400 600 800 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Nombre de sinistres Fréquence(racinecarrée) Ajustement d’une loi de Poisson q q q q q q q q q q q q q q q q q Si l’on compare les valeurs num´eriques, cela donne l’ajustement suivant (si l’on 53
  • 54. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V estime le param`etre par la m´ethode des moments (ou par maximum de vraisemblance, ML qui ici concident) : > library(vcd) > gof = goodfit(N,type= "poisson",method= "ML") > gof Observed and fitted values for poisson distribution with parameters estimated by ‘ML’ count observed fitted [1,] 653047 653047 652055 [2,] 23592 23592 25453 [3,] 1299 1299 496 [4,] 62 62 6 [5,] 5 5 0 [6,] 2 2 0 54
  • 55. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V [7,] 1 1 0 [8,] 0 0 0 [9,] 1 1 0 [10,] 1 1 0 [11,] 0 0 0 [12,] 2 2 0 [13,] 0 0 0 [14,] 0 0 0 [15,] 0 0 0 [16,] 0 0 0 [17,] 1 1 0 La diff´erence entre la valeur pr´edite par le mod`ele Poissonnien et les valeurs observ´ees nous poussent `a essayer de mieux comprendre l’h´et´erog´en´eit´e qui existe au sein de nos donn´ees. 55
  • 56. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les variables explicatives qualitatives Les facteurs sont des codifications de variables qualitatives. Dans la base, nous disposons de plusieurs variables qualitatives comme le carburant carburant cod´e en E pour essence et D pour diesel, ou encore region pour la r´egion franaise. 56
  • 57. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 5% 6% 7% 8% 9% 10% 57
  • 58. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V R´egresser une variable quantitative (comme le nombre de sinistres) sur une variable factorielle correspond `a faire une analyse de la variance. > summary(lm(nombre~as.factor(region), data=nombre)) Call: lm(formula = nombre ~ as.factor(region), data = nombre) Residuals: Min 1Q Median 3Q Max -0.16115 -0.03477 -0.03477 -0.03477 15.96523 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.161150 0.002341 68.84 <2e-16 *** as.factor(region)0 -0.091614 0.002763 -33.16 <2e-16 *** as.factor(region)1 -0.102853 0.002819 -36.48 <2e-16 *** 58
  • 59. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V as.factor(region)2 -0.113822 0.002815 -40.43 <2e-16 *** as.factor(region)3 -0.112168 0.002796 -40.12 <2e-16 *** as.factor(region)4 -0.112059 0.002760 -40.60 <2e-16 *** as.factor(region)5 -0.115453 0.002737 -42.18 <2e-16 *** as.factor(region)6 -0.116853 0.002711 -43.10 <2e-16 *** as.factor(region)7 -0.119643 0.002688 -44.51 <2e-16 *** as.factor(region)8 -0.131576 0.002798 -47.03 <2e-16 *** as.factor(region)9 -0.129934 0.002818 -46.11 <2e-16 *** as.factor(region)10 -0.133945 0.002804 -47.77 <2e-16 *** as.factor(region)11 -0.134594 0.002818 -47.77 <2e-16 *** as.factor(region)12 -0.134683 0.002858 -47.12 <2e-16 *** as.factor(region)13 -0.126384 0.002362 -53.50 <2e-16 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 0.2067 on 677998 degrees of freedom Multiple R-squared: 0.005699, Adjusted R-squared: 0.005678 59
  • 60. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V F-statistic: 277.6 on 14 and 677998 DF, p-value: < 2.2e-16 ou directement, `a l’aide de la fonction aov, > summary(aov(nombre~as.factor(region), data=nombre)) Df Sum Sq Mean Sq F value Pr(>F) as.factor(region) 14 166 11.8542 277.56 < 2.2e-16 *** Residuals 677998 28956 0.0427 --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 qui montre que la fr´equence de sinistres est sensiblement diff´erente d’une r´egion `a l’autre. 60
  • 61. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les variables quantitatives continues Parmi les variables continues permettant d’expliquer la fr´equence de sinistres, on retiendra l’ge du v´ehicule agevehicule, ou l’ge du conducteur ageconducteur. On pourrait ´egalement utiliser le bonus observ´e `a la souscription du contrat bonus. Cette variable est li´ee `a l’anciennet´e du permis et peut s’av´erer d´elicate `a prendre en compte dans le mod`ele. Calculons la fr´equence empirique oberv´ee en fonction de l’ge du conducteur principal (fr´equence brute). > age = seq(18,100,by=1) > FREQ = rep(NA,length(age)) > for(k in 1:length(FREQ)){ + I=nombre$ageconducteur==age[k] + X=nombre$nombre[I] + W=nombre$exposition[I] + FREQ[k]=weighted.mean(X/W,W) + } 61
  • 62. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > plot(age,FREQ) La moyenne empirique est ici corrig´ee par l’exposition. La fr´equence annuelle devrait ˆetre le nombre de sinistres observ´e divis´e par l’exposition, et on met un poids proportionnel `a l’exposition. q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 40 60 80 100 0.000.050.100.150.200.250.30 Age du conducteur principal Fréquenceannuelledesinistre 62
  • 63. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V La m´ethode des marges Bailey (1963) a propos´e une m´ethode relativement simple pour faire de la tarification, appel´ee method of marginal totals. Plaons nous dans le cas o`u les variables exog`ene X sont qualitatives, de telle sorte que l’on puisse d´efinir des classes de risques. Alors (N = n|X = X) = exp[−λX] λn X n! o`u λX = exp[−X β] ce qui donne une log-vraisemblance de la forme L(β|ni, Xi) = n i=1 [−λXi ] + ni log[λXi ] − log[ni!] dont la condition du premier ordre donne les ´equations normales, i,Xi=X ni = i,Xi=X λX pour toute classe de risque X. 63
  • 64. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Si on regarde le cas o`u les classes de risque sont constitu´es par la puissance du v´ehicule (d´efinie en tant que facteur), > nombre$puissance=as.factor(nombre$puissance) > marges=glm(nombre~puissance, + data=nombre,family=poisson(link="log")) > summary(marges) Call: glm(formula = nombre ~ puissance, family = poisson(link = "log"), data = nombre) Coefficients: Estimate Std. Error z value Pr(>|z|) puissance4 -3.35967 0.01580 -212.70 <2e-16 *** puissance5 -3.19353 0.01397 -228.53 <2e-16 *** puissance6 -3.16181 0.01259 -251.14 <2e-16 *** 64
  • 65. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V puissance7 -3.25744 0.01337 -243.68 <2e-16 *** puissance8 -3.34965 0.02463 -135.98 <2e-16 *** puissance9 -3.20436 0.02862 -111.97 <2e-16 *** puissance10 -3.24813 0.02865 -113.36 <2e-16 *** puissance11 -3.24661 0.03742 -86.75 <2e-16 *** puissance12 -3.32324 0.05812 -57.17 <2e-16 *** puissance13 -3.14545 0.08482 -37.08 <2e-16 *** puissance14 -3.14705 0.09950 -31.63 <2e-16 *** puissance15 -3.41704 0.10206 -33.48 <2e-16 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 1307478 on 678013 degrees of freedom Residual deviance: 175926 on 678001 degrees of freedom AIC: 226763 65
  • 66. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Number of Fisher Scoring iterations: 6 > exp(marges$coefficients[6]) puissance9 0.04058501 Ce que nous dit la m´ethode des marges est que cette valeur pr´edite correspond `a la moyenne empirique au sein de la classe de risque, > I=(nombre$puissance=="9") > mean(nombre$nombre[I]) [1] 0.04058501 L’id´ee est `a la fois simple et naturelle sur les mod`eles ne comportant que des classes de risques (et pas de variable continue). 66
  • 67. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Prise en compte de l’exposition et variable offset Dans un mod`ele collectif, on a besoin de connaˆıtre le nombre de sinistres survenus sur une police d’assurance. Dans l’optique de tarifer un contrat, il faut pouvoir pr´edire le nombre de sinistres qui surviendront, en moyenne, l’ann´ee suivante. Or si certains polices n’ont ´et´e observ´ees que 6 mois dans la base, il convient de pond´erer la fr´equence de sinistre par l’exposition. Compte tenu de la propri´et´e multiplicative d’un processus de Poisson, une police observ´ee 1 an aura, en moyenne, 4 fois plus de sinistres qu’une police observ´ee 3 mois. Dans le cas d’un mod`ele log-Poisson, il est alors naturel de supposer que Y |X ∼ P(exp[Xβ + log(e)]) o`u e d´esigne l’exposition, mesur´ee en ann´ees. Dans le cas des r´egressions de Poisson, cela peut se faire de la mani`ere suivante > marges=glm(nombre~0+puissance+region, + data=nombre,family=poisson(link="log"),offset=log(exposition)) 67
  • 68. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V On peut noter que la r´egression pouvait s’´ecrire Y |X ∼ P(exp[β0 + β1X1 + · · · + βkXk + e]) autrement dit on rajoute l’exposition dans la r´egression, tout en forant le coefficient `a ˆetre ´egal `a 1. Ceci l´egitime ainsi la seconde ´ecriture possible > marges=glm(nombre~0+puissance+region+offset(exposition), + data=nombre,family=poisson(link="log")) Dans une r´egression poissonnienne, on suppose que dans une classe de risque (ou conditionnellement aux variables explicatives), la fr´equence et l’esp´erance concident, i.e. Var(Y |X) = E(Y |X). Dans l’exemple ci-dessous, on consid`ere le nombre de sinistres RC. On consistue quelques classes tarifaires, > moyenne = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant, + "puissance"")], mean) > variance = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant, + "puissance"")], var) > taille = tapply(BASENB$expo , BASENB[,c("agecond","carburant", 68
  • 69. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V + "puissance")], sum) > plot(as.vector(moyenne),as.vector(variance)) > abline(a=0,b=1,col="red") > abline(lm(as.vector(variance)~as.vector(moyenne)),col="blue",lty=2) qq qqqq q qqqqqqqq qqqqqqqqqqqq qq qq qqqqqqqqqqqq qqqq qq q q qqq q qq qqq q q q q q q q q q q q q q q q q qq q q qqqq qq q qqqqqq qqq qq qqq q qq q qqqqqqqq q q qq qqqq qqqq q qqq q qqq qqqq qq q qq q q qqq q qq q q q qq q q qqq q q 0.00 0.05 0.10 0.15 0.00.20.40.60.81.0 Moyenne par classe de risque Variance 69
  • 70. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V On peut commencer par faire un premier test, afin de voir si la pente de la r´egression semble significativement diff´erente > library(AER) > (regression=lm(as.vector(variance)~as.vector(moyenne), + weight=as.vector(taille)) Call: lm(formula = as.vector(variance) ~ as.vector(moyenne), weights = as.vector(taille)) Coefficients: (Intercept) as.vector(moyenne) -0.003966 1.200848 > linear.hypothesis(regression,"as.vector(moyenne)=1") Linear hypothesis test 70
  • 71. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Hypothesis: as.vector(moyenne) = 1 Model 1: as.vector(variance) ~ as.vector(moyenne) Model 2: restricted model Res.Df RSS Df Sum of Sq F Pr(>F) 1 1653 67.658 2 1654 70.460 -1 -2.8024 68.468 2.623e-16 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Une mani`ere de prendre en compte la surdispersion peut ˆetre de prendre non une loi de poisson, mais une loi quasipoisson, telle que Var(Y |X) = φE(Y |X), o`u φ devient un param`etre `a estimer (tout comme la volatilit´e des r´esidus dans une r´egression lin´eaire Gaussienne). > regglm <- glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance), 71
  • 72. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V + offset=log(expo), data=BASENB,family=quasipoisson) > summary(regglm) Call: glm(formula = N1RC ~ as.factor(agecond) + carburant + as.factor(puissance family = quasipoisson, data = BASENB[I, ], offset = log(expo)) (Dispersion parameter for quasipoisson family taken to be 1.583862) > (summary(regglm)$dispersion) [1] 1.583862 Pour tester la pr´esence d’une ´eventuelle surdispersion, on peut noter que la surdispersion correspond `a une h´et´erog´en´eit´e r´esiduelle, c’est `a dire un effet al´eatoire. Par exemple on peut supposer que (Y |X = X, Z = z) ∼ P(exp[X β + z α]) 72
  • 73. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V de telle sorte que si u = z α − E(Z α|X = X), alors (Y |X = X, Z = z) ∼ P(exp[X γ + u]) On a un mod`ele dit `a effets fixes, au sens o`u (Y |X = X) ∼ P(exp[X γ + U]) o`u U = Z α − E(Z α|X = X). Par exemple, si on suppose que U ∼ γ(a, a), i.e. d’esp´erance 1 et de variance σ2 = 1/a, alors (Y |U = u) ∼ P(λu) o`u λ = exp[X γ] de telle sorte que E(Y |U = u) = Var(Y |U = u). Mais si on regarde la loi nonconditionnelle, E(Y ) = λ alors que Var(Y ) = Var(E[Y |U]) + EVar(Y |)) = λ + λ2 σ2 . 73
  • 74. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V On peut alors proposer un test de la forme suivante : on suppose que Var(Y |X = X) = E(Y |X = X) + τ · E(Y |X = X)2 on on cherche `a tester H0 : τ = 0 contre τ > 0 Parmi les statistiques de test classique, on pourra consid´erer T = n i=1[(Yi − µi)2 − Yi] 2 n i=1 µ2 i qui suit, sous H0, une loi normale centr´ee r´eduite. On utilise simplement dispersiontest() de library(MASS). > regpoisson=glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),o + data=BASENB,family=poisson) > dispersiontest(regpoisson) Overdispersion test 74
  • 75. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V data: regpoisson z = 6.4039, p-value = 7.572e-11 alternative hypothesis: true dispersion is greater than 1 sample estimates: dispersion 1.069558 Une autre possibilit´e est de faire une r´egression binomiale n´egative (qui permettra de prendre en compte de la surdispersion). Elle se fait `a l’aide de la fonction glm.nb() de library(MASS). > regbn <- glm.nb(N1RC~as.factor(agecond)+carburant+as.factor(puissance) + offset(log(expo)),data=BASENB[I,]) Remark 1. La loi Binomial N´egative est obtenue comme un m´elange Poisson-Gamma. Dans library(gamlss) on parle de loi binomiale n´egative de type I. Une loi de type II est obtenue en consid´erant un m´elange Poisson-inverse Gaussienne. 75
  • 76. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les mod`eles `a inflation de z´eros Afin d’´eviter l’al´ea moral, il n’est pas rare de mettre en place des contrats participatifs. En assurance, l’exemple le plus connu est probablement le m´ecanisme de bonus-malus. Une personne qui n’a pas d’accident responsable une ann´ee a le droit `a un rabais l’ann´ee suivante (un bonus) alors qu’une personne ayant eu un ou plusieurs sinistres subit une majoration de prime (un malus). D’un point de vue ´econom´etrique, cette solution pr´esente un biais puisqu’elle peut insiter des personnes `a ne pas d´eclarer certains sinistres (d`es lors que la majoration exc`ede le cot du sinistre). Il n’est alors pas rare d’observer trop de personnes non-sinistr´ees dans la population totale (par rappport `a un mod`ele Poissonnien). Un mod`ele dit zero inflated est un m´elange entre une masse en 0 et un mod`ele classique de comptage, typiquement un mod`ele de Poisson, ou binomial n´egatif. Pour mod´eliser la probabilit´e de ne pas d´eclarer un sinistre (et donc d’avoir un 76
  • 77. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V surpoids en 0), consid´erons un mod`ele logistique par exemple, πi = exp[Xiβ] 1 + exp[Xiβ] Pour le mod`ele de comptage, on note pi(k) la probabilit´e que l’individu i ait k sinistres. Aussi, P(Ni = k) =    πi + [1 − πi] · pi(0) si k = 0, [1 − πi] · pi(k) si k = 1, 2, · · · Si pi correspond `a un mod`ele Poissonnien, on peut alors montrer facilement que ENi) = [1 − πi]µi et Var(Ni) = πiµi + πiµ2 i [1 − πi]. library(gamlss) propose la fonction ZIP (pour zero inflated Poisson), mais aussi ZINBI (lorsque pi correspond `a une loi binomiale n´egative), ou ZIPIG (pour un m´elange Poisson-inverse Gaussien), par exemple. La library(pscl) propose ´egalement une fonction zeroinfl plus simple d’utilisation, proposant aussi bien un mod`ele de Poisson qu’un mod`ele binomial n´egatif. 77
  • 78. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Il existe aussi des mod`eles dits zero adapted, o`u l’on suppose que P(Ni = k) =    πi si k = 0, [1 − πi] · pi(k) 1 − pi(0) si k = 1, 2, · · · Dans library(gamlss) il s’agit du mod`ele ZAP. Comme auparavant, il existe des fonctions ZANBI ou ZAPIG. Ces mod`eles `a inflation z´ero peuvent ˆetre particuli`erement utiles pour prendre en compte un exc`es de non-d´eclarations de sinistres, g´en´eralement attribu´ees `a une peur de perdre un niveau int´eressant de bonus-malus : la perte financi`ere associ´ee au malus des ann´ees suivantes peut exc´eder l’indemnit´e vers´ee aujourd’hui. On peut ajuster ici un mod`ele zero-inflated (logit) avec une loi de Poisson afin d’expliquer la sinistralit´e en fonction de l’ge du conducteur (en prenant en compte l’ge via une fonction nonlin´eaire que l’on estimera `a l’aide de splines). > reg1 <- glm(nombre~ageconducteur,offset=exposition,data=nombre, + family=poisson) 78
  • 79. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > reg2 <- glm(nombre~bs(ageconducteur,df=4),offset=exposition, + data=nombre,family=poisson) > reg3 <- zeroinfl(nombre~ageconducteur | ageconducteur, + data = nombre,offset=exposition,dist = "poisson",link="logit") > reg4 <- zeroinfl(nombre~bs(ageconducteur,df=4) | bs(ageconducteur), + data = nombre,dist = "poisson",link="logit",offset=exposition) La pr´ediction obtenue pour les ges usuels est pr´esent´ee sur la figure ci-dessous. Si l’on ne prend pas en compte l’ge de mani`ere nonlin´eaire, les deux mod`eles pr´edisent sensiblement la mˆeme chose. 79
  • 80. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V 20 30 40 50 60 70 0.020.040.060.080.100.12 Age du conducteur princpal Fréquenceannuelledesinistre Poisson, linéaire Poisson, nonlinéaire Zero inflated Binomiale Negative, linéaire Zero inflated Binomiale Negative, nonlinéaire On peut s’int´eresser plus particuli`erement `a l’impact de l’ge sur la probabilit´e de ne pas d´eclarer de sinistres (correspondant au param`etre de la loi binomiale). > age=seq(18,80) 80
  • 81. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V > DT=data.frame(ageconducteur=age,exposition=1) > Y4z <- predict(reg4,newdata=DT,type="zero") > plot(age,Y4z) 20 30 40 50 60 70 80 0.50.60.70.80.9 Age du conducteur princpal Probabilitédenepasdéclarerunsinistre 81
  • 82. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V On notera que l’interpr´etation en terme de niveau de bonus-malus semble pertinente, en particulier si l’on regarde le bonus moyen en fonction de l’ge du conducteur : le taux de bonus (et donc la prime) diminue avec l’ge, ce qui incite probablement `a ne pas d´eclarer certains petits sinistres responsables. 20 30 40 50 60 70 80 5060708090100110 Age du conducteur principal Niveaudebonusmoyen 82
  • 83. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V R´egression simple versus r´egression multiple q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 40 60 80 0.000.050.100.15 Age du conducteur principal Fréquenceannuelledesinistre 83
  • 84. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 40 60 80 0.000.050.100.15 Age du conducteur principal Fréquenceannuelledesinistre q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q Diesel Essence 84
  • 85. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 40 60 80 0.000.050.100.15 Age du conducteur principal Fréquenceannuelledesinistre q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q Voiture récente (<5 ans) Voiture ancienne (>6 ans) 85
  • 86. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 20 40 60 80 0.000.050.100.15 Age du conducteur principal Fréquenceannuelledesinistre q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q Faible densité Densité élevée 86
  • 87. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Rappels d’´econom´etrie lin´eaire Le mod`ele lin´eaire (lm) s’´ecrit Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i) Xi β0 βk β +εi o`u • Y est la variable `a expliquer, ou r´eponse, output, variable d´ependante, predicteur, ou variable endog`ene • les Xj sont les variables explicatives, ou pr´edicteurs, input, variables ind´ependantes, r´egresseurs ou variables exog`enes • ε est un bruit, suppos´e non expliqu´e (ou orthogonal) par les variables explicatives. 87
  • 88. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V ou encore      Y1 ... Yn      Y,n×1 =      1 X1,1 · · · X1,k ... ... ... ... 1 Xn,1 · · · Xn,k      X,n×(k+1)         β0 β1 ... βk         β,(k+1)×1 +      ε1 ... εn      ε,n×1 . Consid´erons - pour commencer un mod`ele lin´eaire simple, Yi = β0 + β1Xi + εi ou Yi = (1, Xi) Xi β0 β1 β +εi o`u εi est un bruit. Si X est suppos´e “exog`ene”, d´eterministe, ou donn´e, on suppose que εi est • centr´e E(εi) = 0, • de variance constante V ar(εi) = σ2 , • non autocorr´el´e, Cov(εi, εj) = 0 pour i = j, 88
  • 89. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Aussi, pour les r´esidus, on suppose que l’on a E(ε) = E      ε1 ... εn      =      0 ... 0      V ar(ε) = σ2 In = σ2         1 0 · · · 0 0 1 · · · 0 ... ... ... 0 · · · · · · 1         =         σ2 0 · · · 0 0 σ2 · · · 0 ... ... ... 0 · · · · · · σ2         89
  • 90. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Soit β l’estimateur par moindres carr´es, β = (X X)−1 X Y , • β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2 (X X)−1 . • Th´eor`eme de Gauss-Markov : parmi les estimateurs lin´eaires et sans biais de β, l’estimateur par moindres carr´ees est de variance minimale, i.e. BLUE • σ2 = 1 n − k n i=1 n i=1 (Yi − Xiβ)2 estime sans-biais σ2 . Si ε ∼ N(0, σ2 ), • β est ´egalement l’estimateur du maximum de vraisemblance • parmi les estimateurs sans biais de β est l’estimateur de variance minimale, i.e. BUE, • β ∼ N(β, σ2 (X X)−1 ) et (n − k) σ2 σ ∼ χ2 (n − k). Sous l’hypoth`ese o`u εi ∼ N(0, σ2 ), Yi ∼ N(Xβ, σ2 ), et comme β = (X X)−1 X Y ∼ N((X X)−1 X Xβ, [(X X)−1 X ] [(X X)−1 X ]σ2 ) ∼ N(β, (X X)−1 σ2 ), 90
  • 91. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V soit, pour tout j, βj − βj V ar(βj) = βj − βj [(X X)−1]jjσ2 ∼ N(0, 1), or comme σ est inconnue, on la remplace par un estimateur ind´ependant de l’estimateur des βj. Aussi βj − βj V ar(βj) = βj − βj [(X X)−1]jjσ2 ∼ St(n − k), o`u k est le nombre de variables explicatives. Aussi, βj ∈ βj ± t1−α/2 [(X X)−1]jjσ2 , sous l’hypoth`ese o`u εi ∼ N(0, σ2 ). Les r´esultats pr´ec´edants permettent de proposer un test simple de H0 : βj = 0 contre l’hypoth`ese H1 : βj = 0. 91
  • 92. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V La statistique de test Tj = βj V ar(βj) ∼ St(n − k) sous H0. Les deux lectures possibles d’un test • donner la region de rejet, de la forme [±T1−α/2], avec un seuil α fix´e arbitrairement ( par d´faut 95%) • donner le seuil α tel que la r´egion de rejet soit [±t] (la plus petite region de rejet `a laquelle appartienne la statistique observ´ee), i.e. la probabilit´e que de rejeter H0 si H0 ´etait vraie. Dans ce dernier cas, on parle de p-value, p = P(rejeter H0|H0 vraie) : si p est faible, on rejette H0, car il y a peu de chances qu’H0 soit vraie. 92
  • 93. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Lecture du test de Student −6 −4 −2 0 2 4 6 0.00.10.20.30.4 Region de rejet du test de Student ACCEPTATION DE H0 REJET DE H0 REJET DE H0 Aire totale = 5% 93
  • 94. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Lecture du test de Student −6 −4 −2 0 2 4 6 0.00.10.20.30.4 p−value associée à un test de Student Aire totale = 1,23% Le crit`ere d’Akaike, not´e souvent AIC AIC = 2k − 2 log(L) = 2k + n log 2π 1 n n i=1 ε2 i + 1 94
  • 95. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V dans le cas Gaussien. Le crit`ere de Schwarz, not´e SIC (Schwarz Information Criterion), ou crit`ere Bay´esien, not´e BIC BIC = −2 log(L) + k ln(n) = n ln n i=1 ε2 i + k ln(n). • 95
  • 96. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Quelques id´ees g´en´erales en estimation nonparam´etrique Rappelons qu’un esp´erance conditionnelle est l’esp´erance associ´ee `a la loi conditionnelle, i.e. m(x) = E(Y |X = x) = yfY |X=x(u|x)du = y fY,X(u, x) fX(x) du qui peut se r´e´ecrire simplement m(x) = yfY,X(u, x)du fX(x) = yfY,X(u, x)du fY,X(u, x)du . Tukey (1961) a propos´e de transposer l’histogramme au `a l’approximation (nonparam´etrique) de l’esp´erance conditionelle. 96
  • 97. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Soit (Bj)j=1,·,m une partition du support de X, ϕ(x) = n i=1 Yi1(Xi ∈ Bj) n i=1 1(Xi ∈ Bj) pour tout x ∈ Bj. On parle de r´egressogramme, propos´e par Tukey (1961) 97
  • 98. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage 98
  • 99. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Naturellement, on peut consid´erer un r´egressogramme glissant, ϕ(x) = n i=1 Yi1(Xi ∈ [xh; x + h]) n i=1 1(Xi ∈ [xh; x + h]) pour tout x, o`u h > 0. 99
  • 100. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage 100
  • 101. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Notons qu’on peut ´egalement obtenir un intervalle de confiance, soit en utilisant un intervalle de confiance gaussien (avec l’´ecart-type estim´e sur le voisinage, -) ou en utilisant les quantiles empiriques (-). q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage 101
  • 102. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Nous venons de prendre la moyenne sur les voisins de x distants d’au plus ±h. Une autre id´ee peut ˆetre de chercher les k plus proches voisins ϕ(x) = n i=1 Yi1(Xi ∈ Vx) n i=1 1(Xi ∈ Vx) pour tout x, o`u Vx contient les k plus proches voisins de x. 102
  • 103. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 vitesse du véhicule distancedefreinage 103
  • 104. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Au vu de l’expression pr´ec´dante, on a simplement besoin d’estimer la loi conditionnelle de Y sachant X = x. Stone (1977) a sugg´er´e une forme tr`es g´en´erale, Fn(y|x) = n i=1 ωi,n(x)1(Yi ≤ y), o`u ωi,n(x) est le poid associ´e `a la i`eme observation, parmi les n. Intuitivement, les poids doivent ˆetre importants pour les poids dont les Xi sont au voisinage imm´ediat de x Nadaraya (1964) et Watson (1964) ont sugg´er´e des poids de la forme suivante ωi,n(x) = K x − Xi h n i=1 K x−Xi h o`u K est appel´e noyau et h fenˆetre. 104
  • 105. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Royall (1966) propose d’utiliser des m´ethodes dites des plus proches voisins, ωi,n(x) = crx(i),n, o`u rx(i) est le rang de x − Xi o`u la fonction c mets des poids importants pour les premiers rangs (observations dont Xi est proche de x). Yang (1981) propose de m´elanger ces m’ethodes en consid´erant des poids ωi,n(x) ∝ K Fn(x) − Fn(Xi) h . Friedman (1984) a propos´e de consid´erer des r´egressions localement lin´eaires. Soit ωi,n(x) = wi,n · 1 + (x − X) s (Xi − X) s o`u X = wi,nXi et s2 = wi,n[Xi − X]2. Enfin, Reinsch (1967) et Silverman (1985, JRSS B) propose d’utiliser des 105
  • 106. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V fonctions splines, i.e. on cherche une fonction g qui minimise 1 n n i=1 [Yi − g(x)]2 + λ g (z)2dz. On peut montrer que la solution est alors g(x) = n i=1 G(x, i)Yi, o`u G(x, i) = 1 n 1 f(Xi) 1 h(Xi) κ x − Xi h(xi) h(xi)4 = λ f(xi) et κ(z) = 1 2 exp − |z| √ 2 sin |z| √ 2 + π 4 O`U f est la densit´e de X. L’estimateur `a noyau de l’esp´erance conditionnelle m(x) = E(Y |X = x) `a partir d’un ´echantillon {(X1, Y1), · · · , (Xn, Yn)} est mn(x) = n i=1 Kh(x − Xi)Yi n i=1 Kh(x − Xi) o`u Kh(u) = 1 h K u h o`u h est un param`etre d’´echelle. On parlera d’estimateur de Nadaraya-Watson. 106
  • 107. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Notons que si h → 0, alors mn(Xi) → Yi. En revanche, si h → ∞, alors mn(Xi) → Y . Paramètre de lissage 0.0 0.2 0.4 0.6 0.8 1.0 VARIANCE BIAS L’id´ee est d’ajuster, au voisinage de x0 un polynme. Pour cela, on utiliser 107
  • 108. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V l’expansion de Taylor, f(x) ≈ f(x0) + (x − x0)f (x0) + (x − x0)2 2! f (x0) + · · · Il est alors naturel de chercher un estimateur de la forme β = argmin n i=1 ωi Yi − [β0 + β1(Xi − x0) + β2(Xi − x0)2 + · · · ] 2 o`u ωi = Kh(Xi − x0). L’estimation de β peut alors ˆetre vu comme un probl`eme de moindres carr´es pond´er´es, i.e. β = argmin {(Y − Xβ) Ω(Y − Xβ)} o`u Ω = diag(Kh(X1 − x0), · · · , Kh(Xn, x0)) et X = [Xi,j] o`u Xi,j = (Xi − x0)j−1 Si l’on se contente de r´egresser localement sur une constante, on obtient l’estimateur de Nadaraya-Watson. 108
  • 109. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Les ajustements locaux > loess(dist ~ speed, cars,span=0.75,degree=2) > predict(REG, data.frame(speed = seq(5, 25, 0.25)), se = TRUE) Le param`etre span correpond au pourcentage de points gard´es pour faire l’ajustement local, et degree est le typoe de r´egression polynomiale. Ici ajustement local au voisinage de x = 15, avec 25% de points pour d´efinir le voisinage (on garde 25% des points les plus proches, en x), et un ajustement lin´aire. 109
  • 110. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 Vitesse du véhciule Distancedefreinage q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 Vitesse du véhciule Distancedefreinage 110
  • 111. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Ici ajustement local au voisinage de x = 15, avec 50% de points pour d´efinir le voisinage (on garde 50% des points les plus proches, en x), et un ajustement lin´aire. q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 Vitesse du véhciule Distancedefreinage q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 Vitesse du véhciule Distancedefreinage 111
  • 112. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V R´egression spline Nous avons vu la r´egression locale et par ajustement locaux de polynˆomes. Une solution alternative est d’approcher ϕ par des fonctions polynˆomiales par morceaux, les morceaux ´etant s´epar´es par des noeuds, avec des recollements entre les morceaux plus ou moins lisses. Formellement, les splines d’ordre q sont • compos´ees de (q + 1) polynˆomes de degr´e q, • avec q raccords (int´erieurs), • en chaque noeud, les d´eriv´ees d’ordre j, j = 1, 2, · · · , q − 1 sont continues • dont le support est un intervalle contenant les q noeuds. On suppose que E(Y |X = x) = ϕ(x) o`u ϕ est la fonction que l’on cherche `a estimer. Supposons que l’on cherche `a r´esoudre le programme d’optimisation suivant, ϕλ,n = argmin g∈L2    n i=1 |Yi − g(Xi)|2 + 1 0 |g (x)|2 dx    112
  • 113. Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´eciaux, STT 6705V Il est possible de montrer que la solution appartient forc´ement `a l’ensemble des splines cubiques de noeuds Y1, · · · , Yn. • 113