SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Downloaden Sie, um offline zu lesen
État de l’Art sur la loi de Poisson binomiale
et application en assurance vie
Yacine HOSNI et Yongshen CHEN
Université Pierre et Marie CURIE
Travail d’Étude de Recherche réalisé sous la direction de
Catherine MATIAS (CNRS-LPMA)
Avec la collaboration de Vincent LEPEZ et Razvan IONESCU
(SCOR)
20 mai 2015
Résumé
La loi de Poisson binomiale est la loi d’une somme de variables aléa-
toires de Bernoulli indépendantes et de paramètres différents. Cette loi
trouve son application naturelle dans des domaines aussi variés que
l’économie, l’ingénierie et l’actuariat. Le calcul exact de cette loi ne
requiert aucune notion avancée de théorie des probabilités et est im-
médiat. Cependant, on a besoin de méthodes plus performantes pour
effectuer des calculs dans des cas pratiques. Dans ce mémoire, on rap-
pelle les principales caractéristiques et problématiques liées à la loi de
Poisson binomiale. On introduit ensuite des algorithmes exacts et des
méthodes d’approximation pour cette loi. Enfin on s’intéresse aux com-
portements de ces méthodes en assurance vie. On étudie également le
comportement d’une somme pondérée de variables aléatoires de Ber-
noulli indépendantes et de paramètre différents. On modifie un package
R pour traiter cette dernière problématique.
1
Remerciements
Nous tenons à remercier chaleureusement Catherine Matias pour sa dipo-
nibilité, son calme et sa patience. Nous remercions également pour leurs ac-
cueil Vincent Lepez et Razvan Ionescu nos deux interlocuteur chez la SCOR.
Le chapitre "Calcul exacts" est, grosso modo un condensé de la première
partie de l’article de Yili Hong [6], que nous remercions également à cette
occasion.
Table des matières
1 Introduction et motivations 2
2 Calculs exacts 2
2.1 Formules explicites . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Algorithmes exacts . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Formules récursives, (RF) . . . . . . . . . . . . . . . . 3
2.2.2 Transformée de Fourier discrète de la fonction carac-
téristique . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Méthodes d’approximation 5
3.1 Approximation par une loi de Poisson (PA) . . . . . . . . . . 5
3.2 Approximation par une loi Normale (NA) . . . . . . . . . . . 6
3.3 Approximation par une loi normale raffinée (RNA) . . . . . . 6
4 Somme pondérée 7
4.1 Méthode DFT-CF . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2 Méthodes d’approximation . . . . . . . . . . . . . . . . . . . . 8
4.2.1 Approximation par une loi de Poisson . . . . . . . . . 8
4.2.2 Approximation par une loi normale et RNA . . . . . . 8
5 Application en assurance vie 9
5.1 Packages ’poibin’ et ’poibinact’ . . . . . . . . . . . . . . . . . 9
5.2 Études de différents portefeuilles . . . . . . . . . . . . . . . . 9
5.2.1 Premier portefeuille . . . . . . . . . . . . . . . . . . . 10
5.2.2 Deuxième portefeuille . . . . . . . . . . . . . . . . . . 13
5.2.3 Troisième portefeuille . . . . . . . . . . . . . . . . . . 15
5.2.4 Étude de la charge de sinistre . . . . . . . . . . . . . . 18
5.3 Qualité de l’approximation en fonction de l’espérance . . . . . 23
5.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 23
5.3.2 Étude en R-studio . . . . . . . . . . . . . . . . . . . . 23
6 Conclusion 26
1
1 Introduction et motivations
La somme de n variables de Bernoulli indépendantes et identiquement
distribuées, qu’on note Xi ∼ B(p) pour i = 1, 2, . . . , n suit une loi Binomiale
qu’on note Sn ∼ B(n, p).
Si maintenant on considère Sn = X1 + · · · + Xn, avec Xi ∼ B(pi) pour
i = 1, 2, . . . , n avec les pi non identiques. On obtient alors une loi de Poisson
binomiale.
L’étude d’une telle loi s’est faite par nécessité. En effet, de nombreuses
problématiques mènent à la loi de Poisson binomiale. Par exemple, en écono-
métrie on souhaiterait prédire le nombre d’entreprise qui feront faillite, pour
des raison évidentes, chaque entreprise a une probabilité de faillite propre.
On se retrouve alors avec une somme de variables de Bernoulli différemment
distribuées.
En assurance vie, pour un portefeuille d’assurés donné, cette loi modélise
le nombre total de décès . En effet chaque individu possède une probabilité
de décès différente. Ce dernier exemple sera étudié plus en détail dans ce
document.
L’étude de cette loi et de ses propriétés débute pour la première fois en
1956 avec Hoeffding [5]. Puis en 1960, Lucien Le Cam [7] expose un théorème
qui majore l’erreur de l’approximation par une loi de Poisson.
2 Calculs exacts
Dans la suite Sn = n
i=1 Xi où les Xi ∼ B(pi) avec pi ∈]0, 1[ et les pi
non identiques.
2.1 Formules explicites
Pour expliciter les formules liées à cette loi, on définit judicieusement
des ensembles qui nous permettront de simplifier et optimiser l’écriture des
formules qui découleront par la suite. Il est évident que pour le calcul de
la fonction de masse de cette loi, on a besoin de passer en revue toutes les
combinaisons possibles d’événements qui fournissent le résultat mesuré.
Pour x = 0, 1, . . . , n, on définit l’ensemble des sous ensembles de {1, . . . , n}
de taille x,
Fx = {A : A ⊆ {1, . . . , n}, |A| = x} (1)
Pour calculer la fonction de masse,P(Sn = k) on procède comme indiqué
plus haut : On somme sur tous les sous ensemble de taille k :
P(Sn = k) =
A∈Fk j∈A
pj
j∈Ac
(1 − pj) (2)
On remarque que dans le cas où les pk sont égaux on retrouve la fonction de
masse de la loi binomiale.
2
De même la fonction de répartition est donnée par :
P(Sn ≤ k) = Fn(k) =
k
m=0 A∈Fm j∈A
pj
j∈Ac
(1 − pj) (3)
Ces formules bien que facile à trouver, ont un défaut qui rendent les
calculs impraticables. En effet la taille de Fk explose très rapidement. Par
exemple pour n = 10, |F10| = 30
10 = 30045015, et pour n = 100, |F20| =
100
20 = 5.3598337e+20.
2.2 Algorithmes exacts
Il existe dans la littérature de nombreux algorithmes plus ou moins per-
formants pour le calcul exact de la loi sans passer en revue toutes les com-
binaisons possibles.
2.2.1 Formules récursives, (RF)
Parmi ces algorithmes il existe des méthodes dites récursives. On en ex-
pose deux ici.
RF1. (Barlow et Heidtmann[1]) La première méthode est plutôt intui-
tive ; on pose pour k = 0, 1, . . . , n et j = 0, 1 . . . , n :
ξk,j = P(Sj = k) (4)
avec les conditions initiales : ξ−1,n = ξn+1,n = 0, j = 0, 1, . . . , n−1 et ξ0,0 = 1
On a alors la formule :
ξk,j = (1 − pj)ξk,j−1 + pjξk−1,j−1 (5)
RF2. (Chen, Dempster et Liu [2]) La deuxième méthode est quant à elle
liée aux identités de Newton.
ξ0,n =
n
j=1
(1−pj), et ξk,n =
1
k
k
l=1
(−1)l−1
tlξk−l,n, k = 1, . . . , n (6)
avec tl = n
j=1[
pj
1−pj
]l.
3
2.2.2 Transformée de Fourier discrète de la fonction caractéris-
tique
On rappelle brièvement la transformée de Fourier discrète ainsi que sa
fonction réciproque.
Soit {y0, y1, ..., yn} une séquence de n + 1 nombres complexes. La trans-
formée de Fourier discrète de la séquence {y0, y1, ..., yn} est {z0, z1, ..., zn}
avec :
zk =
n
l=0
yl exp(−iωkl) (7)
avec k = 0, 1, . . . , n et ω = 2π
n+1 .
La transformée de Fourier discrète inverse pour la séquence {z0, z1, . . . , zn}
est donnée par :
yl =
1
n + 1
n
k=0
zk exp(iωlk), l = 0, 1, . . . , n. (8)
Le but de ce qui suit est d’appliquer les notions rappelées plus haut à
la fonction caractéristiques de la loi de Poisson binomiale. Toujours dans le
cadre où Sn = n
i=1 Xi où les Xi ∼ B(pi) avec les pi non identiques, on
calcule la fonction caractéristique de Sn :
φ(t) = E[exp(itSn)] =
n
k=0
ξk exp(itk) = E[exp(it
n
k=1
Xk)]
=
n
k=1
E[exp(itXk)] =
n
k=1
[1−pk +pk exp(it)]
(9)
Avec ξk = P(Sn = k).
On remplace maintenant t par ωl dans (8) avec l = 0, 1, . . . , n et ω = 2π
n+1,
on obtient alors :
1
n + 1
n
k=0
ξk exp(iωlk) =
1
n + 1
n
k=1
[1 − pk + pk exp(iωl)] =
1
n + 1
Ql (10)
avec Ql = n
k=1[1 − pk + pk exp(iωl)]
On remarque tout particulièrement que le terme de gauche dans l’équa-
tion (10) est la transformée de Fourier discrète inverse de ξk telle que définie
en (8). On obtient alors, en appliquant la transformée de Fourier discrète des
deux cotés :
ξk =
1
n + 1
n
l=0
exp(−iωlk)Ql (11)
La formule obtenue dans l’expression (11) sera appelé par la suite la DFT-
CF méthode (Discrete Fourier Transform of the characteristic function).
4
La méthode RF1 est un algorithme qui demande beaucoup de mémoire
vive et les calculs deviennent vite irréalisables avec cette méthode. Ainsi
quand n = 15000 le calcul de la loi nécessite pas moins de 4 GB de ram.
La méthode RF2, quant à elle présente des problèmes de stabilités nu-
mérique et le calcul est quasiment impossible dans la majorité des cas.
Enfin la méthode DFT-CF est la méthode la plus optimale et est celle
qui fournira nos résultats de référence tout au long de ce document.
Cela dit bien qu’optimale cette méthode reste limitée par sa performance,
en effet on verra par la suite que le temps de compilation augmente considéra-
blement. De surcroît, ces méthodes ne fonctionnent que que si on dispose de
toutes les caractéristiques de l’échantillon. En pratique, cette condition n’est
pas toujours réalisée. Rentre alors en jeux des méthodes d’approximation qui
prennent en entrée des variables qui résume une ou plusieurs propriétés de
l’échantillon. Il s’agira en particulier ici de l’espérance, de la variance et du
coefficient d’asymétrie des pi.
3 Méthodes d’approximation
3.1 Approximation par une loi de Poisson (PA)
Une première méthode consiste à approcher la loi de Poisson binomiale
par une loi de Poisson de paramètre λ = n
i=1 pi. Lucien Le Cam présente
en 1960 [7] un théorème sur la qualité de cette approximation en évaluant la
distance infinie entre la fonction de répartition de la loi de Poisson binomiale
et la fonction de répartition d’une loi de Poisson de paramètre λ = n
i=1 pi.
Théorème. Soit Y une variable aléatoire suivant une loi de Poisson de
paramètre λ = n
i=1 pi et Sn comme définit plus haut. On a alors :
sup
k
|P(S ≤ k) − P(Y ≤ k)| ≤ 2
n
i=1
p2
i (12)
Dans un article connexe de J.L.Hodges, Jr et Lucien Le Cam [4], on trouve
une variante du théorème avec une borne amélioré.
Théorème bis.
sup
k
|P(S ≤ k) − P(Y ≤ k)| ≤ 3 3
√
α (13)
avec α = max(p1, . . . , pn).
On remarque alors que la qualité de cette approximation est indépen-
dante de la taille de l’échantillon. les paramètres pi ont seuls un impact
sur l’inégalité. Par conséquence, l’approximation par une loi de Poisson est
précise si tant est que les pi soient petits.
5
3.2 Approximation par une loi Normale (NA)
Cette approximation repose sur l’application du théorème central limite
généralisé au variables aléatoires indépendante mais non identiquement dis-
tribuées 1. On a alors l’approximation suivante :
P(Sn ≤ k) ≈ φ(
k + 0.5 − µ
σ
) (14)
avec µ = n
i=1 pi et σ = n
i=1 pi(1 − pi).
remarque : L’écart 0.5 qui apparaît dans la formule est la correction
appliqué après le passage du discret au continue.
La qualité de cette approximation dépend de la taille de l’échantillon.
3.3 Approximation par une loi normale raffinée (RNA)
Pour que l’approximation par une loi Normale soit performante, il faut
que la taille de l’échantillon soit importante et que la distribution de Sn
soit symétrique. Or, cette condition n’est pas réalisé en pratique. L’idée de
l’approximation par une loi normale raffinée (Refined Normal approximation)
est de corriger ce décalage omniprésent en prenant en compte le coefficient
d’asymétrie de la loi.
On a alors l’approximation suivante :
P(Sn ≤ k) ≈ G(
k + 0.5 − µ
σ
) (15)
Où G(x) = φ(x) + γ(1−x2)f(x)
6 , γ = E[(Sn−µ)3]
E[(Sn−µ)2]3/2 : Coefficient d’asymétrie de
Sn , f la densité d’une loi normale et φ sa fonction de répartition.
Il existe plusieurs écrits qui traitent de la qualité de cette approximation.
En particulier, Paul Deheuvels, Madan, L. Puri et Stefan S. Ralescu [3]
proposent le théorème suivant :
Théorème.
Il existe une constante c < ∞ telle que
sup
k
|P(S ≤ k) − G(
k + 0.5 − µ
σ
)| ≤ cσ−2
(16)
1. On fait référence ici au théoèreme de Lindeberg-Feller
6
4 Somme pondérée
On s’intéresse maintenant à la somme pondérée de variables aléatoires
de Bernoulli indépendantes de paramètres différents. Dans tout la suite, on
fera référence à cette somme en la notant Wn = n
i=1 HiXi. Où Xi ∼ B(pi)
et Hi constante multiplicatif qu’on suppose ici entière.
L’étude de cette somme est en réalité un premier pas vers l’application
des résultats ci-dessus en assurance vie. En effet, un enjeux en assurance vie
est de prédire le nombre de décès pour un portefeuille donnés et également
la charge de sinistre qui correspond alors à Wn avec Hi égale à la somme
assurée par le i-ème individu.
Notre but ici est d’adapter les résultats vu plus haut à l’étude de cette
somme. En particulier la méthode DFT-CF pour le calcul exacte, et les
différentes méthodes d’approximations.
4.1 Méthode DFT-CF
On rappelle que cette méthode utilise la transformée de Fourier inverse
dont les propriétés ont été rappelées plus haut.
On note Wn = n
i=1 HiXi où Xi ∼ B(pi) , m = n
i=1 Hi
et ξk = P(Wn = k). On calcule alors la fonction caractéristique de Wn.
φ(t) = E[exp(itWn)] =
m
k=0
ξk exp(itk) = E[exp(it
n
k=1
HkXk)]
=
n
k=1
E[exp(itHkXk)] =
n
k=1
[1−pk+pk exp(itHk)]
(17)
On remplace maintenant t par ωl dans (17) avec l = 0, 1, . . . , m
et ω = 2π
m+1, on obtient alors :
1
m + 1
m
k=0
ξk exp(iωlk) =
1
m + 1
n
k=1
[1 − pk + pk exp(iωlHk)] =
1
m + 1
Ql
(18)
avec Ql = n
k=1[1 − pk + pk exp(iωlHk)]
On remarque alors que le terme de gauche dans l’équation (18) est la
transformée de Fourier discrète inverse de ξk. On obtient alors, en appliquant
la transformée de Fourier discrète des deux cotés :
ξk =
1
m + 1
m
l=0
exp(−iωlk)Ql (19)
On reviendra plus tard sur la performance de cette méthode.
7
4.2 Méthodes d’approximation
Les méthodes d’approximation permettent d’approcher la loi exacte sans
pour autant disposer de toutes les caractéristiques de l’échantillon. Ainsi les
méthodes exposées précédemment restent, mutatis mutandis, correctes pour
la somme pondérée.
4.2.1 Approximation par une loi de Poisson
On rappelle que dans le cas de l’approximation par une loi de Poisson, on
ne renseigne que l’espérance théorique. Ainsi dans le cas d’une somme pon-
dérée Wn on effectuera l’approximation par une loi de Poisson de paramètre
λ = n
i=1 Hipi.
Le théorème de Lucien Le Cam [4] ne s’applique cependant plus dans ce
cas de figure. Il est aisé de constater que les constantes multiplicatifs Hi ont
une influence sur la qualité de l’approximation.
4.2.2 Approximation par une loi normale et RNA
L’approximation par une loi normale requiert de connaître l’espérance et
la variance de l’échantillon. Pour la RNA on a besoin du coefficient d’asy-
métrie en plus. Ainsi pour une somme pondérée, ces approximations sont
similaires aux approximations vu dans le cas d’une somme non pondérée.
On ne changera que les paramètres espérance, variance et coefficient d’asy-
métrie par ce qui suit.
L’espérance :
µ =
n
i=1
Hipi (20)
La variance :
σ2
=
n
i=1
H2
i pi(1 − pi) (21)
Le coefficient d’asymétrie :
γ =
E[(Wn − µ)3]
E[(Wn − µ)2]3/2
=
n
i=1 H3
i pi(1 − pi)(1 − 2pi)
σ3
(22)
On verra plus tard que le comportement des approximations dans le cas
des sommes pondérées est similaire pour les approximation sur les sommes
non pondérée, bien que les théorème sur la qualité des approximations ne
s’appliquent plus pour les sommes pondérées.
8
5 Application en assurance vie
Comme dit en introduction, la loi de Poisson binomiale trouve son appli-
cation dans plusieurs domaines dont l’assurance vie, on s’intéresse en parti-
culier à ce dernier champ. Pour être concis, on considère qu’en assurance vie
on dispose d’un portefeuille d’assurés qui se compose de la façon suivante :
Individu Age Probabilité de Décès Somme assurée Décès
Xi 67 pi Hi 1 si le décès est constaté, 0 sinon.
Le but pour l’assureur est donc de prédire le nombre de décès et la charge
de sinistre. L’occasion pour nous d’appliquer et commenter l’ensemble des
résultats précédents.
Tous les calculs ont été effectué à l’aide du logiciel R 64-bit[8] sur une
machine équipé d’Intel Xeon CPU (X5660, 2.80GHz) avec une carte mémoire
de 64 GB.
5.1 Packages ’poibin’ et ’poibinact’
Il existe sur le site du Cran un package R ’poibin’ 2 qui implémente deux
algorithme de calcul exacte (RF1 et DFT-CF) et deux méthode d’approxi-
mation (RNA et approximation normal) pour la loi de Poisson binomiale.
Cela dit, ce package ne traite pas du cas des sommes pondérées. On
modifie alors, pour le besoin de l’étude, le package ’poibin’ pour pourvoir
calculer la loi Wn. On nomme ce package dérivé du premier ’poibinact’.
5.2 Études de différents portefeuilles
Dans cette section, un schéma similaire se déroulera sur trois porte-
feuilles. Dans un premier temps on calcule la loi exacte par la méthode
DFT-CF, puis on effectue les approximations de cette loi pour en juger les
performance.
Dans ce document et dans le cadre de notre sujet, on considère que les
probabilités de décès pi retranscrivent parfaitement la réalité. Ainsi, aucune
critique quant à un certain décalage entre le nombre total de décès observé
et théorique ne sera faite.
2. http ://cran.r-project.org/web/packages/poibin/poibin.pdf
9
Étude de la somme Sn = n
i=1 Xi.
5.2.1 Premier portefeuille
Le premier portefeuille comprend 25 734 individus, ils ont une moyenne
d’âge de 74 ans, une probabilité de décès moyenne de 0.02, médiane de 0.015
et n
i=1 pi = 725. On représente ci dessous l’histogramme des pi.
Figure 1 – Histogramme des pi pour le premier portefeuille
On utilise la méthode DFT-CF pour le calcul exacte. Le temps d’exécu-
tion pour ce portefeuille est de seulement 25 secondes. Cela dit, on verra que
la durée d’exécution augmente de façon exponentielle.
Maintenant qu’on dispose de la loi exacte de Sn, on compare la perfor-
mance des trois approximations dont on dispose.
Approximation par une loi de Poisson :
On rappelle qu’on rapproche la loi de Sn par une loi de Poisson de para-
mètre λ = n
i=1 pi.
Pour quantifier la performance de cette approximation, on considère deux
indicateurs. Le premier est la norme L1 de la différence entre la fonction de
répartition théorique et la fonction de répartition de la loi de Poisson.
Ça correspond donc à :
n
k=1
|P(Sn ≤ k) − P(Y ≤ k)| (23)
Où Y ∼ P(λ).
10
Le second indicateur est la norme infinie L∞.
sup
k
|P(Sn ≤ k) − P(Y ≤ k)| (24)
On représente le comportement de cette approximation en représentant
la différence entre la fonction de répartition théorique et celle de l’approxi-
mation.
Figure 2 – Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 1
Ainsi nos indicateurs valent ici :
Norme Valeur
L1 0.7101
L∞ 0.0082
On répète la même procédure pour l’approximation par une loi Normale
et RNA. On détaillera donc plus autant les étapes.
11
Figure 3 – Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 1
Figure 4 – Graphique représentant la qualité de l’approximation RNA pour
le portefeuille 1
12
Resumé
Norme Méthode Valeur
L1
PA 0.7101
NA 0.1416
RNA 0.0018
L∞
PA 0.0082
NA 0.0022
RNA 2.6e−05
Figure 5 – Tableau résumant la performance des approximations pour le
portefeuille 1
On en déduit alors que pour ce portefeuille la méthode RNA est la
meilleure approximation. L’approximation normale est plus performante que
l’approximation par une loi de Poisson.
5.2.2 Deuxième portefeuille
Le second portefeuille comprend 394 369 individus, ils ont une moyenne
d’âge de 36 ans, une probabilité de décès moyenne de 0.0008, médiane de
0.0005 et n
i=1 pi = 305. Donc largement inférieure à celle du premier porte-
feuille. On représente ci dessous l’histogramme des pi, les graphes représen-
tant le comportement des approximations ainsi que le tableau récapitulatif.
N.B : Le temps d’exécution pour le méthode de DFT-CF est d’une heure
25 minutes.
Figure 6 – Histogramme des pi pour le deuxième portefeuille
13
On constate que les probabilités de décès sont petites et très concentrées
dans ce portefeuille.
Figure 7 – Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 2
Figure 8 – Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 2
14
Figure 9 – Graphique représentant la qualité de l’approximation RNA pour
le portefeuille 2
Resumé
Norme Méthode Valeur
L1
PA 0.0120
NA 0.1609
RNA 0.0033
L∞
PA 0.0002
NA 0.0038
RNA 7.02e−05
Figure 10 – Tableau résumant la performance des approximations pour le
portefeuille 2
Pour ce portefeuille on remarque une certaine ressemblance avec les fi-
gures du premier portefeuille. L’approximation par la méthode RNA reste la
plus performante, cela dit dans ce cas l’approximation par une loi de Pois-
son est meilleure que celle par une loi normale classique. Ceci s’explique par
le fait qu’ici les probabilités de décès pi sont petites, or la qualité de l’ap-
proximation par une loi de Poisson est d’autant plus correcte si les pi sont
petits
5.2.3 Troisième portefeuille
Le troisième portefeuille comprend 1 458 381 individus, ils ont une moyenne
d’âge de 37 ans, une probabilité de décès moyenne de 0.001, médiane de
0.0004 et n
i=1 pi = 1418. Ce portefeuille est de taille importante, ce qui
15
affecte la performance des algorithmes. Ainsi il faut pas moins de 21 heures
pour le calcul de la loi exacte par la méthode DFT-CF. Les méthodes d’ap-
proximations ont alors ici un tout autre intérêt, puisqu’elles ne nécessitent
aucune durée d’exécution.
On représente comme précédemment l’histogramme des pi et les gra-
phiques des approximations.
Figure 11 – Histogramme des pi pour le troisième portefeuille
Figure 12 – Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 3
16
On constate que les probabilités de décès sont très petite mais plus épar-
pillées que dans le deuxième portefeuille.
Figure 13 – Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 3
Figure 14 – Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 3
17
Resumé
Norme Méthode Valeur
L1
PA 0.0388
NA 0.1605
RNA 0.0015
L∞
PA 0.0003
NA 0.0018
RNA 1.48e−05
Figure 15 – Tableau résumant la performance des approximations pour le
portefeuille 3
La méthode RNA est encore une fois la plus performante des trois mé-
thodes, ce qui nous laisse penser qu’elle surpasse les deux autres méthodes
dans tous les cas. L’approximation par une loi de Poisson reste meilleure que
l’approximation normale.
On remarque que dans les trois portefeuilles les graphiques représentant
la qualité des approximations ont sensiblement la même forme. Que se passe-
t-il si on remplace l’abscisse de ces graphiques par les quantiles de la loi ?
On constate une parfaite concordance entres les trois portefeuilles. (voir
figures 26,27,28,29,30,31,32,33,34)
Cette similitude laisse suggérer un caractère prédictible sur le compor-
tement des approximations. On peut alors penser à effectuer une correction
systématique en fonction du positionnement de l’approximation.
5.2.4 Étude de la charge de sinistre
Dans cette section, on utilise le package ’poibinact’ pour étudier la charge
de sinistre pour le premier portefeuille. Pour des raisons pratiques, on dé-
coupe le portefeuille en cellule de crise (i.e. Tranche d’âge). En effet, le temps
de compilation pour la loi exacte de Wn est extrêmement élevé.
On procède comme suit.
Les individus du premier portefeuille sont âgés de 65 à 102 ans. On re-
groupe alors les individus âgés de 65 à 69 ans, de 70 à 74 ans, de 75 à 79
ans, de 80 à 84 ans et finalement de 85 à 102 ans.
On ne présentera pas les résultats pour tous. On choisit plutôt deux
cellules dont les probabilités de décès ont des caractéristiques opposées. Ainsi
on prend les plus jeunes 65-69 ans et les plus âgés 85-102 ans.
65-69 ans :
Le portefeuille pour cette tranche d’âge contient 7489 individus. Ils ont
une probabilité de décès moyenne de 0.009 et n
i=1 pi = 66. L’espérance de
Wn vaut n
i=1 Hipi = 257 815.
18
On effectue le calcul exacte de la loi par la méthode DFT-CF. La durée
d’exécution est de 7 heures.
On présente la qualité des approximations avec les mêmes indicateurs vu
dans les sections précédentes.
Figure 16 – Qualité de l’approximation de Wn par une loi de poisson pour
les 65-69 ans
Figure 17 – Qualité de l’approximation de Wn par une loi de normale pour
les 65-69 ans
19
Figure 18 – Qualité de l’approximation de Wn par la méthode RNA pour
les 65-69 ans
Resumé
Norme Méthode Valeur
L1
PA 40973
NA 3433
RNA 370
L∞
PA 0.5
NA 0.03
RNA 0.0031
Figure 19 – Tableau résumant la performance des approximations pour
Wn ; 65-69 ans
On constate que l’approximation par une loi de Poisson n’est pas très
viable. En effet, avec une norme infinie de 0.5 on ne peut pas faire confiance
à cette approximation.
L’approximation par une loi normale est meilleure sans pour autant très
précise. De nouveau la méthode RNA a la meilleure performance.
Regardons maintenant si ces conclusions restent valable pour les 85-102
ans.
85-102 ans : Le portefeuille contient 2021 individus. ils ont une proba-
bilité de décès moyenne de 0.1 et n
i=1 pi = 204. L’espérance de Wn vaut
n
i=1 Hipi = 252 818.
20
Figure 20 – Qualité de l’approximation de Wn par une loi de poisson pour
les 85-102 ans
Figure 21 – Qualité de l’approximation de Wn par une loi de normale pour
les 85-102 ans
21
Figure 22 – Qualité de l’approximation de Wn par la méthode RNA pour
les 85-102 ans
Resumé
Norme Méthode Valeur
L1
PA 34300
NA 6561
RNA 1545
L∞
PA 0.55
NA 0.067
RNA 0.022
Figure 23 – Tableau résumant la performance des approximations pour
Wn ; 85-102 ans
Comme dans le cas précèdent l’approximation par une loi de Poisson est
la moins performante. L’approximation normale et RNA sont un peu moins
performantes, peut-être à cause de la taille modeste du portefeuille.
Enfin on constate pour les deux cas des valeurs élevé pour la norme L1.
Globalement les approximations ne sont pas aussi performantes que dans le
cas des sommes non pondérée.
On remarque comme dans le cas des sommes non pondérée une simili-
tude entre les graphes (de façon moins précise). Une superposition sur les
quantiles montrent la même concordance. Cette propriété a plus d’Intérêt
ici car les approximations se trompent plus souvent et de façon plus ample.
Une correction post-approximation serait donc très utile.
22
5.3 Qualité de l’approximation en fonction de l’espérance
5.3.1 Introduction
On étudie dans cette partie la qualité de ces trois approximations NA,
RNA et PA. Autrement dit, on étudie les comportement de ces dernières en
fonction de l’espérance,surtout pour les espérances petites. D’après les par-
ties précédentes, en général, l’approximation RNA est la plus performante.
Cependant, pour les espérances petites, ce n’est pas toujours le cas, car le
Théorème Central Limite a partir duquel on a l’approximation NA et RNA
n’est plus efficace.
Dans cette partie, pour mieux étudier les comportements de ces trois
approximations pour différents portefeuilles, on crée un algorithme en R qui
trace les courbes d’erreurs |DFT-NA|, |DFT-RNA| et |DFT-PA|, et renvoie
un tableau qui contient les valeurs d’erreurs de ces trois approximations.
5.3.2 Étude en R-studio
Création de l’application fct_qualite qui :
i) a pour arguments PP un tableau (une suite) de probabilités, pre la precision
et nb le nombre de replicats
ii) renvoie un tableau note erreur de taille 4*pre tel que :
Pour tout k = 1,2,...,pre, erreur[1,k] = la moyenne d’erreurs |DFT(ech)-NA(ech)|
de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
Pour tout k = 1,2,...,pre, erreur[2,k] = la moyenne d’erreurs |DFT(ech)-RNA(ech)|
de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
Pour tout k = 1,2,...,pre, erreur[3,k] = la moyenne d’erreurs |DFT(ech)-PA(ech)|
de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
Pour tout k = 1,2,...,pre, erreur[4,k] = le nombre de sous-echantillons ech
tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
iii) trace les points de erreur[1,], erreur[2,] et erreur[3,].
L’idée est, a l’aide de cette fonction et en augmentant la precision, d’obtenir
des courbes approchées d’erreurs en fonction d’espérance.
23
Graphiques et remarques : On applique la fonction pour différents por-
tefeuilles.
On crée une fonction fct_qualite_approchee qui trace des courbes d’er-
reurs en fonction de l’espérance.
On pose T=3000,pre=400 et nb=2000(ou plus grand):
PP = sample(DC1$qx,3000)
fct_qualite_approchee(PP,2000,400)
et obtient la figure ci-dessous :
Figure 24 – Qualité des approximation en fonction de l’espérance, 5
Pour le portefeuille PTF_RENTIER,on pose:
PP_1<- sample(PTF$qx,3000)
fct_qualite_approchee(PP_1,1000,400)
et obtient la figure ci-dessous :
24
Figure 25 – Qualité des approximation en fonction de l’espérance, 6
Cette idée ne sert qu’a avoir des courbes approchées d’erreurs en fonction
de l’espérance. Mais il semble qu’elle n’est pas bien performante surtout pour
l’approximation PA.
25
6 Conclusion
On a vu que le calcul exact de la loi de Poisson binomiale par l’algorithme
DFT-CF est chose aisée. Cela dit, une limite à l’utilisation de cette méthode
est le temps de compilation qui augmente de façon exponentielle et l’exigence
de disposer de toutes les caractéristiques de l’échantillon.
On dispose de méthodes d’approximation qui ne requièrent que la connais-
sance d’indicateurs qualitatifs de l’échantillon.
Notre application sur des portefeuilles d’assurance vie révèle que la mé-
thode RNA est la plus performante dans tous les cas. L’approximation nor-
male et l’approximation par une loi de Poisson se talonnent.
On a également vu qu’on pouvait étendre ces méthodes aux sommes
pondérées, mais avec une performance modérée.
Enfin, on a constaté dans cette étude un caractère prédictible sur le com-
portement des approximations. Cette remarque une fois confirmée, consti-
tuerait alors un champ d’amélioration pour ces méthodes.
26
Références
[1] R.E. Barlow and K.D. Heidtmann. Computing k-out-of-n system relia-
bility. Reliability, IEEE Transactions on, R-33(4) :322–323, Oct 1984.
[2] Xiang-Hui Chen, Arthur P Dempster, and Jun S Liu. Weighted finite
population sampling to maximize entropy. Biometrika, 81(3) :457–469,
1994.
[3] Paul Deheuvels, Madan L Puri, and Stefan S Ralescu. Asymptotic expan-
sions for sums of nonidentically distributed bernoulli random variables.
Journal of Multivariate Analysis, 28(2) :282–303, 1989.
[4] Joseph L Hodges and Lucien Le Cam. The poisson approximation to the
poisson binomial distribution. The Annals of Mathematical Statistics,
pages 737–740, 1960.
[5] Wassily Hoeffding. On the distribution of the number of successes in
independent trials. The Annals of Mathematical Statistics, pages 713–
721, 1956.
[6] Yili Hong. On computing the distribution function for the poisson bino-
mial distribution. Computational Statistics & Data Analysis, 59 :41–51,
2013.
[7] Lucien Le Cam et al. An approximation theorem for the poisson binomial
distribution. Pacific J. Math, 10(4) :1181–1197, 1960.
[8] R Core Team. R : A Language and Environment for Statistical Compu-
ting. R Foundation for Statistical Computing, Vienna, Austria, 2013.
27
Table des figures
1 Histogramme des pi pour le premier portefeuille . . . . . . . . 10
2 Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 1 . . . . . . . . . . . . . . . 11
3 Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 1 . . . . . . . . . . . . . . . . 12
4 Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 12
5 Tableau résumant la performance des approximations pour le
portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6 Histogramme des pi pour le deuxième portefeuille . . . . . . . 13
7 Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 2 . . . . . . . . . . . . . . . 14
8 Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 2 . . . . . . . . . . . . . . . . 14
9 Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 15
10 Tableau résumant la performance des approximations pour le
portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
11 Histogramme des pi pour le troisième portefeuille . . . . . . . 16
12 Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 3 . . . . . . . . . . . . . . . 16
13 Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 3 . . . . . . . . . . . . . . . . 17
14 Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 17
15 Tableau résumant la performance des approximations pour le
portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
16 Qualité de l’approximation de Wn par une loi de poisson pour
les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
17 Qualité de l’approximation de Wn par une loi de normale pour
les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
18 Qualité de l’approximation de Wn par la méthode RNA pour
les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
19 Tableau résumant la performance des approximations pour
Wn ; 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . 20
20 Qualité de l’approximation de Wn par une loi de poisson pour
les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
21 Qualité de l’approximation de Wn par une loi de normale pour
les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
22 Qualité de l’approximation de Wn par la méthode RNA pour
les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
28
23 Tableau résumant la performance des approximations pour
Wn ; 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . 22
24 Qualité des approximation en fonction de l’espérance, 5 . . . 24
25 Qualité des approximation en fonction de l’espérance, 6 . . . 25
26 Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 1 . . . . . . . . . . . . . . . 30
27 Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 2 . . . . . . . . . . . . . . . 30
28 Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 3 . . . . . . . . . . . . . . . 30
29 Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 31
30 Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 31
31 Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 31
32 Qualité de l’approximation RNA en fonction des quantiles
pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 32
33 Qualité de l’approximation RNA en fonction des quantiles
pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 32
34 Qualité de l’approximation RNA en fonction des quantiles
pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 32
29
Figure 26 – Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 1
Figure 27 – Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 2
Figure 28 – Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 3
30
Figure 29 – Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 1
Figure 30 – Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 2
Figure 31 – Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 3
31
Figure 32 – Qualité de l’approximation RNA en fonction des quantiles pour
le portefeuille 1
Figure 33 – Qualité de l’approximation RNA en fonction des quantiles pour
le portefeuille 2
Figure 34 – Qualité de l’approximation RNA en fonction des quantiles pour
le portefeuille 3
32

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Cours vibration 2016 prat
Cours vibration 2016 pratCours vibration 2016 prat
Cours vibration 2016 prat
 
Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
Lmfi1
Lmfi1Lmfi1
Lmfi1
 
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1
 
Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correction
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densite
 
Théorie des distributions
Théorie des distributionsThéorie des distributions
Théorie des distributions
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Slides ensae 4
Slides ensae 4Slides ensae 4
Slides ensae 4
 
Formulaire de thermodynamique
Formulaire de thermodynamiqueFormulaire de thermodynamique
Formulaire de thermodynamique
 
traitement de signal cours
traitement de signal cours traitement de signal cours
traitement de signal cours
 
Slides 2040-3
Slides 2040-3Slides 2040-3
Slides 2040-3
 
Séries de Fourier
Séries de FourierSéries de Fourier
Séries de Fourier
 
Equations différentielles, DUT MP, CM 4
Equations différentielles, DUT MP, CM 4Equations différentielles, DUT MP, CM 4
Equations différentielles, DUT MP, CM 4
 
Bandits Algo KL-UCB par Garivier
Bandits Algo KL-UCB par GarivierBandits Algo KL-UCB par Garivier
Bandits Algo KL-UCB par Garivier
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Chap9
Chap9Chap9
Chap9
 
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELSSUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
 

Ähnlich wie compte

Résolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonRésolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonAli SIDIBE
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomialeCONFITURE
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Ahmed Ammar Rebai PhD
 
Cours nombres reels
Cours nombres reelsCours nombres reels
Cours nombres reelsbades12
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
Dynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL MultiphysicsDynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL MultiphysicsAlexanderABANOBI
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...ImadBerkani1
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.cometude cours
 
Cours arithmetique
Cours arithmetiqueCours arithmetique
Cours arithmetiquebades12
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 

Ähnlich wie compte (20)

Résolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonRésolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en python
 
Startimes2
Startimes2Startimes2
Startimes2
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomiale
 
Les Séries de Fourier
Les Séries de FourierLes Séries de Fourier
Les Séries de Fourier
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
Cours nombres reels
Cours nombres reelsCours nombres reels
Cours nombres reels
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
Ch4
Ch4Ch4
Ch4
 
Slides ensae 5
Slides ensae 5Slides ensae 5
Slides ensae 5
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
Dynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL MultiphysicsDynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
Conception d'algorithmes pour l'approximation de la "Cut-Norm" avec l'inégali...
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.com
 
Cours arithmetique
Cours arithmetiqueCours arithmetique
Cours arithmetique
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 

compte

  • 1. État de l’Art sur la loi de Poisson binomiale et application en assurance vie Yacine HOSNI et Yongshen CHEN Université Pierre et Marie CURIE Travail d’Étude de Recherche réalisé sous la direction de Catherine MATIAS (CNRS-LPMA) Avec la collaboration de Vincent LEPEZ et Razvan IONESCU (SCOR) 20 mai 2015 Résumé La loi de Poisson binomiale est la loi d’une somme de variables aléa- toires de Bernoulli indépendantes et de paramètres différents. Cette loi trouve son application naturelle dans des domaines aussi variés que l’économie, l’ingénierie et l’actuariat. Le calcul exact de cette loi ne requiert aucune notion avancée de théorie des probabilités et est im- médiat. Cependant, on a besoin de méthodes plus performantes pour effectuer des calculs dans des cas pratiques. Dans ce mémoire, on rap- pelle les principales caractéristiques et problématiques liées à la loi de Poisson binomiale. On introduit ensuite des algorithmes exacts et des méthodes d’approximation pour cette loi. Enfin on s’intéresse aux com- portements de ces méthodes en assurance vie. On étudie également le comportement d’une somme pondérée de variables aléatoires de Ber- noulli indépendantes et de paramètre différents. On modifie un package R pour traiter cette dernière problématique. 1
  • 2. Remerciements Nous tenons à remercier chaleureusement Catherine Matias pour sa dipo- nibilité, son calme et sa patience. Nous remercions également pour leurs ac- cueil Vincent Lepez et Razvan Ionescu nos deux interlocuteur chez la SCOR. Le chapitre "Calcul exacts" est, grosso modo un condensé de la première partie de l’article de Yili Hong [6], que nous remercions également à cette occasion.
  • 3. Table des matières 1 Introduction et motivations 2 2 Calculs exacts 2 2.1 Formules explicites . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 Algorithmes exacts . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.1 Formules récursives, (RF) . . . . . . . . . . . . . . . . 3 2.2.2 Transformée de Fourier discrète de la fonction carac- téristique . . . . . . . . . . . . . . . . . . . . . . . . . 4 3 Méthodes d’approximation 5 3.1 Approximation par une loi de Poisson (PA) . . . . . . . . . . 5 3.2 Approximation par une loi Normale (NA) . . . . . . . . . . . 6 3.3 Approximation par une loi normale raffinée (RNA) . . . . . . 6 4 Somme pondérée 7 4.1 Méthode DFT-CF . . . . . . . . . . . . . . . . . . . . . . . . 7 4.2 Méthodes d’approximation . . . . . . . . . . . . . . . . . . . . 8 4.2.1 Approximation par une loi de Poisson . . . . . . . . . 8 4.2.2 Approximation par une loi normale et RNA . . . . . . 8 5 Application en assurance vie 9 5.1 Packages ’poibin’ et ’poibinact’ . . . . . . . . . . . . . . . . . 9 5.2 Études de différents portefeuilles . . . . . . . . . . . . . . . . 9 5.2.1 Premier portefeuille . . . . . . . . . . . . . . . . . . . 10 5.2.2 Deuxième portefeuille . . . . . . . . . . . . . . . . . . 13 5.2.3 Troisième portefeuille . . . . . . . . . . . . . . . . . . 15 5.2.4 Étude de la charge de sinistre . . . . . . . . . . . . . . 18 5.3 Qualité de l’approximation en fonction de l’espérance . . . . . 23 5.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 23 5.3.2 Étude en R-studio . . . . . . . . . . . . . . . . . . . . 23 6 Conclusion 26 1
  • 4. 1 Introduction et motivations La somme de n variables de Bernoulli indépendantes et identiquement distribuées, qu’on note Xi ∼ B(p) pour i = 1, 2, . . . , n suit une loi Binomiale qu’on note Sn ∼ B(n, p). Si maintenant on considère Sn = X1 + · · · + Xn, avec Xi ∼ B(pi) pour i = 1, 2, . . . , n avec les pi non identiques. On obtient alors une loi de Poisson binomiale. L’étude d’une telle loi s’est faite par nécessité. En effet, de nombreuses problématiques mènent à la loi de Poisson binomiale. Par exemple, en écono- métrie on souhaiterait prédire le nombre d’entreprise qui feront faillite, pour des raison évidentes, chaque entreprise a une probabilité de faillite propre. On se retrouve alors avec une somme de variables de Bernoulli différemment distribuées. En assurance vie, pour un portefeuille d’assurés donné, cette loi modélise le nombre total de décès . En effet chaque individu possède une probabilité de décès différente. Ce dernier exemple sera étudié plus en détail dans ce document. L’étude de cette loi et de ses propriétés débute pour la première fois en 1956 avec Hoeffding [5]. Puis en 1960, Lucien Le Cam [7] expose un théorème qui majore l’erreur de l’approximation par une loi de Poisson. 2 Calculs exacts Dans la suite Sn = n i=1 Xi où les Xi ∼ B(pi) avec pi ∈]0, 1[ et les pi non identiques. 2.1 Formules explicites Pour expliciter les formules liées à cette loi, on définit judicieusement des ensembles qui nous permettront de simplifier et optimiser l’écriture des formules qui découleront par la suite. Il est évident que pour le calcul de la fonction de masse de cette loi, on a besoin de passer en revue toutes les combinaisons possibles d’événements qui fournissent le résultat mesuré. Pour x = 0, 1, . . . , n, on définit l’ensemble des sous ensembles de {1, . . . , n} de taille x, Fx = {A : A ⊆ {1, . . . , n}, |A| = x} (1) Pour calculer la fonction de masse,P(Sn = k) on procède comme indiqué plus haut : On somme sur tous les sous ensemble de taille k : P(Sn = k) = A∈Fk j∈A pj j∈Ac (1 − pj) (2) On remarque que dans le cas où les pk sont égaux on retrouve la fonction de masse de la loi binomiale. 2
  • 5. De même la fonction de répartition est donnée par : P(Sn ≤ k) = Fn(k) = k m=0 A∈Fm j∈A pj j∈Ac (1 − pj) (3) Ces formules bien que facile à trouver, ont un défaut qui rendent les calculs impraticables. En effet la taille de Fk explose très rapidement. Par exemple pour n = 10, |F10| = 30 10 = 30045015, et pour n = 100, |F20| = 100 20 = 5.3598337e+20. 2.2 Algorithmes exacts Il existe dans la littérature de nombreux algorithmes plus ou moins per- formants pour le calcul exact de la loi sans passer en revue toutes les com- binaisons possibles. 2.2.1 Formules récursives, (RF) Parmi ces algorithmes il existe des méthodes dites récursives. On en ex- pose deux ici. RF1. (Barlow et Heidtmann[1]) La première méthode est plutôt intui- tive ; on pose pour k = 0, 1, . . . , n et j = 0, 1 . . . , n : ξk,j = P(Sj = k) (4) avec les conditions initiales : ξ−1,n = ξn+1,n = 0, j = 0, 1, . . . , n−1 et ξ0,0 = 1 On a alors la formule : ξk,j = (1 − pj)ξk,j−1 + pjξk−1,j−1 (5) RF2. (Chen, Dempster et Liu [2]) La deuxième méthode est quant à elle liée aux identités de Newton. ξ0,n = n j=1 (1−pj), et ξk,n = 1 k k l=1 (−1)l−1 tlξk−l,n, k = 1, . . . , n (6) avec tl = n j=1[ pj 1−pj ]l. 3
  • 6. 2.2.2 Transformée de Fourier discrète de la fonction caractéris- tique On rappelle brièvement la transformée de Fourier discrète ainsi que sa fonction réciproque. Soit {y0, y1, ..., yn} une séquence de n + 1 nombres complexes. La trans- formée de Fourier discrète de la séquence {y0, y1, ..., yn} est {z0, z1, ..., zn} avec : zk = n l=0 yl exp(−iωkl) (7) avec k = 0, 1, . . . , n et ω = 2π n+1 . La transformée de Fourier discrète inverse pour la séquence {z0, z1, . . . , zn} est donnée par : yl = 1 n + 1 n k=0 zk exp(iωlk), l = 0, 1, . . . , n. (8) Le but de ce qui suit est d’appliquer les notions rappelées plus haut à la fonction caractéristiques de la loi de Poisson binomiale. Toujours dans le cadre où Sn = n i=1 Xi où les Xi ∼ B(pi) avec les pi non identiques, on calcule la fonction caractéristique de Sn : φ(t) = E[exp(itSn)] = n k=0 ξk exp(itk) = E[exp(it n k=1 Xk)] = n k=1 E[exp(itXk)] = n k=1 [1−pk +pk exp(it)] (9) Avec ξk = P(Sn = k). On remplace maintenant t par ωl dans (8) avec l = 0, 1, . . . , n et ω = 2π n+1, on obtient alors : 1 n + 1 n k=0 ξk exp(iωlk) = 1 n + 1 n k=1 [1 − pk + pk exp(iωl)] = 1 n + 1 Ql (10) avec Ql = n k=1[1 − pk + pk exp(iωl)] On remarque tout particulièrement que le terme de gauche dans l’équa- tion (10) est la transformée de Fourier discrète inverse de ξk telle que définie en (8). On obtient alors, en appliquant la transformée de Fourier discrète des deux cotés : ξk = 1 n + 1 n l=0 exp(−iωlk)Ql (11) La formule obtenue dans l’expression (11) sera appelé par la suite la DFT- CF méthode (Discrete Fourier Transform of the characteristic function). 4
  • 7. La méthode RF1 est un algorithme qui demande beaucoup de mémoire vive et les calculs deviennent vite irréalisables avec cette méthode. Ainsi quand n = 15000 le calcul de la loi nécessite pas moins de 4 GB de ram. La méthode RF2, quant à elle présente des problèmes de stabilités nu- mérique et le calcul est quasiment impossible dans la majorité des cas. Enfin la méthode DFT-CF est la méthode la plus optimale et est celle qui fournira nos résultats de référence tout au long de ce document. Cela dit bien qu’optimale cette méthode reste limitée par sa performance, en effet on verra par la suite que le temps de compilation augmente considéra- blement. De surcroît, ces méthodes ne fonctionnent que que si on dispose de toutes les caractéristiques de l’échantillon. En pratique, cette condition n’est pas toujours réalisée. Rentre alors en jeux des méthodes d’approximation qui prennent en entrée des variables qui résume une ou plusieurs propriétés de l’échantillon. Il s’agira en particulier ici de l’espérance, de la variance et du coefficient d’asymétrie des pi. 3 Méthodes d’approximation 3.1 Approximation par une loi de Poisson (PA) Une première méthode consiste à approcher la loi de Poisson binomiale par une loi de Poisson de paramètre λ = n i=1 pi. Lucien Le Cam présente en 1960 [7] un théorème sur la qualité de cette approximation en évaluant la distance infinie entre la fonction de répartition de la loi de Poisson binomiale et la fonction de répartition d’une loi de Poisson de paramètre λ = n i=1 pi. Théorème. Soit Y une variable aléatoire suivant une loi de Poisson de paramètre λ = n i=1 pi et Sn comme définit plus haut. On a alors : sup k |P(S ≤ k) − P(Y ≤ k)| ≤ 2 n i=1 p2 i (12) Dans un article connexe de J.L.Hodges, Jr et Lucien Le Cam [4], on trouve une variante du théorème avec une borne amélioré. Théorème bis. sup k |P(S ≤ k) − P(Y ≤ k)| ≤ 3 3 √ α (13) avec α = max(p1, . . . , pn). On remarque alors que la qualité de cette approximation est indépen- dante de la taille de l’échantillon. les paramètres pi ont seuls un impact sur l’inégalité. Par conséquence, l’approximation par une loi de Poisson est précise si tant est que les pi soient petits. 5
  • 8. 3.2 Approximation par une loi Normale (NA) Cette approximation repose sur l’application du théorème central limite généralisé au variables aléatoires indépendante mais non identiquement dis- tribuées 1. On a alors l’approximation suivante : P(Sn ≤ k) ≈ φ( k + 0.5 − µ σ ) (14) avec µ = n i=1 pi et σ = n i=1 pi(1 − pi). remarque : L’écart 0.5 qui apparaît dans la formule est la correction appliqué après le passage du discret au continue. La qualité de cette approximation dépend de la taille de l’échantillon. 3.3 Approximation par une loi normale raffinée (RNA) Pour que l’approximation par une loi Normale soit performante, il faut que la taille de l’échantillon soit importante et que la distribution de Sn soit symétrique. Or, cette condition n’est pas réalisé en pratique. L’idée de l’approximation par une loi normale raffinée (Refined Normal approximation) est de corriger ce décalage omniprésent en prenant en compte le coefficient d’asymétrie de la loi. On a alors l’approximation suivante : P(Sn ≤ k) ≈ G( k + 0.5 − µ σ ) (15) Où G(x) = φ(x) + γ(1−x2)f(x) 6 , γ = E[(Sn−µ)3] E[(Sn−µ)2]3/2 : Coefficient d’asymétrie de Sn , f la densité d’une loi normale et φ sa fonction de répartition. Il existe plusieurs écrits qui traitent de la qualité de cette approximation. En particulier, Paul Deheuvels, Madan, L. Puri et Stefan S. Ralescu [3] proposent le théorème suivant : Théorème. Il existe une constante c < ∞ telle que sup k |P(S ≤ k) − G( k + 0.5 − µ σ )| ≤ cσ−2 (16) 1. On fait référence ici au théoèreme de Lindeberg-Feller 6
  • 9. 4 Somme pondérée On s’intéresse maintenant à la somme pondérée de variables aléatoires de Bernoulli indépendantes de paramètres différents. Dans tout la suite, on fera référence à cette somme en la notant Wn = n i=1 HiXi. Où Xi ∼ B(pi) et Hi constante multiplicatif qu’on suppose ici entière. L’étude de cette somme est en réalité un premier pas vers l’application des résultats ci-dessus en assurance vie. En effet, un enjeux en assurance vie est de prédire le nombre de décès pour un portefeuille donnés et également la charge de sinistre qui correspond alors à Wn avec Hi égale à la somme assurée par le i-ème individu. Notre but ici est d’adapter les résultats vu plus haut à l’étude de cette somme. En particulier la méthode DFT-CF pour le calcul exacte, et les différentes méthodes d’approximations. 4.1 Méthode DFT-CF On rappelle que cette méthode utilise la transformée de Fourier inverse dont les propriétés ont été rappelées plus haut. On note Wn = n i=1 HiXi où Xi ∼ B(pi) , m = n i=1 Hi et ξk = P(Wn = k). On calcule alors la fonction caractéristique de Wn. φ(t) = E[exp(itWn)] = m k=0 ξk exp(itk) = E[exp(it n k=1 HkXk)] = n k=1 E[exp(itHkXk)] = n k=1 [1−pk+pk exp(itHk)] (17) On remplace maintenant t par ωl dans (17) avec l = 0, 1, . . . , m et ω = 2π m+1, on obtient alors : 1 m + 1 m k=0 ξk exp(iωlk) = 1 m + 1 n k=1 [1 − pk + pk exp(iωlHk)] = 1 m + 1 Ql (18) avec Ql = n k=1[1 − pk + pk exp(iωlHk)] On remarque alors que le terme de gauche dans l’équation (18) est la transformée de Fourier discrète inverse de ξk. On obtient alors, en appliquant la transformée de Fourier discrète des deux cotés : ξk = 1 m + 1 m l=0 exp(−iωlk)Ql (19) On reviendra plus tard sur la performance de cette méthode. 7
  • 10. 4.2 Méthodes d’approximation Les méthodes d’approximation permettent d’approcher la loi exacte sans pour autant disposer de toutes les caractéristiques de l’échantillon. Ainsi les méthodes exposées précédemment restent, mutatis mutandis, correctes pour la somme pondérée. 4.2.1 Approximation par une loi de Poisson On rappelle que dans le cas de l’approximation par une loi de Poisson, on ne renseigne que l’espérance théorique. Ainsi dans le cas d’une somme pon- dérée Wn on effectuera l’approximation par une loi de Poisson de paramètre λ = n i=1 Hipi. Le théorème de Lucien Le Cam [4] ne s’applique cependant plus dans ce cas de figure. Il est aisé de constater que les constantes multiplicatifs Hi ont une influence sur la qualité de l’approximation. 4.2.2 Approximation par une loi normale et RNA L’approximation par une loi normale requiert de connaître l’espérance et la variance de l’échantillon. Pour la RNA on a besoin du coefficient d’asy- métrie en plus. Ainsi pour une somme pondérée, ces approximations sont similaires aux approximations vu dans le cas d’une somme non pondérée. On ne changera que les paramètres espérance, variance et coefficient d’asy- métrie par ce qui suit. L’espérance : µ = n i=1 Hipi (20) La variance : σ2 = n i=1 H2 i pi(1 − pi) (21) Le coefficient d’asymétrie : γ = E[(Wn − µ)3] E[(Wn − µ)2]3/2 = n i=1 H3 i pi(1 − pi)(1 − 2pi) σ3 (22) On verra plus tard que le comportement des approximations dans le cas des sommes pondérées est similaire pour les approximation sur les sommes non pondérée, bien que les théorème sur la qualité des approximations ne s’appliquent plus pour les sommes pondérées. 8
  • 11. 5 Application en assurance vie Comme dit en introduction, la loi de Poisson binomiale trouve son appli- cation dans plusieurs domaines dont l’assurance vie, on s’intéresse en parti- culier à ce dernier champ. Pour être concis, on considère qu’en assurance vie on dispose d’un portefeuille d’assurés qui se compose de la façon suivante : Individu Age Probabilité de Décès Somme assurée Décès Xi 67 pi Hi 1 si le décès est constaté, 0 sinon. Le but pour l’assureur est donc de prédire le nombre de décès et la charge de sinistre. L’occasion pour nous d’appliquer et commenter l’ensemble des résultats précédents. Tous les calculs ont été effectué à l’aide du logiciel R 64-bit[8] sur une machine équipé d’Intel Xeon CPU (X5660, 2.80GHz) avec une carte mémoire de 64 GB. 5.1 Packages ’poibin’ et ’poibinact’ Il existe sur le site du Cran un package R ’poibin’ 2 qui implémente deux algorithme de calcul exacte (RF1 et DFT-CF) et deux méthode d’approxi- mation (RNA et approximation normal) pour la loi de Poisson binomiale. Cela dit, ce package ne traite pas du cas des sommes pondérées. On modifie alors, pour le besoin de l’étude, le package ’poibin’ pour pourvoir calculer la loi Wn. On nomme ce package dérivé du premier ’poibinact’. 5.2 Études de différents portefeuilles Dans cette section, un schéma similaire se déroulera sur trois porte- feuilles. Dans un premier temps on calcule la loi exacte par la méthode DFT-CF, puis on effectue les approximations de cette loi pour en juger les performance. Dans ce document et dans le cadre de notre sujet, on considère que les probabilités de décès pi retranscrivent parfaitement la réalité. Ainsi, aucune critique quant à un certain décalage entre le nombre total de décès observé et théorique ne sera faite. 2. http ://cran.r-project.org/web/packages/poibin/poibin.pdf 9
  • 12. Étude de la somme Sn = n i=1 Xi. 5.2.1 Premier portefeuille Le premier portefeuille comprend 25 734 individus, ils ont une moyenne d’âge de 74 ans, une probabilité de décès moyenne de 0.02, médiane de 0.015 et n i=1 pi = 725. On représente ci dessous l’histogramme des pi. Figure 1 – Histogramme des pi pour le premier portefeuille On utilise la méthode DFT-CF pour le calcul exacte. Le temps d’exécu- tion pour ce portefeuille est de seulement 25 secondes. Cela dit, on verra que la durée d’exécution augmente de façon exponentielle. Maintenant qu’on dispose de la loi exacte de Sn, on compare la perfor- mance des trois approximations dont on dispose. Approximation par une loi de Poisson : On rappelle qu’on rapproche la loi de Sn par une loi de Poisson de para- mètre λ = n i=1 pi. Pour quantifier la performance de cette approximation, on considère deux indicateurs. Le premier est la norme L1 de la différence entre la fonction de répartition théorique et la fonction de répartition de la loi de Poisson. Ça correspond donc à : n k=1 |P(Sn ≤ k) − P(Y ≤ k)| (23) Où Y ∼ P(λ). 10
  • 13. Le second indicateur est la norme infinie L∞. sup k |P(Sn ≤ k) − P(Y ≤ k)| (24) On représente le comportement de cette approximation en représentant la différence entre la fonction de répartition théorique et celle de l’approxi- mation. Figure 2 – Graphique représentant la qualité de l’approximation par une loi de Poisson pour le portefeuille 1 Ainsi nos indicateurs valent ici : Norme Valeur L1 0.7101 L∞ 0.0082 On répète la même procédure pour l’approximation par une loi Normale et RNA. On détaillera donc plus autant les étapes. 11
  • 14. Figure 3 – Graphique représentant la qualité de l’approximation par une loi normale pour le portefeuille 1 Figure 4 – Graphique représentant la qualité de l’approximation RNA pour le portefeuille 1 12
  • 15. Resumé Norme Méthode Valeur L1 PA 0.7101 NA 0.1416 RNA 0.0018 L∞ PA 0.0082 NA 0.0022 RNA 2.6e−05 Figure 5 – Tableau résumant la performance des approximations pour le portefeuille 1 On en déduit alors que pour ce portefeuille la méthode RNA est la meilleure approximation. L’approximation normale est plus performante que l’approximation par une loi de Poisson. 5.2.2 Deuxième portefeuille Le second portefeuille comprend 394 369 individus, ils ont une moyenne d’âge de 36 ans, une probabilité de décès moyenne de 0.0008, médiane de 0.0005 et n i=1 pi = 305. Donc largement inférieure à celle du premier porte- feuille. On représente ci dessous l’histogramme des pi, les graphes représen- tant le comportement des approximations ainsi que le tableau récapitulatif. N.B : Le temps d’exécution pour le méthode de DFT-CF est d’une heure 25 minutes. Figure 6 – Histogramme des pi pour le deuxième portefeuille 13
  • 16. On constate que les probabilités de décès sont petites et très concentrées dans ce portefeuille. Figure 7 – Graphique représentant la qualité de l’approximation par une loi de Poisson pour le portefeuille 2 Figure 8 – Graphique représentant la qualité de l’approximation par une loi normale pour le portefeuille 2 14
  • 17. Figure 9 – Graphique représentant la qualité de l’approximation RNA pour le portefeuille 2 Resumé Norme Méthode Valeur L1 PA 0.0120 NA 0.1609 RNA 0.0033 L∞ PA 0.0002 NA 0.0038 RNA 7.02e−05 Figure 10 – Tableau résumant la performance des approximations pour le portefeuille 2 Pour ce portefeuille on remarque une certaine ressemblance avec les fi- gures du premier portefeuille. L’approximation par la méthode RNA reste la plus performante, cela dit dans ce cas l’approximation par une loi de Pois- son est meilleure que celle par une loi normale classique. Ceci s’explique par le fait qu’ici les probabilités de décès pi sont petites, or la qualité de l’ap- proximation par une loi de Poisson est d’autant plus correcte si les pi sont petits 5.2.3 Troisième portefeuille Le troisième portefeuille comprend 1 458 381 individus, ils ont une moyenne d’âge de 37 ans, une probabilité de décès moyenne de 0.001, médiane de 0.0004 et n i=1 pi = 1418. Ce portefeuille est de taille importante, ce qui 15
  • 18. affecte la performance des algorithmes. Ainsi il faut pas moins de 21 heures pour le calcul de la loi exacte par la méthode DFT-CF. Les méthodes d’ap- proximations ont alors ici un tout autre intérêt, puisqu’elles ne nécessitent aucune durée d’exécution. On représente comme précédemment l’histogramme des pi et les gra- phiques des approximations. Figure 11 – Histogramme des pi pour le troisième portefeuille Figure 12 – Graphique représentant la qualité de l’approximation par une loi de Poisson pour le portefeuille 3 16
  • 19. On constate que les probabilités de décès sont très petite mais plus épar- pillées que dans le deuxième portefeuille. Figure 13 – Graphique représentant la qualité de l’approximation par une loi normale pour le portefeuille 3 Figure 14 – Graphique représentant la qualité de l’approximation RNA pour le portefeuille 3 17
  • 20. Resumé Norme Méthode Valeur L1 PA 0.0388 NA 0.1605 RNA 0.0015 L∞ PA 0.0003 NA 0.0018 RNA 1.48e−05 Figure 15 – Tableau résumant la performance des approximations pour le portefeuille 3 La méthode RNA est encore une fois la plus performante des trois mé- thodes, ce qui nous laisse penser qu’elle surpasse les deux autres méthodes dans tous les cas. L’approximation par une loi de Poisson reste meilleure que l’approximation normale. On remarque que dans les trois portefeuilles les graphiques représentant la qualité des approximations ont sensiblement la même forme. Que se passe- t-il si on remplace l’abscisse de ces graphiques par les quantiles de la loi ? On constate une parfaite concordance entres les trois portefeuilles. (voir figures 26,27,28,29,30,31,32,33,34) Cette similitude laisse suggérer un caractère prédictible sur le compor- tement des approximations. On peut alors penser à effectuer une correction systématique en fonction du positionnement de l’approximation. 5.2.4 Étude de la charge de sinistre Dans cette section, on utilise le package ’poibinact’ pour étudier la charge de sinistre pour le premier portefeuille. Pour des raisons pratiques, on dé- coupe le portefeuille en cellule de crise (i.e. Tranche d’âge). En effet, le temps de compilation pour la loi exacte de Wn est extrêmement élevé. On procède comme suit. Les individus du premier portefeuille sont âgés de 65 à 102 ans. On re- groupe alors les individus âgés de 65 à 69 ans, de 70 à 74 ans, de 75 à 79 ans, de 80 à 84 ans et finalement de 85 à 102 ans. On ne présentera pas les résultats pour tous. On choisit plutôt deux cellules dont les probabilités de décès ont des caractéristiques opposées. Ainsi on prend les plus jeunes 65-69 ans et les plus âgés 85-102 ans. 65-69 ans : Le portefeuille pour cette tranche d’âge contient 7489 individus. Ils ont une probabilité de décès moyenne de 0.009 et n i=1 pi = 66. L’espérance de Wn vaut n i=1 Hipi = 257 815. 18
  • 21. On effectue le calcul exacte de la loi par la méthode DFT-CF. La durée d’exécution est de 7 heures. On présente la qualité des approximations avec les mêmes indicateurs vu dans les sections précédentes. Figure 16 – Qualité de l’approximation de Wn par une loi de poisson pour les 65-69 ans Figure 17 – Qualité de l’approximation de Wn par une loi de normale pour les 65-69 ans 19
  • 22. Figure 18 – Qualité de l’approximation de Wn par la méthode RNA pour les 65-69 ans Resumé Norme Méthode Valeur L1 PA 40973 NA 3433 RNA 370 L∞ PA 0.5 NA 0.03 RNA 0.0031 Figure 19 – Tableau résumant la performance des approximations pour Wn ; 65-69 ans On constate que l’approximation par une loi de Poisson n’est pas très viable. En effet, avec une norme infinie de 0.5 on ne peut pas faire confiance à cette approximation. L’approximation par une loi normale est meilleure sans pour autant très précise. De nouveau la méthode RNA a la meilleure performance. Regardons maintenant si ces conclusions restent valable pour les 85-102 ans. 85-102 ans : Le portefeuille contient 2021 individus. ils ont une proba- bilité de décès moyenne de 0.1 et n i=1 pi = 204. L’espérance de Wn vaut n i=1 Hipi = 252 818. 20
  • 23. Figure 20 – Qualité de l’approximation de Wn par une loi de poisson pour les 85-102 ans Figure 21 – Qualité de l’approximation de Wn par une loi de normale pour les 85-102 ans 21
  • 24. Figure 22 – Qualité de l’approximation de Wn par la méthode RNA pour les 85-102 ans Resumé Norme Méthode Valeur L1 PA 34300 NA 6561 RNA 1545 L∞ PA 0.55 NA 0.067 RNA 0.022 Figure 23 – Tableau résumant la performance des approximations pour Wn ; 85-102 ans Comme dans le cas précèdent l’approximation par une loi de Poisson est la moins performante. L’approximation normale et RNA sont un peu moins performantes, peut-être à cause de la taille modeste du portefeuille. Enfin on constate pour les deux cas des valeurs élevé pour la norme L1. Globalement les approximations ne sont pas aussi performantes que dans le cas des sommes non pondérée. On remarque comme dans le cas des sommes non pondérée une simili- tude entre les graphes (de façon moins précise). Une superposition sur les quantiles montrent la même concordance. Cette propriété a plus d’Intérêt ici car les approximations se trompent plus souvent et de façon plus ample. Une correction post-approximation serait donc très utile. 22
  • 25. 5.3 Qualité de l’approximation en fonction de l’espérance 5.3.1 Introduction On étudie dans cette partie la qualité de ces trois approximations NA, RNA et PA. Autrement dit, on étudie les comportement de ces dernières en fonction de l’espérance,surtout pour les espérances petites. D’après les par- ties précédentes, en général, l’approximation RNA est la plus performante. Cependant, pour les espérances petites, ce n’est pas toujours le cas, car le Théorème Central Limite a partir duquel on a l’approximation NA et RNA n’est plus efficace. Dans cette partie, pour mieux étudier les comportements de ces trois approximations pour différents portefeuilles, on crée un algorithme en R qui trace les courbes d’erreurs |DFT-NA|, |DFT-RNA| et |DFT-PA|, et renvoie un tableau qui contient les valeurs d’erreurs de ces trois approximations. 5.3.2 Étude en R-studio Création de l’application fct_qualite qui : i) a pour arguments PP un tableau (une suite) de probabilités, pre la precision et nb le nombre de replicats ii) renvoie un tableau note erreur de taille 4*pre tel que : Pour tout k = 1,2,...,pre, erreur[1,k] = la moyenne d’erreurs |DFT(ech)-NA(ech)| de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre. Pour tout k = 1,2,...,pre, erreur[2,k] = la moyenne d’erreurs |DFT(ech)-RNA(ech)| de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre. Pour tout k = 1,2,...,pre, erreur[3,k] = la moyenne d’erreurs |DFT(ech)-PA(ech)| de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre. Pour tout k = 1,2,...,pre, erreur[4,k] = le nombre de sous-echantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre. iii) trace les points de erreur[1,], erreur[2,] et erreur[3,]. L’idée est, a l’aide de cette fonction et en augmentant la precision, d’obtenir des courbes approchées d’erreurs en fonction d’espérance. 23
  • 26. Graphiques et remarques : On applique la fonction pour différents por- tefeuilles. On crée une fonction fct_qualite_approchee qui trace des courbes d’er- reurs en fonction de l’espérance. On pose T=3000,pre=400 et nb=2000(ou plus grand): PP = sample(DC1$qx,3000) fct_qualite_approchee(PP,2000,400) et obtient la figure ci-dessous : Figure 24 – Qualité des approximation en fonction de l’espérance, 5 Pour le portefeuille PTF_RENTIER,on pose: PP_1<- sample(PTF$qx,3000) fct_qualite_approchee(PP_1,1000,400) et obtient la figure ci-dessous : 24
  • 27. Figure 25 – Qualité des approximation en fonction de l’espérance, 6 Cette idée ne sert qu’a avoir des courbes approchées d’erreurs en fonction de l’espérance. Mais il semble qu’elle n’est pas bien performante surtout pour l’approximation PA. 25
  • 28. 6 Conclusion On a vu que le calcul exact de la loi de Poisson binomiale par l’algorithme DFT-CF est chose aisée. Cela dit, une limite à l’utilisation de cette méthode est le temps de compilation qui augmente de façon exponentielle et l’exigence de disposer de toutes les caractéristiques de l’échantillon. On dispose de méthodes d’approximation qui ne requièrent que la connais- sance d’indicateurs qualitatifs de l’échantillon. Notre application sur des portefeuilles d’assurance vie révèle que la mé- thode RNA est la plus performante dans tous les cas. L’approximation nor- male et l’approximation par une loi de Poisson se talonnent. On a également vu qu’on pouvait étendre ces méthodes aux sommes pondérées, mais avec une performance modérée. Enfin, on a constaté dans cette étude un caractère prédictible sur le com- portement des approximations. Cette remarque une fois confirmée, consti- tuerait alors un champ d’amélioration pour ces méthodes. 26
  • 29. Références [1] R.E. Barlow and K.D. Heidtmann. Computing k-out-of-n system relia- bility. Reliability, IEEE Transactions on, R-33(4) :322–323, Oct 1984. [2] Xiang-Hui Chen, Arthur P Dempster, and Jun S Liu. Weighted finite population sampling to maximize entropy. Biometrika, 81(3) :457–469, 1994. [3] Paul Deheuvels, Madan L Puri, and Stefan S Ralescu. Asymptotic expan- sions for sums of nonidentically distributed bernoulli random variables. Journal of Multivariate Analysis, 28(2) :282–303, 1989. [4] Joseph L Hodges and Lucien Le Cam. The poisson approximation to the poisson binomial distribution. The Annals of Mathematical Statistics, pages 737–740, 1960. [5] Wassily Hoeffding. On the distribution of the number of successes in independent trials. The Annals of Mathematical Statistics, pages 713– 721, 1956. [6] Yili Hong. On computing the distribution function for the poisson bino- mial distribution. Computational Statistics & Data Analysis, 59 :41–51, 2013. [7] Lucien Le Cam et al. An approximation theorem for the poisson binomial distribution. Pacific J. Math, 10(4) :1181–1197, 1960. [8] R Core Team. R : A Language and Environment for Statistical Compu- ting. R Foundation for Statistical Computing, Vienna, Austria, 2013. 27
  • 30. Table des figures 1 Histogramme des pi pour le premier portefeuille . . . . . . . . 10 2 Graphique représentant la qualité de l’approximation par une loi de Poisson pour le portefeuille 1 . . . . . . . . . . . . . . . 11 3 Graphique représentant la qualité de l’approximation par une loi normale pour le portefeuille 1 . . . . . . . . . . . . . . . . 12 4 Graphique représentant la qualité de l’approximation RNA pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 12 5 Tableau résumant la performance des approximations pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 6 Histogramme des pi pour le deuxième portefeuille . . . . . . . 13 7 Graphique représentant la qualité de l’approximation par une loi de Poisson pour le portefeuille 2 . . . . . . . . . . . . . . . 14 8 Graphique représentant la qualité de l’approximation par une loi normale pour le portefeuille 2 . . . . . . . . . . . . . . . . 14 9 Graphique représentant la qualité de l’approximation RNA pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 15 10 Tableau résumant la performance des approximations pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 11 Histogramme des pi pour le troisième portefeuille . . . . . . . 16 12 Graphique représentant la qualité de l’approximation par une loi de Poisson pour le portefeuille 3 . . . . . . . . . . . . . . . 16 13 Graphique représentant la qualité de l’approximation par une loi normale pour le portefeuille 3 . . . . . . . . . . . . . . . . 17 14 Graphique représentant la qualité de l’approximation RNA pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 17 15 Tableau résumant la performance des approximations pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 16 Qualité de l’approximation de Wn par une loi de poisson pour les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 17 Qualité de l’approximation de Wn par une loi de normale pour les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 18 Qualité de l’approximation de Wn par la méthode RNA pour les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 19 Tableau résumant la performance des approximations pour Wn ; 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 Qualité de l’approximation de Wn par une loi de poisson pour les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 Qualité de l’approximation de Wn par une loi de normale pour les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 22 Qualité de l’approximation de Wn par la méthode RNA pour les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 28
  • 31. 23 Tableau résumant la performance des approximations pour Wn ; 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . 22 24 Qualité des approximation en fonction de l’espérance, 5 . . . 24 25 Qualité des approximation en fonction de l’espérance, 6 . . . 25 26 Qualité de l’approximation par une loi de Poisson en fonction des quantiles pour le portefeuille 1 . . . . . . . . . . . . . . . 30 27 Qualité de l’approximation par une loi de Poisson en fonction des quantiles pour le portefeuille 2 . . . . . . . . . . . . . . . 30 28 Qualité de l’approximation par une loi de Poisson en fonction des quantiles pour le portefeuille 3 . . . . . . . . . . . . . . . 30 29 Qualité de l’approximation normale en fonction des quantiles pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 31 30 Qualité de l’approximation normale en fonction des quantiles pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 31 31 Qualité de l’approximation normale en fonction des quantiles pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 31 32 Qualité de l’approximation RNA en fonction des quantiles pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 32 33 Qualité de l’approximation RNA en fonction des quantiles pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 32 34 Qualité de l’approximation RNA en fonction des quantiles pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 32 29
  • 32. Figure 26 – Qualité de l’approximation par une loi de Poisson en fonction des quantiles pour le portefeuille 1 Figure 27 – Qualité de l’approximation par une loi de Poisson en fonction des quantiles pour le portefeuille 2 Figure 28 – Qualité de l’approximation par une loi de Poisson en fonction des quantiles pour le portefeuille 3 30
  • 33. Figure 29 – Qualité de l’approximation normale en fonction des quantiles pour le portefeuille 1 Figure 30 – Qualité de l’approximation normale en fonction des quantiles pour le portefeuille 2 Figure 31 – Qualité de l’approximation normale en fonction des quantiles pour le portefeuille 3 31
  • 34. Figure 32 – Qualité de l’approximation RNA en fonction des quantiles pour le portefeuille 1 Figure 33 – Qualité de l’approximation RNA en fonction des quantiles pour le portefeuille 2 Figure 34 – Qualité de l’approximation RNA en fonction des quantiles pour le portefeuille 3 32