SlideShare ist ein Scribd-Unternehmen logo
1 von 47
Downloaden Sie, um offline zu lesen
RÉGRESSION SIMPLE
PRINCIPES,APPLICATIONS SOUS LE LANGAGE R
Dr Mustapha Michrafy Dr Bernard Kouakou
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Plan
• Introduction
• Régression simple
• Estimation des paramètres
• Validation du modèle
• Intervalle de confiance
• Commande R pour la régression simple
• Formules mathématiques
• Loi Student : Rappel
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Prérequis
• Connaissance de l’algèbre linéaire
• Notions en optimisation mathématique
• Connaissance de la statistique de test
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Introduction 1
• Qu’est-ce la régression ?
La régression est un ensemble de méthodes statistiques servant à analyser la
relation entre une variable Y et une (ou plusieurs autres) variable(s) X.
Exemple : établir la relation entre la taille d’une personne (variable expliquée)
et son poids (variable explicative).
• Qu’est-ce qu’un modèle de régression ?
C’est une équation visant à représenter la relation entre les variables X et Y :
Y = f(X) + ߝ
• Qu’est-ce qu’une variable explicative ?
C’est la variable connue X utilisée pour prédire la variable Y.
• Qu’est qu’une variable expliquée ?
C’est la variable Y (inconnue) dont on veut déterminer (prédire) la valeur à
partir des valeurs de X
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Introduction 2
• Qu’est-ce que le résidu ?
C’est la marge d’erreur ou d’imprécision du modèle ; (elle est désignée
par ߝ dans l’équation du modèle précédent).
• Qu’est-ce la régression linéaire ?
C’est d’abord un modèle de régression.
De plus, il est fait l'hypothèse que la fonction qui relie les variables
explicatives à la variable expliquée est linéaire dans ses paramètres.
Exemple : Y = ߚଵx + ߚ଴ + ߝ.
• Qu’est-ce que la régression linéaire simple.
C’est un modèle de régression où la relation entre la variable
expliquée Y et la variable explicative X est réduite à : Y = ߚଵx + ߚ଴ + ߝ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Régression Simple
• Vise à mettre en relation une variable Y à expliquer et une
variable explicative X.
• Pour chaque valeur x1, x2, …xn de X, on observe (prédit)
les valeurs correspondantes y1, y2, …yn.
• On postule l’existence d’une relation E(Y) = ߚଵx + ߚ଴.
• Elle est équivalente, à : Y = ߚଵx + ߚ଴ + ߝ avec E(ߝ)=0.
• On cherche des estimateurs ߚଵ
෢ et ߚ଴
෢ de ߚଵ et ߚ଴ .
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Méthodes de calcul des estimateurs
• Quelques méthodes pour calculer les estimateurs.
• La méthode des moindres carrés ordinaires, MCO :
Consiste à rechercher les paramètres a et b minimisant les
différences : 	 ∑ ሺ‫ݕ‬௜ െ ߚ଴
෢ െ ߚଵ
෢‫ݔ‬௜ሻଶ௡
௜ୀଵ
Elle sera utilisée dans la suite de ce document
• La méthode du Maximum de vraisemblance
• La méthode par inférence bayésienne
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Méthode des moindres carrés Ordinaires
(MCO)
Notation :
‫ݕ‬ො ൌ ߚ଴
෢ ൅ ߚଵ
෢‫	ݔ‬la droite qui ajuste le nuage de points (ߚ଴
෢et ߚଵ
෢ sont les
estimateurs calculés).
‫	ݕ‬ഥ ൌ
∑ ௬೔	೔
௡
	, la moyenne des ‫ݕ‬௜	.
ܵ‫ܴܥ‬ ൌ	∑ ሺ‫ݕ‬௜ െ ‫ݕ‬ො௜ሻଶ
௜ , la somme des carrés résiduels
ܵ‫ܧܥ‬ ൌ	∑ ሺ‫ݕ‬ො௜ െ ‫ݕ‬ത௜ሻଶ
௜ , la somme des carrés expliqués.
SCT = ∑ ሺ‫ݕ‬௜ െ ‫ݕ‬തሻଶ
௜ , la	somme des carrés totaux :
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
MCO (Régression avec constante)
Régression avec constante (ߚଵ et ߚ଴ sont non nulls)
SCT = SCE + SCR, i.e.
∑ ሺ‫ݕ‬௜ െ ‫ݕ‬തሻଶ
௜ ൌ	∑ ሺ‫ݕ‬ො௜ െ ‫ݕ‬ത௜ሻଶ൅ ∑ ሺ‫ݕ‬௜ െ ‫ݕ‬ො௜ሻଶ
௜௜ .
• Interpretation des quantités:
SCR est la somme des carrés totaux. Elle traduit la variabilité totale de Y.
Permet de d’apprécier l'information disponible dans les données.
SCE est la somme des carrés expliqués. Elle indique la variation de Y
expliquée par X. on parle alors de Variabilité expliquée.
SCR est somme des carrés résiduels. Elle indique l'écart entre les valeurs
observées de Y et celles prédites par le modèle. On parle de variabilité non-
expliquée.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
MCO (Régression avec constante)
• Meilleur des cas.
SCR = 0 et donc SCT = SCE.
les variations de Y sont complètement expliquées par celles de X.
On a un modèle parfait.
La droite de régression passe exactement par tous les points du
nuage, puisque ‫ݕ‬ො௜ ൌ ‫ݕ‬௜.
• Pire Cas.
SCE= 0:
X n'apporte aucune information sur Y. Ainsi, ‫ݕ‬ො௜ ൌ ‫ݕ‬ത.
Ainsi, la meilleure prédiction de Y est sa propre moyenne.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
MCO (avec constante) Coefficient de
détermination R
Le coefficient ࡾ૛
	est un indicateur de synthèse.
Il est défini par ܴଶ
ൌ
ௌ஼ா
ௌ஼்
ൌ 1 െ
ௌ஼ோ
ௌ஼்
.
Il indique la proportion de variance de Y expliquée par le modèle.
Le coefficient R est compris entre 0 et 1
Plus il sera proche de la valeur 1, meilleur sera le modèle.
Ainsi, la connaissance des valeurs de X permet de prédire avec
davantage de précision la valeur de Y.
ܴଶ
	proche de 0 indique que X n'apporte pas d'informations utiles
(intéressantes) sur Y ; la connaissance des valeurs de X ne nous dit
rien sur celles de Y.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
MCO : Coefficient de corrélation linéaire
multiple
Il est noté R
Il est défini par R ൌ ܴଶ.
• Pour la régression simple (uniquement), on montre qu'il
est égal (au signe près) au coefficient de corrélation ‫ݎ‬௬௫	de
Pearson : ‫ݎ‬௬௫ୀ௦௜௚௡௘ ௔ො ൈோ.	
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèses
• Ces hypothèses ont un impact sur les propriétés des
estimateurs (biais, convergence) et l'inférence statistique
(distribution des coefficients estimés).
• H1 : Hypothèses sur Y et X.
X et Y sont des grandeurs numériques mesurées sans erreur.
X est une donnée exogène supposée non aléatoire.
Y est aléatoire par l'intermédiaire de ߝ.
• H2 : Hypothèses sur ࢿ.
Les ߝ௜ sont indépendants et identiquement distribués.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèses 2
• H2.1 E(ߝ௜) = 0, en moyenne les erreurs s'annulent, donc
le modèle est bien spécifié.
• H2.2 hypothèse d'homoscédasticité :
V (ߝ௜) =ߪఌ
ଶ	() : la variance de l'erreur est constante (ne dépend pas
de l'observation).
La variance du bruit (erreur) ne doit dépendre ni des valeurs de la
variable à expliquer, ni des valeurs des variables explicatives
• H2.3 L'erreur est indépendante de la variable exogène,
ainsi COV (‫ݔ‬௜, ߝ௜) = 0.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèses 3
• H2.4 Indépendance des erreurs.
Les erreurs de 2 observations sont indépendantes :
COV(ߝ௜, ߝ௝) = 0 ; donc "non auto-corrélation des erreurs".
Le bruit doit être un «vrai» bruit (pas de structure de
corrélation évidente)
• H2.5 Hypothèse de normalité : 		ߝ௜	≡	N(0; ߪఌ).
Primordiale pour l'inférence statistique.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèse pour la validation du modèle
(rappel et synthèse)
• Le modèle de la régression linéaire simple suppose que :
1. Modèle bien spécifié :
En moyenne les erreurs s’annulent i.e. ࡱ ࢿ࢏ ൌ ૙, ࢏ ൌ ૚. . ࢔
2. Homoscédasticité :
La variance des erreurs est une constante i.e. ࢂ ࢿ࢏ ൌ ࣌૛
, ࢏ ൌ ૚ … ࢔	
3. Indépendance des observations :
Les erreurs ne dépend pas du variable explicative.
࢏. ࢋ. ࡯ࡻࢂ ࢞࢏, ࢿ࢏ ൌ ૙, ࢏ ൌ ૚ … ࢔	
4. Non auto-corrélation des erreurs
Les erreurs relatives à deux observations sont indépendantes
࢏. ࢋ. ۱‫܄۽‬ ઽܑ, ઽܑ ൌ ૙, ܑ, ‫ܒ‬ ൌ ૚ … ‫ܑ	ܜ܍	ܖ‬ ് ‫	ܒ‬
5. Normalité des erreurs
Les erreurs sont issues d’une loi gaussienne
i.e. ࢿ࢏ 	≡ ࡺ ૙, ࣌૛ , ࢏ ൌ ૚. . ࢔
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hétéroscédasticité des erreurs
• Dans ce cas, les erreurs dépendent du variable
explicative.
• Les conséquences sont :
Estimateur sans bais.
Estimateur n’est plus à variance minimale
• Les causes peuvent être :
Les moyennes des observations sont obtenues à partir de
différents échantillons.
L’association de la même valeur de la variable à expliquer aux
différentes valeurs de la variable explicative.
Certaines valeurs de la variable explicative sont entachées
d’erreur.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Auto-corrélation des erreurs
• Les conséquences sont :
Estimateur sans bais.
Estimateur n’est plus à variance minimale.
• Les causes d’auto-corrélation peuvent être :
Absence d’une variable explicative importante.
Modèle linéaire n’est pas adapté.
Lissage par moyenne mobile ou par interpolation.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèse Homoscédasticité
• Pour vérifier l’hypothèse d’homoscédasticité, on peut tracer
le graphe ‫ݔ‬௜, ‫ܧ‬௜ ‫	ݑ݋‬ ܻ෠௜, ‫ܧ‬௜ .
• 3 cas possibles
La variance se comporte comme un vrai bruit : hypothèse vérifiée .
La variance augmente en fonction de ‫ݔ‬௜ ou ܻ෠௜ : hypothèse non vérifiée.
Une structure ”particulière” du nuage de points du graphe des résidus :
hypothèse non vérifiée.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèse de normalité
• Pour tester la normalité des résidus, on peut utiliser :
Un histogramme.
Un graphique de probabilité normal des résidus.
Un test de normalité (Shapiro-Wilk, Anderson-Darling, Kolmogorov-
Smirnov) dans le cas ou le nombre d’observations est assez important.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Hypothèse de Non auto-corrélation
• On peut tester la non auto-corrélation des résidus en:
Traçant le graphique des résidus, la présence d’une structure
particulière ou une courbe montre que les résidus contiennent des
informations du modèle i.e. le modèle est inapproprié.
Réalisant le test non paramétrique de Durbin-Watson
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Évaluation des estimateurs.
• 2 propriétés importantes lors l'évaluation d'un estimateur
ߠ෠.
L’estimateur est-il sans biais, c.-à-d. en moyenne,
obtenons-nous la vraie valeur du paramètre ?
‫ܧ‬ ߠ෠ ൌ ߠ	?
L’estimateur est-il convergent, c.-à-d. à mesure que la
taille de l'échantillon augmente, l'estimation devient-elle
de plus en plus précise ?
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Évaluation des estimateurs
Biais de ߚଵ
෢	et ߚ଴
෢.
Pour la méthode MCO,ߚଵ
෢et		ߚ଴
෢ sont sans biais, si et seulement si :
1. (H1) L'exogène X n'est pas stochastique (X est non aléatoire) ;
2. (H2.1) ‫ܧ‬ሺߝ௜ሻ = 0, l'espérance de l'erreur est nulle.
Ainsi sous ces hypothèses, nous avons : ‫ܧ‬ሺߚଵ
෢ሻ ൌ ߚଵet ‫ܧ‬ሺߚ଴
෢ሻ ൌ ߚ଴.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Évaluation des estimateurs
Convergence.
L'estimation devient-elle de plus en plus précise quand la taille de
l’échantillon augmente ?
• 1. Un estimateur ߠ෠ sans biais de ߠ est convergent si et
seulement si ܸሺߠ෠ሻ
௡→ஶ
0.
ܸ ߚଵ
෢ ൌ ‫ܧ‬ሺߚଵ
෢ െ ߚଵሻଶ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Évaluation des estimateurs
Convergence : Rappel des hypothèses.
H2.2, (homoscédasticité) : la variance de l’erreur est constante, i.e. ‫ܧ‬ ߝ௜
ଶ
ൌ ܸ ߳௜ ൌ ߪఌ
ଶ
H2.4 (non autocorrélation des erreurs) : ‫ܸܱܥ‬ ߝ௜ߝ௝ ൌ ‫ܧ‬ ߝ௜ߝ௝ ൌ 0.
• Sous les hypthèses H2.2 et H2.4 :
ܸሺߚଵሻ෢ ൌ
ఙഄ
మ
∑ ሺ௫೔ି௫̅ሻమ
೔
et ܸሺߚ଴ሻ෢ ൌ ߪఌ
ଶ
ሾ
ଵ
௡
൅	
௫̅
∑ ௫೔ି௫̅
మ
೔
ሿ
Consequence :
ߚଵ
෢ est un estimateur convergent de a, puisque ܸሺߚଵ
෢) tend vers l’infini pour des
échantillons de grande taille.
ߚ଴	෢ est un estimateur convergent de ߚ଴.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Évaluation des estimateurs
Bilan des formules de la variance:
• Une faible variance de l'erreur implique que la régression est de bonne
qualité.
• Une forte dispersion des X implique que les points recouvrent bien l'espace
de représentation.
• Le nombre d'observations n est élevé.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Commande R : analyse du modèle
• model <- lm(formula=y~x) data=donnee.csv) :
établir un modèle de régression linéaire simple, x est le prédicteur et y
est la variable à expliquer.
• Names(model)
[1] "coefficients" "residuals" "effects" "rank“
[5] "fitted.values" "assign" "qr" "df.residual"
[9] "xlevels" "call" "terms" "model"
• model$coef : le vecteur ߚመ	ሺ	ߚ଴, ߚଵሻ
• model$res : le vecteur résidus		‫ܧ‬ ൌ ܻ െ ܻ෠
• model$fitted : le vecteur estimé ܻ෠
• model$df.residual : le nombre des dll des résidus
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Test de significativité
• Objectif:
• Répondre à la question :
La régression est-elle globalement significative ?
Ou encore la variable X emmène-t-elle significativement de
l'information sur Y , permettant de construire une relation linéaire
réelle dans la population?
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Test de significativité (1)
• ANOVA (Analysis Of Variance).
comparer (analyser) les variances, pour tester la significativité
statistique entre des moyennes.
F =
ࡿ࡯ࡾ
ࡿ࡯ࡱ
࢔ష૛
désigne l’équivalent du F-ratio de l’ANOVA.
F =
࣑૛ሺ૚ሻ
૚
࣑૛ሺ࢔ష૛ሻ
࢔ష૛
ൌ 	࣠ሺ૚, ࢔ െ ૛ሻ, sous l’hypothèse H0. F suit donc une loi
de Fisher.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Test de significativité (2)
• Région critique, R.C, du test
RC est La règle de décision au risque ࢻ.
RC correspond au rejet de H0.
RC au risque ࢻ est définie pour les valeurs anormalement élevées
de F, i.e. R.C. : ࡲ ൐	ऐ૚ିࢻሺ૚, ࢔ െ ૛ሻ
• Soit ߙᇱ la p-value, i.e. la probabilité que la loi de Fisher dépasse la
statistique calculée F ; ߙᇱ	 est aussi appelée probabilité critique.
Alors, la règle de décision au risque ࢻ devient :
R.C. : ߙᇱ
൏ ߙ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Intervalle de confiance : intérêt
• L'intervalle de confiance permet d'encadrer un indicateur (
moyenne, variance, etc.) avec une probabilité associée.
• On dit que l’intervalle de confiance I est associé à l’indicateur
rho avec une probabilité alpha si :
(1 - alpha)% des indicateurs rho calculés sont contenu dans
l’intervalle de confiance I
alpha% des indicateurs rho calculés à travers les expériences
réalisées ne se trouvent pas dans l’intervalle de confiance I.
• Réduire le risque -diminuer la valeur de alpha- ne fait que
augmenter l'amplitude de l intervalle de confiance.
• Un compromis entre la qualité de l’intervalle et le niveau de
risque consiste à prendre alpha = 0.05
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Intervalle de confiance : résultats (1)
• Resultat 1 : la statistique
	ࢼ૙
෢ି	ࢼ૙
ࡿ࡯ࡱࡾ
࢔ష૛
	
૚
࢔
ା
ࢄഥ૛
ࡿࢄ
	suit une loi de
Student à n - 2 degrés de liberté.
• Resultat 2 : la statistique
ࢼ૚
෢ି	ࢼ૚
ࡿ࡯ࡱࡾ
࢔ష૛ ࡿࢄ
ൗ
suit une loi de
Student à n – 2 degrés de liberté.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Intervalle de confiance : resultats(2)
• Résultat 3 : un intervalle de confiance de ߚ௝		‫݆	ݎݑ݋݌‬ ൌ 1,2
est donné par :
ߚ௝ െ	‫ݐ‬ ௡ିଶ ଵିఈ
ଶൗ 	ఙෝഁೕ
					ߚ௝ ൅	‫ݐ‬ ௡ିଶ ଵିఈ
ଶൗ 	ఙෝഁೕ
Où ‫ݐ‬ ௡ିଶ ଵିഀ
మ⁄ 	ఙෝഁೕ
désigne la fractile de niveau 1 െ ఈ
ଶ⁄ du loi de
Student ‫ݐ‬௡ିଶ ( à n – 2 degrés de liberté)
Avec
• ߪොఉభ
ଶ
ൌ	ߪොଶ ∑ ௑೔
మ
௡	 ∑ ௑೔ି	௑ത మ
• ߪොఉమ
ଶ
ൌ	
ఙෝమ
	∑ ௑೔ି	௑ത మ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Formules mathématiques (1)
݊ Nombre d’observations
‫݌‬ Nombre de variables
ܺത ∑ ܺ௜
௡
௜ୀଵ
݊ൗ
ܵ௑௒
෍ሺܺ௜ܻ௜ െ	ܺതܻሻ
ߚଵ ܵ௑௒
ܵ௑௑
ߚ଴ ܻത െ	ߚଵܺത
ܻ෠௜ ߚመ଴ ൅	ߚመଵ	ܺ௜
‫ܧ‬௜ ܻ෠௜ 	െ	ܻ௜
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Formules mathématiques (2)
ܵ‫ܧܥ‬ோ
෍ሺܻ௜ െ	ܻതሻଶ
ܵ‫ܧܥ‬ெ
෍ሺܻ෠௜ െ	ܻതሻଶ ൌ	
ܵ௑௒
ଶ
ܵ௑௑
൘
ܵ‫ܧܥ‬௧ ܵ‫ܧܥ‬ோ ൅	ܵ‫ܧܥ‬ெ
ܴଶ
ܵ‫ܧܥ‬ெ
ܵ‫ܧܥ‬௧
ܴଶ
௔௝௨௦௧é
1 െ	
݊ െ 1
݊ െ ‫݌‬
	ܴଶ
‫ܨ‬௢௕௦ ݊ െ ‫݌‬ െ 1
‫݌‬
	
ܵ‫ܧܥ‬ெ
ܵ‫ܧܥ‬ோ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Formules mathématiques (3)
‫ܯܥ‬ோ ܵ‫ܧܥ‬ோ
‫݌‬ൗ
‫ܯܥ‬ெ ܵ‫ܧܥ‬ெ
݊ െ ‫݌‬ െ 1ൗ
ߪොఉభ
ଶ
ߪොଶ
∑ ܺ௜
ଶ
݊	 ∑ ܺ௜ െ	ܺത ଶ
ߪොఉమ
ଶ
ߪොଶ
	∑ ܺ௜ െ	ܺത ଶ
‫ܥܫ‬ ߚ௝ 		
݆ ൌ 1,2
ߚ௝ െ	‫ݐ‬ ௡ିଶ ଵିఈ
ଶൗ 	ఙෝഁೕ
					ߚ௝ ൅	‫ݐ‬ ௡ିଶ ଵିఈ
ଶൗ 	ఙෝഁೕ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Commande R : analyse de la variance
• anVar <- anova(model)
Donne l’analyse de la variance
• names(anVar) :
[1] "Df" "Sum Sq" "Mean Sq" "F value" "Pr(>F)"
• anVar$Df : vecteur de dll
• anVar$ "Sum Sq" : vecteur ‫ܯܥ‬ெ	, ‫ܯܥ‬ோ
• anVar$”F value” : donne ‫ܨ‬௢௕௦
• anvar$"Pr(>F)" : donne la probabilité critique (p-value)
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Commande R : Vérification des
hypothèses
• rstudent(model) : résidus studentarisée
• acf(model) : graphe d’autocorrelation des résidus
• qqnorm(model$res) : normal Q-Q plot
• plot(model$fitted,rstudent(model)) : graphe pour
identifier les points qui sont hors l’intervalle [-2,2]
• hist(resid(model)) : histogramme des résidus
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Modèle de la régression simple
ߚመ
‫ܨ‬௢௕௦
ܴଶ
ܴଶ
௔௝௨௦௧é
݁ܿܽ‫ݐݎ‬ െ ‫݁݌ݕݐ‬ሺ ܻ െ ܻ෠	
ଶ
ሻ
dll
Statistique de test
Probabilité critique
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Analyse de la variance
dll Vecteur ‫ܯܥ‬ெ	, ‫ܯܥ‬ோ ‫ܨ‬௢௕௦ Probabilité critique
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Loi t student t : définition
• Soit la variable t définie par :
‫ݐ‬ ൌ	
ܼ
ܷ
݇ൗ
avec Z une variable aléatoire de loi normal, centrée et réduite
U une variable indépendant de Z de loi ࢄ૛à k degré de liberté (ddl)
Par définition on dit que la variable t suit une loi de Student à k
degrés de liberté (dll).
Sa densité est : ݂௧ ‫ݔ‬ ൌ		
ଵ
௞	గ
	
ఊሺ
ೖశభ
మ
ሻ
ఊሺ
ೖ
మ
ሻ
	ሺ1 ൅	
௫మ
௞
ሻି	
ೖశభ
మ 			‫݇	ݎݑ݋݌‬ ൐
0
Ou ߛ	 est la fonction Gamme d’Euler
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Loi student t : propriétés
• La densité ݂௧ -associée à t est :
symétrique ( ݂	௧	 ‫ݔ‬ ൌ	݂௧ሺെ‫ݔ‬ሻ		ሻ
son espérance est égale à 0 pour k > 1 et non définit pour k = 1
Sa variance est égale k/k-1 pour k > 2 et infinie pour k =1 et non
définie pour k=1
Résultat : pour k dll assez grand, la loi de Student converge vers la
loi normale.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Loi student t : cumul et densité
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Loi student t : applications
• Conformité d'une moyenne sur un petit échantillon ( n <
30)
• Test de comparaison de moyennes de 2 petits
échantillons ( n < 30)
• Évaluation de la qualité de coefficients de régression
linéaire simple ou multiple
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Loi student t : commandes R
• dt(x, df, ncp, log = FALSE)
• pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
• qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
• rt(n, df, ncp)
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Les auteurs
• Mustapha. MICHRAFY
• Bull/Fastconnect
• Bernard KOUAKOU
• CGI inc.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Contact des auteurs :
datascience.km@gmail.com
Références
• Data Mining et statistique décisionnelle, Stéphane TUFFÉRY
• Econométrie, la régression linéaire simple et multiple, Ricco Rakotomalala,
http://eric.univ lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
• Statistiques avec R, Pierre André Cornillon, François Husson, Nicolas Jégou, Eric
Matzner Lober
•Décision et prévision statistique, Thierry Verdel et al., Groupe des écoles de mine,
http://tice.inpl nancy.fr/modules/unit stat/
• http://www.statsoft.fr/concepts statistiques/anova manova/anova
manova.htm#.VcYDqflRqy1
• https://leanpub.com/LittleInferenceBook/read
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com

Weitere ähnliche Inhalte

Was ist angesagt?

Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multipleAdad Med Chérif
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
Stat4 Principes Des Tests Statistiques
Stat4  Principes Des Tests StatistiquesStat4  Principes Des Tests Statistiques
Stat4 Principes Des Tests StatistiquesJean-Louis ESTRADE
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Adad Med Chérif
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR Anissa ATMANI
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009mohamedchaouche
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 

Was ist angesagt? (20)

(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
Stat8 Anova
Stat8  AnovaStat8  Anova
Stat8 Anova
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Stat4 Principes Des Tests Statistiques
Stat4  Principes Des Tests StatistiquesStat4  Principes Des Tests Statistiques
Stat4 Principes Des Tests Statistiques
 
Stat3 Intervalle De Confiance
Stat3  Intervalle De ConfianceStat3  Intervalle De Confiance
Stat3 Intervalle De Confiance
 
Khi carré
Khi carréKhi carré
Khi carré
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 

Andere mochten auch

03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
Scala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and ImplementationsScala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and ImplementationsMICHRAFY MUSTAFA
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsMICHRAFY MUSTAFA
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre MICHRAFY MUSTAFA
 
Point sur la situation alimentaire au sahel (psa)
Point sur la situation alimentaire au sahel (psa)Point sur la situation alimentaire au sahel (psa)
Point sur la situation alimentaire au sahel (psa)Fatimata Kone
 
Avis d'appel candidatures assistant (e) en communication au ROPPA
Avis d'appel candidatures assistant (e)  en communication au ROPPAAvis d'appel candidatures assistant (e)  en communication au ROPPA
Avis d'appel candidatures assistant (e) en communication au ROPPAFatimata Kone
 
BBA Madonna Transcripts
BBA Madonna TranscriptsBBA Madonna Transcripts
BBA Madonna TranscriptsHashim Mohamed
 
Borges Poema A Los Amigos +
Borges   Poema A Los Amigos +Borges   Poema A Los Amigos +
Borges Poema A Los Amigos +Strujen
 
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLA
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLAXCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLA
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLAMaestroPedro .
 
Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...
Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...
Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...Universidad Internacional Menendez Pelayo
 
Primeras Jornada Ley Natural Uc
Primeras Jornada Ley Natural UcPrimeras Jornada Ley Natural Uc
Primeras Jornada Ley Natural UcJuan Pablo Barros
 
¿Como registrarse y subir videos a youtube?
¿Como registrarse y subir videos a youtube?¿Como registrarse y subir videos a youtube?
¿Como registrarse y subir videos a youtube?estudiantesblog
 

Andere mochten auch (20)

03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Scala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and ImplementationsScala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and Implementations
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & Actions
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
 
Point sur la situation alimentaire au sahel (psa)
Point sur la situation alimentaire au sahel (psa)Point sur la situation alimentaire au sahel (psa)
Point sur la situation alimentaire au sahel (psa)
 
PANORAMA EDUCATIVO DE MEXICO
PANORAMA EDUCATIVO DE MEXICOPANORAMA EDUCATIVO DE MEXICO
PANORAMA EDUCATIVO DE MEXICO
 
Barroc Def
Barroc DefBarroc Def
Barroc Def
 
Avis d'appel candidatures assistant (e) en communication au ROPPA
Avis d'appel candidatures assistant (e)  en communication au ROPPAAvis d'appel candidatures assistant (e)  en communication au ROPPA
Avis d'appel candidatures assistant (e) en communication au ROPPA
 
BBA Madonna Transcripts
BBA Madonna TranscriptsBBA Madonna Transcripts
BBA Madonna Transcripts
 
Borges Poema A Los Amigos +
Borges   Poema A Los Amigos +Borges   Poema A Los Amigos +
Borges Poema A Los Amigos +
 
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLA
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLAXCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLA
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLA
 
Ponencia Raul Gil Riesgos Y Oportunidades De La Ue Ampliada Uimp2008
Ponencia Raul Gil Riesgos Y Oportunidades De La Ue Ampliada Uimp2008Ponencia Raul Gil Riesgos Y Oportunidades De La Ue Ampliada Uimp2008
Ponencia Raul Gil Riesgos Y Oportunidades De La Ue Ampliada Uimp2008
 
Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...
Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...
Ponencia Francisco Tomas Vert en III Foro SSME ( Services Science Management ...
 
Primeras Jornada Ley Natural Uc
Primeras Jornada Ley Natural UcPrimeras Jornada Ley Natural Uc
Primeras Jornada Ley Natural Uc
 
Gorges de la_loire
Gorges de la_loireGorges de la_loire
Gorges de la_loire
 
Plano 702
Plano 702Plano 702
Plano 702
 
Arte Romanico
Arte RomanicoArte Romanico
Arte Romanico
 
Capitulo 2
Capitulo 2Capitulo 2
Capitulo 2
 
¿Como registrarse y subir videos a youtube?
¿Como registrarse y subir videos a youtube?¿Como registrarse y subir videos a youtube?
¿Como registrarse y subir videos a youtube?
 

Ähnlich wie Regression simple

(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unmohamedchaouche
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdfCorrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdfKOUADIOPATRICE1
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité Adad Med Chérif
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationFrank Nielsen
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Traitements statistiques de description
Traitements statistiques de descriptionTraitements statistiques de description
Traitements statistiques de descriptionAhmed Benhoumane
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Test d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfTest d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfKOUADIOPATRICE1
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimationmarouane hdidou
 

Ähnlich wie Regression simple (20)

(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdfCorrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'information
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Traitements statistiques de description
Traitements statistiques de descriptionTraitements statistiques de description
Traitements statistiques de description
 
Stat7 Correlation
Stat7  CorrelationStat7  Correlation
Stat7 Correlation
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Cours masterlyon
Cours masterlyonCours masterlyon
Cours masterlyon
 
Metrologie
MetrologieMetrologie
Metrologie
 
Metrologie
MetrologieMetrologie
Metrologie
 
Test d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfTest d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdf
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimation
 
Cox
CoxCox
Cox
 

Regression simple

  • 1. RÉGRESSION SIMPLE PRINCIPES,APPLICATIONS SOUS LE LANGAGE R Dr Mustapha Michrafy Dr Bernard Kouakou M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 2. Plan • Introduction • Régression simple • Estimation des paramètres • Validation du modèle • Intervalle de confiance • Commande R pour la régression simple • Formules mathématiques • Loi Student : Rappel M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 3. Prérequis • Connaissance de l’algèbre linéaire • Notions en optimisation mathématique • Connaissance de la statistique de test M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 4. Introduction 1 • Qu’est-ce la régression ? La régression est un ensemble de méthodes statistiques servant à analyser la relation entre une variable Y et une (ou plusieurs autres) variable(s) X. Exemple : établir la relation entre la taille d’une personne (variable expliquée) et son poids (variable explicative). • Qu’est-ce qu’un modèle de régression ? C’est une équation visant à représenter la relation entre les variables X et Y : Y = f(X) + ߝ • Qu’est-ce qu’une variable explicative ? C’est la variable connue X utilisée pour prédire la variable Y. • Qu’est qu’une variable expliquée ? C’est la variable Y (inconnue) dont on veut déterminer (prédire) la valeur à partir des valeurs de X M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 5. Introduction 2 • Qu’est-ce que le résidu ? C’est la marge d’erreur ou d’imprécision du modèle ; (elle est désignée par ߝ dans l’équation du modèle précédent). • Qu’est-ce la régression linéaire ? C’est d’abord un modèle de régression. De plus, il est fait l'hypothèse que la fonction qui relie les variables explicatives à la variable expliquée est linéaire dans ses paramètres. Exemple : Y = ߚଵx + ߚ଴ + ߝ. • Qu’est-ce que la régression linéaire simple. C’est un modèle de régression où la relation entre la variable expliquée Y et la variable explicative X est réduite à : Y = ߚଵx + ߚ଴ + ߝ. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 6. Régression Simple • Vise à mettre en relation une variable Y à expliquer et une variable explicative X. • Pour chaque valeur x1, x2, …xn de X, on observe (prédit) les valeurs correspondantes y1, y2, …yn. • On postule l’existence d’une relation E(Y) = ߚଵx + ߚ଴. • Elle est équivalente, à : Y = ߚଵx + ߚ଴ + ߝ avec E(ߝ)=0. • On cherche des estimateurs ߚଵ ෢ et ߚ଴ ෢ de ߚଵ et ߚ଴ . M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 7. Méthodes de calcul des estimateurs • Quelques méthodes pour calculer les estimateurs. • La méthode des moindres carrés ordinaires, MCO : Consiste à rechercher les paramètres a et b minimisant les différences : ∑ ሺ‫ݕ‬௜ െ ߚ଴ ෢ െ ߚଵ ෢‫ݔ‬௜ሻଶ௡ ௜ୀଵ Elle sera utilisée dans la suite de ce document • La méthode du Maximum de vraisemblance • La méthode par inférence bayésienne M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 8. Méthode des moindres carrés Ordinaires (MCO) Notation : ‫ݕ‬ො ൌ ߚ଴ ෢ ൅ ߚଵ ෢‫ ݔ‬la droite qui ajuste le nuage de points (ߚ଴ ෢et ߚଵ ෢ sont les estimateurs calculés). ‫ ݕ‬ഥ ൌ ∑ ௬೔ ೔ ௡ , la moyenne des ‫ݕ‬௜ . ܵ‫ܴܥ‬ ൌ ∑ ሺ‫ݕ‬௜ െ ‫ݕ‬ො௜ሻଶ ௜ , la somme des carrés résiduels ܵ‫ܧܥ‬ ൌ ∑ ሺ‫ݕ‬ො௜ െ ‫ݕ‬ത௜ሻଶ ௜ , la somme des carrés expliqués. SCT = ∑ ሺ‫ݕ‬௜ െ ‫ݕ‬തሻଶ ௜ , la somme des carrés totaux : M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 9. MCO (Régression avec constante) Régression avec constante (ߚଵ et ߚ଴ sont non nulls) SCT = SCE + SCR, i.e. ∑ ሺ‫ݕ‬௜ െ ‫ݕ‬തሻଶ ௜ ൌ ∑ ሺ‫ݕ‬ො௜ െ ‫ݕ‬ത௜ሻଶ൅ ∑ ሺ‫ݕ‬௜ െ ‫ݕ‬ො௜ሻଶ ௜௜ . • Interpretation des quantités: SCR est la somme des carrés totaux. Elle traduit la variabilité totale de Y. Permet de d’apprécier l'information disponible dans les données. SCE est la somme des carrés expliqués. Elle indique la variation de Y expliquée par X. on parle alors de Variabilité expliquée. SCR est somme des carrés résiduels. Elle indique l'écart entre les valeurs observées de Y et celles prédites par le modèle. On parle de variabilité non- expliquée. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 10. MCO (Régression avec constante) • Meilleur des cas. SCR = 0 et donc SCT = SCE. les variations de Y sont complètement expliquées par celles de X. On a un modèle parfait. La droite de régression passe exactement par tous les points du nuage, puisque ‫ݕ‬ො௜ ൌ ‫ݕ‬௜. • Pire Cas. SCE= 0: X n'apporte aucune information sur Y. Ainsi, ‫ݕ‬ො௜ ൌ ‫ݕ‬ത. Ainsi, la meilleure prédiction de Y est sa propre moyenne. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 11. MCO (avec constante) Coefficient de détermination R Le coefficient ࡾ૛ est un indicateur de synthèse. Il est défini par ܴଶ ൌ ௌ஼ா ௌ஼் ൌ 1 െ ௌ஼ோ ௌ஼் . Il indique la proportion de variance de Y expliquée par le modèle. Le coefficient R est compris entre 0 et 1 Plus il sera proche de la valeur 1, meilleur sera le modèle. Ainsi, la connaissance des valeurs de X permet de prédire avec davantage de précision la valeur de Y. ܴଶ proche de 0 indique que X n'apporte pas d'informations utiles (intéressantes) sur Y ; la connaissance des valeurs de X ne nous dit rien sur celles de Y. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 12. MCO : Coefficient de corrélation linéaire multiple Il est noté R Il est défini par R ൌ ܴଶ. • Pour la régression simple (uniquement), on montre qu'il est égal (au signe près) au coefficient de corrélation ‫ݎ‬௬௫ de Pearson : ‫ݎ‬௬௫ୀ௦௜௚௡௘ ௔ො ൈோ. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 13. Hypothèses • Ces hypothèses ont un impact sur les propriétés des estimateurs (biais, convergence) et l'inférence statistique (distribution des coefficients estimés). • H1 : Hypothèses sur Y et X. X et Y sont des grandeurs numériques mesurées sans erreur. X est une donnée exogène supposée non aléatoire. Y est aléatoire par l'intermédiaire de ߝ. • H2 : Hypothèses sur ࢿ. Les ߝ௜ sont indépendants et identiquement distribués. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 14. Hypothèses 2 • H2.1 E(ߝ௜) = 0, en moyenne les erreurs s'annulent, donc le modèle est bien spécifié. • H2.2 hypothèse d'homoscédasticité : V (ߝ௜) =ߪఌ ଶ () : la variance de l'erreur est constante (ne dépend pas de l'observation). La variance du bruit (erreur) ne doit dépendre ni des valeurs de la variable à expliquer, ni des valeurs des variables explicatives • H2.3 L'erreur est indépendante de la variable exogène, ainsi COV (‫ݔ‬௜, ߝ௜) = 0. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 15. Hypothèses 3 • H2.4 Indépendance des erreurs. Les erreurs de 2 observations sont indépendantes : COV(ߝ௜, ߝ௝) = 0 ; donc "non auto-corrélation des erreurs". Le bruit doit être un «vrai» bruit (pas de structure de corrélation évidente) • H2.5 Hypothèse de normalité : ߝ௜ ≡ N(0; ߪఌ). Primordiale pour l'inférence statistique. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 16. Hypothèse pour la validation du modèle (rappel et synthèse) • Le modèle de la régression linéaire simple suppose que : 1. Modèle bien spécifié : En moyenne les erreurs s’annulent i.e. ࡱ ࢿ࢏ ൌ ૙, ࢏ ൌ ૚. . ࢔ 2. Homoscédasticité : La variance des erreurs est une constante i.e. ࢂ ࢿ࢏ ൌ ࣌૛ , ࢏ ൌ ૚ … ࢔ 3. Indépendance des observations : Les erreurs ne dépend pas du variable explicative. ࢏. ࢋ. ࡯ࡻࢂ ࢞࢏, ࢿ࢏ ൌ ૙, ࢏ ൌ ૚ … ࢔ 4. Non auto-corrélation des erreurs Les erreurs relatives à deux observations sont indépendantes ࢏. ࢋ. ۱‫܄۽‬ ઽܑ, ઽܑ ൌ ૙, ܑ, ‫ܒ‬ ൌ ૚ … ‫ܑ ܜ܍ ܖ‬ ് ‫ ܒ‬ 5. Normalité des erreurs Les erreurs sont issues d’une loi gaussienne i.e. ࢿ࢏ ≡ ࡺ ૙, ࣌૛ , ࢏ ൌ ૚. . ࢔ M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 17. Hétéroscédasticité des erreurs • Dans ce cas, les erreurs dépendent du variable explicative. • Les conséquences sont : Estimateur sans bais. Estimateur n’est plus à variance minimale • Les causes peuvent être : Les moyennes des observations sont obtenues à partir de différents échantillons. L’association de la même valeur de la variable à expliquer aux différentes valeurs de la variable explicative. Certaines valeurs de la variable explicative sont entachées d’erreur. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 18. Auto-corrélation des erreurs • Les conséquences sont : Estimateur sans bais. Estimateur n’est plus à variance minimale. • Les causes d’auto-corrélation peuvent être : Absence d’une variable explicative importante. Modèle linéaire n’est pas adapté. Lissage par moyenne mobile ou par interpolation. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 19. Hypothèse Homoscédasticité • Pour vérifier l’hypothèse d’homoscédasticité, on peut tracer le graphe ‫ݔ‬௜, ‫ܧ‬௜ ‫ ݑ݋‬ ܻ෠௜, ‫ܧ‬௜ . • 3 cas possibles La variance se comporte comme un vrai bruit : hypothèse vérifiée . La variance augmente en fonction de ‫ݔ‬௜ ou ܻ෠௜ : hypothèse non vérifiée. Une structure ”particulière” du nuage de points du graphe des résidus : hypothèse non vérifiée. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 20. Hypothèse de normalité • Pour tester la normalité des résidus, on peut utiliser : Un histogramme. Un graphique de probabilité normal des résidus. Un test de normalité (Shapiro-Wilk, Anderson-Darling, Kolmogorov- Smirnov) dans le cas ou le nombre d’observations est assez important. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 21. Hypothèse de Non auto-corrélation • On peut tester la non auto-corrélation des résidus en: Traçant le graphique des résidus, la présence d’une structure particulière ou une courbe montre que les résidus contiennent des informations du modèle i.e. le modèle est inapproprié. Réalisant le test non paramétrique de Durbin-Watson M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 22. Évaluation des estimateurs. • 2 propriétés importantes lors l'évaluation d'un estimateur ߠ෠. L’estimateur est-il sans biais, c.-à-d. en moyenne, obtenons-nous la vraie valeur du paramètre ? ‫ܧ‬ ߠ෠ ൌ ߠ ? L’estimateur est-il convergent, c.-à-d. à mesure que la taille de l'échantillon augmente, l'estimation devient-elle de plus en plus précise ? M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 23. Évaluation des estimateurs Biais de ߚଵ ෢ et ߚ଴ ෢. Pour la méthode MCO,ߚଵ ෢et ߚ଴ ෢ sont sans biais, si et seulement si : 1. (H1) L'exogène X n'est pas stochastique (X est non aléatoire) ; 2. (H2.1) ‫ܧ‬ሺߝ௜ሻ = 0, l'espérance de l'erreur est nulle. Ainsi sous ces hypothèses, nous avons : ‫ܧ‬ሺߚଵ ෢ሻ ൌ ߚଵet ‫ܧ‬ሺߚ଴ ෢ሻ ൌ ߚ଴. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 24. Évaluation des estimateurs Convergence. L'estimation devient-elle de plus en plus précise quand la taille de l’échantillon augmente ? • 1. Un estimateur ߠ෠ sans biais de ߠ est convergent si et seulement si ܸሺߠ෠ሻ ௡→ஶ 0. ܸ ߚଵ ෢ ൌ ‫ܧ‬ሺߚଵ ෢ െ ߚଵሻଶ. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 25. Évaluation des estimateurs Convergence : Rappel des hypothèses. H2.2, (homoscédasticité) : la variance de l’erreur est constante, i.e. ‫ܧ‬ ߝ௜ ଶ ൌ ܸ ߳௜ ൌ ߪఌ ଶ H2.4 (non autocorrélation des erreurs) : ‫ܸܱܥ‬ ߝ௜ߝ௝ ൌ ‫ܧ‬ ߝ௜ߝ௝ ൌ 0. • Sous les hypthèses H2.2 et H2.4 : ܸሺߚଵሻ෢ ൌ ఙഄ మ ∑ ሺ௫೔ି௫̅ሻమ ೔ et ܸሺߚ଴ሻ෢ ൌ ߪఌ ଶ ሾ ଵ ௡ ൅ ௫̅ ∑ ௫೔ି௫̅ మ ೔ ሿ Consequence : ߚଵ ෢ est un estimateur convergent de a, puisque ܸሺߚଵ ෢) tend vers l’infini pour des échantillons de grande taille. ߚ଴ ෢ est un estimateur convergent de ߚ଴. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 26. Évaluation des estimateurs Bilan des formules de la variance: • Une faible variance de l'erreur implique que la régression est de bonne qualité. • Une forte dispersion des X implique que les points recouvrent bien l'espace de représentation. • Le nombre d'observations n est élevé. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 27. Commande R : analyse du modèle • model <- lm(formula=y~x) data=donnee.csv) : établir un modèle de régression linéaire simple, x est le prédicteur et y est la variable à expliquer. • Names(model) [1] "coefficients" "residuals" "effects" "rank“ [5] "fitted.values" "assign" "qr" "df.residual" [9] "xlevels" "call" "terms" "model" • model$coef : le vecteur ߚመ ሺ ߚ଴, ߚଵሻ • model$res : le vecteur résidus ‫ܧ‬ ൌ ܻ െ ܻ෠ • model$fitted : le vecteur estimé ܻ෠ • model$df.residual : le nombre des dll des résidus M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 28. Test de significativité • Objectif: • Répondre à la question : La régression est-elle globalement significative ? Ou encore la variable X emmène-t-elle significativement de l'information sur Y , permettant de construire une relation linéaire réelle dans la population? M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 29. Test de significativité (1) • ANOVA (Analysis Of Variance). comparer (analyser) les variances, pour tester la significativité statistique entre des moyennes. F = ࡿ࡯ࡾ ࡿ࡯ࡱ ࢔ష૛ désigne l’équivalent du F-ratio de l’ANOVA. F = ࣑૛ሺ૚ሻ ૚ ࣑૛ሺ࢔ష૛ሻ ࢔ష૛ ൌ ࣠ሺ૚, ࢔ െ ૛ሻ, sous l’hypothèse H0. F suit donc une loi de Fisher. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 30. Test de significativité (2) • Région critique, R.C, du test RC est La règle de décision au risque ࢻ. RC correspond au rejet de H0. RC au risque ࢻ est définie pour les valeurs anormalement élevées de F, i.e. R.C. : ࡲ ൐ ऐ૚ିࢻሺ૚, ࢔ െ ૛ሻ • Soit ߙᇱ la p-value, i.e. la probabilité que la loi de Fisher dépasse la statistique calculée F ; ߙᇱ est aussi appelée probabilité critique. Alors, la règle de décision au risque ࢻ devient : R.C. : ߙᇱ ൏ ߙ M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 31. Intervalle de confiance : intérêt • L'intervalle de confiance permet d'encadrer un indicateur ( moyenne, variance, etc.) avec une probabilité associée. • On dit que l’intervalle de confiance I est associé à l’indicateur rho avec une probabilité alpha si : (1 - alpha)% des indicateurs rho calculés sont contenu dans l’intervalle de confiance I alpha% des indicateurs rho calculés à travers les expériences réalisées ne se trouvent pas dans l’intervalle de confiance I. • Réduire le risque -diminuer la valeur de alpha- ne fait que augmenter l'amplitude de l intervalle de confiance. • Un compromis entre la qualité de l’intervalle et le niveau de risque consiste à prendre alpha = 0.05 M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 32. Intervalle de confiance : résultats (1) • Resultat 1 : la statistique ࢼ૙ ෢ି ࢼ૙ ࡿ࡯ࡱࡾ ࢔ష૛ ૚ ࢔ ା ࢄഥ૛ ࡿࢄ suit une loi de Student à n - 2 degrés de liberté. • Resultat 2 : la statistique ࢼ૚ ෢ି ࢼ૚ ࡿ࡯ࡱࡾ ࢔ష૛ ࡿࢄ ൗ suit une loi de Student à n – 2 degrés de liberté. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 33. Intervalle de confiance : resultats(2) • Résultat 3 : un intervalle de confiance de ߚ௝ ‫݆ ݎݑ݋݌‬ ൌ 1,2 est donné par : ߚ௝ െ ‫ݐ‬ ௡ିଶ ଵିఈ ଶൗ ఙෝഁೕ ߚ௝ ൅ ‫ݐ‬ ௡ିଶ ଵିఈ ଶൗ ఙෝഁೕ Où ‫ݐ‬ ௡ିଶ ଵିഀ మ⁄ ఙෝഁೕ désigne la fractile de niveau 1 െ ఈ ଶ⁄ du loi de Student ‫ݐ‬௡ିଶ ( à n – 2 degrés de liberté) Avec • ߪොఉభ ଶ ൌ ߪොଶ ∑ ௑೔ మ ௡ ∑ ௑೔ି ௑ത మ • ߪොఉమ ଶ ൌ ఙෝమ ∑ ௑೔ି ௑ത మ M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 34. Formules mathématiques (1) ݊ Nombre d’observations ‫݌‬ Nombre de variables ܺത ∑ ܺ௜ ௡ ௜ୀଵ ݊ൗ ܵ௑௒ ෍ሺܺ௜ܻ௜ െ ܺതܻሻ ߚଵ ܵ௑௒ ܵ௑௑ ߚ଴ ܻത െ ߚଵܺത ܻ෠௜ ߚመ଴ ൅ ߚመଵ ܺ௜ ‫ܧ‬௜ ܻ෠௜ െ ܻ௜ M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 35. Formules mathématiques (2) ܵ‫ܧܥ‬ோ ෍ሺܻ௜ െ ܻതሻଶ ܵ‫ܧܥ‬ெ ෍ሺܻ෠௜ െ ܻതሻଶ ൌ ܵ௑௒ ଶ ܵ௑௑ ൘ ܵ‫ܧܥ‬௧ ܵ‫ܧܥ‬ோ ൅ ܵ‫ܧܥ‬ெ ܴଶ ܵ‫ܧܥ‬ெ ܵ‫ܧܥ‬௧ ܴଶ ௔௝௨௦௧é 1 െ ݊ െ 1 ݊ െ ‫݌‬ ܴଶ ‫ܨ‬௢௕௦ ݊ െ ‫݌‬ െ 1 ‫݌‬ ܵ‫ܧܥ‬ெ ܵ‫ܧܥ‬ோ M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 36. Formules mathématiques (3) ‫ܯܥ‬ோ ܵ‫ܧܥ‬ோ ‫݌‬ൗ ‫ܯܥ‬ெ ܵ‫ܧܥ‬ெ ݊ െ ‫݌‬ െ 1ൗ ߪොఉభ ଶ ߪොଶ ∑ ܺ௜ ଶ ݊ ∑ ܺ௜ െ ܺത ଶ ߪොఉమ ଶ ߪොଶ ∑ ܺ௜ െ ܺത ଶ ‫ܥܫ‬ ߚ௝ ݆ ൌ 1,2 ߚ௝ െ ‫ݐ‬ ௡ିଶ ଵିఈ ଶൗ ఙෝഁೕ ߚ௝ ൅ ‫ݐ‬ ௡ିଶ ଵିఈ ଶൗ ఙෝഁೕ M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 37. Commande R : analyse de la variance • anVar <- anova(model) Donne l’analyse de la variance • names(anVar) : [1] "Df" "Sum Sq" "Mean Sq" "F value" "Pr(>F)" • anVar$Df : vecteur de dll • anVar$ "Sum Sq" : vecteur ‫ܯܥ‬ெ , ‫ܯܥ‬ோ • anVar$”F value” : donne ‫ܨ‬௢௕௦ • anvar$"Pr(>F)" : donne la probabilité critique (p-value) M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 38. Commande R : Vérification des hypothèses • rstudent(model) : résidus studentarisée • acf(model) : graphe d’autocorrelation des résidus • qqnorm(model$res) : normal Q-Q plot • plot(model$fitted,rstudent(model)) : graphe pour identifier les points qui sont hors l’intervalle [-2,2] • hist(resid(model)) : histogramme des résidus M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 39. Modèle de la régression simple ߚመ ‫ܨ‬௢௕௦ ܴଶ ܴଶ ௔௝௨௦௧é ݁ܿܽ‫ݐݎ‬ െ ‫݁݌ݕݐ‬ሺ ܻ െ ܻ෠ ଶ ሻ dll Statistique de test Probabilité critique M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 40. Analyse de la variance dll Vecteur ‫ܯܥ‬ெ , ‫ܯܥ‬ோ ‫ܨ‬௢௕௦ Probabilité critique M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 41. Loi t student t : définition • Soit la variable t définie par : ‫ݐ‬ ൌ ܼ ܷ ݇ൗ avec Z une variable aléatoire de loi normal, centrée et réduite U une variable indépendant de Z de loi ࢄ૛à k degré de liberté (ddl) Par définition on dit que la variable t suit une loi de Student à k degrés de liberté (dll). Sa densité est : ݂௧ ‫ݔ‬ ൌ ଵ ௞ గ ఊሺ ೖశభ మ ሻ ఊሺ ೖ మ ሻ ሺ1 ൅ ௫మ ௞ ሻି ೖశభ మ ‫݇ ݎݑ݋݌‬ ൐ 0 Ou ߛ est la fonction Gamme d’Euler M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 42. Loi student t : propriétés • La densité ݂௧ -associée à t est : symétrique ( ݂ ௧ ‫ݔ‬ ൌ ݂௧ሺെ‫ݔ‬ሻ ሻ son espérance est égale à 0 pour k > 1 et non définit pour k = 1 Sa variance est égale k/k-1 pour k > 2 et infinie pour k =1 et non définie pour k=1 Résultat : pour k dll assez grand, la loi de Student converge vers la loi normale. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 43. Loi student t : cumul et densité M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 44. Loi student t : applications • Conformité d'une moyenne sur un petit échantillon ( n < 30) • Test de comparaison de moyennes de 2 petits échantillons ( n < 30) • Évaluation de la qualité de coefficients de régression linéaire simple ou multiple M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 45. Loi student t : commandes R • dt(x, df, ncp, log = FALSE) • pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE) • qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE) • rt(n, df, ncp) M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
  • 46. Les auteurs • Mustapha. MICHRAFY • Bull/Fastconnect • Bernard KOUAKOU • CGI inc. M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com Contact des auteurs : datascience.km@gmail.com
  • 47. Références • Data Mining et statistique décisionnelle, Stéphane TUFFÉRY • Econométrie, la régression linéaire simple et multiple, Ricco Rakotomalala, http://eric.univ lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf • Statistiques avec R, Pierre André Cornillon, François Husson, Nicolas Jégou, Eric Matzner Lober •Décision et prévision statistique, Thierry Verdel et al., Groupe des écoles de mine, http://tice.inpl nancy.fr/modules/unit stat/ • http://www.statsoft.fr/concepts statistiques/anova manova/anova manova.htm#.VcYDqflRqy1 • https://leanpub.com/LittleInferenceBook/read M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com