Suche senden
Hochladen
Herve aide-memoire-statistique r
âą
6 gefÀllt mir
âą
4,811 views
Dies Diassa
Folgen
stats
Weniger lesen
Mehr lesen
Melden
Teilen
Melden
Teilen
1 von 143
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
RĂ©daction scientifique_Partie 1
RĂ©daction scientifique_Partie 1
Ibrahima Sylla
Â
Stat4 Principes Des Tests Statistiques
Stat4 Principes Des Tests Statistiques
Jean-Louis ESTRADE
Â
Tests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennes
Youcef63000
Â
(Econometrie) done
(Econometrie) done
mohamedchaouche
Â
Chapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondage
Mahamadou Haro
Â
Introduction aux statistiques descriptives et tests d'hypothĂšses
Introduction aux statistiques descriptives et tests d'hypothĂšses
Clément Dussarps
Â
Guide d'utilisation KObo toolbox
Guide d'utilisation KObo toolbox
ODESHAITI
Â
Questionnaire sous spss
Questionnaire sous spss
Adad Med Chérif
Â
Empfohlen
RĂ©daction scientifique_Partie 1
RĂ©daction scientifique_Partie 1
Ibrahima Sylla
Â
Stat4 Principes Des Tests Statistiques
Stat4 Principes Des Tests Statistiques
Jean-Louis ESTRADE
Â
Tests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennes
Youcef63000
Â
(Econometrie) done
(Econometrie) done
mohamedchaouche
Â
Chapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondage
Mahamadou Haro
Â
Introduction aux statistiques descriptives et tests d'hypothĂšses
Introduction aux statistiques descriptives et tests d'hypothĂšses
Clément Dussarps
Â
Guide d'utilisation KObo toolbox
Guide d'utilisation KObo toolbox
ODESHAITI
Â
Questionnaire sous spss
Questionnaire sous spss
Adad Med Chérif
Â
Regression simple
Regression simple
LearningMahout
Â
Les compétences professionnelles de l'enseignant
Les compétences professionnelles de l'enseignant
Faycel BADRI
Â
21252637 optimisation-du-systeme-dâapprovisionnement-de-la-fromagerie-bel-maroc
21252637 optimisation-du-systeme-dâapprovisionnement-de-la-fromagerie-bel-maroc
antilaman
Â
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
AnassFarkadi
Â
Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018
fikri khalid
Â
Analyse de données avec spss,
Analyse de données avec spss,
Mohamed Amine Sansar
Â
Demande manuscrite
Demande manuscrite
Laila Saady
Â
La Regression lineaire
La Regression lineaire
FIKRIMAIL
Â
Livre des cours+tp microbiologie
Livre des cours+tp microbiologie
arezki sadoudi
Â
Stat8 Anova
Stat8 Anova
Jean-Louis ESTRADE
Â
Methodologie des enquete
Methodologie des enquete
L'Ă©tudient Fptien
Â
Analyse critique de la littérature scientifique, congrÚs AFREK du 22/09/2011
Analyse critique de la littérature scientifique, congrÚs AFREK du 22/09/2011
Collectif GERAR
Â
Lean Ă l'hĂŽpital
Lean Ă l'hĂŽpital
Stephane Nguyen
Â
Cours echantillonnage et estimations
Cours echantillonnage et estimations
Mehdi Rajawi
Â
Le MĂ©moire professionnel
Le MĂ©moire professionnel
S/Abdessemed
Â
Rapport de stage; analyse microbiologique de l'eau
Rapport de stage; analyse microbiologique de l'eau
Elyakine Benmebkhout
Â
Formation au logiciel NVivo d'analyse de données qualitatives
Formation au logiciel NVivo d'analyse de données qualitatives
valéry ridde
Â
Organiser son Doctorat
Organiser son Doctorat
lorraine2
Â
6sigma -chapitre 5 : INNOVER
6sigma -chapitre 5 : INNOVER
ibtissam el hassani
Â
Spss les premieres notions 1
Spss les premieres notions 1
Adad Med Chérif
Â
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
Ahmadou DICKO
Â
Initiation r
Initiation r
Touglo Eric TCHAWALASSOU
Â
Weitere Àhnliche Inhalte
Was ist angesagt?
Regression simple
Regression simple
LearningMahout
Â
Les compétences professionnelles de l'enseignant
Les compétences professionnelles de l'enseignant
Faycel BADRI
Â
21252637 optimisation-du-systeme-dâapprovisionnement-de-la-fromagerie-bel-maroc
21252637 optimisation-du-systeme-dâapprovisionnement-de-la-fromagerie-bel-maroc
antilaman
Â
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
AnassFarkadi
Â
Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018
fikri khalid
Â
Analyse de données avec spss,
Analyse de données avec spss,
Mohamed Amine Sansar
Â
Demande manuscrite
Demande manuscrite
Laila Saady
Â
La Regression lineaire
La Regression lineaire
FIKRIMAIL
Â
Livre des cours+tp microbiologie
Livre des cours+tp microbiologie
arezki sadoudi
Â
Stat8 Anova
Stat8 Anova
Jean-Louis ESTRADE
Â
Methodologie des enquete
Methodologie des enquete
L'Ă©tudient Fptien
Â
Analyse critique de la littérature scientifique, congrÚs AFREK du 22/09/2011
Analyse critique de la littérature scientifique, congrÚs AFREK du 22/09/2011
Collectif GERAR
Â
Lean Ă l'hĂŽpital
Lean Ă l'hĂŽpital
Stephane Nguyen
Â
Cours echantillonnage et estimations
Cours echantillonnage et estimations
Mehdi Rajawi
Â
Le MĂ©moire professionnel
Le MĂ©moire professionnel
S/Abdessemed
Â
Rapport de stage; analyse microbiologique de l'eau
Rapport de stage; analyse microbiologique de l'eau
Elyakine Benmebkhout
Â
Formation au logiciel NVivo d'analyse de données qualitatives
Formation au logiciel NVivo d'analyse de données qualitatives
valéry ridde
Â
Organiser son Doctorat
Organiser son Doctorat
lorraine2
Â
6sigma -chapitre 5 : INNOVER
6sigma -chapitre 5 : INNOVER
ibtissam el hassani
Â
Spss les premieres notions 1
Spss les premieres notions 1
Adad Med Chérif
Â
Was ist angesagt?
(20)
Regression simple
Regression simple
Â
Les compétences professionnelles de l'enseignant
Les compétences professionnelles de l'enseignant
Â
21252637 optimisation-du-systeme-dâapprovisionnement-de-la-fromagerie-bel-maroc
21252637 optimisation-du-systeme-dâapprovisionnement-de-la-fromagerie-bel-maroc
Â
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
Â
Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018
Â
Analyse de données avec spss,
Analyse de données avec spss,
Â
Demande manuscrite
Demande manuscrite
Â
La Regression lineaire
La Regression lineaire
Â
Livre des cours+tp microbiologie
Livre des cours+tp microbiologie
Â
Stat8 Anova
Stat8 Anova
Â
Methodologie des enquete
Methodologie des enquete
Â
Analyse critique de la littérature scientifique, congrÚs AFREK du 22/09/2011
Analyse critique de la littérature scientifique, congrÚs AFREK du 22/09/2011
Â
Lean Ă l'hĂŽpital
Lean Ă l'hĂŽpital
Â
Cours echantillonnage et estimations
Cours echantillonnage et estimations
Â
Le MĂ©moire professionnel
Le MĂ©moire professionnel
Â
Rapport de stage; analyse microbiologique de l'eau
Rapport de stage; analyse microbiologique de l'eau
Â
Formation au logiciel NVivo d'analyse de données qualitatives
Formation au logiciel NVivo d'analyse de données qualitatives
Â
Organiser son Doctorat
Organiser son Doctorat
Â
6sigma -chapitre 5 : INNOVER
6sigma -chapitre 5 : INNOVER
Â
Spss les premieres notions 1
Spss les premieres notions 1
Â
Andere mochten auch
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
Ahmadou DICKO
Â
Initiation r
Initiation r
Touglo Eric TCHAWALASSOU
Â
Test khi deux
Test khi deux
Adad Med Chérif
Â
Test t de student pour des échantillons indépendants
Test t de student pour des échantillons indépendants
Adad Med Chérif
Â
Lâapport des techniques statistiques dans les projets Lean 6 Sigma
Lâapport des techniques statistiques dans les projets Lean 6 Sigma
XL Formation
Â
Cours add-r1-part0
Cours add-r1-part0
Arthur Charpentier
Â
Cours add-r1-part1
Cours add-r1-part1
Arthur Charpentier
Â
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
Mohamed Heny SELMI
Â
Analyse de données marketing : ACP et AFC
Analyse de données marketing : ACP et AFC
Yannig Roth
Â
About CAIE - 2012
About CAIE - 2012
Organizacion Universitaria Interamericana
Â
Synthesis paper copy
Synthesis paper copy
vatanam
Â
Itelligence - Presentacion corporativa
Itelligence - Presentacion corporativa
AUSAPE AsociaciĂłn usuarios SAP
Â
F. TĂ©cnica Renolit EP
F. TĂ©cnica Renolit EP
Isabel Gil Alonso
Â
TechShanghai2016 - é«ćŻé æ§PCB â ä»èźŸèźĄć°ć¶é
TechShanghai2016 - é«ćŻé æ§PCB â ä»èźŸèźĄć°ć¶é
Hardway Hou
Â
UPSTART Live Spring Summit - Keynote: Operation Cloud Cover
UPSTART Live Spring Summit - Keynote: Operation Cloud Cover
WorkforceNEXT
Â
Atari
Atari
zepol9
Â
Newsbook 2016 / 2017 - Spanish
Newsbook 2016 / 2017 - Spanish
ifm electronic gmbh
Â
02 e mobile_global_connectivity
02 e mobile_global_connectivity
Danny Cagen
Â
Web Writing
Web Writing
DML Srl
Â
igusÂź : CĂąbles ChainflexÂź
igusÂź : CĂąbles ChainflexÂź
igus France
Â
Andere mochten auch
(20)
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
Â
Initiation r
Initiation r
Â
Test khi deux
Test khi deux
Â
Test t de student pour des échantillons indépendants
Test t de student pour des échantillons indépendants
Â
Lâapport des techniques statistiques dans les projets Lean 6 Sigma
Lâapport des techniques statistiques dans les projets Lean 6 Sigma
Â
Cours add-r1-part0
Cours add-r1-part0
Â
Cours add-r1-part1
Cours add-r1-part1
Â
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
Â
Analyse de données marketing : ACP et AFC
Analyse de données marketing : ACP et AFC
Â
About CAIE - 2012
About CAIE - 2012
Â
Synthesis paper copy
Synthesis paper copy
Â
Itelligence - Presentacion corporativa
Itelligence - Presentacion corporativa
Â
F. TĂ©cnica Renolit EP
F. TĂ©cnica Renolit EP
Â
TechShanghai2016 - é«ćŻé æ§PCB â ä»èźŸèźĄć°ć¶é
TechShanghai2016 - é«ćŻé æ§PCB â ä»èźŸèźĄć°ć¶é
Â
UPSTART Live Spring Summit - Keynote: Operation Cloud Cover
UPSTART Live Spring Summit - Keynote: Operation Cloud Cover
Â
Atari
Atari
Â
Newsbook 2016 / 2017 - Spanish
Newsbook 2016 / 2017 - Spanish
Â
02 e mobile_global_connectivity
02 e mobile_global_connectivity
Â
Web Writing
Web Writing
Â
igusÂź : CĂąbles ChainflexÂź
igusÂź : CĂąbles ChainflexÂź
Â
Ăhnlich wie Herve aide-memoire-statistique r
sphinxddfdsfsqdfdsfsdfdfdsfdsf_ofppt.ppt
sphinxddfdsfsqdfdsfsdfdfdsfdsf_ofppt.ppt
Mohamed EL KIHEL
Â
Statistiques ofppt
Statistiques ofppt
khawla atir
Â
Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01
ilhamto katosa
Â
Introduction Ă la Data Science l data business
Introduction Ă la Data Science l data business
Vincent de Stoecklin
Â
Les Basiques du Lean
Les Basiques du Lean
Peter Klym
Â
Lesbasiquesdulean 13091310dsfg2107-phpapp02
Lesbasiquesdulean 13091310dsfg2107-phpapp02
mahmoudelamri
Â
Guide_dintroduction_au_logiciel_SPSS.pdf
Guide_dintroduction_au_logiciel_SPSS.pdf
AliAITMOHAND1
Â
L1 TD Numérique et Société
L1 TD Numérique et Société
Amar LAKEL, PhD
Â
Demarche qualite
Demarche qualite
Majida Antonios, M.Ed.
Â
Les outils de Management de qualité
Les outils de Management de qualité
Yassine BAKMOU
Â
Algorithme
Algorithme
Younes Einsam
Â
Article: Qu'est-ce que le R&R?
Article: Qu'est-ce que le R&R?
Infodream
Â
Analyse de données sous SPSS 17_ACP, multivarie.pdf
Analyse de données sous SPSS 17_ACP, multivarie.pdf
Prénom Nom de famille
Â
Boubaddara Youssef: Le choix des outils de la qualité par besoin
Boubaddara Youssef: Le choix des outils de la qualité par besoin
Youssef Boubaddara
Â
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
montasserjawadi2
Â
Inscrivez-vous Ă la formation EMFPS du 25 au 27 septembre 2018 "MaĂźtriser la...
Inscrivez-vous Ă la formation EMFPS du 25 au 27 septembre 2018 "MaĂźtriser la...
Jean-Luc Balança
Â
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
FootballLovers9
Â
Web-formation | La MĂ©thode de RĂ©solution de ProblĂšmes
Web-formation | La MĂ©thode de RĂ©solution de ProblĂšmes
XL Groupe
Â
8 Outils Qualité pour toutes les fonctions de l'entreprise
8 Outils Qualité pour toutes les fonctions de l'entreprise
TOOL_Z
Â
Carnet de l'innovation 2012_ Raphaël_ThÚme3_BOB Pro
Carnet de l'innovation 2012_ Raphaël_ThÚme3_BOB Pro
raphkonan
Â
Ăhnlich wie Herve aide-memoire-statistique r
(20)
sphinxddfdsfsqdfdsfsdfdfdsfdsf_ofppt.ppt
sphinxddfdsfsqdfdsfsdfdfdsfdsf_ofppt.ppt
Â
Statistiques ofppt
Statistiques ofppt
Â
Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01
Â
Introduction Ă la Data Science l data business
Introduction Ă la Data Science l data business
Â
Les Basiques du Lean
Les Basiques du Lean
Â
Lesbasiquesdulean 13091310dsfg2107-phpapp02
Lesbasiquesdulean 13091310dsfg2107-phpapp02
Â
Guide_dintroduction_au_logiciel_SPSS.pdf
Guide_dintroduction_au_logiciel_SPSS.pdf
Â
L1 TD Numérique et Société
L1 TD Numérique et Société
Â
Demarche qualite
Demarche qualite
Â
Les outils de Management de qualité
Les outils de Management de qualité
Â
Algorithme
Algorithme
Â
Article: Qu'est-ce que le R&R?
Article: Qu'est-ce que le R&R?
Â
Analyse de données sous SPSS 17_ACP, multivarie.pdf
Analyse de données sous SPSS 17_ACP, multivarie.pdf
Â
Boubaddara Youssef: Le choix des outils de la qualité par besoin
Boubaddara Youssef: Le choix des outils de la qualité par besoin
Â
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Â
Inscrivez-vous Ă la formation EMFPS du 25 au 27 septembre 2018 "MaĂźtriser la...
Inscrivez-vous Ă la formation EMFPS du 25 au 27 septembre 2018 "MaĂźtriser la...
Â
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
Â
Web-formation | La MĂ©thode de RĂ©solution de ProblĂšmes
Web-formation | La MĂ©thode de RĂ©solution de ProblĂšmes
Â
8 Outils Qualité pour toutes les fonctions de l'entreprise
8 Outils Qualité pour toutes les fonctions de l'entreprise
Â
Carnet de l'innovation 2012_ Raphaël_ThÚme3_BOB Pro
Carnet de l'innovation 2012_ Raphaël_ThÚme3_BOB Pro
Â
Herve aide-memoire-statistique r
1.
Aide-mémoire de statistique
appliquĂ©e Ă la biologie â Construire son Ă©tude et analyser les rĂ©sultats Ă lâaide du logiciel R â Maxime HERVĂ Version 4(2) 2012 (Version 1 2010)
2.
Avant-propos
Quand jâai dĂ©butĂ© mon stage de recherche de Master 2 (il nây a pas si longtemps), je nây connaissais rien en stats et je ne mâen portais pas plus mal. Comme tout bon Ă©tudiant en biologie, je nâavais pas Ă©tĂ© frappĂ© par la beautĂ© de la chose. Mais il arrive inĂ©vitablement un moment oĂč lâon se rend compte que lâon DOIT passer par des analyses statistiques. Ce moment est souvent douloureux, et ïŹnalement câest bien dommage car avec un peu de rigueur et de volontĂ© ce nâest pas si diïŹcile de sâen sortir. Pour ne pas mourir ignorant, jâai dĂ©cidĂ© de me former dans mon coin Ă la statistique appliquĂ©e Ă la biologie. Je me suis alors confrontĂ© Ă un problĂšme qui mâa fait perdre beaucoup de temps, un temps que la plupart des stagiaires nâont pas : il existe de trĂšs nombreux et trĂšs bons documents sur le sujet, mais trĂšs peu qui regroupent les analyses les plus frĂ©quentes. AïŹn de ne pas oublier tout ce que jâavais appris par-ci, par-lĂ , jâai donc voulu me rĂ©diger un petit document de synthĂšse. Finalement, jâai dĂ©cidĂ© dâen faire un vĂ©ritable aide-mĂ©moire et de le mettre Ă la disposition des autres Ă©tudiants. Lâobjectif (ambitieux) de cet ouvrage est ainsi dâĂȘtre pour vous le guide que jâaurais aimĂ© avoir lors de mon stage. Il doit vous permettre de vous en sortir seul, tout en assurant une analyse appropriĂ©e et rigoureuse. Utiliser cet aide-mĂ©moire ne demande que trĂšs peu de connaissances en statistiques. Savoir ce que sont une moyenne, une variance, une mĂ©diane ou un intervalle de conïŹance est suïŹsant. Par contre, il exige une chose : se poser des questions. A quelle question mon Ă©tude doit-elle rĂ©pondre ? Quel dispositif vais-je mettre en place pour y rĂ©pondre ? Que vais-je contrĂŽler, que vais-je observer dans lâĂ©tude ? Comment vais-je utiliser mes rĂ©sultats pour tirer des conclusions ?. . . Si lâon prend le temps de se poser ces questions, et surtout le temps dây apporter une rĂ©ponse, analyser ses donnĂ©es nâest pas compliquĂ©. Vous verrez mĂȘme quâil est trĂšs agrĂ©able de comprendre ce que lâon fait, et pourquoi on le fait. Peut-ĂȘtre mĂȘme que comme moi, vous prendrez goĂ»t aux statistiques ! Pour rĂ©aliser lâanalyse des rĂ©sultats, jâai choisi dâutiliser R, qui est Ă la fois un langage informatique et un logiciel. Jâai fait ce choix car il est gratuit et libre, ce qui vous permet de lâutiliser absolument partout. De plus, il est extrĂȘmement puissant et son caractĂšre libre fait que de nombreux utilisateurs sâinvestissent pour lâamĂ©liorer et lâenrichir en permanence. EnïŹn, passĂ© le dĂ©goĂ»t Ă©ventuel dâavoir Ă Ă©crire soi-mĂȘme des lignes de commande, vous verrez que R est simple Ă utiliser et que mieux, il permet (car il lâoblige) de comprendre ce que lâon fait. Comme pour la thĂ©orie statistique, utiliser cet aide-mĂ©moire nâexige que trĂšs peu de connaissances sur R. Il nĂ©cessite seulement de savoir crĂ©er les objets de base du langage (vecteur, tableau, matrice) et de savoir eïŹectuer des mani- pulations simples sur ces objets. Si ces bases ne sont pas acquises, les premiĂšres
3.
ïŹches sont lĂ
en guise de rappel. Nâoubliez pas Ă©galement quâĂ chaque fonction dans R est associĂ©e une page dâaide, que lâon appelle par la syntaxe ?fonction. Il est trĂšs important pour moi dâĂȘtre en contact avec les utilisateurs de cet aide-mĂ©moire, car câest grĂące Ă cela que je peux lâamĂ©liorer. Je remercie donc toutes les personnes qui mâĂ©crivent pour me poser des questions ou pour rectiïŹer des erreurs. Ce sont elles qui me donnent envie de clariïŹer, dâenrichir et de corriger ce document. Je vous invite sincĂšrement Ă mâenvoyer un e-mail (mx.herve@gmail.com) si vous trouvez quâun point nâest pas clair, quâun autre mĂ©riterait dâĂȘtre ajoutĂ© ou approfondi, ou encore quâil subsiste des erreurs. Certaines des fonctions prĂ©sentĂ©es dans cet ouvrage nĂ©cessitent dâinstaller des packages qui ne sont pas fournis avec la distribution de base de R. Parmi ceux-ci se trouve le package RVAideMemoire, qui contient des fonctions que jâai Ă©crites spĂ©cialement pour accompagner cet aide-mĂ©moire. Son dĂ©veloppement est donc intimement liĂ© Ă celui de ce document, et lĂ encore je vous encourage Ă me faire part de vos remarques, suggestions, critiques et/ou corrections. Cette version 4(2) de lâaide-mĂ©moire correspond aux versions du package RVAideMemoire â„ 0.9-11. EnïŹn, si vous souhaitez ĂȘtre au courant de la sortie de nouvelles versions de lâaide-mĂ©moire ou du package RVAideMemoire, envoyez-moi un message que je vous inscrive sur la liste de diïŹusion. JâespĂšre sincĂšrement que ce livre comblera vos attentes et quâil vous per- mettra de vous sentir moins seul dans le joyeux monde des statistiques. Le 2 aoĂ»t 2012 Maxime HERVĂ
4.
Sommaire
Lâouvrage est divisĂ© en cinq parties : Un rappel sur les objets de base du langage R : ce document nâest pas Ă proprement parler une initiation Ă R, cependant quelques rappels sont proposĂ©s sur la crĂ©ation et lâutilisation des objets quâil faut maĂźtriser. La prĂ©paration de lâĂ©tude : souvent trop peu dâimportance y est at- tachĂ©e. Pourtant, cette phase est au moins aussi cruciale que lâanalyse des rĂ©sultats puisquâelle dĂ©termine la façon dont ceux-ci vont pouvoir ĂȘtre analysĂ©s. Une Ă©tude bien prĂ©parĂ©e facilite grandement lâexploitation des rĂ©sultats, tandis quâune Ă©tude mal prĂ©parĂ©e entraĂźne gĂ©nĂ©ralement des complications au moment de lâanalyse et de lâinterprĂ©tation. La prĂ©paration et lâimportation des donnĂ©es : cette Ă©tape apparem- ment simple peut poser problĂšme par manque dâexpĂ©rience. Elle est pourtant cruciale, puisque des donnĂ©es mal structurĂ©es ou mal importĂ©es dans R peuvent conduire Ă une analyse complĂštement faussĂ©e (ou le plus souvent Ă des erreurs). Lâanalyse descriptive des rĂ©sultats : ce type dâanalyse est toujours indispensable, et selon lâobjectif de lâĂ©tude il peut ĂȘtre suïŹsant. Lâanalyse descriptive est souvent nĂ©gligĂ©e pour « foncer sur les tests », ce qui conduit Ă oublier la rĂ©alitĂ© des donnĂ©es (et par consĂ©quent Ă compliquer voire fausser lâinterprĂ©tation des rĂ©sultats). Lâanalyse infĂ©rentielle des rĂ©sultats : ce type dâanalyse regroupe la dĂ©termination des intervalles de conïŹance et la rĂ©alisation des tests statistiques. Lâanalyse infĂ©rentielle est la seule phase de lâĂ©tude qui est facultative. Dans tous les cas elle doit passer aprĂšs lâanalyse descriptive. 1. LES OBJETS DE BASE DANS R 1. Les vecteurs 2. Les tableaux 3. Les matrices 4. Installer et charger un package 5. Citer R et ses packages 2. PREPARATION DE LâETUDE 6. Les diïŹĂ©rents types de variable 7. Le plan dâĂ©chantillonnage 8. Le plan dâexpĂ©rience 9. La dĂ©termination de la taille de lâĂ©chantillon Ă constituer 3. PREPARATION ET IMPORTATION DES DONNEES 10. La construction du tableau de donnĂ©es 11. Lâimportation du tableau de donnĂ©es dans R
5.
4. ANALYSE DESCRIPTIVE
DES RESULTATS 4.1. Statistique univariĂ©e 12. Graphiques de dispersion : la fonction stripchart() 13. Histogrammes : la fonction hist() 14. BoĂźtes Ă moustaches : la fonction boxplot() 15. La rĂ©duction des donnĂ©es Ă une dimension 4.2. Statistique bivariĂ©e 16. Nuages de points : la fonction plot() 17. La rĂ©duction des donnĂ©es Ă deux dimensions 4.3. Statistique multivariĂ©e Choisir son analyse descriptive multivariĂ©e Type de variables explicatives Toutes Toutes A la fois quantitatives quantitatives qualitatives et qualitatives Nombre de Analyse mixte ACP variables de Hill et Smith >2 2 AFC ACM 18. LâAnalyse en Composantes Principales (ACP) 19. LâAnalyse Factorielle des Correspondances (AFC) 20. LâAnalyse des Correspondances Multiples (ACM) 21. LâAnalyse mixte de Hill et Smith 22. Les classiïŹcations automatiques
6.
5. ANALYSE INFERENTIELLE
DES RESULTATS 5.1. Quelques bases thĂ©oriques 5.1.1. Lois de probabilitĂ© 5.1.1.1. Lois de probabilitĂ© discontinues 23. Les lois de probabilitĂ© discontinues â gĂ©nĂ©ralitĂ©s 24. La loi binomiale 25. La loi de Poisson 26. La loi binomiale nĂ©gative 5.1.1.2. Lois de probabilitĂ© continues 27. Les lois de probabilitĂ© continues â gĂ©nĂ©ralitĂ©s 28. La loi normale 29. La loi exponentielle 30. La loi de Ï2 31. La loi de Fisher - Snedecor 32. La loi de Student 5.1.2. Risques et puissance associĂ©s aux tests statistiques 33. Principe des tests statistiques et risques associĂ©s Ă la conclusion 34. Le risque ou seuil de rejet α 35. La correction du seuil de rejet α (ou des p-values) 36. Le risque ÎČ et la puissance du test 37. Calculer la puissance dâun test a posteriori 5.2. IdentiïŹcation et suppression des donnĂ©es aberrantes 38. LâidentiïŹcation et la suppression des donnĂ©es aberrantes 5.3. Intervalles de conïŹance et erreur standard 39. Lâintervalle de conïŹance et lâerreur standard 40. Tracer un diagramme en barres avec barres dâerreur 5.4. Tests dâhypothĂšses 41. Les diïŹĂ©rents types de test statistique 5.4.1. Conditions prĂ©alables Ă lâutilisation des tests Ces conditions ne sont pas toujours Ă remplir, cela dĂ©pend du test que lâon souhaite utiliser. 42. Le caractĂšre alĂ©atoire et simple dâune sĂ©rie de donnĂ©es 43. Lâajustement Ă une distribution thĂ©orique 44. LâhomogĂ©nĂ©itĂ© des variances de plusieurs sĂ©ries de donnĂ©es 45. Les transformations de variable
7.
5.4.2. RĂ©alisation des
tests Souvent, plusieurs tests peuvent ĂȘtre utilisĂ©s pour rĂ©pondre Ă la mĂȘme question. Les conditions de leur emploi sont cependant plus ou moins restric- tives, et leur puissance plus ou moins grande (un test plus restrictif Ă©tant gĂ©nĂ©ralement plus puissant). Lorsque plusieurs tests sont disponibles, un arbre de dĂ©cision est prĂ©sentĂ© pour aider Ă choisir le test appropriĂ©. Il sâappuie Ă la fois sur la vĂ©riïŹcation des conditions Ă remplir pour utiliser tel ou tel test, ainsi que sur la « qualitĂ© » de ces tests (notamment en terme de puissance). 5.4.2.1. Statistique univariĂ©e Choisir son analyse infĂ©rentielle univariĂ©e Variable Ă expliquer qualitative quantitative Type de variables Type de variable explicatives Ă expliquer autre Toutes A la fois quantitatives quantitatives Toutes et qualitatives binaire qualitatives Comparaison Analyse de la Type de d'effectifs, Non dĂ©veloppĂ© RĂ©gression covariance variables proportions, dans cet ouvrage (sens large) explicatives moyennes Toutes Toutes A la fois quantitatives quantitatives qualitatives et qualitatives Comparaison de Analyse de la RĂ©gression probabilitĂ©s de covariance logistique rĂ©ponse (sens large) Tests sur des probabilitĂ©s de rĂ©ponse (variables binaires 0/1) Le test de conformitĂ© dâune ou de plusieurs probabilitĂ©(s) de rĂ©ponse avec une ou plusieurs valeur(s) thĂ©orique(s) est une dĂ©marche identique Ă celle du test de conformitĂ© de proportion(s). 46. Comparaison de plusieurs probabilitĂ©s de rĂ©ponse â un facteur 47. Comparaison de plusieurs probabilitĂ©s de rĂ©ponse â deux facteurs
8.
Tests sur des
eïŹectifs 48. ConformitĂ© de plusieurs eïŹectifs avec des valeurs thĂ©oriques 49. Comparaison de plusieurs eïŹectifs â sans facteur (eïŹectifs bruts) 50. Comparaison de plusieurs eïŹectifs â un facteur 51. Comparaison de plusieurs eïŹectifs â deux facteurs Tests sur des proportions 52. ConformitĂ© dâune proportion avec une valeur thĂ©orique 53. ConformitĂ© de plusieurs proportions avec des valeurs thĂ©oriques 54. Comparaison de deux proportions â sans rĂ©pĂ©tition 55. Comparaison de plusieurs proportions â sans rĂ©pĂ©tition 56. Comparaison de plusieurs proportions â avec rĂ©pĂ©titions et un facteur 57. Comparaison de plusieurs proportions â avec rĂ©pĂ©titions et deux facteurs Tests sur des moyennes 58. ConformitĂ© dâune moyenne avec une valeur thĂ©orique 59. Comparaison de deux moyennes 60. Comparaison de plusieurs moyennes â un facteur 61. Comparaison de plusieurs moyennes â deux facteurs Tests sur des temps de survie Ces tests sont traditionnellement utilisĂ©s pour comparer des temps de survie, mais ils peuvent ĂȘtre appliquĂ©s Ă nâimporte quelle variable reprĂ©sentant un temps avant la survenue dâun Ă©vĂšnement. 62. Comparaison de plusieurs temps de survie 63. Tracer des courbes de survie 5.4.2.2. Statistique bivariĂ©e Tests autour de la liaison entre deux variables 64. IndĂ©pendance de deux variables qualitatives 65. CorrĂ©lation entre deux variables 66. ConformitĂ© dâun coeïŹcient de corrĂ©lation linĂ©aire avec une valeur thĂ©orique 67. Comparaison de plusieurs coeïŹcients de corrĂ©lation linĂ©aire Tests autour de la rĂ©gression 68. La rĂ©gression linĂ©aire simple au sens des moindres carrĂ©s 69. La rĂ©gression linĂ©aire simple au sens des moindres rectangles 70. Comparaison de plusieurs droites de rĂ©gression linĂ©aire simple 71. La rĂ©gression logistique binaire simple 72. La rĂ©gression non linĂ©aire simple 73. Tracer une droite ou une courbe de rĂ©gression simple Analyse de la covariance 74. Lâanalyse de la covariance â un facteur
9.
5.4.2.3. Statistique multivariée 75.
La rĂ©gression linĂ©aire multiple 5.4.3. Outils pour lâutilisation des modĂšles statistiques 76. La construction de la formule dâun modĂšle 77. La sĂ©lection de modĂšle 78. La vĂ©riïŹcation de la validitĂ© dâun modĂšle 79. La mĂ©thode des contrastes ANNEXES Index des packages externes Bibliographie et ouvrages/documents/liens recommandĂ©s
10.
1. Les vecteurs
CrĂ©ation Le vecteur est Ă la fois lâobjet le plus simple et le plus fondamental du langage R. Il se crĂ©e grĂące Ă la fonction c(), qui prend comme arguments les Ă©lĂ©ments du vecteur. Tous ces Ă©lĂ©ments doivent ĂȘtre du mĂȘme type : valeurs numĂ©riques, chaĂźnes de caractĂšres ou encore niveaux dâun facteur. Pour crĂ©er un vecteur numĂ©rique (les parenthĂšses autour de la ligne servent Ă aïŹcher le contenu du vecteur sans avoir Ă lâappeler, elles nâinterviennent pas dans sa crĂ©ation) : (vecteur <- c(7,9,4,12,18)) [1] 7 9 4 12 18 Pour crĂ©er un vecteur de chaĂźnes de caractĂšres : (vecteur <- c("H","C","I","G","F")) [1] "H" "C" "I" "G" "F" Pour crĂ©er un facteur : (vecteur <- factor(c("niv1","niv2","niv2","niv3","niv1"))) [1] niv1 niv2 niv2 niv3 niv1 Levels: niv1 niv2 niv3 Il existe des fonctions ou des abrĂ©viations qui permettent de simpliïŹer la crĂ©ation de certains vecteurs usuels : c(1:10) [1] 1 2 3 4 5 6 7 8 9 10 seq(from=1,to=3,by=0.25) [1] 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 LETTERS[1:5] [1] "A" "B" "C" "D" "E" Indexation Pour accĂ©der au(x) iĂšme(s) Ă©lĂ©ment(s) dâun vecteur, Ă©crire vecteur[i], oĂč i peut ĂȘtre une valeur unique ou lui-mĂȘme un vecteur : (vecteur <- c(1:10)) [1] 1 2 3 4 5 6 7 8 9 10 vecteur[5] [1] 5 vecteur[c(2,5,8,9)] [1] 2 5 8 9 vecteur[-c(2,5,8,9)] [1] 1 3 4 6 7 10
11.
2. Les tableaux
CrĂ©ation Les tableaux sont simplement un moyen de regrouper (en colonnes) des vecteurs dans le mĂȘme objet. Chaque colonne est ici indĂ©pendante. Lâunique contrainte est que tous les vecteurs doivent avoir la mĂȘme longueur. Pour crĂ©er un tableau, utiliser la fonction data.frame(), qui prend en arguments les diïŹĂ©rentes colonnes (de gauche Ă droite). On peut prĂ©ciser le titre des colonnes. Dans le cas dâun vecteur de chaĂźnes de caractĂšres, celui-ci est automatiquement transformĂ© en facteur lorsquâil est intĂ©grĂ© au tableau. variable1 <- c(1:5) variable2 <- LETTERS[1:5] (tableau <- data.frame(variable1,variable2)) variable1 variable2 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E Le tableau peut ĂȘtre crĂ©Ă© directement : tableau <- data.frame(variable1=c(1:5),variable2=LETTERS[ 1:5] Indexation Pour accĂ©der Ă un (ou plusieurs) Ă©lĂ©ment(s) dâun tableau, le principe est le mĂȘme que pour les vecteurs (voir ïŹche 1) exceptĂ© quâil nây a pas une mais deux dimensions Ă lâobjet (les lignes et les colonnes). Le principe dâindexation est valable pour tous les objets Ă deux dimensions et est celui-ci : tableau[ligne(s),colonne(s)], oĂč ligne(s) et colonne(s) sont soit des valeurs uniques, soit des vecteurs. Si rien nâest mis avant la virgule toutes les lignes sont sĂ©lectionnĂ©es, si rien nâest mis aprĂšs toutes les colonnes sont sĂ©lectionnĂ©es. tableau[c(1,3),] variable1 variable2 1 1 A 3 3 C tableau[c(3,5),2] [1] C E Levels: A B C D E Dans le cas particulier de la sĂ©lection dâune colonne entiĂšre, il y a deux autres possibilitĂ©s : â tableau$colonne oĂč colonne est le nom de la colonne â tableau[,"colonne"] oĂč colonne est le nom de la colonne.
12.
3. Les matrices
A la diïŹĂ©rence des tableaux (voir ïŹche 2), les matrices sont un tout cohĂ©rent, i.e. les colonnes ne sont pas indĂ©pendantes. Cela implique que tous les Ă©lĂ©ments dâune matrice sont de mĂȘme type : numĂ©rique, texte, niveaux de facteur(s). . . Pour crĂ©er une matrice, utiliser la fonction matrix(), qui prend comme arguments obligatoire les valeurs qui doivent la remplir, et le nombre de lignes et/ou de colonnes. Par dĂ©faut les matrices sont remplies en colonnes, pour les remplir en lignes ajouter lâargument byrow=TRUE. Pour donner un nom aux lignes et aux colonnes, utiliser lâargument dimnames=list(lignes,colonnes), oĂč lignes et colonnes sont des vecteurs : (matrice <- matrix(c(1:8),nrow=2)) [,1] [,2] [,3] [,4] [1,] 1 3 5 7 [2,] 2 4 6 8 (matrice <- matrix(c(1:8),nrow=2,byrow=TRUE)) [,1] [,2] [,3] [,4] [1,] 1 2 3 4 [2,] 5 6 7 8 (matrice <- matrix(c(1:8),nrow=2,dimnames=list(letters[1: 2],LETTERS[1:4]))) A B C D a 1 3 5 7 b 2 4 6 8 Il est Ă©galement possible de crĂ©er des matrices Ă partir de plusieurs vecteurs qui doivent en constituer les lignes ou les colonnes. Utiliser pour cela les fonctions rbind() ou cbind(), qui assemblent les vecteurs respectivement en lignes et en colonnes : vecteur1 <- c(1:3) vecteur2 <- c(4:6) (matrice <- rbind(vecteur1,vecteur2)) [,1] [,2] [,3] vecteur1 1 2 3 vecteur2 4 5 6 (matrice <- cbind(vecteur1,vecteur2)) vecteur1 vecteur2 [1,] 1 4 [2,] 2 5 [3,] 3 6 Les matrices Ă©tant des objets Ă deux dimensions (les lignes et les colonnes), leur indexation est identique Ă celle des tableaux (voir ïŹche 2).
13.
4.
Installer et charger un package Installer un package Il est nĂ©cessaire dâĂȘtre connectĂ© Ă internet pour installer un package, car celui-ci doit ĂȘtre tĂ©lĂ©chargĂ© depuis un serveur. Lâinstallation ne se fait quâune seule fois. Si R est utilisĂ© depuis la console R, utiliser : install.packages("packag- e") oĂč package est le nom du package dĂ©sirĂ©, entre guillemets. Il est demandĂ© ensuite de choisir un serveur, prĂ©fĂ©rer Austria. Si R est utilisĂ© depuis la console systĂšme, la procĂ©dure se fait en deux Ă©tapes : 1. tĂ©lĂ©charger les sources du package Ă partir de son site de dĂ©pĂŽt, le site principal Ă©tant le CRAN (the Comprehensive R Archive Network) : http ://cran.r-project.org rubrique Packages 2. installer le package en tapant R CMD INSTALL package oĂč package est le nom du ïŹchier tar.gz contenant les sources. La procĂ©dure expliquĂ©e ici est la plus simple, mais il existe de nom- breuses variantes. Voir la R FAQ pour plus dâinformations : http ://cran.r- project.org/doc/manuals/R-admin.html#Installing-packages. Charger un package Le chargement dâun package doit se faire Ă chaque session oĂč il doit ĂȘtre utilisĂ©. La commande est simple : library(package) oĂč package est le nom du package, sans guillemets. Mettre Ă jours les packages installĂ©s Pour mettre Ă jour automatiquement tous les packages installĂ©s (chargĂ©s ou non), utiliser : update.packages(ask=FALSE). R tĂ©lĂ©charge alors toutes les mises Ă jour et les installe. Il est recommandĂ© de mettre rĂ©guliĂšrement Ă jour ses packages aïŹn de proïŹter de leur Ă©volution, souvent rapide.
14.
5.
Citer R et ses packages Lors de lâĂ©criture dâun document scientiïŹque, il est une Ă©vidence de citer ses sources bibliographiques. Il doit Ă©galement en ĂȘtre une de citer les logiciels utilisĂ©s lors de la rĂ©alisation de lâĂ©tude. R est certes gratuit, mais il nâen reste pas moins que des dizaines de personnes sâimpliquent dans son dĂ©veloppement, et quâil est normal de faire honneur Ă leur travail en les citant. R doit ĂȘtre citĂ© dĂšs lors quâil est utilisĂ©. Pour savoir comment le citer, il suïŹt de taper citation() et de recopier ce qui ïŹgure aprĂšs To cite R in publications use:. Concernant les packages, la rĂšgle est de citer tous ceux qui ne sont pas chargĂ©s au dĂ©marrage de R. Cela comprend les packages installĂ©s avec R mais non chargĂ©s automatiquement, ainsi que ceux installĂ©s par lâutilisateur. Pour savoir comment les citer, utiliser : citation("package") oĂč package est le nom du package, entre guillemets. Recopier ce qui ïŹgure aprĂšs To cite the xxx package in publications use:.
15.
6. Les diïŹĂ©rents
types de variable Une variable est dite alĂ©atoire si lâon ne peut pas prĂ©dire Ă coup sĂ»r la valeur que prendra un individu. Il existe deux types de variable alĂ©atoire : 1. quantitatives : elles ont en gĂ©nĂ©ral une inïŹnitĂ© de valeurs numĂ©riques possibles et peuvent ĂȘtre : â continues (ex : masse, temps, distance, volume) â discrĂštes (ex : dĂ©nombrement) 2. qualitatives : elles sont en gĂ©nĂ©ral non numĂ©riques (mais pas toujours) et sont appelĂ©es facteurs. Leur valeur est appelĂ©e classe, niveau ou modalitĂ©. Ces variables peuvent ĂȘtre : â ordinales, lorsque les classes peuvent ĂȘtre ordonnĂ©es (ex : classement) â nominales, lorsque les classes ne peuvent pas ĂȘtre ordonnĂ©es (ex : sexe). Les classes dâun facteur sont dites exclusives si un individu ne peut pas appartenir Ă plusieurs classes en mĂȘme temps. La plupart des tests statistiques (et notamment tous ceux prĂ©sentĂ©s dans cet ouvrage) exigent que les classes des facteurs soient exclusives. Dans tous les cas, le caractĂšre dâexclusivitĂ© doit ĂȘtre dĂ©terminĂ© avant toute analyse statistique. Il existe deux types de facteur : â ïŹxe : un facteur est ïŹxe si ses classes ont Ă©tĂ© dĂ©libĂ©rĂ©ment choisies, et si le but de lâĂ©tude est de les comparer. Par exemple, si lâon veut comparer la taille des individus entre trois espĂšces, le facteur « espĂšce » est ïŹxe (Ă trois classes) â alĂ©atoire : un facteur est alĂ©atoire si ses classes ont Ă©tĂ© choisies parmi un grand nombre de classes possibles, et si le but de lâĂ©tude nâest pas de les comparer mais simplement de prendre en compte la variabilitĂ© quâil existe entre elles. Par exemple, si les mesures de taille des trois espĂšces sont rĂ©alisĂ©es par deux personnes diïŹĂ©rentes, on peut considĂ©rer un facteur « expĂ©rimentateur », alĂ©atoire. Lâobjectif ici nâest en eïŹet pas de comparer les mesures rĂ©alisĂ©es par les deux personnes, mais de prendre en compte le fait que la façon de rĂ©aliser les mesures peut varier entre les deux. Il y a deux choses Ă bien garder Ă lâesprit : (i) la dĂ©cision de dĂ©clarer un facteur comme ïŹxe ou alĂ©atoire est fondamentale pour lâanalyse des donnĂ©es, car ce ne sont pas les mĂȘmes analyses qui sont rĂ©alisĂ©es dans les deux cas ; (ii) cette dĂ©cision doit ĂȘtre prise selon lâobjectif de lâĂ©tude, i.e. la question Ă laquelle lâĂ©tude doit rĂ©pondre, car aucun facteur nâest ïŹxe ou alĂ©atoire dans lâabsolu. Il est donc indispensable de bien se poser la question avant de dĂ©clarer un facteur comme ïŹxe ou alĂ©atoire.
16.
Que ce soit
pour des variables qualitatives ou quantitatives, si certaines mesures ne sont pas indĂ©pendantes entre elles, elles constituent des sĂ©ries appariĂ©es. Le cas le plus simple est celui oĂč plusieurs mesures sont rĂ©alisĂ©es sur un mĂȘme individu (par exemple avant et aprĂšs un traitement). Mais dâautres cas plus subtils peuvent se prĂ©senter : si des mesures sont rĂ©alisĂ©es sur des individus apparentĂ©s (ces mesures ne sont pas indĂ©pendantes car il existe une corrĂ©lation dâorigine gĂ©nĂ©tique entre elles), si des sĂ©ries de mesures sont rĂ©alisĂ©es Ă des localisations diïŹĂ©rentes (ces mesures ne sont pas indĂ©pendantes car chaque sĂ©rie est inïŹuencĂ©e par lâenvironnement local) ou encore si des sĂ©ries de mesures sont rĂ©alisĂ©es Ă des temps diïŹĂ©rents (ces mesures ne sont pas indĂ©pendantes car chaque sĂ©rie est inïŹuencĂ©e par ce quâil a pu se passer avant). Il est trĂšs important dâidentiïŹer les sĂ©ries appariĂ©es lorsquâelles existent, car des analyses statistiques adaptĂ©es doivent alors ĂȘtre utilisĂ©es. Les sĂ©ries appariĂ©es sont le plus souvent identiïŹĂ©es par lâintroduction dâun facteur alĂ©atoire. Pour les exemples prĂ©cĂ©dents, on a donc respectivement un facteur « individu », un facteur « famille », un facteur « localisation » et un facteur « moment ».
17.
7. Le plan
dâĂ©chantillonnage On utilise un plan dâĂ©chantillonnage lorsque lâon rĂ©alise une Ă©tude par enquĂȘte, i.e. lorsque lâon collecte des informations sur un groupe dâindividus dans leur milieu habituel, mais que tous les individus ne sont pas accessibles (par choix ou par contrainte). Les principales mĂ©thodes dâĂ©chantillonnage peuvent ĂȘtre regroupĂ©es en deux ensembles : 1. lâĂ©chantillonnage alĂ©atoire : tous les individus (au sens statistique) ont la mĂȘme probabilitĂ© dâĂȘtre choisis, et le choix de lâun nâinïŹuence pas celui des autres. DiïŹĂ©rentes mĂ©thodes dâĂ©chantillonnage alĂ©atoire existent (voir les illustrations page suivante) : â lâĂ©chantillonnage alĂ©atoire et simple : le choix se fait parmi tous les individus de la population (au sens statistique), qui ne forme quâun grand ensemble â lâĂ©chantillonnage stratiïŹĂ© : si la population est trĂšs hĂ©tĂ©rogĂšne, elle peut ĂȘtre divisĂ©e en sous-ensembles exclusifs (ou strates). Au sein de ces strates lâĂ©chantillonnage est ensuite alĂ©atoire et simple. Les strates sont identiïŹĂ©es dans lâanalyse statistique comme les niveaux dâun facteur ïŹxe â lâĂ©chantillonnage en grappes : si les strates sont trĂšs nombreuses, on en choisit certaines au hasard (les grappes). Au sein de ces grappes lâĂ©chantillonnage est ensuite alĂ©atoire et simple. Les grappes sont identiïŹĂ©es dans lâanalyse statistique comme les niveaux dâun facteur alĂ©atoire â lâĂ©chantillonnage par degrĂ©s : il est une gĂ©nĂ©ralisation de lâĂ©chantillon- nage en grappes (qui est en fait un Ă©chantillonnage du premier degrĂ©). Au sein de la population on choisit des grappes « primaires », puis Ă lâintĂ©rieur de celles-ci des grappes « secondaires » (toujours au hasard), et ainsi du suite. . . Au dernier niveau lâĂ©chantillonnage est alĂ©atoire et simple 2. lâĂ©chantillonnage systĂ©matique : un premier individu est choisi alĂ©atoire- ment, puis les autres sont choisis de façon rĂ©guliĂšre Ă partir du prĂ©cĂ©dent (dans le temps ou lâespace). Lâanalyse de ce type dâĂ©chantillonnage, qui fait appel Ă la statistique spatiale ou Ă lâanalyse des sĂ©ries chronologiques, nâest pas abordĂ©e dans cet ouvrage. Il est important dâidentiïŹer la mĂ©thode mise en Ćuvre car les analyses statistiques doivent ĂȘtre adaptĂ©es. Seule lâanalyse de plans dâĂ©chantillonnage alĂ©atoires est abordĂ©e dans cet ouvrage.
18.
Chaque point représente
un individu. Les individus échantillonnés sont représentés en rouge.
19.
8. Le plan
dâexpĂ©rience On utilise un plan dâexpĂ©rience lorsque lâon rĂ©aliste une Ă©tude par ex- pĂ©rimentation, i.e. lorsque lâon provoque volontairement les faits Ă Ă©tudier. Le plan dâexpĂ©rience comprend notamment le(s) facteur(s) Ă faire varier, le nombre de rĂ©pĂ©titions Ă rĂ©aliser et le dispositif expĂ©rimental Ă mettre en place. Lâassociation des classes de plusieurs facteurs constitue un traitement. Il existe de nombreux types de dispositif expĂ©rimental, dont les principaux sont (voir les illustrations page suivante) : â le plan dâexpĂ©rience complĂštement alĂ©atoire : chaque individu (au sens statistique) est aïŹectĂ© Ă un traitement alĂ©atoirement â le plan dâexpĂ©rience en blocs alĂ©atoires complets : sâil y a (ou sâil peut y avoir) une grande hĂ©tĂ©rogĂ©nĂ©itĂ© entre les individus, ils sont rĂ©unis en groupes aussi homogĂšnes que possibles (ou blocs). Au sein de ces blocs chaque individu est ensuite aïŹectĂ© alĂ©atoirement Ă un traitement, de maniĂšre Ă ce que tous les traitements soient prĂ©sents dans chacun des blocs. Les blocs sont identiïŹĂ©s dans lâanalyse statistique comme les niveaux dâun facteur alĂ©atoire â le plan dâexpĂ©rience en blocs alĂ©atoires incomplets : dans ce cas tous les traitements ne sont pas prĂ©sents dans chacun des blocs â le plan dâexpĂ©rience en split-plot : le principe du split-plot est le plus souvent associĂ© Ă celui des blocs alĂ©atoires complets. Dans ce cas, dans chacun des blocs sont crĂ©Ă©s autant de sous-blocs quâil y a de classes au premier facteur Ă©tudiĂ©. A chacun de ces sous-blocs est associĂ©e une classe. Puis chaque sous-bloc est divisĂ© en autant dâunitĂ©s quâil y a de classes au second facteur Ă©tudiĂ©. A chacun de ces « sous-sous-blocs » est asso- ciĂ©e une classe. Pour plus de deux facteurs, la situation est plus complexe. Quelle que soit la mĂ©thode employĂ©e, elle doit ĂȘtre clairement dĂ©ïŹnie car elle doit ĂȘtre prise en compte dans les analyses statistiques.
20.
Chaque point représente
un individu. Chaque carré représente un traitement. Les niveaux du 1er facteur sont notés en majuscule, les niveaux du 2nd facteur sont notés en minscule.
21.
9. La détermination
de la taille de lâĂ©chantillon Ă consti- tuer Il existe un lien entre le seuil de rejet α du test statistique utilisĂ© (voir ïŹches 33 et 34), la puissance de ce test (voir ïŹche 36), la diïŹĂ©rence entre les Ă©chantillons pour la variable mesurĂ©e et la taille des Ă©chantillons. DĂ©terminer la taille de lâĂ©chantillon Ă constituer passe donc par ïŹxer les autres paramĂštres. Ceci implique deux choses importantes : â choisir avant de dĂ©marrer lâĂ©tude les types de test qui vont ĂȘtre utilisĂ©s (ce qui oblige Ă bien identiïŹer les questions auxquelles lâĂ©tude doit rĂ©pondre) et leur prĂ©cision. On considĂšre que lorsque lâobjectif de lâĂ©tude est de rejeter H0 (voir ïŹche 33), la puissance du test doit ĂȘtre dâau moins 80 % ; lorsque lâobjectif est de ne pas rejeter H0 (voir ïŹche 33), la puissance doit ĂȘtre dâau moins 95 % â avoir une idĂ©e de la variabilitĂ© naturelle de la variable mesurĂ©e et/ou de la diïŹĂ©rence minimale Ă dĂ©tecter. Ceci passe soit par une Ă©tude de la bibliographie, soit par la consultation de spĂ©cialistes, soit par la rĂ©alisa- tion dâun prĂ©-Ă©chantillonnage ou dâune prĂ©-expĂ©rience. Dans R, la fonctions power() permet, pour quelques tests paramĂ©triques courants, de calculer lâeïŹectif nĂ©cessaire lorsque lâon connaĂźt tous les autres paramĂštres. Lorsque lâon sait Ă lâavance que lâon ne sera pas dans les conditions dâutilisation de ces tests, on peut tout de mĂȘme estimer la puissance de leur Ă©quivalent non paramĂ©trique. Celle-ci est vaut en eïŹet environ 95 % de la puissance du test paramĂ©trique Ă©quivalent. Toutes les fonctions dĂ©crites sont basĂ©es sur le mĂȘme principe : le paramĂštre n doit avoir comme valeur NULL tandis que tous les autres doivent ĂȘtre ïŹxĂ©s. Toutes les fonctions considĂšrent que lâeïŹectif est le mĂȘme dans les diïŹĂ©rents groupes Ă comparer (on parle dâeïŹectifs Ă©quilibrĂ©s). Il est fortement conseillĂ© de toujours prĂ©voir ses plans dâĂ©chantillonnage ou dâexpĂ©rience de cette façon, ce qui (i) facilite lâanalyse et (ii) permet dâutiliser la plupart des tests non paramĂ©triques, dont lâĂ©quilibre des eïŹectifs est une condition. Comparaison dâune moyenne avec une valeur thĂ©orique (voir ïŹche 58) ou de deux moyennes (voir ïŹche 59) â test t de Student power.t.test(n,delta,sd,sig.level,power,type) avec : n : eïŹectif (identique pour les deux Ă©chantillons dans le cas dâune comparaison de 2 moyennes) delta : diïŹĂ©rence minimale Ă dĂ©tecter entre la moyenne de lâĂ©chantillon et la moyenne thĂ©orique, ou entre les deux moyennes sd : Ă©cart-type (identique pour les deux Ă©chantillons dans le cas dâune compa- raison de 2 moyennes), dans lâunitĂ© des moyennes
22.
sig.level : seuil
de rejet α (gĂ©nĂ©ralement 0,05) power : puissance minimale du test (80 ou 95 % selon lâobjectif du test) type : type de test ("one.sample" pour la comparaison dâune moyenne avec une valeur thĂ©orique, "two.sample" pour la comparaison de deux moyennes, "paired" pour la comparaison de deux moyennes en sĂ©ries appariĂ©es). Comparaison de plus de deux moyennes â analyse de variance Ă un facteur (voir ïŹche 60) power.anova.test(groups,n,between.var,within.var,sig.level, power) avec : groups : nombre de modalitĂ©s Ă comparer between.var : somme des carrĂ©s des Ă©carts intergroupe minimale Ă dĂ©tecter within.var : somme des carrĂ©s des Ă©carts intragroupe (identique pour toutes les modalitĂ©s). Il est dans la pratique trĂšs diïŹcile dâestimer a priori les sommes des carrĂ©s des Ă©carts inter et intragroupe. On peut dans ce cas se rabattre sur la fonction power.t.test() qui donne des rĂ©sultats convenables si les conditions dâutili- sation de lâanalyse de variance sont remplies. Comparaison de deux proportions â test du Ï2 dâhomogĂ©nĂ©itĂ© (voir ïŹche 54) power.prop.test(n,p1,p2,sig.level,power) avec p1, p2 : proportions Ă dĂ©tecter comme signiïŹcativement diïŹĂ©rentes. SigniïŹcativitĂ© dâun coeïŹcient de corrĂ©lation linĂ©aire de Pearson (voir ïŹche 65) Il est ici nĂ©cessaire de faire appel Ă la fonction pwr.r.test() du package pwr : pwr.r.test(n,r,sig.level,power) avec r : coeïŹcient de corrĂ©lation minimum Ă dĂ©tecter comme signiïŹcativement diïŹĂ©rent de 0.
23.
10. La construction
du tableau de donnĂ©es La construction dâun tableau de donnĂ©es correctement structurĂ© est une Ă©tape importante de lâĂ©tude, car si elle est mal rĂ©alisĂ©e elle peut mener Ă des rĂ©sultats faux, ou le plus souvent Ă des erreurs une fois dans R. Cette construction nĂ©cessite de se poser une question essentielle : quelles sont les variables prises en compte dans lâĂ©tude ? Y rĂ©pondre implique dâidenti- ïŹer les variables quantitatives et les facteurs, ainsi que les classes des facteurs. Si les choses sont claires, lâanalyse statistique le sera Ă©galement. Dâune maniĂšre gĂ©nĂ©rale, il est conseillĂ© de toujours construire son tableau de donnĂ©es dans un tableur. Cela permet dâenregistrer le jeu de donnĂ©es dans un ïŹchier externe Ă R, et donc de toujours pouvoir y revenir puisque R ne modiïŹe pas les ïŹchiers externes (sauf si on le lui demande explicitement). Une fois dans le tableur, la rĂšgle est simple : les individus doivent ĂȘtre placĂ©s en lignes et les variables en colonnes. Il est conseillĂ© de donner un titre Ă chaque colonne, qui deviendra le nom de la variable dans R. Il est indispensable cependant de respecter certaines rĂšgles : les noms de variable ne doivent contenir ni espace, ni caractĂšre accentuĂ©, ni symbole (ceci est une rĂšgle pour tous les noms dâobjet dans R). Si un nom de variable doit contenir deux mots, ils peuvent ĂȘtre sĂ©parĂ©s par un point (.) ou un tiret bas (_). Mieux vaut Ă©galement privilĂ©gier les noms courts mais clairs, car une fois dans R taper sans cesse des noms de variable longs est vite fastidieux. Le tableau de donnĂ©es doit absolument obĂ©ir Ă une autre rĂšgle : aucune case ne doit ĂȘtre vide (sauf celle en haut Ă gauche si les colonnes ont un titre). Sâil manque une donnĂ©e pour un individu, il faut se demander dâoĂč elle vient : â si câest une donnĂ©e inutilisable (mesure ratĂ©e, mal retranscrite. . .), pas de problĂšme. On dit alors quâon a une « donnĂ©e manquante », que lâon doit noter NA (pour Not Available, i.e. donnĂ©e manquante). Le tableur comme R reconnaissent le NA, quâils interprĂštent correctement â si la situation est autre, câest que le tableau est mal construit et quâen particulier les variables nâont pas Ă©tĂ© bien dĂ©ïŹnies. La rĂ©ïŹexion sâimpose donc pour identiïŹer les variables et reconstruire un tableau de donnĂ©es. Si des analyses dans R doivent se faire uniquement sur un sous-ensemble du tableau de donnĂ©es, ou si pour certaines analyses le tableau de donnĂ©es serait plus facile Ă utiliser sâil Ă©tait construit autrement, il est conseillĂ© de construire plusieurs tableaux de donnĂ©es sĂ©parĂ©s. Il est toujours possible de manipuler le tableau initial dans R pour en extraire une partie ou pour le transformer, mais il est clairement plus facile (et surtout moins source dâerreur) de le faire en amont, dans le tableur.
24.
11. Lâimportation du
tableau de donnĂ©es dans R Il existe de nombreuses mĂ©thodes pour importer ses donnĂ©es dans R. Une seule est prĂ©sentĂ©e ici, qui est Ă la fois trĂšs simple, fonctionne dans la plupart des situations et peut ĂȘtre utilisĂ©e sur toutes les plateformes. La procĂ©dure se fait en trois Ă©tapes : 1. dans le tableur, sĂ©lectionner toutes les cases constituant le tableau de donnĂ©es 2. copier ce tableau dans le bloc-notes et enregistrer le ïŹchier en .txt 3. dans R, charger le tableau de donnĂ©es grĂące Ă la fonction read.table() et le stocker dans un objet : tableau<-read.table(fichier,dec=",") oĂč fichier est le nom du ïŹchier texte (et Ă©ventuellement du chemin qui y mĂšne), entre guillemets. R Ă©tant un logiciel anglo-saxon, le sĂ©parateur dĂ©cimal quâil utilise est le point. Or dans les tableurs français (et donc dans le ïŹchier texte) le sĂ©parateur dĂ©cimal est la virgule. Il est donc nĂ©cessaire de prĂ©ciser Ă R quâil interprĂšte la virgule comme sĂ©parateur dĂ©cimal, dâoĂč lâargument dec=",". Si les colonnes du tableau de donnĂ©es ont un titre, qui doit donc ĂȘtre interprĂ©tĂ© comme le nom de la variable, ajouter lâargument header=TRUE. Une fois le tableau importĂ©, il est indispensable de vĂ©riïŹer quâil nây a pas eu dâerreur pendant son chargement. Pour cela appeler le rĂ©sumĂ© du tableau via summary(tableau). R renvoie un rĂ©sumĂ© de chaque variable : â pour une variable numĂ©rique, R donne des indications sur sa distribution : minimum, 1er quartile, mĂ©diane, moyenne, 3Ăšme quartile et maximum â pour un facteur, R donne le nombre dâindividus par classe. Si un facteur est codĂ© numĂ©riquement (par exemple un facteur binaire ou un facteur ordinal), R lâinterprĂšte comme une variable numĂ©rique. Pour transfor- mer cette variable en facteur, utiliser : tableau$variable<-factor(tableau$ variable) oĂč variable est le nom de la variable.
25.
12. Graphiques de
dispersion : la fonction stripchart() Le graphique tracĂ© reprĂ©sente toutes les donnĂ©es individuelles dâun vecteur, dâune matrice ou dâun tableau. Il permet dâavoir un aperçu de la variabilitĂ© des donnĂ©es et dâidentiïŹer les observations aberrantes. Pour reprĂ©senter un vecteur : stripchart(vecteur). Pour reprĂ©senter plusieurs vecteurs : stripchart(list(vecteur1,vect- eur2,...)). Pour donner un nom aux vecteurs sur le graphe, ajouter lâargument group.names=c("Nom1","Nom2",...). Pour reprĂ©senter des donnĂ©es en fonction dâun facteur : stripchart(don- nees~facteur) oĂč les deux objets sont des vecteurs contenant la valeur de chaque individu (dans le mĂȘme ordre). Pour reprĂ©senter les donnĂ©es verticalement, ajouter lâargument vertical= TRUE. Pour que les valeurs identiques ne se superposent pas, ajouter lâargument method="jitter" (par dĂ©faut method="overplot").
26.
13. Histogrammes :
la fonction hist() Le graphique tracĂ© divise les donnĂ©es contenues dans un vecteur en classes, et reprĂ©sente chaque classe en eïŹectif ou densitĂ©. Il permet dâavoir un aperçu de la distribution des donnĂ©es. Pour reprĂ©senter les classes en eïŹectifs : hist(vecteur). Pour reprĂ©senter les classes en densitĂ©s : hist(vecteur,freq=FALSE) (freq=TRUE par dĂ©faut, ce qui reprĂ©sente les eïŹectifs). Pour ajouter une courbe de densitĂ© : lines(density(vecteur)). Une telle courbe ne peut ĂȘtre ajoutĂ©e que sur un histogramme tracĂ© en densitĂ©s. Pour ajouter une courbe de distribution : lines(seq2(vecteur),dloi(se- q2(vecteur),par)) oĂč loi est la loi de probabilitĂ© choisie et par ses para- mĂštres sĂ©parĂ©s par une virgule (calculĂ©s Ă partir des donnĂ©es ; voir ïŹches 23 Ă 32). La fonction seq2() est contenue dans le package RVAideMemoire. Pour modiïŹer le nombre de classes, ajouter lâargument breaks=n oĂč n est le nombre de coupures souhaitĂ©es (il y a donc n + 1 classes). Pour tracer lâhistogramme dâune variable par niveau dâun facteur, utiliser la fonction byf.hist() du package RVAideMemoire : byf.hist(variable,fact- eur) oĂč variable et facteur sont des vecteurs contenant la valeur de chaque individu pour les deux variables (dans le mĂȘme ordre).
27.
14. BoĂźtes Ă
moustaches : la fonction boxplot() Le graphique tracĂ© reprĂ©sente de façon simpliïŹĂ©e la dispersion des donnĂ©es contenues dans un vecteur. Il permet dâavoir un aperçu de la distribution et de la variabilitĂ© des donnĂ©es, et dâidentiïŹer les observations aberrantes. Pour reprĂ©senter un vecteur : boxplot(vecteur). Le trait Ă©pais reprĂ©sente la mĂ©diane, la boĂźte est formĂ©e par les valeurs des 1er et 3Ăšme quartiles, et les moustaches mesurent maximum 1,5 fois la longueur de lâinterquartile (3Ăšme - 1er). Les valeurs au-delĂ des moustaches sont reprĂ©sentĂ©es individuellement. Pour reprĂ©senter plusieurs vecteurs : boxplot(list(vecteur1,vecteur2, ...)). Pour donner un nom aux boĂźtes, ajouter lâargument names=c("Nom1","No- m2",...). Pour reprĂ©senter une boĂźte par niveau dâun facteur : boxplot(variable~ facteur) oĂč variable et facteur sont des vecteurs contenant la valeur de chaque individu pour les deux variables (dans le mĂȘme ordre). Pour reprĂ©senter les boĂźtes horizontalement, ajouter lâargument horizont- al=TRUE.
28.
15. La réduction
des donnĂ©es Ă une dimension Les paramĂštres suivants permettent de rĂ©duire une sĂ©rie de donnĂ©es Ă quelques valeurs apportant une information gĂ©nĂ©rale. ParamĂštres de position Ils permettent de donner un ordre de grandeur des donnĂ©es. Moyenne : mean(serie) oĂč serie est un vecteur contenant la valeur de chaque individu. MĂ©diane : median(serie). Mode : utiliser la fonction mod() du package RVAideMemoire : mod(serie). Si les vecteurs contiennent des donnĂ©es manquantes (NA), ajouter lâargu- ment na.rm=TRUE aux fonctions mean() et median(). La fonction mod() gĂšre par dĂ©faut les donnĂ©es manquantes. ParamĂštres de dispersion Ils permettent dâestimer la variabilitĂ© des donnĂ©es autour des paramĂštres de position. Variance : var(serie). Ecart-type (standard deviation) : sd(serie). CoeïŹcient de variation : utiliser la fonction cv() du package RVAideMemoire : cv(serie). Le coeïŹcient est par dĂ©faut exprimĂ© en valeur absolue et en pourcentage. Si les vecteurs contiennent des donnĂ©es manquantes (NA), ajouter lâargument na.rm=TRUE aux fonctions var() et sd(). La fonction cv() gĂšre par dĂ©faut les donnĂ©es manquantes. Les fonctions var() et sd() calculent la variance et lâĂ©cart-type non biaisĂ©s (sur la base de n â 1 et non n, n Ă©tant lâeïŹectif de lâĂ©chantillon). La fonction cv() est basĂ©e sur lâĂ©cart-type non biaisĂ©. Pour calculer la valeur dâun paramĂštre (de position ou de dispersion) par niveau dâun facteur, utiliser tapply(serie,facteur,function(x) fonction) oĂč serie et facteur sont des vecteurs contenant la valeur de chaque indi- vidu pour les deux variables (dans le mĂȘme ordre), et fonction la fonction Ă utiliser. Dans cette fonction, serie doit ĂȘtre remplacĂ© par x : mean(x), var(x,na.rm=TRUE), cv(x). . . Exemple variable <- c(1:60) facteur <- factor(rep(LETTERS[1:3],each=20)) tapply(variable,facteur,function(x) mean(x)) A B C 10.5 30.5 50.5
29.
16. Nuages de
points : la fonction plot() La fonction plot() permet de reprĂ©senter les valeurs de deux variables numĂ©riques pour chaque individu, dans un graphe du type y = f (x). Elle permet dâavoir un aperçu de la liaison quâil peut exister entre ces variables. Elle peut ĂȘtre utilisĂ©e avec deux vecteurs, une matrice Ă deux colonnes ou un tableau Ă deux colonnes. Pour reprĂ©senter deux vecteurs x et y contenant la valeur de chaque in- dividu pour les deux variables (dans le mĂȘme ordre) : plot(y~x) (~ signiïŹe « expliquĂ© par »). Pour ajouter une droite du type y = ax + b : abline(b,a). Pour ajouter une droite de rĂ©gression linĂ©aire au sens des moindres carrĂ©s (voir ïŹche 68) : abline(lm(y~x)). Pour ajouter une droite de rĂ©gression linĂ©aire au sens des moindres rec- tangles (voir ïŹche 69), utiliser la fonction least.rect() du package RVAideMe- moire : abline(least.rect(y~x)). Pour ajouter une courbe de tendance du nuage de points : panel.smooth(x, y) Pour ajouter une droite horizontale : abline(h=ordonnee). Pour ajouter une droite verticale : abline(v=abscisse).
30.
17. La réduction
des donnĂ©es Ă deux dimensions Les paramĂštres suivants permettent de rĂ©duire deux sĂ©ries de donnĂ©es Ă quelques valeurs apportant une information gĂ©nĂ©rale sur la liaison qui peut les unir. Pour deux vecteurs x et y contenant la valeur de chaque individu pour chaque sĂ©rie (dans le mĂȘme ordre) : Covariance : cov(x,y). CoeïŹcient de corrĂ©lation linĂ©aire de Pearson (voir ïŹche 65) : cor(x,y). Les vecteurs doivent avoir la mĂȘme taille (i.e. contenir autant de va- leurs). Sâils contiennent des donnĂ©es manquantes (NA), ajouter lâargument use="complete.obs" aux fonctions cov() et cor(). Seuls les couples de don- nĂ©es complets sont alors considĂ©rĂ©s. La rĂ©gression linĂ©aire au sens des moindres carrĂ©s (voir ïŹche 68) sâutilise dans le cas oĂč la variable y (dite dĂ©pendante ou Ă expliquer) varie en fonction de la variable x (dite indĂ©pendante ou explicative). Pour rĂ©cupĂ©rer les para- mĂštres de la droite : lm(y~x)$coefficients. La premiĂšre valeur (Intercept) correspond Ă lâordonnĂ©e Ă lâorigine, la seconde au coeïŹcient directeur de la droite. La fonction lm() construit un modĂšle linĂ©aire reliant x et y au sens des moindres carrĂ©s. La rĂ©gression linĂ©aire au sens des moindres rectangles (voir ïŹche 69) sâutilise dans le cas oĂč les deux variables sont considĂ©rĂ©es sur un pied dâĂ©ga- litĂ© (elles sont dites interdĂ©pendantes). Pour rĂ©cupĂ©rer les paramĂštres de la droite, utiliser la fonction least.rect() du package RVAideMemoire : least.rect(y~x)$coefficients. La premiĂšre valeur (Intercept) corres- pond Ă lâordonnĂ©e Ă lâorigine, la seconde au coeïŹcient directeur de la droite. La fonction least.rect() construit un modĂšle linĂ©aire reliant x et y au sens des moindres rectangles. Les vecteurs x et y doivent avoir la mĂȘme taille pour les deux fonctions lm() et least.rect(). Ils peuvent contenir des donnĂ©es manquantes (NA).
31.
18. LâAnalyse en
Composantes Principales (ACP) Les donnĂ©es doivent ĂȘtre contenues dans un tableau avec en colonnes les variables (avec un titre) et en ligne les individus. La 1Ăšre case du tableau (en haut Ă gauche) doit ĂȘtre vide si la 1Ăšre colonne contient le nom des individus. Le tableau ne doit pas contenir de donnĂ©es manquantes (NA). Pour supprimer les lignes qui en possĂšdent : tableau2<-na.omit(tableau), oĂč tableau est le tableau de dĂ©part. LâACP se prĂȘte mieux Ă lâanalyse de relations linĂ©aires et de variables ayant une distribution symĂ©trique. Pour observer ces caractĂšres, utiliser pairs(tableau2,panel=panel.smooth) dâune part et hist() (voir ïŹche 13) avec chacune des variables dâautre part. Si besoin transformer les variables (voir ïŹche 45). Pour visualiser la matrice des corrĂ©lations linĂ©aires entre les variables : cor(tableau2) (utilisĂ©e dans le cas de lâACP rĂ©duite). Pour visualiser la matrice des variances-covariances : cov(tableau2) (utilisĂ©e dans le cas de lâACP non rĂ©duite). LâACP est rĂ©alisĂ©e grĂące Ă la fonction dudi.pca() du package ade4. Par dĂ©faut elle est centrĂ©e-rĂ©duite, pour changer ces paramĂštres ajouter les argu- ments center=FALSE (pour ne pas centrer) et/ou scale=FALSE (pour ne pas rĂ©duire). En gĂ©nĂ©ral, lâACP est rĂ©duite quand les variables nâont pas le mĂȘme ordre de grandeur (ou unitĂ© de mesure), non rĂ©duite dans le cas contraire (elles sont donc directement comparables). Lorsque la commande acp<-dudi.pca(tableau2) est passĂ©e, R renvoie le graphe des valeurs propres (ou pouvoirs de synthĂšse) associĂ©es Ă chaque variable de synthĂšse (ou axe ou composante principale), et demande le nombre dâaxes Ă sĂ©lectionner. Le choix peut se faire sur la base du critĂšre de Kaiser (i.e. ne choisir que les axes dont la valeur propre est supĂ©rieure Ă 1) ou sur un critĂšre ïŹxĂ© avant lâanalyse, Ă savoir le nombre de composantes principales expliquant un minimum de x % de lâinformation (ou inertie totale) contenue dans le tableau initial. Ce pourcentage dâinertie est calculĂ© en divisant la valeur propre dâun axe par le nombre dâaxes possibles (Ă©gal au nombre de variables du tableau de dĂ©part). Pour visualiser la corrĂ©lation entre chaque variable et une composante principale : score(acp,xax=num) oĂč num est le numĂ©ro de lâaxe choisi.
32.
Le diagnostic de
lâACP se fait grĂące Ă la fonction inertia.dudi(acp), qui renvoie le tableau $TOT. Celui-ci contient la contribution Ă lâinertie de chaque composante principale (proportions cumulĂ©es dans la colonne ratio, multiplier par 100 pour le pourcentage). En ajoutant lâargument col.inertia=TRUE Ă la fonction on obtient trois tableaux supplĂ©mentaires : â $col.abs : donne la contribution Ă lâinertie de chaque variable du tableau de dĂ©part, i.e. leur importance respective dans la construction des axes (ce qui aide Ă lâinterprĂ©tation de ces axes). Diviser par 100 pour obtenir les pourcentages. La somme de chaque colonne est Ă©gale Ă 100 % â $col.rel : donne la part dâinformation apportĂ©e par chaque axe pour chaque variable (diviser la valeur absolue par 100 pour obtenir les pour- centages). Ne pas tenir compte de la 3Ăšme colonne â $col.cum : valeurs absolues de $col.rel cumulĂ©es (diviser par 100 pour obtenir les pourcentages). Donne donc la part totale dâinformation apportĂ©e par tous les axes retenus pour chaque variable, autrement dit la qualitĂ© de la reprĂ©sentation de chaque variable. Ajouter lâargument row.inertia=TRUE Ă la fonction inertia.dudi() pour obtenir le diagnostic pour chaque individu ($row.abs, $row.rel et $row.cum). Pour visualiser graphiquement les relations entre : â les individus : s.label(acp$li), le tableau $li de lâACP donnant les coordonnĂ©es des individus dans les diïŹĂ©rents plans factoriels. Pour sĂ©lec- tionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 oĂč num1 est le numĂ©ro du 1er axe choisi et num2 celui du 2nd (il faut avoir sĂ©lectionnĂ© au moins deux axes au dĂ©part de lâACP). Par convention on choisit pour lâaxe horizontal celui des deux ayant la meilleure contribu- tion Ă lâinertie totale. Des individus Ă©loignĂ©s sur le graphe le sont dans le tableau initial (mais faire attention aux contributions relatives $row.rel du diagnostic) â les variables : â ACP rĂ©duite : s.corcircle(acp$co) trace le cercle des corrĂ©lations (le tableau $co de lâACP donne les coordonnĂ©es des variables dans les diïŹĂ©rents plans factoriels), oĂč la longueur des ïŹĂšches indique la part de leur information reprĂ©sentĂ©e par les deux axes (contributions relatives cumulĂ©es $col.cum du diagnostic). Lâangle entre deux ïŹĂšches reprĂ©sente la corrĂ©lation qui les lie : angle aigu = positive ; angle droit = nulle ; angle obtus = nĂ©gative â ACP non rĂ©duite : s.arrow(acp$co) oĂč la longueur des ïŹĂšches re- prĂ©sente la contribution Ă lâinertie de chaque variable (contributions absolues $col.abs du diagnostic). Les relations entre variables sâin- terprĂštent de la mĂȘme façon que pour lâACP rĂ©duite, mais cette fois en terme de covariances et non de corrĂ©lations.
33.
Pour reprĂ©senter Ă
la fois les individus et les variables dans un plan factoriel, utiliser scatter(acp,posieig="none"). Pour ne pas aïŹcher le numĂ©ro (ou le nom) des individus, ajouter lâargument clab.row=0. Pour ajouter comme information supplĂ©mentaire une variable qualitative dĂ©ïŹnissant des groupes dâindividus (sur le graphe des individus) : â sous forme dâellipses : s.class(dfxy=acp$li,fac=facteur) â sous forme de polygones de contour : s.chull(dfxy=acp$li,fac=facte- ur,optchull=1) oĂč facteur est un vecteur contenant la modalitĂ© de chaque individu. Pour donner une couleur Ă chaque groupe ajouter lâargument col=couleur oĂč couleur est un vecteur contenant la couleur de chaque modalitĂ© du facteur, dans lâordre alphabĂ©tique des modalitĂ©s. PrĂ©ciser le plan factoriel grĂące aux arguments xax et yax. Pour ajouter sur le graphe des individus des groupes dâindividus dĂ©ïŹ- nis par une mĂ©thode de classiïŹcation automatique (voir ïŹche 22), utiliser factor(classes) Ă la place de facteur dans les fonctions s.class() et s.chull(). LâĂ©chelle des ïŹĂšches sur la double reprĂ©sentation individus - variables est arbitraire, elle peut ĂȘtre changĂ©e sans que cela ne change lâinterprĂ©tation. Pour lâinterprĂ©tation, nâutiliser que les individus les plus Ă©loignĂ©s du centre du nuage de points et les ïŹĂšches les plus longues pour les variables, car ce sont eux qui sont le mieux reprĂ©sentĂ©s par les axes. Un 1er axe trĂšs corrĂ©lĂ© de façon positive avec toutes les variables est souvent le signe dâun « eïŹet taille ». Il convient dans ce cas de se placer dans des plans factoriels ne comprenant pas le 1er axe pour lâinterprĂ©tation.
34.
35.
19. LâAnalyse Factorielle
des Correspondances (AFC) Les donnĂ©es doivent ĂȘtre en eïŹectifs et organisĂ©es dans un tableau de contingence, du type : Variable B Classe 1 ... Classe c Classe 1 Variable A ... Classe k Ce tableau est obtenu de la maniĂšre suivante : tableau<-table(variabl- eA,variableB) oĂč variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mĂȘme ordre). Il peut Ă©galement ĂȘtre directement importĂ© dans R sous cette forme (en laissant la case en haut Ă gauche vide). LâAFC est sensible aux eïŹectifs faibles, aussi regrouper les classes quand cela est nĂ©cessaire. Commencer par calculer la valeur du Ï2 du test dâindĂ©pendance des deux va- riables (voir ïŹche 64), rĂ©alisĂ© Ă partir du tableau initial : chisq.test(tablea- u)$statistic. LâAFC est rĂ©alisĂ©e grĂące Ă la fonction dudi.coa() du package ade4. Lorsque la commande afc<-dudi.coa(tableau) est passĂ©e, R renvoie le graphe des valeurs propres (ou pouvoirs de synthĂšse) associĂ©es Ă chaque va- riable de synthĂšse (ou axe) et demande le nombre dâaxes Ă sĂ©lectionner. La part de lâinertie (ou information totale contenue dans le tableau initial) expliquĂ©e par chaque axe se calcule par : valeur propre Ă eïŹectif total Ï2 On peut choisir le nombre dâaxes expliquant ensemble x % de lâinertie, x Ă©tant choisi Ă lâavance, ou un nombre dâaxes dĂ©terminĂ© Ă lâavance. Le diagnostic de lâAFC se fait grĂące Ă la fonction inertia.dudi(afc), qui renvoie le tableau $TOT. Celui-ci contient la contribution Ă lâinertie de chaque axe (proportions cumulĂ©es dans la colonne ratio, multiplier par 100 pour le pourcentage). En ajoutant lâargument col.inertia=TRUE Ă la fonction on obtient trois tableaux supplĂ©mentaires : â $col.abs : donne la contribution Ă lâinertie de chaque colonne du tableau de dĂ©part, i.e. leur importance respective dans la construction des axes (ce qui aide Ă lâinterprĂ©tation de ces axes). Diviser par 100 pour obtenir les pourcentages. La somme de chaque colonne est Ă©gale Ă 100 %
36.
â $col.rel :
donne la part dâinformation apportĂ©e par chaque axe pour chaque colonne (diviser la valeur absolue par 100 pour obtenir les pour- centages). Ne pas tenir compte de la 3Ăšme colonne â $col.cum : valeurs absolues de $col.rel cumulĂ©es (diviser par 100 pour obtenir les pourcentages). Donne donc la part totale dâinformation apportĂ©e par tous les axes retenus pour chaque colonne, autrement dit la qualitĂ© de la reprĂ©sentation de chaque colonne. Ajouter lâargument row.inertia=TRUE Ă la fonction inertia.dudi() pour obtenir le diagnostic pour chaque ligne ($row.abs, $row.rel et $row.cum). Pour visualiser graphiquement le rĂ©sultat de lâAFC (donc la structure du tableau), utiliser scatter(afc,posieig="none"). Pour sĂ©lectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 oĂč num1 est le numĂ©ro du 1er axe choisi et num2 celui du 2nd (il faut avoir sĂ©lectionnĂ© au moins deux axes au dĂ©part de lâAFC). Par convention on choisit pour lâaxe horizontal celui des deux ayant la meilleure contribution Ă lâinertie totale. La proximitĂ© des modalitĂ©s reprĂ©sente leur liaison plus ou moins forte dans le tableau initial (mais faire attention aux contributions relatives $col.rel et $row.rel du diagnostic). Pour ajouter sur la reprĂ©sentation graphique des groupes dâindividus dĂ©ïŹnis par une mĂ©thode de classiïŹcation automatique (voir ïŹche 22) : â sous forme dâellipses : s.class(dfxy=individus,fac=factor(classe- s),add.plot=TRUE) â sous forme de polygones de contour : s.chull(dfxy=individus,fac=fa- ctor(classes),optchull=1,add.plot=TRUE) oĂč individus est afc$li si les lignes du tableau initial sont considĂ©rĂ©es comme les individus Ă regrouper, afc$co si ce sont les colonnes. Pour donner une couleur Ă chaque groupe ajouter lâargument col=couleur oĂč couleur est un vecteur contenant la couleur de chaque classe. PrĂ©ciser le plan factoriel grĂące aux arguments xax et yax. La contribution des lignes et des colonnes Ă la construction des axes ne peut pas se lire sur le graphique (leur Ă©loignement de lâorigine nâest pas reprĂ©sentatif de leur contribution Ă lâinertie des axes). Il est donc indispensable de lire en dĂ©tail le diagnostic. Pour interprĂ©ter les axes il peut ĂȘtre utile dâutiliser score(afc,xax=num, dotchart=TRUE) oĂč num est le numĂ©ro de lâaxe Ă reprĂ©senter. Le graphique montre la rĂ©partition des modalitĂ©s des deux facteurs sur lâaxe choisi. Utiliser abline(v=0) pour ajouter une ligne marquant lâorigine de lâaxe.
37.
38.
20. LâAnalyse en
Composantes Multiples (ACM) Les donnĂ©es doivent ĂȘtre contenues dans un tableau avec en colonnes les variables (avec un titre) et en ligne les individus. La 1Ăšre case du tableau (en haut Ă gauche) doit ĂȘtre vide si la 1Ăšre colonne contient le nom des individus. Pour intĂ©grer des variables quantitatives, regrouper les valeurs en classes (les variables deviennent donc qualitatives). Le tableau ne doit pas contenir de donnĂ©es manquantes (NA). Pour suppri- mer les lignes qui en possĂšdent : tableau2<-na.omit(tableau), oĂč tableau est le tableau de dĂ©part. Il est indispensable de rĂ©aliser une analyse prĂ©liminaire de chaque variable, aïŹn de voir si toutes les classes sont aussi bien reprĂ©sentĂ©es ou sâil existe un dĂ©sĂ©quilibre. Pour cela utiliser plot(variable) oĂč variable est la variable choisie. LâACM est sensible aux eïŹectifs faibles, aussi regrouper les classes quand cela est nĂ©cessaire. De mĂȘme, si les variables ne sont pas trop nombreuses, rĂ©aliser un test du Ï2 dâindĂ©pendance deux-Ă -deux est une premiĂšre approche : chisq.test(ta- ble(variable1,variable2)) (voir ïŹche 64). LâACM est rĂ©alisĂ©e grĂące Ă la fonction dudi.acm() du package ade4. Lorsque la commande acm<-dudi.acm(tableau) est passĂ©e, R renvoie le graphe des valeurs propres (ou pouvoirs de synthĂšse) associĂ©es Ă chaque va- riable de synthĂšse (ou axe) et demande le nombre dâaxes Ă sĂ©lectionner. Il est diïŹcile dâĂ©tablir un critĂšre de choix pour lâACM, ne pas multiplier les axes est en tout cas bĂ©nĂ©ïŹque pour lâinterprĂ©tation. Le diagnostic de lâACM se fait grĂące Ă la fonction inertia.dudi(acm), qui renvoie le tableau $TOT. Celui-ci contient la contribution Ă lâinertie (ou information totale) de chaque axe (proportions cumulĂ©es dans la colonne ratio, multiplier par 100 pour le pourcentage). Pour reprĂ©senter les rĂ©sultats de lâACM, utiliser scatter(acm). Les rĂ©sul- tats sont sĂ©parĂ©s pour chaque variable, toutes reprĂ©sentĂ©es sur le mĂȘme plan factoriel. Pour sĂ©lectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 oĂč num1 est le numĂ©ro du 1er axe choisi et num2 celui du 2nd (il faut avoir sĂ©lectionnĂ© au moins deux axes au dĂ©part de lâACM). Par convention on choisit pour lâaxe horizontal celui des deux ayant la meilleure contribution Ă lâinertie totale. Les modalitĂ©s de chaque variable sont reprĂ©sentĂ©es par des ellipses portant leur nom. Pour rendre le graphique plus clair et donner une couleur Ă chaque modalitĂ©, ajouter lâargument col=couleur oĂč couleur est un vecteur contenant autant de noms (ou numĂ©ros) de couleurs quâil y a de modalitĂ©s possibles.
39.
Pour ne représenter
quâune seule variable, le mĂȘme rĂ©sultat est obtenu via s.class(dfxy=acm$li,fac=variable,col=couleur,sub="nom") oĂč varia- ble est la variable choisie et nom son nom (entre guillemets). Choisir le plan factoriel Ă lâaide des arguments xax et yax. Le tableau acm$cr contient les rapports de corrĂ©lation (variant de 0 Ă 1) entre les variables et les axes choisis au dĂ©part de lâACM. Pour reprĂ©senter gra- phiquement ces rapports, utiliser barplot(acm$cr[,num],names.arg=row.n- ames(acm$cr),las=2) oĂč num est le numĂ©ro de lâaxe Ă reprĂ©senter. Pour lâinterprĂ©tation des axes, se concentrer sur les variables les plus structurantes, i.e. dont le rapport de corrĂ©lation est le plus proche de 1. Une aide Ă lâinterprĂ©tation est fournie par la fonction score(acm,xax=num) oĂč num est le numĂ©ro de lâaxe Ă reprĂ©senter. Le graphique montre la rĂ©partition des modalitĂ©s de chaque variable sur lâaxe choisi. Pour sĂ©lectionner les variables Ă reprĂ©senter, ajouter lâargument which.var=variables oĂč variables est un vecteur contenant le numĂ©ro des variables choisies, i.e. le numĂ©ro des colonnes correspondantes dans le tableau initial. LâACM est clairement une analyse plus diïŹcile Ă interprĂ©ter que lâACP ou lâAFC. Aussi, il est bon de limiter la diïŹcultĂ© en ne considĂ©rant pas des dizaines de variables mais en se limitant aux questions essentielles. De plus, lâACM est sensible aux modalitĂ©s contenant un faible eïŹectif et aux variables contenant un grand nombre de modalitĂ©s. Mieux vaut donc regrouper ces modalitĂ©s en classes plus larges lorsque lâun de ces deux cas se prĂ©sente.
40.
41.
21. LâAnalyse mixte
de Hill et Smith Les donnĂ©es doivent ĂȘtre contenues dans un tableau avec en colonnes les variables (avec un titre) et en ligne les individus. La 1Ăšre case du tableau (en haut Ă gauche) doit ĂȘtre vide si la 1Ăšre colonne contient le nom des individus. Le tableau ne doit pas contenir de donnĂ©es manquantes (NA). Pour suppri- mer les lignes qui en possĂšdent : tableau2<-na.omit(tableau), oĂč tableau est le tableau de dĂ©part. Il est indispensable de rĂ©aliser une analyse prĂ©liminaire de chaque variable aïŹn dâobserver la distribution des valeurs (variables quantitatives) ou leur rĂ©partition entre les diïŹĂ©rentes classes (variables qualitatives). Utiliser pour cela les fonctions hist(), plot() et/ou boxplot(), selon les variables (voir ïŹches 13, 14 et 16). Lâanalyse mixte est rĂ©alisĂ©e grĂące Ă la fonction dudi.mix() du package ade4. Lorsque la commande amix<-dudi.mix(tableau2) est passĂ©e, R ren- voie le graphe des valeurs propres (ou pouvoirs de synthĂšse) associĂ©es Ă chaque variable de synthĂšse (ou axe) et demande le nombre dâaxes Ă sĂ©lectionner. Il est diïŹcile dâĂ©tablir un critĂšre de choix pour lâanalyse mixte, ne pas multiplier les axes est en tout cas bĂ©nĂ©ïŹque pour lâinterprĂ©tation. Le pourcentage dâinertie (ou de lâinformation totale) expliquĂ© par chaque axe est calculĂ© en divisant la valeur propre dâun axe par le nombre dâaxes possibles. Le diagnostic de lâanalyse mixte se fait grĂące Ă la fonction inertia.dudi(a- mix), qui renvoie le tableau $TOT. Celui-ci contient la contribution Ă lâinertie de chaque axe (proportions cumulĂ©es dans la colonne ratio, multiplier par 100 pour le pourcentage). Pour reprĂ©senter les rĂ©sultats de lâanalyse mixte, la fonction scatter(ami- x) peut ĂȘtre utilisĂ©e. Elle reprĂ©sente dans le plan factoriel les individus, les variables quantitatives comme dans une ACP (voir ïŹche 18) et les variables qualitatives comme dans une ACM (voir ïŹche 20). Pour sĂ©lectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 oĂč num1 est le numĂ©ro du 1er axe choisi et num2 celui du 2nd (il faut avoir sĂ©lectionnĂ© au moins deux axes au dĂ©part de lâanalyse). Par convention on choisit pour lâaxe horizontal celui des deux ayant la meilleure contribution Ă lâinertie totale. Cette reprĂ©sentation peut cependant ĂȘtre illisible. Il vaut mieux utili- ser les fonctions scat.mix.numeric() et scat.mix.categorical() du pa- ckage RVAideMemoire. La fonction scat.mix.numeric(amix) reprĂ©sente les variables quantitatives sur un cercle des corrĂ©lation (comme en ACP, voir ïŹche 18), tandis que la fonction scat.mix.categorical(amix) reprĂ©sente les variables qualitatives Ă la maniĂšre dâune ACM (voir ïŹche 20).
42.
Le tableau amix$cr
contient les valeurs des « corrĂ©lations » (de 0 Ă 1) qui lient les variables de synthĂšse aux variables initiales. Pour les reprĂ©senter graphiquement, utiliser barplot(amix$cr[,num],names.arg=row.names(am- ix$cr),las=2) oĂč num est le numĂ©ro de lâaxe Ă reprĂ©senter. Pour lâinterprĂ©ta- tion des axes, se concentrer sur les variables les plus structurantes, i.e. dont le rapport de corrĂ©lation est le plus proche de 1. Une aide Ă lâinterprĂ©tation est fournie par la fonction score(amix,xax=n- um) oĂč num est le numĂ©ro de lâaxe Ă reprĂ©senter. LĂ encore la reprĂ©sentation est de type ACP ou ACM selon la nature des variables. Pour sĂ©lectionner les va- riables Ă reprĂ©senter, ajouter lâargument which.var=variables oĂč variables est un vecteur contenant le numĂ©ro des variables choisies, i.e. le numĂ©ro des colonnes correspondantes dans le tableau initial.
43.
22. Les classiïŹcations
automatiques Les classiïŹcations automatiques sont utilisĂ©es pour regrouper des individus en classes, le plus souvent aprĂšs une ACP (voir ïŹche 18) ou une AFC (voir ïŹche 19). Il existe deux types de classiïŹcation automatique : â non hiĂ©rarchiques : le nombre de classes est dĂ©terminĂ© a priori â hiĂ©rarchiques : les individus sont agrĂ©gĂ©s successivement pour aboutir Ă un arbre de classiïŹcation (appelĂ© dendrogramme). Câest Ă partir de cet arbre que lâon dĂ©termine le nombre de classes Ă gĂ©nĂ©rer. Il existe plusieurs mĂ©thodes de classiïŹcation automatique. Seules deux sont dĂ©crites ici : la mĂ©thode des k-means (non hiĂ©rarchique) et la classiïŹcation ascendante hiĂ©rarchique (hiĂ©rarchique). Le mĂ©thode des k-means Lâobtention de la classe de chaque individu se fait en une seule Ă©tape via classes<-kmeans(tableau,centers=nombre)$cluster, oĂč nombre est le nombre de classes Ă gĂ©nĂ©rer et tableau le tableau de donnĂ©es Ă lâorigine de lâanalyse multivariĂ©e. Attention, les individus Ă classer sont les lignes du tableau de donnĂ©es. Pour considĂ©rer les colonnes comme individus dans le cas dâune classiïŹcation post-AFC (voir ïŹche 19), remplacer tableau par t(tableau). La ClassiïŹcation Ascendante HiĂ©rarchique (CAH) Lâobtention de la classe de chaque individu se fait en plusieurs Ă©tapes : 1. calculer la distance entre chaque individu. En pratique on utilise le plus souvent la distance euclidienne (mais il en existe dâautres) : distances<-dist(tableau,method="euclidian"). Si nĂ©cessaire, rem- placer tableau par t(tableau) 2. regrouper les individus sur la base dâun critĂšre dâagglomĂ©ration. Il existe plusieurs critĂšres, en pratique on utilise souvent celui de Ward (ce nâest pas le seul, et aucun nâest le meilleur dans lâabsolu). Utiliser la fonction hclust() contenue dans le package ade4 : dendrogramme<-hclust(dis- tances,method="ward") 3. reprĂ©senter le dendrogramme : plot(dendrogramme,hang=-1). La dis- tance verticale qui sĂ©pare deux groupes est reprĂ©sentative de leur proxi- mitĂ© dans le tableau de donnĂ©es. A partir de cet arbre, sĂ©lectionner le nombre de classes le plus pertinent 4. aïŹecter chaque individu Ă une classe via la fonction cutree() du package ade4 : classes<-cutree(dendrogramme,k=nombre), oĂč nombre est le nombre de classes souhaitĂ©. Une fois que le vecteur classes a Ă©tĂ© obtenu, les classes peuvent ĂȘtre reprĂ©sentĂ©es graphiquement (voir ïŹche 18 pour lâACP, ïŹche 19 pour lâAFC).
44.
23. Les lois
de probabilitĂ© discontinues â gĂ©nĂ©ralitĂ©s Ces lois sâappliquent Ă des variables quantitatives discrĂštes. ParamĂštres : â k : chaque valeur possible rencontrĂ©e dans la population par la variable discrĂšte X. Egalement appelĂ©e quantile â f (k) : frĂ©quence, ou probabilitĂ©, associĂ©e Ă chaque valeur de la variable discrĂšte X. Egalement appelĂ©e distribution de probabilitĂ© de X ou fonction de masse de X. Comprise entre 0 et 1 â F (k) : somme des probabilitĂ©s f (k) situĂ©es Ă droite ou Ă gauche de k, suivant la situation. Egalement appelĂ©e fonction de rĂ©partition de X. On note F (k)droite = P (X > k) et F (k)gauche = P (X †k). Comprise entre 0 et 1. Dans R : â dY() : donne la probabilitĂ© f (k) pour une distribution de type Y â pY() : donne la fonction de rĂ©partition F (k) pour une distribution de type Y. R considĂšre par dĂ©faut la rĂ©partition Ă gauche, prĂ©ciser lower.tail=FALSE pour la rĂ©partition Ă droite â qY() : donne la valeur k de la variable X correspondant Ă une valeur de F (k) pour une distribution de type Y. R considĂšre par dĂ©faut la rĂ©partition Ă gauche de k, prĂ©ciser lower.tail=FALSE pour la rĂ©partition Ă droite â rY() : donne une sĂ©rie de valeurs alĂ©atoires de la variable X pour une distribution de type Y.
45.
24. La loi
binomiale La loi binomiale est la loi suivie par les rĂ©sultats de tirages alĂ©atoires lors- quâil nây a que deux possibilitĂ©s mutuellement exclusives de rĂ©sultat et que la probabilitĂ© dâobtenir chaque possibilitĂ© est constante au cours de lâexpĂ©rience (i.e. population inïŹnie ou tirages avec remise). La loi donne la probabilitĂ© dâobtenir k fois le rĂ©sultat A quand n tirages sont rĂ©alisĂ©s. Ecriture : B(n, p) avec : n : nombre de tirages p : probabilitĂ© associĂ©e au rĂ©sultat A Dans R : dbinom(k,n,p) pbinom(k,n,p) qbinom(F(k),n,p) rbinom(x,n,p) avec x : nombre de valeurs Ă gĂ©nĂ©rer
46.
25. La loi
de Poisson La loi de Poisson est une limite de la loi binomiale (voir ïŹche 24) quand p tend vers 0 et n vers lâinïŹni (« loi des Ă©vĂšnements rares »). Lâapproximation de la loi binomiale par la loi de Poisson est possible quand quand p < 0, 1 et n > 30. Sa moyenne est Ă©gale Ă sa variance et vaut np (ou λ). Ecriture : P (np) ou P (λ) avec : n : nombre de tirages p : probabilitĂ© associĂ©e au rĂ©sultat rare Dans R : dpois(k,n*p) ou dpois(k,lambda) ppois(k,n*p) ou ppois(k,lambda) qpois(F(k),n*p) ou qpois(F(k),lambda) rpois(x,n*p) ou rpois(x,lambda) avec x : nombre de valeurs Ă gĂ©nĂ©rer
47.
26. La loi
binomiale nĂ©gative La loi binomiale nĂ©gative correspond Ă la mĂȘme situation que la loi bino- miale (voir ïŹche 24), mais elle donne la probabilitĂ© dâobtenir r rĂ©sultats B avant dâobtenir k rĂ©sultats A (approche par lâĂ©chec). Ecriture : BN (k, p) avec : k : nombre de rĂ©sultats A dĂ©sirĂ©s p : probabilitĂ© associĂ©e au rĂ©sultat A Dans R : dnbinom(r,k,p) pnbinom(r,k,p) qnbinom(F(r),k,p) rnbinom(x,k,p) avec x : nombre de valeurs Ă gĂ©nĂ©rer
48.
27. Les lois
de probabilitĂ© continues â gĂ©nĂ©ralitĂ©s Ces lois sâappliquent Ă des variables quantitatives continues. ParamĂštres : â xi : chaque valeur possible de la variable continue x. Egalement appelĂ©e quantile â f (xi ) : distribution de probabilitĂ© de la valeur xi . Egalement appelĂ©e densitĂ© de probabilitĂ© de xi . Comprise entre 0 et 1 â F (xi ) : aire sous la courbe situĂ©e Ă droite ou Ă gauche de xi , suivant la situation. Egalement appelĂ©e fonction de rĂ©partition de xi . On note F (xi )droite = P (x > xi ) et F (xi )gauche = P (x †xi ). Comprise entre 0 et 1. Dans R : â dY() : donne la densitĂ© de probabilitĂ© f (xi ) pour une distribution de type Y â pY() : donne la fonction de rĂ©partition F (xi ) pour une distribution de type Y. R considĂšre par dĂ©faut la rĂ©partition Ă gauche, prĂ©ciser lower.tail=FALSE pour la rĂ©partition Ă droite â qY() : donne la valeur xi de la variable x correspondant Ă une valeur de F (xi ) pour une distribution de type Y. R considĂšre par dĂ©faut la rĂ©partition Ă gauche de k, prĂ©ciser lower.tail=FALSE pour la rĂ©partition Ă droite â rY() : donne une sĂ©rie de valeurs alĂ©atoires de la variable x pour une distribution de type Y.
49.
28. La loi
normale Ecriture : N (”, Ï) avec : ” : moyenne de la variable x Ï : Ă©cart-type de la variable x Cas particulier, la loi normale centrĂ©e-rĂ©duite : N (0, 1) Dans R : dnorm(xi,mu,sigma) pnorm(xi,mu,sigma) qnorm(F(xi),mu,sigma) rnorm(z,mu,sigma) avec z : nombre de valeurs Ă gĂ©nĂ©rer
50.
29. La loi
exponentielle La loi exponentielle correspond souvent Ă des Ă©vĂšnements dont la proba- bilitĂ© de survenue diminue avec le temps. Elle est Ă©galement utilisĂ©e pour modĂ©liser des durĂ©es de vie. Ecriture : exp(λ) avec λ : paramĂštre de la loi (0 < λ < +â) Dans R : dexp(xi,lambda) pexp(xi,lambda) qexp(F(xi),lambda) rexp(z,lambda) avec z : nombre de valeurs Ă gĂ©nĂ©rer
51.
30. La loi
de Ï2 Ecriture : Ï2 (Îœ) avec Îœ : nombre de degrĂ©s de libertĂ© (ddl), i.e. de paramĂštres indĂ©pendants impliquĂ©s dans la loi (0 < Îœ < +â) Dans R : dchisq(xi,ddl) pchisq(xi,ddl) qchisq(F(xi),ddl) rchisq(z,ddl) avec z : nombre de valeurs Ă gĂ©nĂ©rer
52.
31. La loi
de Fisher - Snedecor Ecriture : F (Îœ1 , Îœ2 ) avec : Îœ1 : 1er nombre de degrĂ©s de libertĂ© (ddl) (0 < Îœ1 < +â) Îœ2 : 2Ăšme nombre de ddl (0 < Îœ2 < +â) Dans R : df(xi,ddl1,ddl2) pf(xi,ddl1,ddl2) qf(F(xi),ddl1,ddl2) rf(z,ddl1,ddl2) avec z : nombre de valeurs Ă gĂ©nĂ©rer
53.
32. La loi
de Student Ecriture : t(Îœ) avec Îœ : nombre de degrĂ©s de libertĂ© (ddl) (0 < Îœ < +â) Dans R : dt(xi,ddl) pt(xi,ddl) qt(F(xi),ddl) rt(z,ddl) avec z : nombre de valeurs Ă gĂ©nĂ©rer
54.
33. Principe des
tests statistiques et risques associĂ©s Ă la conclusion Principe de rĂ©alisation des tests statistiques : 1. poser une hypothĂšse nulle H0 , de type « rien Ă signaler » (ex : les moyennes ”A et ”B sont Ă©gales) ou « valeur ponctuelle » (ex : ” = 10, ” = 50 %) 2. poser une hypothĂšse H1 , de telle maniĂšre que H0 et H1 soient exclusives (ex : les moyennes ”A et ”B sont diïŹĂ©rentes) 3. calculer la valeur de la Variable de Test (VT), dâaprĂšs une formule qui dĂ©pend du test utilisĂ© 4. utiliser la valeur de la VT calculĂ©e pour dĂ©terminer une p-value, i.e. une probabilitĂ© dâobtenir la valeur mesurĂ©e (moyenne, pourcentage. . .) si H0 est vraie 5. conclure sur les deux hypothĂšses posĂ©es grĂące Ă cette p-value : â si la p-value est supĂ©rieure au seuil α ïŹxĂ© avant le test (5 % en gĂ©nĂ©ral, voir ïŹche 34), ne pas rejeter H0 â si la p-value est infĂ©rieure au seuil α, rejeter H0 . Conclure sur les deux hypothĂšses prĂ©sente deux risques : â le risque de 1Ăšre espĂšce ou risque α, qui correspond au risque de rejeter de H0 si celle-ci est rĂ©ellement vraie (voir ïŹche 34) â le risque de 2Ăšme espĂšce ou risque ÎČ, qui correspond au risque de ne pas rejeter de H0 si celle-ci est rĂ©ellement fausse (voir ïŹche 36). RĂ©alitĂ© (inconnue le plus souvent) DĂ©cision H0 vraie H0 fausse H0 non rejetĂ©e Bonne dĂ©cision Erreur ÎČ H0 rejetĂ©e Erreur α Bonne dĂ©cision La probabilitĂ© associĂ©e au fait de rejeter H0 si celle-ci est fausse (soit 1 â ÎČ) est appelĂ©e puissance du test. Cette notion est trĂšs importante car elle relativise le rĂ©sultat des tests, et donc la conclusion que lâon en tire (voir ïŹche 36).
55.
34. Le risque
ou seuil de rejet α Le risque α, ou seuil de rejet ou encore seuil de signiïŹcation de lâhypothĂšse H0 , est une valeur ïŹxĂ©e arbitrairement avant la rĂ©alisation de tout test statis- tique. Elle correspond Ă un risque assumĂ© de se tromper, celui de rejeter H0 si celle-ci est rĂ©ellement vraie (ce que bien sĂ»r on ne sait jamais). Lorsque lâon calcule une p-value suite Ă un test (voir ïŹche 33), on la compare au seuil α choisi : â si la p-value est infĂ©rieure au seuil α, on rejette H0 . Il faut ĂȘtre conscient que lâon prend un risque α de se tromper â si la p-value est supĂ©rieure au seuil α, on ne rejette pas H0 . Il faut alors calculer la puissance du test que lâon vient dâutiliser (voir ïŹches 36 et 37). Obtenir une p-value supĂ©rieure au seuil α peut en eïŹet avoir deux origines : 1. une rĂ©elle vĂ©racitĂ© de H0 2. un manque de puissance du test, i.e. un risque (ÎČ, voir ïŹche 33) important de « passer Ă cĂŽtĂ© » dâune rĂ©elle faussetĂ© de H0 (voir ïŹche 36). Xseuil : valeur de la Variable de Test (VT) X qui donne une fonction de rĂ©partition Ă droite Ă©gale au seuil α (test unilatĂ©ral droit). Xcalc : valeur de la VT X calculĂ©e Ă partir de lâĂ©chantillon testĂ©. A gauche lâhypothĂšse H0 est rejetĂ©e, Ă droite elle ne lâest pas. Dâun point de vue pratique, on utilise souvent un seuil α de 5 %. Cela veut dire quâon assume un risque de 5 % de rejeter H0 si celle-ci est rĂ©ellement vraie.
56.
35. La correction
du seuil de rejet α (ou des p-values) Si une sĂ©rie de tests statistiques est rĂ©alisĂ©e avec Ă chaque fois α pour seuil de rejet de H0 (voir ïŹche 34), le risque global de rejeter H0 si celle-ci est vraie augmente. En eïŹet, plus on eïŹectue de tests, plus on a de chance de tomber sur un Ă©chantillon peu reprĂ©sentatif de la population dont il provient (donnant une p-value infĂ©rieure au seuil α). Il est donc nĂ©cessaire de corriger le seuil de rejet α de chaque test lorsque plusieurs sont rĂ©alisĂ©s (ou leur p-value, ce qui revient au mĂȘme), aïŹn que le risque global soit Ă©gal au α souhaitĂ©. Cette situation se prĂ©sente : â lorsque les tests vont permettre de prendre une dĂ©cision unique, dĂšs que lâun dâeux au moins permet le rejet de H0 â lorsquâest rĂ©alisĂ©e une sĂ©rie de tests deux-Ă -deux, soit directement soit aprĂšs une analyse globale (ANOVA, test du Ï2 dâhomogĂ©nĂ©itĂ©. . .). Plusieurs mĂ©thodes de correction existent, dont les trois suivantes : La technique de Bonferroni Si k tests sont eïŹectuĂ©s, la technique consiste simplement Ă diviser le seuil de rejet global α par k, donc considĂ©rer pour chaque test le seuil de rejet α . k Cela revient Ă multiplier chaque p-value par k, sans changer le seuil α. La technique sĂ©quentielle de Holm La procĂ©dure se rĂ©alise en plusieurs Ă©tapes : 1. classer les p-values de tous les tests rĂ©alisĂ©s par ordre croissant (p1 <. . .< pk ), k Ă©tant le nombre de tests eïŹectuĂ©s 2. rejeter H0 pour les tests dont la p-value satisfait la condition : αseuil pi †k+1âi oĂč i est le rang de la p-value aprĂšs classement. La technique du False Discovery Rate (FDR) de Benjamini et Hochberg La procĂ©dure se rĂ©alise en plusieurs Ă©tapes : 1. classer les p-values de tous les tests rĂ©alisĂ©s par ordre croissant (p1 <. . .< pk ), k Ă©tant le nombre de tests eïŹectuĂ©s 2. rejeter H0 pour les tests dont la p-value satisfait la condition : i pi †αseuil Ă k oĂč i est le rang de la p-value aprĂšs classement.
57.
La technique la
plus stricte est celle de Bonferroni, la moins stricte celle du FDR. Cette derniĂšre peut ĂȘtre appliquĂ©e par dĂ©faut. Dans tous les cas la mĂ©thode de correction du seuil de rejet de H0 doit ĂȘtre dĂ©cidĂ©e avant de rĂ©aliser les tests. Dans R, si p est le vecteur contenant les p-values non corrigĂ©es, utiliser la fonction p.adjust() pour rĂ©cupĂ©rer un vecteur avec les p-values corrigĂ©es (dans le mĂȘme ordre) : p.adjust(p,method="bonferroni") pour la correction de Bonferroni p.adjust(p,method="holm") pour la correction de Holm p.adjust(p,method="BH") ou p.adjust(p,method="fdr") pour la correc- tion de Benjamini et Hochberg (FDR).
58.
36. Le risque
ÎČ et la puissance du test Le risque ÎČ est le risque de ne pas rejeter lâhypothĂšse H0 si celle-ci est rĂ©ellement fausse. Contrairement au risque α, le risque ÎČ ne peut pas ĂȘtre ïŹxĂ©. En eïŹet, si α dĂ©pend de la distribution de la Variable de Test (VT) sous H0 (voir ïŹche 34), ÎČ dĂ©pend de sa distribution sous H1 . Or cette distribution est inconnue, puisque lâhypothĂšse H1 regroupe une inïŹnitĂ© de distributions (ex : si lâhypothĂšse H1 est ”A = ”B , les deux moyennes ”A et ”B peuvent diïŹĂ©rer dâune inïŹnitĂ© de façons). La puissance dâun test reprĂ©sente la probabilitĂ© de rejeter H0 si celle-ci est rĂ©ellement fausse (i.e. de faire le bon choix). Elle Ă©quivaut Ă 1 â ÎČ, et est donc Ă©galement une variable dĂ©pendant de la distribution de la VT sous H1 . Le risque ÎČ et la puissance du test dĂ©pendent du seuil α ïŹxĂ© : Xseuil : valeur de la VT X qui donne une fonction de rĂ©partition Ă droite Ă©gale au seuil α pour la distribution sous H0 (test unilatĂ©ral droit). La puissance dâun test augmente : â quand augmente le seuil α â quand augmente lâeïŹectif de lâĂ©chantillon testĂ© (ce qui diminue lâĂ©talement de la distribution de la VT ou Ă©loigne les distributions de la VT sous H0 et H1 , selon le test) â quand augmente lâĂ©cart rĂ©el entre les valeurs testĂ©es (moyennes. . .). Il est possible de calculer la puissance dâun test aprĂšs avoir rĂ©alisĂ© celui-ci (voir ïŹche 37). Cela est indispensable car, lorsque la p-value dâun test est supĂ©rieure au seuil α ïŹxĂ©, cela peut aussi bien provenir dâune rĂ©elle vĂ©racitĂ© de H0 que dâun manque de puissance du test alors que H0 est rĂ©ellement fausse. Avant de conclure sur H0 , il faut donc avoir une idĂ©e de la puissance du test employĂ© (en particulier lorsque la p-value est peu supĂ©rieure au seuil α).
59.
37. Calculer la
puissance dâun test a posteriori Il existe un lien entre le seuil de rejet α du test statistique utilisĂ© (voir ïŹches 33 et 34), la puissance de ce test (voir ïŹche 36), la diïŹĂ©rence entre les Ă©chantillons pour la variable mesurĂ©e et la taille des Ă©chantillons. On peut donc dĂ©terminer â au moins approximativement â la puissance dâun test aprĂšs lâavoir rĂ©alisĂ©, car on connaĂźt tous les autres paramĂštres. Selon lâobjectif de lâĂ©tude, la puissance Ă atteindre nâest pas la mĂȘme. On considĂšre en eïŹet que lorsque lâobjectif est de rejeter H0 (voir ïŹche 33), la puissance du test doit ĂȘtre dâau moins 80 % ; lorsque lâobjectif est de ne pas rejeter H0 (voir ïŹche 33), la puissance doit ĂȘtre dâau moins 95 %. Dans R, la fonctions power() permet, pour quelques tests paramĂ©triques courants, de calculer leur puissance lorsque lâon connaĂźt tous les autres para- mĂštres. Lorsque lâon a choisi ou Ă©tĂ© contraint dâutiliser un test non paramĂ©- trique, on peut tout de mĂȘme estimer sa puissance. Celle-ci est vaut en eïŹet environ 95 % de la puissance du test paramĂ©trique Ă©quivalent. Toutes les fonctions dĂ©crites sont basĂ©es sur le mĂȘme principe : le para- mĂštre power doit avoir comme valeur NULL tandis que tous les autres doivent ĂȘtre ïŹxĂ©s. Toutes les fonctions considĂšrent que lâeïŹectif est le mĂȘme dans les diïŹĂ©rents groupes Ă comparer (on parle dâeïŹectifs Ă©quilibrĂ©s). Il est fortement conseillĂ© de toujours prĂ©voir ses plans dâĂ©chantillonnage ou dâexpĂ©rience de cette façon, ce qui (i) facilite lâanalyse et (ii) permet dâutiliser la plupart des tests non paramĂ©triques, dont lâĂ©quilibre des eïŹectifs est une condition. Cela dit, si les eïŹectifs ne sont pas Ă©quilibrĂ©s, on peut tout de mĂȘme se faire une idĂ©e de la puissance du test employĂ© en utilisant comme eïŹectif celui du plus petit des groupes comparĂ©s. Mieux vaut en eïŹet lĂ©gĂšrement sous-estimer la puissance dâun test pour conclure, que la sur-estimer. Comparaison dâune moyenne avec une valeur thĂ©orique (voir ïŹche 58) ou de deux moyennes (voir ïŹche 59) â test t de Student power.t.test(n,delta,sd,sig.level,power,type) avec : n : eïŹectif de chaque groupe delta : diïŹĂ©rence entre la moyenne de lâĂ©chantillon et la moyenne thĂ©orique, ou entre les deux moyennes sd : Ă©cart-type (identique pour les deux Ă©chantillons dans le cas dâune compa- raison de 2 moyennes), dans lâunitĂ© des moyennes sig.level : seuil de rejet α utilisĂ© pour le test power : puissance du test (NULL) type : type de test ("one.sample" pour la comparaison dâune moyenne avec une valeur thĂ©orique, "two.sample" pour la comparaison de deux moyennes, "paired" pour la comparaison de deux moyennes en sĂ©ries appariĂ©es).
60.
Comparaison de plus
de deux moyennes â analyse de variance Ă un facteur (voir ïŹche 60) power.anova.test(groups,n,between.var,within.var,sig.level, power) avec : groups : nombre de modalitĂ©s Ă comparer between.var : somme des carrĂ©s des Ă©carts intergroupe within.var : somme des carrĂ©s des Ă©carts intragroupe (identique pour toutes les modalitĂ©s). Comparaison de deux proportions â test du Ï2 dâhomogĂ©nĂ©itĂ© (voir ïŹche 54) power.prop.test(n,p1,p2,sig.level,power) avec p1, p2 : proportions observĂ©es. SigniïŹcativitĂ© dâun coeïŹcient de corrĂ©lation linĂ©aire de Pearson (voir ïŹche 65) Il est ici nĂ©cessaire de faire appel Ă la fonction pwr.r.test() du package pwr : pwr.r.test(n,r,sig.level,power) avec r : coeïŹcient de corrĂ©lation observĂ©.
61.
38. LâidentiïŹcation et
la suppression des donnĂ©es aber- rantes LâidentiïŹcation des donnĂ©es aberrantes est une Ă©tape obligatoire de toute analyse statistique. Elle doit se faire avant tout visuellement, grĂące Ă des graphes du type histogramme (voir ïŹche 13) ou boĂźtes Ă moustaches (voir ïŹche 14). On peut Ă©galement sâaider du test de Grubbs pour repĂ©rer des donnĂ©es sinon aberrantes, du moins trĂšs diïŹĂ©rentes des autres. Utiliser pour cela la fonction grubbs.test() du package outliers : grubbs.test(serie) oĂč serie est un vecteur contenant la sĂ©rie de donnĂ©es. La fonction teste la valeur extrĂȘme de la sĂ©rie la plus Ă©loignĂ©e de la moyenne. Pour tester lâautre valeur extrĂȘme, ajouter lâargument opposite=TRUE. La suppression dâĂ©ventuelles donnĂ©es aberrantes est un point hautement plus dĂ©licat que leur simple identiïŹcation. Supprimer une ou plusieurs donnĂ©es aura nĂ©cessairement un eïŹet sur les analyses qui vont suivre, et cet eïŹet sera dâautant plus important que lâeïŹectif de lâĂ©chantillon est faible. Il est donc tentant de supprimer les individus qui orientent les rĂ©sultats vers des conclusions inverses Ă celles qui sont attendues. Il nây a globalement que deux raisons qui doivent pousser Ă Ă©liminer une donnĂ©e : â sâil y a manifestement eu une erreur technique dans la mesure ou la retranscription de la donnĂ©e (par exemple si lâappareil de mesure est dĂ©fectueux) â si la valeur de la mesure obtenue est biologiquement improbable pour la variable mesurĂ©e. En dehors de ces deux cas, il y a de grandes chances pour que la valeur « aberrante » soit simplement une singularitĂ© biologique de lâindividu mesurĂ©. Cette singularitĂ© est lâexpression de la variabilitĂ© naturelle de tout caractĂšre biologique, rien ne justiïŹe donc que lâindividu soit supprimĂ© de lâĂ©tude. On notera donc en particulier quâun rĂ©sultat signiïŹcatif du test de Grubbs (ou de tout autre test Ă©quivalent) ne doit pas nĂ©cessairement conduire Ă lâĂ©limi- nation de lâindividu repĂ©rĂ© comme « aberrant », mais simplement Ă sâintĂ©resser de plus prĂšs Ă lui. Dans tous les cas, lâidentiïŹcation et la suppression Ă©ventuelle de donnĂ©es aberrantes doit se faire avant tout autre analyse.
62.
39. Lâintervalle de
conïŹance et lâerreur standard Intervalle de conïŹance dâune moyenne Petit eïŹectif (< 30 individus) : utiliser le module « intervalle de conïŹance » du test de Mann - Whitney - Wilcoxon (test non paramĂ©trique qui calcule en fait lâintervalle de conïŹance de la mĂ©diane) : wilcox.test(serie,con- f.int=TRUE)$conf.int oĂč serie est un vecteur contenant la sĂ©rie de donnĂ©es. Si les conditions du test de Mann - Whitney - Wilcoxon sont rĂ©unies (voir ïŹche 59), mĂ©diane et moyenne sont proches. Grand eïŹectif (> 30 individus) : utiliser le module « intervalle de conïŹance » du test t de Student (test paramĂ©trique) : t.test(serie)$conf.int. Erreur standard dâune moyenne Utiliser la fonction se() du package RVAideMemoire : se(serie). Intervalle de conïŹance dâune proportion Quel que soit lâeïŹectif, utiliser le module « intervalle de conïŹance » du test binomial exact : binom.test(a,b)$conf.int oĂč a est le nombre dâindivi- dus de la catĂ©gorie dâintĂ©rĂȘt et b lâeïŹectif total (ex : 9 femelles sur 25 individus). Intervalle de conïŹance de nâimporte quoi Utiliser la fonction bootstrap() du package RVAideMemoire, qui est basĂ©e sur la technique du bootstrap : bootstrap(serie,function(x,i) mean(x[i] )). Dans cet exemple une moyenne est calculĂ©e, mais la fonction gĂšre des expressions bien plus complexes. La syntaxe particuliĂšre de cette fonction doit obĂ©ir Ă deux rĂšgles : â lâargument utilisĂ© dans lâexpression Ă calculer (ici cette expression est mean(x[i])) doit ĂȘtre le mĂȘme que le 1er dĂ©clarĂ© Ă function(). Ici cet argument est x â lâargument utilisĂ© dans lâexpression Ă calculer doit toujours ĂȘtre suivi du second dĂ©clarĂ© Ă function() placĂ© entre crochets. Celui-ci est par dĂ©faut i, voir lâaide de la fonction boot() pour plus dâinformations. Pour toutes ces fonctions, la prĂ©cision de lâintervalle de conïŹance peut ĂȘtre modiïŹĂ©e grĂące Ă lâargument conf.level (par dĂ©faut conf.level=0.95, ce qui calcule lâintervalle de conïŹance Ă 95 %).
63.
40.
Tracer un diagramme en barres avec barres dâerreur Lâexemple prĂ©sentĂ© ici traite de moyennes et de barres dâerreur reprĂ©sentant des erreurs standards. Il peut bien sĂ»r ĂȘtre adaptĂ© Ă nâimporte quelles valeurs. Un facteur LâĂ©tape prĂ©liminaire est de rassembler les moyennes (une par modalitĂ© du facteur) dans un vecteur moyennes (contenant les valeurs dans lâordre du graphe, de gauche Ă droite) et les erreurs standards (voir ïŹche 39) dans un vecteur erreurs (avec les valeurs dans le mĂȘme ordre que les moyennes). La procĂ©dure est ensuite la suivante : > abscisses<-barplot(moyennes) > segments(abscisses,moyennes-erreurs,abscisses,moyennes+erreu rs) > segments(abscisses-0.1,moyennes-erreurs,abscisses+0.1,moyenn es-erreurs) > segments(abscisses-0.1,moyennes+erreurs,abscisses+0.1,moyenn es+erreurs) Deux facteurs Moyennes et erreurs standards doivent ĂȘtre contenues dans des matrices. Ces matrices doivent avoir en lignes les modalitĂ©s du 2nd facteur et en colonnes celles du 1er facteur. La procĂ©dure est ensuite identique, il faut seulement ajouter lâargument beside=TRUE Ă la fonction barplot(). Lâargument names.arg=noms de la fonction barplot() ajoute ou modiïŹe le nom des barres (noms Ă©tant un vecteur contenant les noms de gauche Ă droite), tandis que legend=TRUE ajoute une lĂ©gende dans le cas de deux facteurs.
Jetzt herunterladen