Ce cours d'ic05 (UTC compiègne) introduit l'EDA avec sa philosophie, ses étapes, ses outils. Une part importante est consacrée à une augmentation des concepts de dibiase et maceachren.
2. Qu’est ce qu’une analyse
exploratoire de données
1. Une philosophie
2. Des principes
3. Des outils
➡ Améliorer l’EDA
3. Une approche novatrice
‣ Maximiser les insights dans un jeu de données
‣ découvrir les structures sous-jacentes
‣ extraire les variables importantes
‣ détecter les données aberrantes et les anomalies
‣ tester des suppositions issues des données
‣ développer des modèles minimaux
‣ déterminer les réglages optimaux des différents
facteurs
4. Initié par Tukey (1915 - 2000)
Far better an approximate answer to
the right question, which is often
vague, than an exact answer to the
wrong question, which can always be
made precise
J. W. Tukey (1962, page 13), "The future of data analysis". Annals
of Mathematical Statistics 33(1), pp. 1-67.
6. L’EDA est une attitude, une
philosophie, pour révéler
l’inconnu directement depuis
les données
7. Objectifs
Maximiser les insights de l’analyste
Lui fournir tout ce qu’il voudrait extraire :
‣ Un modèle parcimonieux qui colle bien
‣ Les données extrêmes
‣ Des conclusions robustes
‣ Une estimation des paramètres
‣ La marge d’erreur pour ces estimations
‣ La liste des facteurs importants et leur importance
individuelle relative
‣ Paramètres optimaux
8. insights
When the course of action must respond to new
comprehension, new insights and new intuitive
flashes of possible explanations or solutions, it will
not be an orderly process. Existing means of
composing and working with symbol structures
penalize disorderly processes very heavily, and it is
part of the real promise in the automated H-
LAM/T systems of tomorrow that the human can
have the freedom and power of disorderly
processes
10. Visualization can play a key role for such activities,
for example : in presenting a visual overview of
the data so that categories might be hypothesised
(abductively), in evaluating individual examples
with respect to their
“representativeness” (inductively), and showing
the results of applying the new knowledge to
structure the data (deductively)
M Gahegan, M Takatsuka, M Wheeler, and F Hardisty. Introducing geovista studio : an
integrated suite of visualization and computational methods for exploration and ....
11. Techniques graphiques
Des techniques simples qui consiste en différents
diagrammes :
‣ Tracer les données brutes (data traces,
histogrammes, bihistogrammes, probability plots, lag
plots, block plots, and Youden plots).
‣ Tracer des statistiques simples (mean plots, standard
deviation plots, box plots)
‣ Positionner les diagrammes pour maximiser notre
abilité naturelle à la reconnaissance de motifs en
utilisant plusieurs diagrammes par page
12.
13.
14.
15.
16.
17. 176
Figure 75: A visualization of county-level election results for the State of Michigan from 1998
to 2004 (see appendix A.3). A tinted lens highlights views, using labeled arrows to reveal
24. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
25. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
26. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
Principe 5 : Chercher du reconnaissable
27. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
Principe 5 : Chercher du reconnaissable
Principe 6 : Zoom et Focus
28. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
Principe 5 : Chercher du reconnaissable
Principe 6 : Zoom et Focus
Principe 7 : Porter son attention sur les particularités
29. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
Principe 5 : Chercher du reconnaissable
Principe 6 : Zoom et Focus
Principe 7 : Porter son attention sur les particularités
Principe 8 : Établir des liens
30. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
Principe 5 : Chercher du reconnaissable
Principe 6 : Zoom et Focus
Principe 7 : Porter son attention sur les particularités
Principe 8 : Établir des liens
Principe 9 : Établir la structure
31. Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe 4 : Voir en relation
Principe 5 : Chercher du reconnaissable
Principe 6 : Zoom et Focus
Principe 7 : Porter son attention sur les particularités
Principe 8 : Établir des liens
Principe 9 : Établir la structure
Principe 10 : intégrer la connaissance du domaine
46. Management de
Figure 75: A visualization of county-level election results for the State of Michigan from 1998
exemples
to 2004 (see appendix A.3). A tinted lens highlights views, using labeled arrows to reveal
systèmes complexes Votes v. Counties scatter plot.
coordination on the user’s selection of counties in the
Tukey, John (1977), Exploratory Data Analysis, Addison-Wesley.
John Wilder Tukey (June 16, 1915 - July 26, 2000) was an American statistician.
Auteur de la FFT
approaches? Three popular data analysis approaches are:
Classical
Exploratory (EDA)
Bayesian
Paradigms for Analysis Techniques These three approaches are similar in that they all start with a general science/engineering problem and all yield science/engineering conclusions. The difference is the sequence and focus of the intermediate steps.
Bayes - degré de confiance accordé à une hypothèse
Ajouter un mot sur le modèle en logique flou et notamment inférence de règles floues
Philosophy qui rejette ces statistiques et la volonté de coller à des modèles préexistants pour découvrir du nouveau
Insights : On doit son usage `a Ko ̈hler, un gesthaltiste, qui le premier ́evoque ce bref instant ou` du probl`eme, on entrevoit une solution :
Ko ̈hler utilise le terme anglais insight pour nommer le temps fort d’une r ́e- solution, compris comme passage d’une configuration perceptive `a une seconde configuration, plus satisfaisante car porteuse en elle-mˆeme des r ́eorientations, des regroupements, des suggestions d’actions susceptibles de rem ́edier aux tensions inh ́erentes `a la configuration ant ́ec ́edente Rosenthal and Visetti (2003).
Il s’agit donc de r ́esoudre des tensions dans une configuration donn ́ee en d ́ecouvrant dans cette configuration perceptive les prises que l’on peut avoir dessus.
Déduction : produit des hypo déterministes
Induction : jeu de données limité + caractéristiques = catégories
Abduction : catégorisation et hypothèse
Topofil de boa vista outil pédofil, quadrille présente différemment
To get a "feel" for the data, it is not enough for the analyst to know what is in the data; the analyst also must know what is not in the data, and the only way to do that is to draw on our own human pattern-recognition and comparative abilities in the context of a series of judicious graphical techniques applied to the data.
To get a "feel" for the data, it is not enough for the analyst to know what is in the data; the analyst also must know what is not in the data, and the only way to do that is to draw on our own human pattern-recognition and comparative abilities in the context of a series of judicious graphical techniques applied to the data.
Andrienko and Andrienko (nouvelle ref en EDA)
Système complexe n’est rien d’autre qu’un milieu dans lequel on fait jouer la boucle sensorimotrice. On peut se saisir de l’objet
Look for recognizable, zoom and focus, establish structure
Système complexe n’est rien d’autre qu’un milieu dans lequel on fait jouer la boucle sensorimotrice. On peut se saisir de l’objet
Look for recognizable, zoom and focus, establish structure