1. République du Sénégal
Un Peuple – Un But – Une Foi
UNIVERSITE CHEIKH ANTA DIOP DE DAKAR
FACULTE DES SCIENCES ET TECHNIQUES
DEPARTEMENT MATHS /INFO
SECTION INFORMATIQUE
OPTION : S.I.R
MEMOIRE DE MASTER II INFORMATIQUE
OUTIL DE DATA MINING :
Les Arbres de décision et l’Analyse des
Correspondances sur une plateforme web
applicable a un entrepôt de données.
Présenté et soutenu par: Encadreur:
Cheikh Tidiane THIANDOUM M. Alphonse Diombo THIAKANE
Consultant en systèmes d’information
[Année académique 2009-2010] Expert en Business Intelligence
1
2. PLAN
2
• INTRODUCTION
PRESENTATION
DU SUJET • PRESENTATION ET PROBLEMATIQUE DU SUJET
PREMIERE
• ETAT DE L’ART DU DATA MINING
PARTIE
• LES ARBRES DE DECISION
DEUXIEME
PARTIE
• L’ANALYSE DES CORRESPONDANCES
• CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL
TROISIEME
PARTIE
• CONCLUSION
3. INTRODUCTION
3
Production des entreprises en un temps
record d’une masse importante de données.
Nécessité de développer de nouveaux outils
•Le DM comme discipline salvatrice des
entreprises: techniques dérivées de différents
domaines.
Objet de ce mémoire: les arbres de décision
et l’analyse des correspondances (simples).
4. PRESENTATION ET
PROBLEMATIQUE DU SUJET
4
T R A V A I L A F A I R E
P L A T E F O R M E W E B
ARBRES DE DÉCISION
A N A L Y S E D E S C O R R E S P O N D A N C E S
5. 5
ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U Facteurs:
DM La croissance exponentielle de la collecte des données,
A P P L I C A T I O N S
METIERS DU Augmentation des capacités de stockage des données
DM (disques durs de giga octets);
P R O C E S S U S Prolifération en parallèle des capacités de traitements
STANDARD des données;
D’UNE ETUDE
DE DM L’émergence des entrepôts de données;
L E D M D A N S La disponibilité des données grâce aux réseaux
LE PROCESSUS (intranet et internet);
KDD
TECHNIQUES
Définition:
ET LOGICIELS
Le Data mining comme domaine pluridisciplinaire
DU DM
Deux types de DM: supervisé et non supervisé.
6. 6
ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U Marketing/stratégie: prévisions de ventes, ciblage de
clientèle, des besoins, des relations entres les différents produits
DM
A P P L I C A T I O N S Secteur bancaire : scoring; cibler les
METIERS DU propositions de prêts et éviter les surendettements
DM
Relations clientes: évaluer les risques, anticiper les
P R O C E S S U S attentes futures
STANDARD
D’UNE ETUDE Secteur de la téléphonie : prédiction de l’attrition
DE DM
Grande distribution: analyse du panier de la
L E D M D A N S ménagère
LE PROCESSUS
KDD Scientifique : identification et classification
d'objets célestes.
TECHNIQUES
ET LOGICIELS Médical: analyse de résultat d’une expérimentation
DU DM
Sécurité informatique: recherche de
transactions frauduleuses par la police
7. 7
ETAT DE L’ART DU DATA MINING
G E N È S E E T
DÉFINITION DU PRESENTATION DU CRISP-DM
DM PROCESSUS du DATA MINING
A P P L I C A T I O N S
METIERS DU Acteurs Étapes Phases
DM
Objectifs 1 : Compréhension du métier
P R O C E S S U S
Maître
STANDARD
D’UNE ETUDE d’œuvre 2 : Compréhension des données
DE DM
Données
L E D M D A N S 3 : Préparation des données
LE PROCESSUS
KDD
4 : Modélisation
TECHNIQUES Traitements
ET LOGICIELS 5 : Évaluation de la modélisation
DU DM
Maître d’ouvrage Déploiement 6 : Déploiement des résultats de
l’étude
8. 8
ETAT DE L’ART DU DATA MINING
G E N È S E E T
DÉFINITION DU
DM
A P P L I C A T I O N S
METIERS DU
DM
P R O C E S S U S
STANDARD
D’UNE ETUDE
DE DM
L E D M D A N S
LE PROCESSUS
KDD
TECHNIQUES Préparation des données (Collecte, Sélection, Nettoyage
ET LOGICIELS ,codage)
DU DM
Consultation des données
Application des techniques DM
9. 9
ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U Puissance Domaine
DM Statistique
A P P L I C A T I O N S
IA
Réseaux de neurone Limite IA/STAT
METIERS DU
DM Algo génétique
P R O C E S S U S
STANDARD Réseau Bayésien
D’UNE ETUDE
DE DM Score,Regression,clusters
L E D M D A N S
LE PROCESSUS Arbre de decision
KDD
Association
TECHNIQUES
ET LOGICIELS Raisonnement à base de cas
DU DM
Lisibilité
Fig : Rapport entre le pouvoir de prédiction et la
lisibilité
10. 10
ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U techniques:
DM Statistiques
A P P L I C A T I O N S
METIERS DU Réseaux de neurone,
DM
APM,
P R O C E S S U S
STANDARD Arbres de décision
D’UNE ETUDE
DE DM Réseaux bayésiens;
L E D M D A N S
Raisonnement à base de cas
LE PROCESSUS
KDD logiciels:
TECHNIQUES Clémentine de SPSS, Entreprise Miner de SAS,
ET LOGICIELS ORACLE , XL Miner , Statistica Data Miner de
DU DM StatSoft .
TANAGRA, ORANGE, WEKA.
11. 11
LES ARBRES DE DECISION
HISTORIQUE
Paternité à Morgan et Sonquist (1963)
DEFINITION
avec les arbres de régression dans un
HYPOTHESES processus de prédiction et d’explication
ET OBJECTIFS AID
METHODOLOGI
E DES ARBRES Apogée avec la méthode CART de
DE DECISION
Breiman et al
TABLEAU
COMPARATIVE
DES la méthode ID3 de Quinlan 1979
ALGORITHMES
L’ALGORITHME
ID3;
AVANTAGES ET C4.5 dans les années 90
INCONVENIENTS
12. 12
LES ARBRES DE DECISION
HISTORIQUE
famille d’algorithmes d’apprentissage
DEFINITION
non paramétriques structurés avec
HYPOTHESES des arbres
ET OBJECTIFS
Chacun des nœuds de l’arbre est soit
METHODOLOGI une branche spécifiant un test sur une
E DES ARBRES valeur d’un attribut ou une feuille
DE DECISION dénotant une décision.
TABLEAU
Logement
COMPARATIVE Exemple:
DES
ALGORITHMES Locataire Propriétaire Famille
L’ALGORITHME Salaire Salaire co emp
ID3; OUI
AVANTAGES ET Faible Elevé
INCONVENIENTS Moyen Elevé
NON OUI NON OUI
13. 13
LES ARBRES DE DECISION
HISTORIQUE
Hypothèses
DEFINITION
DONNEES
HYPOTHESES ET • N individus
• P variables décrivant ces individus
OBJECTIFS
VARIABLE CIBLE (ou à prédire)
METHODOLOGIE
Variable classe/groupe (Qualitative)
DES ARBRES DE
DECISION VARIABLES EXPLICATIVES
TABLEAU Autres variables (Qualitatives et Quantitatives):
COMPARATIVE
DES
Objectifs:
ALGORITHMES Obtenir un critère de séparation
L’ALGORITHME Prendre une décision sur un nouvel
ID3;
exemple
AVANTAGES ET Produire des groupes d’individus les
INCONVENIENTS
plus homogènes possibles du point
de vue de la variable à prédire.
14. 14
LES ARBRES DE DECISION
HISTORIQUE
Choisir la variable de segmentation
DEFINITION
sur un sommet.
HYPOTHESES ET
OBJECTIFS
METHODOLOGIE
Le traitement des variables continues
DES ARBRES DE
DECISION
Taille de l’arbre
TABLEAU
COMPARATIVE
DES surajustement du modèle
ALGORITHMES
L’ALGORITHME
ID3; Pré-élagage
AVANTAGES ET
INCONVENIENTS
Post-élagage.
15. 15
LES ARBRES DE DECISION
HISTORIQUE Algorith Surajuste Critère de Type Type de
me ment segmentation d’arbre variables
DEFINITION
généré
HYPOTHESES ET CART Post- Indice de GINI arbres continues et
OBJECTIFS élagage binaires nominatives
METHODOLOGIE
DES ARBRES DE ID3 Pré-élagage Entropie de Arbre n- nominatives
DECISION Shannon aire
TABLEAU C4.5 Post- Entropie de Arbre n- continues et
COMPARATIVE élagage Shannon et aire nominatives
DES gain ratio
ALGORITHMES C5 Post- Entropie de Arbre n- continues et
élagage Shannon aire nominatives
L’ALGORITHME
ID3; CHAID Pré-élagage Test du chi-2 Arbre n- continues et
aire nominatives
AVANTAGES ET
INCONVENIENTS SLIQ Post- indice de Gini Arbre n- continues et
élagage aire nominatives
16. 16
LES ARBRES DE DECISION
HISTORIQUE
fonction ID3(exemples, attributCible, attributsNonCibles)
DEFINITION si exemples est vide alors /* Nœud terminal */
retourner un nœud Erreur
HYPOTHESES ET sinon si attributsNonCibles est vide alors /* Nœud terminal */
retourner un nœud ayant la valeur la plus représentée pour
OBJECTIFS attributCible
sinon si tous les exemples ont la même valeur pour attributCible
METHODOLOGIE alors /* Nœud terminal */
DES ARBRES DE retourner un nœud ayant cette valeur
DECISION sinon /* Nœud intermédiaire */
attributSélectionné = attribut maximisant le gain
TABLEAU d'information parmi attributsNonCibles
attributsNonCiblesRestants = suppressionListe
COMPARATIVE (attributsNonCibles, attributSélectionné)
DES nouveauNœud = nœud étiqueté avec attributSélectionné
ALGORITHMES
pour chaque valeur de attributSélectionné faire
L’ALGORITHME exemplesFiltrés =filtreExemplesAyantValeurPourAttribut
ID3; (exemples, attributSélectionné, valeur)
nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés,
AVANTAGES ET attributCible, attributsNonCiblesRestants)
finpour
INCONVENIENTS
retourner nouveauNœud
17. 17
LES ARBRES DE DECISION
HISTORIQUE • Notion d’entropie (Shannon): permet de
DEFINITION
mesurer le degré de mélange des
exemples entre les différentes classes ;
HYPOTHESES ET
OBJECTIFS
Soit un ensemble X d'exemples/p+ est
METHODOLOGIE positifs et p- est négatifs/(p+)+(p- )= 1.
DES ARBRES DE
DECISION H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-)
TABLEAU H(X) = -∑k={1..c} P(k/X) × log(P(k/X))
COMPARATIVE
DES 10
ALGORITHMES 9 Entropie
8
7
L’ALGORITHME 6
ID3; 5
4
3 P=p/(p+n)=n/(n+p)=0.5
AVANTAGES ET 2 équiprobable
INCONVENIENTS 1
0
0 1 2 3 4 5 6 7 8 9 10
18. 18
LES ARBRES DE DECISION
HISTORIQUE
DEFINITION Gain d'information :
HYPOTHESES ET
OBJECTIFS
une population d'exemples X. Le
METHODOLOGIE
DES ARBRES DE
gain d'information de X par rapport à
DECISION un attribut aj donné est la réduction
TABLEAU
d'entropie causée par la partition de X
COMPARATIVE selon aj :
DES
ALGORITHMES
L’ALGORITHME |Xaj=v|
ID3; Gain(X,aj)=H(X)- ∑ --------H(Xaj=v)
(v€Valeur(aj) ) |X|
AVANTAGES ET
INCONVENIENTS
19. 19
LES ARBRES DE DECISION
HISTORIQUE
Avantages
DEFINITION
lisibilité.
HYPOTHESES ET
OBJECTIFS capacité à sélectionner
automatiquement les variables.
METHODOLOGIE
DES ARBRES DE Robuste au bruit et aux valeurs
DECISION manquantes
TABLEAU Classification rapide(parcours d’un chemin
COMPARATIVE dans un arbre)
DES
ALGORITHMES Inconvénients
L’ALGORITHME
Evolutivité dans le temps:
dans le temps, il est nécessaire de relance la phase d’apprentissage
si les données évoluent
ID3;
Sensibles au nombre de classes:
AVANTAGES ET performances se dégradent
INCONVENIENTS
Nécessité d’un grand nombre d’individus
20. 20
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
ET développée par le franco-libanais
GENERALITES Benzecri à la fin des années 60 pour
SUR LA des applications linguistiques
METHODE
décrire de manière synthétique un
tableau de contingence
HYPOTHESES 1
Y
j p
ET OBJECTIFS 1
k11 k1j
k1p
X i ki1 kij kip ki.
n kn1 knj knp
k.j k
METHODOLOGIE
Profil-ligne i : fJi = {kij/ki.}
Profil-colonne j : fIj = {kij/k.j}
21. 21
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
Hypothéses
ET
Tableau de contingence d’abord
GENERALITES
SUR LA Pas de cases vides
METHODE Que des valeurs positives
Objectifs:
HYPOTHESES Déterminer et à hiérarchiser les
ET OBJECTIFS dépendances entre lignes et entre
colonnes;
révélerles interrelations entre
caractères
METHODOLOGIE
Mettre en évidence "ressemblances"
/ "dissemblances"
22. 22
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
ET le test du khi-deux
GENERALITES l'hypothèse H0 => indépendance
SUR LA H1 => dépendance
METHODE
Calcul du khi-2
k i . k. j
avec E ij
HYPOTHESES Khi-2 théorique
k
ET OBJECTIFS ddl= (Nb lignes -1) x (Nb colonnes -1).
ddl/alpha 1% 2% 5% 10%
1 6,6350 5,4120 3,8410 2,7060
2 9,2100 7 ,8240 5,9910 4,6050
METHODOLOGIE 3 11,3450 9,8370 7,8150 6,2510
4 13 ,2770 11,6680 9,4880 7,7090
5 15,0860 13,3880 11,0700 9,2360
. . . . .
. . . . .
. . . . .
n
23. 23
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
L'Analyse Factorielle des Correspondances
ET
GENERALITES
L'AFC du tableau de contingence: K, est
SUR LA l'ACP du tableau: X, des profils en ligne
METHODE p
dis tan ce(i, i ' ) ( xij xi ' j ) 2 / k ( j )
j 1
HYPOTHESES
Règles d’interprétation des profils :
ET OBJECTIFS
profils proches => deux modalités de
X ayant des distributions (répartitions)
suivant les modalités de Y assez
METHODOLOGIEsemblables.
profils éloignés => deux modalités de
X dont les distributions suivant les
modalités de Y sont très différentes
24. 24
CONCEPTION ET • PRESENTATION DE UML
MISE EN ŒUVRE
DE L’OUTIL
• MODELE DE LA BASE DE
CONCEPTION DONNEES
OUTILS DE
DEVELOPPEMENT
• DIAGRAMMES DE CAS
PRESENTATION
DE L’OUTIL D’UTILISATION
• DIAGRAMME DE SEQUENCES
26. DIAGRAMME DES CAS D’UTILISATION
26
Supprimer utilisateur
<<extend>>
Créer utilisateur
<<extend>>
<<include>>
Gestion des utilisateur Connexion
<<include>>
Administrateur <<include>>
Analyse avec les arbres de decision
<<extend>> Faire un apprentissage
<<extend>>
<<extend>>
Analyse des correspondances
<<extend>>
Faire une simulation
Utilisateur
27. DIAGRAMME DE SEQUENCES
SIMULATION ARBRE DE DECISION
27
outil
Administrateur/Utilisateur Demande de simulation
interface de selection de cible selection dimensions et faits
selection cible envoi cible
si cible qualitative
selection faits compatibles
interface de selection fait associé a la cible
selection fait
envoi fait associé à la cible
Fin Si
interface de selection des variables explicatives selection axes d'analyses compatibles
selection et rensegnement variables explicatives
envoi de la cible
vérification apprentissage
si apprentissage proposition de création de l'apprentissage avec les variable de la simulation
existe pas
si cible numérique création des intervalles de la cible
fin si
interface des variables de l'apprentissage
si exite variables explicatives
numériques
création des intervalles des variables explicatives
validation
fin si
fin si création apprentissage
selection résultats
Renvoie des résultats simulation
28. DIAGRAMME DE SEQUENCES ANALYSE
DES CORRESPONDANCES
28
outil
Administrateur / Utilisateur
Demande d'analyse
Selection dimensions
resultat selection
selection des deux variables à analyser
Selection faits en rapport avec ces deux variables
resultat selection
selection du fait pour l'analyse
selection données puis application de la methode si possible
Resultat analyse
29. 29
AUTRES OUTILS
CONCEPTION ET
MISE EN ŒUVRE
DE L’OUTIL WAMP SERVER
PHP
CONCEPTION
HTML
OUTILS DE
DEVELOPPEMENT JAVASCRIPT
PRESENTATION CSS
DE L’OUTIL
NOTEPAD++
30. 30
CONCEPTION
ET MISE EN
ŒUVRE DE
L’OUTIL
CONCEPTION
DEMONSTRATION
OUTILS DE
DEVELOPPEMENT PARTIELLE DE L’OUTIL
PRESENTATION
DE L’OUTIL
31. CONCLUSION
31
CE QUE NOUS AVONS RÉUSSIT:
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA
TECHNIQUE DES ARBRES DE DÉCISION
(APPRENTISSAGE ET SIMULATION)
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA
TECHNIQUE DE L’ANALYSE DES
CORRESPONDANCES DE DEUX VARIABLES
GESTION DES UTILISATEURS
P E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils