Présentation memo

République du Sénégal
Un Peuple – Un But – Une Foi
UNIVERSITE CHEIKH ANTA DIOP DE DAKAR

FACULTE DES SCIENCES ET TECHNIQUES
DEPARTEMENT MATHS /INFO
SECTION INFORMATIQUE
OPTION : S.I.R
MEMOIRE DE MASTER II INFORMATIQUE

OUTIL DE DATA MINING :
Les Arbres de décision et l’Analyse des
Correspondances sur une plateforme web
applicable a un entrepôt de données.
Présenté et soutenu par: Encadreur:
Cheikh Tidiane THIANDOUM M. Alphonse Diombo THIAKANE
Consultant en systèmes d’information
[Année académique 2009-2010] Expert en Business Intelligence

1

PLAN
2

• INTRODUCTION
PRESENTATION
DU SUJET • PRESENTATION ET PROBLEMATIQUE DU SUJET

PREMIERE
• ETAT DE L’ART DU DATA MINING
PARTIE

• LES ARBRES DE DECISION
DEUXIEME
PARTIE
• L’ANALYSE DES CORRESPONDANCES

• CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL
TROISIEME
PARTIE
• CONCLUSION

INTRODUCTION
3

 Production des entreprises en un temps
record d’une masse importante de données.

 Nécessité de développer de nouveaux outils

•Le DM comme discipline salvatrice des
entreprises: techniques dérivées de différents
domaines.
 Objet de ce mémoire: les arbres de décision
et l’analyse des correspondances (simples).

PRESENTATION ET
PROBLEMATIQUE DU SUJET
4

T R A V A I L A F A I R E

P L A T E F O R M E W E B

 ARBRES DE DÉCISION

A N A L Y S E D E S C O R R E S P O N D A N C E S

5
ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U Facteurs:
DM  La croissance exponentielle de la collecte des données,
A P P L I C A T I O N S
METIERS DU  Augmentation des capacités de stockage des données
DM (disques durs de giga octets);

P R O C E S S U S  Prolifération en parallèle des capacités de traitements
STANDARD des données;
D’UNE ETUDE
DE DM  L’émergence des entrepôts de données;

L E D M D A N S  La disponibilité des données grâce aux réseaux
LE PROCESSUS (intranet et internet);
KDD
 TECHNIQUES
Définition:
ET LOGICIELS
 Le Data mining comme domaine pluridisciplinaire
DU DM

 Deux types de DM: supervisé et non supervisé.

6
G E N È S E E T
D É F I N I T I O N D U  Marketing/stratégie: prévisions de ventes, ciblage de
clientèle, des besoins, des relations entres les différents produits
DM
A P P L I C A T I O N S  Secteur bancaire : scoring; cibler les
METIERS DU propositions de prêts et éviter les surendettements
DM
 Relations clientes: évaluer les risques, anticiper les
P R O C E S S U S attentes futures
STANDARD
D’UNE ETUDE Secteur de la téléphonie : prédiction de l’attrition
DE DM
 Grande distribution: analyse du panier de la
L E D M D A N S ménagère
LE PROCESSUS
KDD  Scientifique : identification et classification
d'objets célestes.
 TECHNIQUES
ET LOGICIELS  Médical: analyse de résultat d’une expérimentation
DU DM
 Sécurité informatique: recherche de
transactions frauduleuses par la police

7
G E N È S E E T
DÉFINITION DU PRESENTATION DU CRISP-DM
DM PROCESSUS du DATA MINING
METIERS DU Acteurs Étapes Phases
DM
Objectifs 1 : Compréhension du métier
P R O C E S S U S
Maître
STANDARD
D’UNE ETUDE d’œuvre 2 : Compréhension des données
DE DM
Données
L E D M D A N S 3 : Préparation des données
LE PROCESSUS
KDD
4 : Modélisation
 TECHNIQUES Traitements
ET LOGICIELS 5 : Évaluation de la modélisation
DU DM
Maître d’ouvrage Déploiement 6 : Déploiement des résultats de
l’étude

8
G E N È S E E T
DÉFINITION DU
DM
METIERS DU
DM
STANDARD
D’UNE ETUDE
DE DM
L E D M D A N S
LE PROCESSUS
KDD
 TECHNIQUES Préparation des données (Collecte, Sélection, Nettoyage
ET LOGICIELS ,codage)
DU DM
Consultation des données

Application des techniques DM

9
G E N È S E E T
D É F I N I T I O N D U Puissance Domaine
DM Statistique
IA
Réseaux de neurone Limite IA/STAT
METIERS DU
DM Algo génétique
STANDARD Réseau Bayésien
D’UNE ETUDE
DE DM Score,Regression,clusters

L E D M D A N S
LE PROCESSUS Arbre de decision
KDD
Association
 TECHNIQUES
ET LOGICIELS Raisonnement à base de cas
DU DM
Lisibilité
Fig : Rapport entre le pouvoir de prédiction et la
lisibilité

10
G E N È S E E T
D É F I N I T I O N D U techniques:
DM  Statistiques
METIERS DU  Réseaux de neurone,
DM
 APM,
STANDARD  Arbres de décision
D’UNE ETUDE
DE DM  Réseaux bayésiens;
L E D M D A N S
 Raisonnement à base de cas
LE PROCESSUS
KDD logiciels:
 TECHNIQUES  Clémentine de SPSS, Entreprise Miner de SAS,
ET LOGICIELS ORACLE , XL Miner , Statistica Data Miner de
DU DM StatSoft .

 TANAGRA, ORANGE, WEKA.

11
LES ARBRES DE DECISION
HISTORIQUE
 Paternité à Morgan et Sonquist (1963)
 DEFINITION
avec les arbres de régression dans un
HYPOTHESES processus de prédiction et d’explication
ET OBJECTIFS AID
METHODOLOGI
E DES ARBRES  Apogée avec la méthode CART de
DE DECISION
Breiman et al
TABLEAU
COMPARATIVE
DES  la méthode ID3 de Quinlan 1979
ALGORITHMES
L’ALGORITHME
ID3;
AVANTAGES ET  C4.5 dans les années 90
INCONVENIENTS

12
HISTORIQUE
 famille d’algorithmes d’apprentissage
 DEFINITION
non paramétriques structurés avec
HYPOTHESES des arbres
ET OBJECTIFS
 Chacun des nœuds de l’arbre est soit
METHODOLOGI une branche spécifiant un test sur une
E DES ARBRES valeur d’un attribut ou une feuille
DE DECISION dénotant une décision.
TABLEAU
Logement
COMPARATIVE  Exemple:
DES
ALGORITHMES Locataire Propriétaire Famille
L’ALGORITHME Salaire Salaire co emp
ID3; OUI

AVANTAGES ET Faible Elevé
INCONVENIENTS Moyen Elevé

NON OUI NON OUI

13
HISTORIQUE
Hypothèses
 DEFINITION
 DONNEES
HYPOTHESES ET • N individus
• P variables décrivant ces individus
OBJECTIFS
 VARIABLE CIBLE (ou à prédire)
METHODOLOGIE
Variable classe/groupe (Qualitative)
DES ARBRES DE
DECISION  VARIABLES EXPLICATIVES
TABLEAU Autres variables (Qualitatives et Quantitatives):
COMPARATIVE
DES
Objectifs:
ALGORITHMES  Obtenir un critère de séparation
L’ALGORITHME  Prendre une décision sur un nouvel
ID3;
exemple
AVANTAGES ET  Produire des groupes d’individus les
INCONVENIENTS
plus homogènes possibles du point
de vue de la variable à prédire.

14
HISTORIQUE
 Choisir la variable de segmentation
 DEFINITION
sur un sommet.
HYPOTHESES ET
OBJECTIFS
METHODOLOGIE
 Le traitement des variables continues
DES ARBRES DE
DECISION
 Taille de l’arbre
TABLEAU
COMPARATIVE
DES  surajustement du modèle
ALGORITHMES
L’ALGORITHME
ID3;  Pré-élagage

AVANTAGES ET
INCONVENIENTS
 Post-élagage.

15
HISTORIQUE Algorith Surajuste Critère de Type Type de
me ment segmentation d’arbre variables
 DEFINITION
généré
HYPOTHESES ET CART Post- Indice de GINI arbres continues et
OBJECTIFS élagage binaires nominatives
METHODOLOGIE
DES ARBRES DE ID3 Pré-élagage Entropie de Arbre n- nominatives
DECISION Shannon aire

TABLEAU C4.5 Post- Entropie de Arbre n- continues et
COMPARATIVE élagage Shannon et aire nominatives
DES gain ratio
ALGORITHMES C5 Post- Entropie de Arbre n- continues et
élagage Shannon aire nominatives
L’ALGORITHME
ID3; CHAID Pré-élagage Test du chi-2 Arbre n- continues et
aire nominatives
AVANTAGES ET
INCONVENIENTS SLIQ Post- indice de Gini Arbre n- continues et
élagage aire nominatives

16
HISTORIQUE
fonction ID3(exemples, attributCible, attributsNonCibles)
 DEFINITION si exemples est vide alors /* Nœud terminal */
retourner un nœud Erreur
HYPOTHESES ET sinon si attributsNonCibles est vide alors /* Nœud terminal */
retourner un nœud ayant la valeur la plus représentée pour
OBJECTIFS attributCible
sinon si tous les exemples ont la même valeur pour attributCible
METHODOLOGIE alors /* Nœud terminal */
DES ARBRES DE retourner un nœud ayant cette valeur
DECISION sinon /* Nœud intermédiaire */
attributSélectionné = attribut maximisant le gain
TABLEAU d'information parmi attributsNonCibles
attributsNonCiblesRestants = suppressionListe
COMPARATIVE (attributsNonCibles, attributSélectionné)
DES nouveauNœud = nœud étiqueté avec attributSélectionné
ALGORITHMES
pour chaque valeur de attributSélectionné faire
L’ALGORITHME exemplesFiltrés =filtreExemplesAyantValeurPourAttribut
ID3; (exemples, attributSélectionné, valeur)
nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés,
AVANTAGES ET attributCible, attributsNonCiblesRestants)
finpour
INCONVENIENTS
retourner nouveauNœud

17
HISTORIQUE • Notion d’entropie (Shannon): permet de
 DEFINITION
mesurer le degré de mélange des
exemples entre les différentes classes ;
HYPOTHESES ET
OBJECTIFS
 Soit un ensemble X d'exemples/p+ est
METHODOLOGIE positifs et p- est négatifs/(p+)+(p- )= 1.
DES ARBRES DE
DECISION  H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-)
TABLEAU H(X) = -∑k={1..c} P(k/X) × log(P(k/X))
COMPARATIVE
DES 10
ALGORITHMES 9 Entropie
8
7
L’ALGORITHME 6
ID3; 5
4
3 P=p/(p+n)=n/(n+p)=0.5
AVANTAGES ET 2 équiprobable
INCONVENIENTS 1
0
0 1 2 3 4 5 6 7 8 9 10

18
HISTORIQUE

 DEFINITION  Gain d'information :

HYPOTHESES ET
OBJECTIFS
 une population d'exemples X. Le
METHODOLOGIE
DES ARBRES DE
gain d'information de X par rapport à
DECISION un attribut aj donné est la réduction
TABLEAU
d'entropie causée par la partition de X
COMPARATIVE selon aj :
DES
ALGORITHMES
L’ALGORITHME |Xaj=v|
ID3; Gain(X,aj)=H(X)- ∑ --------H(Xaj=v)
(v€Valeur(aj) ) |X|
AVANTAGES ET
INCONVENIENTS

19
HISTORIQUE
 Avantages
 DEFINITION
 lisibilité.
HYPOTHESES ET
OBJECTIFS  capacité à sélectionner
automatiquement les variables.
METHODOLOGIE
DES ARBRES DE Robuste au bruit et aux valeurs
DECISION manquantes
TABLEAU Classification rapide(parcours d’un chemin
COMPARATIVE dans un arbre)
DES
ALGORITHMES  Inconvénients

L’ALGORITHME
 Evolutivité dans le temps:
dans le temps, il est nécessaire de relance la phase d’apprentissage
si les données évoluent

ID3;
Sensibles au nombre de classes:
AVANTAGES ET performances se dégradent
INCONVENIENTS
Nécessité d’un grand nombre d’individus

20
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
ET  développée par le franco-libanais
GENERALITES Benzecri à la fin des années 60 pour
SUR LA des applications linguistiques
METHODE
 décrire de manière synthétique un
tableau de contingence
HYPOTHESES 1 
Y
j  p

ET OBJECTIFS 1

k11 k1j

k1p

X i ki1  kij  kip ki.
 
n kn1 knj knp
k.j k

METHODOLOGIE
 Profil-ligne i : fJi = {kij/ki.}

Profil-colonne j : fIj = {kij/k.j}

21
HISTORIQUE
Hypothéses
ET
 Tableau de contingence d’abord
GENERALITES
SUR LA  Pas de cases vides
METHODE  Que des valeurs positives
Objectifs:
HYPOTHESES  Déterminer et à hiérarchiser les
ET OBJECTIFS dépendances entre lignes et entre
colonnes;
 révélerles interrelations entre
caractères
METHODOLOGIE

 Mettre en évidence "ressemblances"
/ "dissemblances"

22
HISTORIQUE
ET le test du khi-deux
GENERALITES  l'hypothèse H0 => indépendance
SUR LA H1 => dépendance
METHODE
 Calcul du khi-2
k i . k. j
avec E ij 
HYPOTHESES Khi-2 théorique
k

ET OBJECTIFS ddl= (Nb lignes -1) x (Nb colonnes -1).

ddl/alpha 1% 2% 5% 10%
1 6,6350 5,4120 3,8410 2,7060
2 9,2100 7 ,8240 5,9910 4,6050
METHODOLOGIE 3 11,3450 9,8370 7,8150 6,2510
4 13 ,2770 11,6680 9,4880 7,7090
5 15,0860 13,3880 11,0700 9,2360
. . . . .
. . . . .
. . . . .
n

23
HISTORIQUE
L'Analyse Factorielle des Correspondances
ET
GENERALITES
 L'AFC du tableau de contingence: K, est
SUR LA l'ACP du tableau: X, des profils en ligne
METHODE p
dis tan ce(i, i ' )   ( xij  xi ' j ) 2 / k ( j )
j 1
HYPOTHESES
Règles d’interprétation des profils :
ET OBJECTIFS
profils proches => deux modalités de
X ayant des distributions (répartitions)
suivant les modalités de Y assez
METHODOLOGIEsemblables.
 profils éloignés => deux modalités de
X dont les distributions suivant les
modalités de Y sont très différentes

24

CONCEPTION ET • PRESENTATION DE UML
MISE EN ŒUVRE
DE L’OUTIL
• MODELE DE LA BASE DE
 CONCEPTION DONNEES
 OUTILS DE
DEVELOPPEMENT
• DIAGRAMMES DE CAS
 PRESENTATION
DE L’OUTIL D’UTILISATION

• DIAGRAMME DE SEQUENCES

MODELE DE LA BASE DE DONNEES
25
Utilisateurs
+ id_user : int
+ login : String
+ pass : String
+ nom : String
+ prenom : String
+ privilége : String
Methode_score
+ code_MS : String
+ nom : String
+ table : String
+ TypeMS : String
0..*
+ Residu : String Distance
0..1 + Dist_valeur : float

0..* 0..*
0..*
0..*

MS_dimension MS_fait 0..1 0..1
+ MS_X : float + coefficient : double
+ MS_Y : float + MS_X : float modalite
+ MS_Y : float
+ code_mod : String
+ libelle_mode : String
+ MS_X : float
+ MS_Y : float

0..* 0..*
0..*
variablemere
+ codeVMere : String
+ libelle : String
+ sommeil : int 1..1
+ ordre : int
+ typev ar : String

DIAGRAMME DES CAS D’UTILISATION
26

Supprimer utilisateur

<<extend>>
Créer utilisateur

<<extend>>
<<include>>
Gestion des utilisateur Connexion

<<include>>

Administrateur <<include>>

Analyse avec les arbres de decision
<<extend>> Faire un apprentissage

<<extend>>

<<extend>>
Analyse des correspondances
<<extend>>
Faire une simulation

Utilisateur

DIAGRAMME DE SEQUENCES
SIMULATION ARBRE DE DECISION
27
outil

Administrateur/Utilisateur Demande de simulation

interface de selection de cible selection dimensions et faits

selection cible envoi cible

si cible qualitative
selection faits compatibles
interface de selection fait associé a la cible

selection fait
envoi fait associé à la cible
Fin Si
interface de selection des variables explicatives selection axes d'analyses compatibles

selection et rensegnement variables explicatives
envoi de la cible
vérification apprentissage
si apprentissage proposition de création de l'apprentissage avec les variable de la simulation
existe pas
si cible numérique création des intervalles de la cible
fin si

interface des variables de l'apprentissage
si exite variables explicatives
numériques
création des intervalles des variables explicatives
validation
fin si
fin si création apprentissage

selection résultats
Renvoie des résultats simulation

DIAGRAMME DE SEQUENCES ANALYSE
DES CORRESPONDANCES
28

outil

Administrateur / Utilisateur

Demande d'analyse

Selection dimensions

resultat selection

selection des deux variables à analyser

Selection faits en rapport avec ces deux variables
resultat selection

selection du fait pour l'analyse

selection données puis application de la methode si possible

Resultat analyse

29

AUTRES OUTILS
CONCEPTION ET
MISE EN ŒUVRE
DE L’OUTIL WAMP SERVER
 PHP
 CONCEPTION
 HTML
OUTILS DE
DEVELOPPEMENT  JAVASCRIPT
 PRESENTATION  CSS
DE L’OUTIL
 NOTEPAD++

30

CONCEPTION
ET MISE EN
ŒUVRE DE
L’OUTIL

 CONCEPTION
DEMONSTRATION
OUTILS DE
DEVELOPPEMENT PARTIELLE DE L’OUTIL
 PRESENTATION
DE L’OUTIL

CONCLUSION
31
CE QUE NOUS AVONS RÉUSSIT:
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA
TECHNIQUE DES ARBRES DE DÉCISION
(APPRENTISSAGE ET SIMULATION)
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA
TECHNIQUE DE L’ANALYSE DES
CORRESPONDANCES DE DEUX VARIABLES
GESTION DES UTILISATEURS

P E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils

MERCI DE VOTRE ATTENTION

32

Présentation memo

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (19)

Ähnlich wie Présentation memo

Ähnlich wie Présentation memo (20)

Présentation memo