SlideShare ist ein Scribd-Unternehmen logo
1 von 47
Techniques du Data Mining
DONIA HAMMAMI
ALYA LETAIF
Plan de la présentation
1) Introduction
2) Définition du Data Mining
3) Historique du Data Mining
4) Tâches du Data Mining
5) Techniques du Data Mining
6) Algorithmes du Data Mining
7) Conclusion
2
 L’entreposage de données nous permet de
regrouper toutes les données de
l’entreprise dans un seul système. De cet
entrepôt de données, nous pouvons
sélectionner, combiner et analyser
différents types de données.
 Ce dernier processus s’appelle Data
Mining. À l’aide des données disponibles,
nous essayons de trouver des associations
en comparant ou en combinant les données
de différentes sources.
3
Introduction (1)
Introduction (2)
 Le Data Mining est un domaine pluridisciplinaire permettant, à partir d’une
très importante quantité de données brutes, d’en extraire des informations
cachées, pertinentes et inconnues auparavant en vue d’une utilisation
industrielle ou opérationnelle de ce savoir.
 Le Data Mining est une découverte de modèles intéressants à partir d’un
ensemble de données de grande taille dans le but est d'extraire des données
disponibles au sein de toute entreprise les informations exploitables.
4
Définition du Data Mining
 Data Mining : forage de données
 Data Mining: ensemble des techniques et méthodes destinées à
l’exploration et l’analyse de grandes bases de données informatiques en vue
de détecter dans ces données des règles, des Associations, des structures
pour en extraire l’essentiel de l’information utile dont l’objectif est l’aide à
la décision.
5
Historique du Data Mining
 L’expression « Data Mining » serait apparue pour la première fois dans les
années 60.
 L’expression « Data Mining » réapparaît dans les années 80.
 Le concept apparaît en 1989 sous un premier nom de KDD (Knowledge
Discovery in Data bases).
 En 1991, le concept du Data Mining ou «fouille des données » apparaisse
pour la première fois aux États-Unis comme une nouvelle discipline à
l’interface de la statistique et des technologies de l’information.
6
Tâches du Data Mining (1)
7
La classification automatique supervisée:
Elle consiste à examiner les caractéristiques d’un objet nouvellement présenté afin
de l’affecter à une classe d’un ensemble prédéfini.
Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée
en utilisant le modèle de classification comme référence.
La classification automatique non supervisée:
Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités.
Elle ne se base pas sur des classes prédéfinies.
Tâches du Data Mining (2)
8
Les règles d’association :
C’est une tâche qui permet de découvrir les rapports de lien qui peuvent
exister dans une base de données. Ces liens sont généralement exprimés
sous la forme ‘‘ A è B ’’ qui signifie que la présence de A implique la
présence de B (avec une certaine probabilité).
Exemple : Un étudiant qui réussit en mathématiques réussira en
algorithmique dans 80% des cas.
Techniques du Data Mining
9
 Les techniques de « Data Mining » diffèrent en fonction des besoins de
l’utilisateur (selon les tâches à effectuer).
Chacune des tâches regroupe une multitude d’algorithmes pour construire le
modèle auquel elle est associée.
10
DataMining
Apprentissage
Supervisé
Les arbres de
décision
Les réseaux
de neurones
Apprentissage
non supervisé
Clustering Règles
Associatives
Sequence
Mining
Algorithmes de DATA Mining
Algorithme de segmentation non supervisé :
K-Means (1)
 L’algorithme des K-moyennes est un algorithme qui permet de trouver des
classes dans des données.
 Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques:
une classe n’est jamais incluse dans une autre classe
 L’algorithme fonctionne en précisant le nombre de classes attendues.
 L’algorithme calcule les distances Intra-Classe et Inter-Classe.
11
12
Mesures de similarité :
 Il n’y a pas de définition unique de la similarité entre objets .
 Différentes mesures de distances d (x ,y).
 La définition de la similarité entre objets dépend de :
 Le type des données considérées
 Le type de similarité recherchée
Algorithme de segmentation non supervisé :
K-Means (2)
13
 Données Numériques :
 Distance de Minkowski:
 Distance Euclidienne: K=2
 Distance de Manhattan : K=1
Algorithme de segmentation non supervisé :
K-Means (3)
14
Algorithme de segmentation non supervisé :
K-Means (4)
 Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1
 Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.
 Donnée énumératives ordonnées: idem. On peut définir une distance
utilisant la relation d’ordre.
Algorithme de segmentation non supervisé :
K-Means (5)
Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au son centre
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie
totale de la population)
FIN
15
16
Algorithme de segmentation non supervisé :
K-Means (6)
Inconvénients du K-Means
 Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est
nécessaire, car un mauvais choix de k produit de mauvais résultats.
 Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)
 L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale
correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres.
17
Algorithme de segmentation non supervisé :
K-Means (7)
18
Domaines D’application :
 Marketing : segmentation du marché en découvrant des groupes de clients distincts à
partir de la base de données des achats.
 Environnement : identification des zones terrestre similaire ( en terme d’utilisation ) dans
une base de donné d’observation de la terre.
 Assurance : identification des groupes d’assurés distincts associé à un nombre important
de déclarations.
 Planification de villes : identification des groupe d’habitants suivant le type d’habitation,
ville , localisation géographique …
 Médecine : Localisation de tumeurs dans le cerveau
Algorithme de segmentation non supervisé :
K-Means (8)
Les règles d’association (1)
 Les règles d'association sont traditionnellement liées au secteur de la distribution car leur
principale application est «l'analyse du panier de la ménagère» qui consiste en la recherche
d'associations entre produits sur les tickets de caisse.
 Le but de la méthode est l'étude de ce que les clients achètent pour obtenir des
informations sur qui sont les clients et pourquoi ils font certains achats.
 Exemples de règles d'association:
 Si un client achète des plantes alors il achète du terreau,
 Si un client achète du poisson et du citron alors il achète du coca.
 Si un client achète une télévision, il achètera un magnétoscope dans un an.
19
Description de la méthode :
 On suppose avoir défini une liste d'articles.
 On dispose en entrée d'une liste d'achats.
Définitions:
 Une règle d'association est une règle de la forme: Si condition alors résultat.
 Dans la pratique, on se limite, à des règles où la condition est une conjonction d'apparition d'articles et le
résultat est constitué d'un seul article.
 Par exemple, une règle à trois articles sera de la forme: Si X et Y alors Z; règle dont la sémantique peut être
énoncée: Si les articles X et Y apparaissent simultanément dans un achat alors l'article Z apparaît.
20
Les règles d’association (2)
 La méthode peut être appliquée à tout secteur d'activité pour lequel il est
intéressant de rechercher des groupements potentiels de produits ou de
services: services bancaires, services de télécommunications.
 Elle peut être utilisée dans le secteur médical pour la recherche de
complications dues à des associations de médicaments ou à la recherche de
fraudes en recherchant des associations inhabituelles.
21
Les règles d’association (3)
Modèles de prédiction : Les arbres de décision (1)
 « Les arbres de décision » permettent de classifier une population d’individus selon les valeurs
de leurs attributs. C’est une représentation graphique de la procédure de classification où :
Une feuille indique une classe ;
Un nœud spécifie un test que doit subir un certain attribut ;
Chaque branche correspond à une valeur possible de l’attribut.
 Pour classifier un nouvel objet, on suit le chemin partant de la racine (nœud initial) à une feuille
en effectuant les différents tests d’attributs à chaque nœud.
22
23
Apprentissage des arbres de décision
Algorithme d'apprentissage par arbres de décision
donnée: un échantillon S de m enregistrements
initialisation: arbre vide ; nœud courant : racine ; échantillon courant : S
Répéter
décider si le nœud courant est terminal
Si le nœud courant est terminal Alors
étiqueter le nœud courant par une feuille
Sinon
sélectionner un test et créer le sous arbre
Finsi
nœud courant : un nœud non encore étudié
échantillon courant : échantillon atteignant le nœud courant
Jusque production d'un arbre de décision
sortie
Modèles de prédiction : Les arbres de décision (2)
24
Modèles de prédiction : Les arbres de décision (3)
Exemple :
Base d’apprentissage:
décisions prises les 8
jours précédents le
problème (4 attributs
binaires et une classe)
25
Modèles de prédiction : Les arbres de décision (4)
 Entropie d’une variable aléatoire w :
 Entropie de w conditionnée par a :
 Résultat classique :


wDu
upupwH ))(log()()(


aw DDvu
vupvupawH
*,
))|(log(),()|(
)|()()|( awHwHawI 
Devoirs finis Maman de bonne
humeur
Temps = beau Goûter
pris
Décision
1 Vrai Faux Vrai Faux OUI
2 Faux Vrai Faux Vrai OUI
3 Vrai Vrai Vrai Faux OUI
4 Vrai Faux Vrai Vrai OUI
5 Faux Vrai Vrai Vrai NON
6 Faux Vrai Faux Faux NON
7 Vrai Faux Faux Vrai NON
8 Vrai Vrai Faux Faux NON
26
Modèles de prédiction : Les arbres de décision (5)
Calcul de H(w|DF), H(w|BH), H(w|TB) et H(w|GP)
H(w|BH) = 0.93, H(w|TB) = 0.8 et H(w|GP) = 1
)(
8
3
)(
8
5
)|( FauxDFJVraiDFJDFwH 













5
2
log
5
2
5
3
log
5
3
)( VraiDFJ 












3
2
log
3
2
3
1
log
3
1
)( FauxDFJ
27
Modèles de prédiction : Les arbres de décision (6)
28
Modèles de prédiction : Les arbres de décision (7)
 Compréhensible pour tout utilisateur (lisibilité du résultat –règles -arbre)
 Justification de la classification d’une instance (racine -> feuille)
 Tout type de données
 Robuste au bruit et aux valeurs manquantes
 Attributs apparaissent dans l’ordre de pertinence : tâche de pré- traitement (sélection
d’attributs)
 Classification rapide (parcours d’un chemin dans un arbre)
 Outils disponibles dans la plupart des environnements de data mining
29
Modèles de prédiction : Les arbres de décision (8)
 C’est une approche qui a été privilégiée par l'Intelligence Artificielle.
 Les réseaux de neurones sont fortement inspirés par le système nerveux
biologique.
 On peut entraîner un réseau de neurone pour une tâche spécifique
(reconnaissance de caractères par exemple) en ajustant
les valeurs des connections (ou poids) entre les éléments
neurone).
30
Modèles de prédiction : Les réseaux de neurones(1)
31
Soma Soma
Synapse
Synapse
Dendrites
Axon
Synapse
Dendrites
Axon
 Qu'est-ce qu'un neurone ?
Un neurone est une cellule d'un
système permettant la
communication et le traitement
de l'information.
 Qu'est-ce qu'un neurone
artificiel ?
Les réseaux de neurones artificiels sont un moyen de modéliser le mécanisme d'apprentissage et de
traitement de l'information qui se produit dans le cerveau humain.
Modèles de prédiction : Les réseaux de neurones(2)
32
Structure d’un neurone artificiel
Mise en correspondance neurone biologique / neurone artificiel
Modèles de prédiction : Les réseaux de neurones(3)
Biological Neuron Artificial Neuron
corps cellulaire neurone
Dendrites inputs
Axone output
Synapse poids
33
Réseaux de neurones
naturels vs. artificiels
réseau naturel réseau artificiel
fonctionnement du
neurone
réactions chimiques fonctions
mathématiques
temps de réaction relativement lent très rapide
nombre de neurones environ 10¹º entre 10⁴ et 10⁵
nombre de connexions environ 10¹³ jusqu'à 10⁷
Modèles de prédiction : Les réseaux de neurones(4)
34
Modèles de prédiction : Les réseaux de neurones(5)
• Les entrées "E" du neurone
proviennent soit d’autres
éléments "processeurs", soit de
l’environnement.
• Les poids "W" déterminent
l’influence de chaque entrée.
• La fonction de combinaison "p"
combine les entrées et les poids.
• La fonction de transfert calcule
la sortie "S" du neurone en
fonction de la combinaison en
entrée.
Σ Fct
E1
E2
E3
E4
En
S
w1
w2
w3
w4
wn
Σ f
p
FONCTION
de
TRANSFERT
FONCTION
de
COMBINAISON
35
 La Fonction de Combinaison calcule
l’influence de chaque entrée en tenant
compte de son poids. p = ∑ Wi Ei
• Wi : Poids de la connexion à l’entrée i.
• Ei : Signal de l’entrée i.
p
Σ f
E1
E2
E3
E4
En
S
w1
w2
w3
w4
wn
FONCTION
de
COMBINAISON
FONCTION
de
TRANSFERT
 La Fonction de Transfert détermine l'état du
neurone (en sortie)
• Calcul de la sortie : S = f(p)
• La fonction de transfert "f" peut avoir plusieurs formes.
Modèles de prédiction : Les réseaux de neurones(6)
36
Modèles de prédiction : Les réseaux de neurones(7)
Les fonctions de
transfert :
Domaines d’application :
 Traitement du signal
 Reconnaissance des formes
 Robotique
 Diagnostique et suivi médical Demande de crédit
37
Modèles de prédiction : Les réseaux de neurones(8)
Reconnaissance des formes :
 A2iA est aujourd'hui un des spécialistes mondiaux de reconnaissance de
l‘écriture manuscrite ou imprimée de qualité quelconque.
 Elle a mis au point un système opérationnel de lecture automatique des
montants littéraux des chèques.
38
Modèles de prédiction : Les réseaux de neurones(9)
Reconnaissance des formes :
 Le logiciel permet de saisir le montant d'un cheque quelconque. Il combine la
reconnaissance du montant chiffre avec la reconnaissance du montant lettre, ce
qui permet d'augmenter le taux d'acceptation et de diminuer le taux de rejet, et
d'atteindre un taux de confusion très faible de l'ordre de 1 / 1 000, inférieur au
taux d'erreur de saisie humaine.
39
Modèles de prédiction : Les réseaux de neurones(10)
Inconvénients :
 Le modèle n’est pas très lisible
 Traitement des données numériques après normalisation
Avantages :
 Calcul de classification simple
 Temps d’apprentissage
 Apprentissage non incrémental
 Pas pour un grand nombre d’entrées
40
Modèles de prédiction : Les réseaux de neurones(11)
41
Algorithme de classification supervisée : K-NN (1)
 La méthode des k plus proches voisins est une méthode d’apprentissage supervisé,
dédiée à la classification.
 Encore appelée KNN : k-nearest neighbor.
 L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel.
 L’objectif de l’algorithme est de classer les exemples non étiquetés sur la base de leur
similarité avec les exemples de la base d’apprentissage .
 L’algorithme kNN est utilisée dans de nombreux domaines :
 La reconnaissance de formes.
 La recherche de nouveaux biomarqueurs pour le diagnostic.
 Algorithmes de compression.
 Analyse d’image satellite…
42
Principe de fonctionnement
 Paramètre : le nombre k de voisins
 Donnée : un échantillon de m exemples et leurs classes
 La classe d’un exemple X est c(X)
 Entrée : un enregistrement Y
 1. Déterminer les k plus proches exemples de Y en calculant les distances
 2. Combiner les classes de ces k exemples en une classe c
 Sortie : la classe de Y est c(Y)=c
Algorithme de classification supervisée : K-NN (2)
43
Principe:
Algorithme de classification supervisée : K-NN (3)
44
Algorithme de classification supervisée : K-NN (4)
Exemple:
 Pas d’apprentissage: introduction de nouvelles données ne nécessite pas la reconstruction du
modèle. Tous les calculs doivent être effectues lors de la classification,
 Clarté des résultats,
 Tout type de données,
 Nombre d’attributs : La méthode permet de traiter des problèmes avec un grand nombre
d'attributs,
 Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand.
45
Algorithme de classification supervisée : K-NN (4)
Conclusion
 Les techniques de Data Mining ne font pas état des hypothèses fixées à priori, comme le font les
statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de
données. Le Data Mining fait passer de l’analyse confirmatoire à l’analyse exploratoire.
 Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des
données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le
meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes
les demandes.
46
Merci Pour votre attention 

Weitere ähnliche Inhalte

Was ist angesagt?

DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision Yassine Badri
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 

Was ist angesagt? (20)

DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 

Andere mochten auch

Andere mochten auch (13)

Apriori algorithm
Apriori algorithmApriori algorithm
Apriori algorithm
 
Apriori algorithm
Apriori algorithmApriori algorithm
Apriori algorithm
 
Apriori algorithm
Apriori algorithmApriori algorithm
Apriori algorithm
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
Apriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule MiningApriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule Mining
 
Fp growth
Fp growthFp growth
Fp growth
 
Fp growth algorithm
Fp growth algorithmFp growth algorithm
Fp growth algorithm
 
Data mining fp growth
Data mining fp growthData mining fp growth
Data mining fp growth
 
Frequent itemset mining methods
Frequent itemset mining methodsFrequent itemset mining methods
Frequent itemset mining methods
 
Lecture13 - Association Rules
Lecture13 - Association RulesLecture13 - Association Rules
Lecture13 - Association Rules
 
The comparative study of apriori and FP-growth algorithm
The comparative study of apriori and FP-growth algorithmThe comparative study of apriori and FP-growth algorithm
The comparative study of apriori and FP-growth algorithm
 
Data Mining: Association Rules Basics
Data Mining: Association Rules BasicsData Mining: Association Rules Basics
Data Mining: Association Rules Basics
 
Apriori Algorithm
Apriori AlgorithmApriori Algorithm
Apriori Algorithm
 

Ähnlich wie Techniques du data mining

Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationHajer Trabelsi
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMSamirAwad14
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherchePhilippe YONNET
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...AHMEDBELGHITH4
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la sciencehabib200
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxbely26
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 

Ähnlich wie Techniques du data mining (20)

DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
test
testtest
test
 
Cours BDD.pptx
Cours BDD.pptxCours BDD.pptx
Cours BDD.pptx
 
Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 

Mehr von Donia Hammami

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiDonia Hammami
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développementDonia Hammami
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées servicesDonia Hammami
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFEDonia Hammami
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étudeDonia Hammami
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI TunisieDonia Hammami
 

Mehr von Donia Hammami (10)

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
 
iRecruite
iRecruiteiRecruite
iRecruite
 
Sap project
Sap projectSap project
Sap project
 
E-learning
E-learningE-learning
E-learning
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développement
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées services
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisie
 

Kürzlich hochgeladen

GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...Institut de l'Elevage - Idele
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...Institut de l'Elevage - Idele
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...Institut de l'Elevage - Idele
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusInstitut de l'Elevage - Idele
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Ville de Châteauguay
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de planchermansouriahlam
 
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageInstitut de l'Elevage - Idele
 
optimisation logistique MLT_231102_155827.pdf
optimisation logistique  MLT_231102_155827.pdfoptimisation logistique  MLT_231102_155827.pdf
optimisation logistique MLT_231102_155827.pdfSoukainaMounawir
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...Institut de l'Elevage - Idele
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...Institut de l'Elevage - Idele
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirstjob4
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesInstitut de l'Elevage - Idele
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéInstitut de l'Elevage - Idele
 

Kürzlich hochgeladen (15)

GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de plancher
 
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
 
optimisation logistique MLT_231102_155827.pdf
optimisation logistique  MLT_231102_155827.pdfoptimisation logistique  MLT_231102_155827.pdf
optimisation logistique MLT_231102_155827.pdf
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdf
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentes
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversité
 

Techniques du data mining

  • 1. Techniques du Data Mining DONIA HAMMAMI ALYA LETAIF
  • 2. Plan de la présentation 1) Introduction 2) Définition du Data Mining 3) Historique du Data Mining 4) Tâches du Data Mining 5) Techniques du Data Mining 6) Algorithmes du Data Mining 7) Conclusion 2
  • 3.  L’entreposage de données nous permet de regrouper toutes les données de l’entreprise dans un seul système. De cet entrepôt de données, nous pouvons sélectionner, combiner et analyser différents types de données.  Ce dernier processus s’appelle Data Mining. À l’aide des données disponibles, nous essayons de trouver des associations en comparant ou en combinant les données de différentes sources. 3 Introduction (1)
  • 4. Introduction (2)  Le Data Mining est un domaine pluridisciplinaire permettant, à partir d’une très importante quantité de données brutes, d’en extraire des informations cachées, pertinentes et inconnues auparavant en vue d’une utilisation industrielle ou opérationnelle de ce savoir.  Le Data Mining est une découverte de modèles intéressants à partir d’un ensemble de données de grande taille dans le but est d'extraire des données disponibles au sein de toute entreprise les informations exploitables. 4
  • 5. Définition du Data Mining  Data Mining : forage de données  Data Mining: ensemble des techniques et méthodes destinées à l’exploration et l’analyse de grandes bases de données informatiques en vue de détecter dans ces données des règles, des Associations, des structures pour en extraire l’essentiel de l’information utile dont l’objectif est l’aide à la décision. 5
  • 6. Historique du Data Mining  L’expression « Data Mining » serait apparue pour la première fois dans les années 60.  L’expression « Data Mining » réapparaît dans les années 80.  Le concept apparaît en 1989 sous un premier nom de KDD (Knowledge Discovery in Data bases).  En 1991, le concept du Data Mining ou «fouille des données » apparaisse pour la première fois aux États-Unis comme une nouvelle discipline à l’interface de la statistique et des technologies de l’information. 6
  • 7. Tâches du Data Mining (1) 7 La classification automatique supervisée: Elle consiste à examiner les caractéristiques d’un objet nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée en utilisant le modèle de classification comme référence. La classification automatique non supervisée: Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des classes prédéfinies.
  • 8. Tâches du Data Mining (2) 8 Les règles d’association : C’est une tâche qui permet de découvrir les rapports de lien qui peuvent exister dans une base de données. Ces liens sont généralement exprimés sous la forme ‘‘ A è B ’’ qui signifie que la présence de A implique la présence de B (avec une certaine probabilité). Exemple : Un étudiant qui réussit en mathématiques réussira en algorithmique dans 80% des cas.
  • 9. Techniques du Data Mining 9  Les techniques de « Data Mining » diffèrent en fonction des besoins de l’utilisateur (selon les tâches à effectuer). Chacune des tâches regroupe une multitude d’algorithmes pour construire le modèle auquel elle est associée.
  • 10. 10 DataMining Apprentissage Supervisé Les arbres de décision Les réseaux de neurones Apprentissage non supervisé Clustering Règles Associatives Sequence Mining Algorithmes de DATA Mining
  • 11. Algorithme de segmentation non supervisé : K-Means (1)  L’algorithme des K-moyennes est un algorithme qui permet de trouver des classes dans des données.  Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe n’est jamais incluse dans une autre classe  L’algorithme fonctionne en précisant le nombre de classes attendues.  L’algorithme calcule les distances Intra-Classe et Inter-Classe. 11
  • 12. 12 Mesures de similarité :  Il n’y a pas de définition unique de la similarité entre objets .  Différentes mesures de distances d (x ,y).  La définition de la similarité entre objets dépend de :  Le type des données considérées  Le type de similarité recherchée Algorithme de segmentation non supervisé : K-Means (2)
  • 13. 13  Données Numériques :  Distance de Minkowski:  Distance Euclidienne: K=2  Distance de Manhattan : K=1 Algorithme de segmentation non supervisé : K-Means (3)
  • 14. 14 Algorithme de segmentation non supervisé : K-Means (4)  Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1  Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.  Donnée énumératives ordonnées: idem. On peut définir une distance utilisant la relation d’ordre.
  • 15. Algorithme de segmentation non supervisé : K-Means (5) Algorithme K-Means Entrée : k le nombre de groupes cherchés DEBUT Choisir aléatoirement les centres des groupes REPETER i. Affecter chaque cas au groupe dont il est le plus proche au son centre ii. Recalculer le centre de chaque groupe JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie totale de la population) FIN 15
  • 16. 16 Algorithme de segmentation non supervisé : K-Means (6)
  • 17. Inconvénients du K-Means  Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est nécessaire, car un mauvais choix de k produit de mauvais résultats.  Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)  L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale correspondant à la fonction objective minimale.  Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres. 17 Algorithme de segmentation non supervisé : K-Means (7)
  • 18. 18 Domaines D’application :  Marketing : segmentation du marché en découvrant des groupes de clients distincts à partir de la base de données des achats.  Environnement : identification des zones terrestre similaire ( en terme d’utilisation ) dans une base de donné d’observation de la terre.  Assurance : identification des groupes d’assurés distincts associé à un nombre important de déclarations.  Planification de villes : identification des groupe d’habitants suivant le type d’habitation, ville , localisation géographique …  Médecine : Localisation de tumeurs dans le cerveau Algorithme de segmentation non supervisé : K-Means (8)
  • 19. Les règles d’association (1)  Les règles d'association sont traditionnellement liées au secteur de la distribution car leur principale application est «l'analyse du panier de la ménagère» qui consiste en la recherche d'associations entre produits sur les tickets de caisse.  Le but de la méthode est l'étude de ce que les clients achètent pour obtenir des informations sur qui sont les clients et pourquoi ils font certains achats.  Exemples de règles d'association:  Si un client achète des plantes alors il achète du terreau,  Si un client achète du poisson et du citron alors il achète du coca.  Si un client achète une télévision, il achètera un magnétoscope dans un an. 19
  • 20. Description de la méthode :  On suppose avoir défini une liste d'articles.  On dispose en entrée d'une liste d'achats. Définitions:  Une règle d'association est une règle de la forme: Si condition alors résultat.  Dans la pratique, on se limite, à des règles où la condition est une conjonction d'apparition d'articles et le résultat est constitué d'un seul article.  Par exemple, une règle à trois articles sera de la forme: Si X et Y alors Z; règle dont la sémantique peut être énoncée: Si les articles X et Y apparaissent simultanément dans un achat alors l'article Z apparaît. 20 Les règles d’association (2)
  • 21.  La méthode peut être appliquée à tout secteur d'activité pour lequel il est intéressant de rechercher des groupements potentiels de produits ou de services: services bancaires, services de télécommunications.  Elle peut être utilisée dans le secteur médical pour la recherche de complications dues à des associations de médicaments ou à la recherche de fraudes en recherchant des associations inhabituelles. 21 Les règles d’association (3)
  • 22. Modèles de prédiction : Les arbres de décision (1)  « Les arbres de décision » permettent de classifier une population d’individus selon les valeurs de leurs attributs. C’est une représentation graphique de la procédure de classification où : Une feuille indique une classe ; Un nœud spécifie un test que doit subir un certain attribut ; Chaque branche correspond à une valeur possible de l’attribut.  Pour classifier un nouvel objet, on suit le chemin partant de la racine (nœud initial) à une feuille en effectuant les différents tests d’attributs à chaque nœud. 22
  • 23. 23 Apprentissage des arbres de décision Algorithme d'apprentissage par arbres de décision donnée: un échantillon S de m enregistrements initialisation: arbre vide ; nœud courant : racine ; échantillon courant : S Répéter décider si le nœud courant est terminal Si le nœud courant est terminal Alors étiqueter le nœud courant par une feuille Sinon sélectionner un test et créer le sous arbre Finsi nœud courant : un nœud non encore étudié échantillon courant : échantillon atteignant le nœud courant Jusque production d'un arbre de décision sortie Modèles de prédiction : Les arbres de décision (2)
  • 24. 24 Modèles de prédiction : Les arbres de décision (3) Exemple : Base d’apprentissage: décisions prises les 8 jours précédents le problème (4 attributs binaires et une classe)
  • 25. 25 Modèles de prédiction : Les arbres de décision (4)  Entropie d’une variable aléatoire w :  Entropie de w conditionnée par a :  Résultat classique :   wDu upupwH ))(log()()(   aw DDvu vupvupawH *, ))|(log(),()|( )|()()|( awHwHawI 
  • 26. Devoirs finis Maman de bonne humeur Temps = beau Goûter pris Décision 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON 26 Modèles de prédiction : Les arbres de décision (5) Calcul de H(w|DF), H(w|BH), H(w|TB) et H(w|GP) H(w|BH) = 0.93, H(w|TB) = 0.8 et H(w|GP) = 1 )( 8 3 )( 8 5 )|( FauxDFJVraiDFJDFwH               5 2 log 5 2 5 3 log 5 3 )( VraiDFJ              3 2 log 3 2 3 1 log 3 1 )( FauxDFJ
  • 27. 27 Modèles de prédiction : Les arbres de décision (6)
  • 28. 28 Modèles de prédiction : Les arbres de décision (7)
  • 29.  Compréhensible pour tout utilisateur (lisibilité du résultat –règles -arbre)  Justification de la classification d’une instance (racine -> feuille)  Tout type de données  Robuste au bruit et aux valeurs manquantes  Attributs apparaissent dans l’ordre de pertinence : tâche de pré- traitement (sélection d’attributs)  Classification rapide (parcours d’un chemin dans un arbre)  Outils disponibles dans la plupart des environnements de data mining 29 Modèles de prédiction : Les arbres de décision (8)
  • 30.  C’est une approche qui a été privilégiée par l'Intelligence Artificielle.  Les réseaux de neurones sont fortement inspirés par le système nerveux biologique.  On peut entraîner un réseau de neurone pour une tâche spécifique (reconnaissance de caractères par exemple) en ajustant les valeurs des connections (ou poids) entre les éléments neurone). 30 Modèles de prédiction : Les réseaux de neurones(1)
  • 31. 31 Soma Soma Synapse Synapse Dendrites Axon Synapse Dendrites Axon  Qu'est-ce qu'un neurone ? Un neurone est une cellule d'un système permettant la communication et le traitement de l'information.  Qu'est-ce qu'un neurone artificiel ? Les réseaux de neurones artificiels sont un moyen de modéliser le mécanisme d'apprentissage et de traitement de l'information qui se produit dans le cerveau humain. Modèles de prédiction : Les réseaux de neurones(2)
  • 32. 32 Structure d’un neurone artificiel Mise en correspondance neurone biologique / neurone artificiel Modèles de prédiction : Les réseaux de neurones(3) Biological Neuron Artificial Neuron corps cellulaire neurone Dendrites inputs Axone output Synapse poids
  • 33. 33 Réseaux de neurones naturels vs. artificiels réseau naturel réseau artificiel fonctionnement du neurone réactions chimiques fonctions mathématiques temps de réaction relativement lent très rapide nombre de neurones environ 10¹º entre 10⁴ et 10⁵ nombre de connexions environ 10¹³ jusqu'à 10⁷ Modèles de prédiction : Les réseaux de neurones(4)
  • 34. 34 Modèles de prédiction : Les réseaux de neurones(5) • Les entrées "E" du neurone proviennent soit d’autres éléments "processeurs", soit de l’environnement. • Les poids "W" déterminent l’influence de chaque entrée. • La fonction de combinaison "p" combine les entrées et les poids. • La fonction de transfert calcule la sortie "S" du neurone en fonction de la combinaison en entrée. Σ Fct E1 E2 E3 E4 En S w1 w2 w3 w4 wn Σ f p FONCTION de TRANSFERT FONCTION de COMBINAISON
  • 35. 35  La Fonction de Combinaison calcule l’influence de chaque entrée en tenant compte de son poids. p = ∑ Wi Ei • Wi : Poids de la connexion à l’entrée i. • Ei : Signal de l’entrée i. p Σ f E1 E2 E3 E4 En S w1 w2 w3 w4 wn FONCTION de COMBINAISON FONCTION de TRANSFERT  La Fonction de Transfert détermine l'état du neurone (en sortie) • Calcul de la sortie : S = f(p) • La fonction de transfert "f" peut avoir plusieurs formes. Modèles de prédiction : Les réseaux de neurones(6)
  • 36. 36 Modèles de prédiction : Les réseaux de neurones(7) Les fonctions de transfert :
  • 37. Domaines d’application :  Traitement du signal  Reconnaissance des formes  Robotique  Diagnostique et suivi médical Demande de crédit 37 Modèles de prédiction : Les réseaux de neurones(8)
  • 38. Reconnaissance des formes :  A2iA est aujourd'hui un des spécialistes mondiaux de reconnaissance de l‘écriture manuscrite ou imprimée de qualité quelconque.  Elle a mis au point un système opérationnel de lecture automatique des montants littéraux des chèques. 38 Modèles de prédiction : Les réseaux de neurones(9)
  • 39. Reconnaissance des formes :  Le logiciel permet de saisir le montant d'un cheque quelconque. Il combine la reconnaissance du montant chiffre avec la reconnaissance du montant lettre, ce qui permet d'augmenter le taux d'acceptation et de diminuer le taux de rejet, et d'atteindre un taux de confusion très faible de l'ordre de 1 / 1 000, inférieur au taux d'erreur de saisie humaine. 39 Modèles de prédiction : Les réseaux de neurones(10)
  • 40. Inconvénients :  Le modèle n’est pas très lisible  Traitement des données numériques après normalisation Avantages :  Calcul de classification simple  Temps d’apprentissage  Apprentissage non incrémental  Pas pour un grand nombre d’entrées 40 Modèles de prédiction : Les réseaux de neurones(11)
  • 41. 41 Algorithme de classification supervisée : K-NN (1)  La méthode des k plus proches voisins est une méthode d’apprentissage supervisé, dédiée à la classification.  Encore appelée KNN : k-nearest neighbor.  L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel.  L’objectif de l’algorithme est de classer les exemples non étiquetés sur la base de leur similarité avec les exemples de la base d’apprentissage .  L’algorithme kNN est utilisée dans de nombreux domaines :  La reconnaissance de formes.  La recherche de nouveaux biomarqueurs pour le diagnostic.  Algorithmes de compression.  Analyse d’image satellite…
  • 42. 42 Principe de fonctionnement  Paramètre : le nombre k de voisins  Donnée : un échantillon de m exemples et leurs classes  La classe d’un exemple X est c(X)  Entrée : un enregistrement Y  1. Déterminer les k plus proches exemples de Y en calculant les distances  2. Combiner les classes de ces k exemples en une classe c  Sortie : la classe de Y est c(Y)=c Algorithme de classification supervisée : K-NN (2)
  • 44. 44 Algorithme de classification supervisée : K-NN (4) Exemple:
  • 45.  Pas d’apprentissage: introduction de nouvelles données ne nécessite pas la reconstruction du modèle. Tous les calculs doivent être effectues lors de la classification,  Clarté des résultats,  Tout type de données,  Nombre d’attributs : La méthode permet de traiter des problèmes avec un grand nombre d'attributs,  Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand. 45 Algorithme de classification supervisée : K-NN (4)
  • 46. Conclusion  Les techniques de Data Mining ne font pas état des hypothèses fixées à priori, comme le font les statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de données. Le Data Mining fait passer de l’analyse confirmatoire à l’analyse exploratoire.  Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes les demandes. 46
  • 47. Merci Pour votre attention 

Hinweis der Redaktion

  1. Ces algorithmes sont classifiés, selon la tâche associée, comme suit : - Algorithmes de construction des arbres de décision : CART, C4.5 ; - Algorithmes de classification non supervisée : k-Means, EM ; - Algorithmes de classification supervisée : k-NN, SVM, Naive Bayes et AdaBoost ; - Algorithme d’extraction des règles d’association : Apriori ; - Algorithme de classification automatique des pages Web : PageRank.
  2. Pour construire notre arbre de décision: il faut commencer par choisir la racine pour cela nous allons calculer les entropies de toutes les attributs
  3. La fonction ‘f’ peut être de la forme : Fonction en échelon. Fonction linéaire par morceaux. Fonction dérivable (sigmoïde).