SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
Clustering
(Segmentation)
Alya LETAIF
Donia HAMMAMI
Plan de la présentation
1. C’est quoi la segmentation ?
2. Qu’est ce qu’un bon regroupement ?
3. Classification des algorithmes de clustering
4. Mesure de similarité
5. Présentation de l’algorithme K-Means
6. Domaine d’application de l’algorithme K-Means
7. Variantes de K-Means
8. Organigramme de l’algorithme K-Means
9. Algorithme K-Means
10.Simulation de l’algorithme K-Means
11.Avantages et Inconvénients de l’algorithme K-means
12.Conclusion 2
C’est quoi la segmentation ?
 Regroupement (Clustering): construire une collection d’objets
 Similaires au sein d’un même groupe
 Dissimilaires quand ils appartiennent à des groupes différents
 Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies
à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des
enregistrements).
 Le Clustering est de la classification non supervisée: Elle vise à identifier des
ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des
classes prédéfinies.
3
4
Qu’est ce qu’un bon regroupement ?
 Une bonne méthode de regroupement permet de garantir :
 Une grande similarité intra-groupe
 Une faible similarité inter-groupe
 La qualité d’un regroupement dépend donc de la mesure de similarité utilisée
par la méthode et de son implémentation.
Mesure de similarité (1/3)
 Il n’y a pas de définition unique de la similarité entre objets .
 Différentes mesures de distances d (x ,y).
 La définition de la similarité entre objets dépend de :
 Le type des données considérées
 Le type de similarité recherchée
5
Mesure de similarité (2/3)
 Données Numériques :
 Distance de Minkowski:
 Distance euclidienne: q=2
 Distance de Manhattan : q=1
6
Mesure de similarité (3/3)
 Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1
 Donnée énumératives: Distance nulle si les valeurs sont égales et 1
sinon.
 Donnée énumératives ordonnées: idem. On peut définir une distance
utilisant la relation d’ordre.
7
Classification des algorithmes de Clustering (1)
 Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière
récursive les instances. On a deux catégories :
 Segmentation hiérarchique des divisions: chaque objet est initialement
supposé un cluster.
 Segmentation hiérarchique ascendante: tous les objets forment un seul
cluster.
 Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de
densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de
probabilité spécifique.
 Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité.
8
Classification des algorithmes de Clustering (2)
 Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite
on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les
plus utilisés sont:
 Les arbres de décision.
 Les réseaux de neurone.
 Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant
d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent
que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:
 L’algorithme des K-moyennes (K-Means).
9
Présentation de l’algorithme K-Means
 Un algorithme de classification non supervisée.
 Encore appelée méthode des centres mobiles.
 L’algorithme des K-moyennes permet de trouver des classes dans des données.
 Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe
n’est jamais incluse dans une autre classe .
 L’algorithme fonctionne en précisant le nombre de classes attendues.
 L’algorithme calcule les distances Intra-Classe et Inter-Classe.
10
Domaines d’application
 Marketing : Segmentation du marché afin d’obtenir des groupes de clients
distincts à partir d’une base de données d’achat.
 Assurance : Identification des groupes d’assurés distincts associés à un nombre
important de déclarations.
 Planification des villes : Identification des groupes d’habitons suivant le type
d’habitation, ville, localisation géographique …
 Médecine : Localisation de tumeurs dans le cerveau
11
K-Means : Variantes
 Algorithme basé sur la sélection des centres initiaux .
 Algorithme basé Calcul des similarités.
 Algorithme basé Calcul des centres.
 Algorithme GMM : Variante basée sur les probabilités.
 Algorithme K-modes : Utilisé pour les données catégorielles.
 Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles).
12
Organigramme de l’algorithme K-Means
13
Algorithme des k-moyennes (K-Means)
 Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche à son centre
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres)
OU (nombre d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN
14
Simulation du k-Means (1/6)
A B
C
D
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
 4 types de médicaments ayant
chacun deux modalités : La
concentration et l’efficacité, on
veut créer deux classes => K=2.
Médicaments Concentration Efficacité
A 1 1
B 2 1
C 4 3
D 5 4
15
Simulation du k-Means (2/6)
Etape 1 : On désigne aléatoirement A et B
comme centre de classes.
• C1 = A
• C2 = B
Etape 2 : On assigne chaque point à une
des classes.
On commence par D :
A B
C
D
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
16
Simulation du k-Means (3/6)
A B
C
D
C2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
Etape 3 : Calcul les nouveaux centres des
classes compte tenu de la nouvelle
classification.
17
Simulation du k-Means (4/6)
 Nous voilà à nouveau à l’étape 1.
 On commence la deuxième
itération de l’algorithme.
 On réassigne chaque médicament à
une classe en calculant la distance
les séparant des nouveaux centres
de classe .
 On repart à l’étape 2.
A B
C
D
C2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
18
Simulation du k-Means (5/6)
 On répète les étapes jusqu’à
convergence.
 Connaissant les membres de chaque
classe, on recalcule les centres des
classes pour chacun de leurs nouveaux
membres.
A B
C
D
C2
C1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
19
Simulation du k-Means (6/6)
Le résultat final est donc:
 Classe1 = {A , B} avec centre de
classe c1 = (1.5 , 1).
 Classe2 = {C , D} avec centre de
classe c2 = (4.5 , 3.5).
A B
C
D
C2
C1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
20
K-moyennes : Avantages
 L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre
et à mettre en œuvre,
 La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune
information sur les données,
 Rapidité et faibles exigences en taille mémoire,
 La méthode est applicable à tout type de données (mêmes textuelles), en choisissant
une bonne notion de distance.
21
 Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est
nécessaire, car un mauvais choix de k produit de mauvais résultats.
 Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)
 L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale
correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des
centres.
K-moyennes : Inconvénients
22
Conclusion
 Le clustering groupe des objets en se en basant sur leurs similarités.
 La mesure de similarité peut être calculée pour différents types de données.
 La sélection de la de mesure de de similarité dépend des des données utilisées et le type
de similarité recherchée.
 La segmentation est utilisée dans différents domaines de recherche tels que la bio-
informatique, analyse financière, classification des séquences d'ADN, génie logiciel,
locomotion de robots, etc…
23
Merci pour votre
attention 

Weitere ähnliche Inhalte

Was ist angesagt?

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
Giorgio Pauletto
 

Was ist angesagt? (20)

Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
clustering
clusteringclustering
clustering
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage Automatique
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Machine-learning-FR.pdf
Machine-learning-FR.pdfMachine-learning-FR.pdf
Machine-learning-FR.pdf
 
Prez PFE
Prez PFEPrez PFE
Prez PFE
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 

Andere mochten auch

Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011
Stefany Bedoya
 

Andere mochten auch (20)

Segmentation par watershed
Segmentation par watershedSegmentation par watershed
Segmentation par watershed
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées services
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
 
Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011
 
2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine
 
Forum hr03
Forum hr03Forum hr03
Forum hr03
 
Red de lecturas 3
Red de lecturas 3Red de lecturas 3
Red de lecturas 3
 
Devis
DevisDevis
Devis
 
Candidater : Les ABCs
Candidater : Les ABCsCandidater : Les ABCs
Candidater : Les ABCs
 
Our prez
Our prezOur prez
Our prez
 
Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)
 
Red lecturas 2 -
Red lecturas 2 -Red lecturas 2 -
Red lecturas 2 -
 
Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015
 
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
 
Google Developers Overview Deck 2015
Google Developers Overview Deck 2015Google Developers Overview Deck 2015
Google Developers Overview Deck 2015
 
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
 
Jci training policy manual eng 2013-01
Jci training policy manual eng 2013-01Jci training policy manual eng 2013-01
Jci training policy manual eng 2013-01
 

Ähnlich wie Exposé segmentation

Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
imane26
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
nesrinetaamallah
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
Franck Dernoncourt
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
OuailChoukhairi
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
jfeudeline
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
AHMEDBELGHITH4
 

Ähnlich wie Exposé segmentation (20)

Clustering.pdf
Clustering.pdfClustering.pdf
Clustering.pdf
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classification
 
POO -- (programmation orienté objet).pdf
POO -- (programmation orienté objet).pdfPOO -- (programmation orienté objet).pdf
POO -- (programmation orienté objet).pdf
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
test
testtest
test
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 

Mehr von Donia Hammami (7)

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
 
iRecruite
iRecruiteiRecruite
iRecruite
 
Sap project
Sap projectSap project
Sap project
 
E-learning
E-learningE-learning
E-learning
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développement
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisie
 

Exposé segmentation

  • 2. Plan de la présentation 1. C’est quoi la segmentation ? 2. Qu’est ce qu’un bon regroupement ? 3. Classification des algorithmes de clustering 4. Mesure de similarité 5. Présentation de l’algorithme K-Means 6. Domaine d’application de l’algorithme K-Means 7. Variantes de K-Means 8. Organigramme de l’algorithme K-Means 9. Algorithme K-Means 10.Simulation de l’algorithme K-Means 11.Avantages et Inconvénients de l’algorithme K-means 12.Conclusion 2
  • 3. C’est quoi la segmentation ?  Regroupement (Clustering): construire une collection d’objets  Similaires au sein d’un même groupe  Dissimilaires quand ils appartiennent à des groupes différents  Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des enregistrements).  Le Clustering est de la classification non supervisée: Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des classes prédéfinies. 3
  • 4. 4 Qu’est ce qu’un bon regroupement ?  Une bonne méthode de regroupement permet de garantir :  Une grande similarité intra-groupe  Une faible similarité inter-groupe  La qualité d’un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.
  • 5. Mesure de similarité (1/3)  Il n’y a pas de définition unique de la similarité entre objets .  Différentes mesures de distances d (x ,y).  La définition de la similarité entre objets dépend de :  Le type des données considérées  Le type de similarité recherchée 5
  • 6. Mesure de similarité (2/3)  Données Numériques :  Distance de Minkowski:  Distance euclidienne: q=2  Distance de Manhattan : q=1 6
  • 7. Mesure de similarité (3/3)  Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1  Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.  Donnée énumératives ordonnées: idem. On peut définir une distance utilisant la relation d’ordre. 7
  • 8. Classification des algorithmes de Clustering (1)  Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière récursive les instances. On a deux catégories :  Segmentation hiérarchique des divisions: chaque objet est initialement supposé un cluster.  Segmentation hiérarchique ascendante: tous les objets forment un seul cluster.  Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de probabilité spécifique.  Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité. 8
  • 9. Classification des algorithmes de Clustering (2)  Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les plus utilisés sont:  Les arbres de décision.  Les réseaux de neurone.  Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:  L’algorithme des K-moyennes (K-Means). 9
  • 10. Présentation de l’algorithme K-Means  Un algorithme de classification non supervisée.  Encore appelée méthode des centres mobiles.  L’algorithme des K-moyennes permet de trouver des classes dans des données.  Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe n’est jamais incluse dans une autre classe .  L’algorithme fonctionne en précisant le nombre de classes attendues.  L’algorithme calcule les distances Intra-Classe et Inter-Classe. 10
  • 11. Domaines d’application  Marketing : Segmentation du marché afin d’obtenir des groupes de clients distincts à partir d’une base de données d’achat.  Assurance : Identification des groupes d’assurés distincts associés à un nombre important de déclarations.  Planification des villes : Identification des groupes d’habitons suivant le type d’habitation, ville, localisation géographique …  Médecine : Localisation de tumeurs dans le cerveau 11
  • 12. K-Means : Variantes  Algorithme basé sur la sélection des centres initiaux .  Algorithme basé Calcul des similarités.  Algorithme basé Calcul des centres.  Algorithme GMM : Variante basée sur les probabilités.  Algorithme K-modes : Utilisé pour les données catégorielles.  Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles). 12
  • 14. Algorithme des k-moyennes (K-Means)  Algorithme K-Means Entrée : k le nombre de groupes cherchés DEBUT Choisir aléatoirement les centres des groupes REPETER i. Affecter chaque cas au groupe dont il est le plus proche à son centre ii. Recalculer le centre de chaque groupe JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie totale de la population) FIN 14
  • 15. Simulation du k-Means (1/6) A B C D 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION  4 types de médicaments ayant chacun deux modalités : La concentration et l’efficacité, on veut créer deux classes => K=2. Médicaments Concentration Efficacité A 1 1 B 2 1 C 4 3 D 5 4 15
  • 16. Simulation du k-Means (2/6) Etape 1 : On désigne aléatoirement A et B comme centre de classes. • C1 = A • C2 = B Etape 2 : On assigne chaque point à une des classes. On commence par D : A B C D 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 16
  • 17. Simulation du k-Means (3/6) A B C D C2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION Etape 3 : Calcul les nouveaux centres des classes compte tenu de la nouvelle classification. 17
  • 18. Simulation du k-Means (4/6)  Nous voilà à nouveau à l’étape 1.  On commence la deuxième itération de l’algorithme.  On réassigne chaque médicament à une classe en calculant la distance les séparant des nouveaux centres de classe .  On repart à l’étape 2. A B C D C2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 18
  • 19. Simulation du k-Means (5/6)  On répète les étapes jusqu’à convergence.  Connaissant les membres de chaque classe, on recalcule les centres des classes pour chacun de leurs nouveaux membres. A B C D C2 C1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 19
  • 20. Simulation du k-Means (6/6) Le résultat final est donc:  Classe1 = {A , B} avec centre de classe c1 = (1.5 , 1).  Classe2 = {C , D} avec centre de classe c2 = (4.5 , 3.5). A B C D C2 C1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 20
  • 21. K-moyennes : Avantages  L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre et à mettre en œuvre,  La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune information sur les données,  Rapidité et faibles exigences en taille mémoire,  La méthode est applicable à tout type de données (mêmes textuelles), en choisissant une bonne notion de distance. 21
  • 22.  Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est nécessaire, car un mauvais choix de k produit de mauvais résultats.  Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)  L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale correspondant à la fonction objective minimale.  Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres. K-moyennes : Inconvénients 22
  • 23. Conclusion  Le clustering groupe des objets en se en basant sur leurs similarités.  La mesure de similarité peut être calculée pour différents types de données.  La sélection de la de mesure de de similarité dépend des des données utilisées et le type de similarité recherchée.  La segmentation est utilisée dans différents domaines de recherche tels que la bio- informatique, analyse financière, classification des séquences d'ADN, génie logiciel, locomotion de robots, etc… 23