SlideShare ist ein Scribd-Unternehmen logo
1 von 32
1 
Automatic Subspace 
Clustering of High 
Dimensional Data for Data 
Mining Applications 
Rakesh Agrawal et al. 1998 
Hajer TRABELSI 
Master de recherche MR2-IMD/ISAMM 
12 Décembre 2014
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
2 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
3 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Introduction 
 L’objectif de la classification non supervisée 
(clustering) est d’identifier un ensemble d’individu. 
 La majorité des algorithmes de clustering ne 
possèdent pas de solution pour gérer un volume de 
données et un nombre de dimensions si importants ! 
 Pour pallier à ces problèmes, la recherche dans ce 
domaine a donné naissance aux méthodes fondées 
sur le clustering par sous-espace. 
 Une solution a été proposée c’est l’algorithme 
CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 
4 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Introduction 
Quelques définitions basiques: 
 Unité: Après la formation d'une structure de grille sur 
l'espace, chaque cellule rectangulaire est appelé une 
unité. 
 Dense: Une unité est dense, si la fraction de points de 
données au total contenu dans l'unité dépasse le 
paramètre de modèle d'entrée. 
 Cluster: Un cluster est défini comme un ensemble 
maximal d'unités denses connectées. 
5 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
6 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering 
 L’objectif du clustering est d’identifier un ensemble 
d’individu et donc d’affecter à chaque observation une 
"étiquette de classe" qui matérialise l’appartenance de 
l’observation à une classe. [7] 
 Il existe de nombreux algorithmes de clustering. 
 Il y’a quatre méthodes de clustering : 
 Les méthodes hiérarchiques 
 Les méthodes de clustering par partition 
 Les méthodes basées sur la densité 
 Les méthodes basées sur les grilles 
7 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
hiérarchiques 
L’objectif: 
 Grouper les données sous une forme hiérarchique c’est 
à dire sous forme d’arbre ou d’un "Dendrogramme" 
composés de clusters. 
 Le noeud de l’arbre constitue l’ensemble des données de 
la base. 
 Un parcours de l’arbre vers le bas nous montre des 
clusters de plus en plus spécifiques à un groupe d’objets 
qui se caractérisent par une notion de similitude. 
8 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes de 
clustering par partition 
L’objectif: 
 Grouper les données de façon optimale pour un critère 
de partitionnement donné et un nombre de cluster défini 
par avance. 
 Plusieurs moyens existent pour obtenir une bonne 
partition proche de la partition « optimale ». 
 Première technique : représenter chaque cluster par son centre 
(centroïde)  Exemple : K-means. 
 Deuxième technique : représenter chaque groupe par un objet qui 
correspond au membre le plus proche du centre (médoïde).  
Exemple : K-medoids et PAM. 
9 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
basées sur la densité 
L’objectif: 
 Gérer les clusters de forme sphérique. (ce qui n’est pas le 
cas des 2 premières méthodes). 
 Gérer le bruit qui peut exister dans les données. 
 Exemple : DBSCAN 
10 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
basées sur les grilles 
 Basées sur 3 étapes : 
 Diviser l’espace en un nombre fini cellules rectangulaires 
qui forment une structure de grille 
 Supprimer les cellules de basse densité 
 Combiner les cellules adjacentes ayant une forte densité 
pour former des clusters. 
 La force de cette approche est qu’elle à une complexité 
linéaire de O(n). 
  Exemple : CLIQUE (Agrawal, 1998). 
11 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering 
Répartition des méthodes de classification 
[Thierry Urruty,2007] 
12 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
13 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données 
Challenges: 
 Plusieurs dimensions non pertinentes peuvent masquer 
les clusters. 
 À chaque fois qu’on ajoute une dimension à nos k 
dimensions dans l’espace, les données sont étirées à 
travers de la kème +1 dimension. 
 « De quelle manière pouvons-nous traiter un volume 
conséquent de données avec des centaines de 
dimensions ? » 
14 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données - Subspatial clustering 
 Naissance des méthodes clustering par sous-espace. 
Consistent à : 
 Rechercher des clusters dans les sous-espaces 
existants. 
 Un sous-espace est défini en tant que un sous-ensemble 
d’objets similaires entre eux dans l’espace. 
 Pour déterminer de manière optimale les sous-espaces, 
des heuristiques qui sont regroupées en deux catégories 
sont alors développées. 
15 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données - Subspatial clustering 
 Méthode de recherche ascendante : Les algorithmes 
commencent leur recherche dans des sous-espaces à 
petites dimensions, puis sont en quête de sous-espaces 
plus grands susceptibles de contenir des clusters. 
 CLIQUE utilise cette approche ! 
 Méthode de recherche descendante : La recherche 
effectuée par les algorithmes englobe tout l’espace et 
cette fouille continue dans des sous-espaces de plus en 
plus petits. 
16 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
17 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE 
 CLIQUE (CLustering In QUest, [Agrawal et al. 
1998]) est un algorithme de classification basé sur 
la densité et sur la grille [8]. 
 Basé sur 3 étapes: 
 Identification des sous-espaces qui contiennent des 
clusters 
 Identification des clusters 
 Description minimale des clusters 
18 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 1 
Identification des sous-espaces 
 Elle consiste à repérer des régions denses dans les sous-espaces 
dans l’espace de dimension d. 
 CLIQUE divise l’espace en unités rectangulaire. 
 Il partitionne chaque dimension en un nombre identique 
d’intervalles de même taille. 
 L’algorithme commence par déterminer la densité des régions 
sur une seule dimension. Lorsque des unités denses sont 
déterminées dans K-1 dimension, l’algorithme génère des 
unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y 
ait plus de dimension candidate. 
 La génération d’un ensemble d’unités denses sur K dimensions 
à partir d’une dimension DK-1 et d’un ensemble d’unités denses 
sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 2 
Identification des clusters 
 Des unités denses ont été déterminés (étape 1). 
 L’algorithme explore ces régions à la recherche de 
clusters. 
 C’est comme si une recherche des composants 
connexes dans un graphe (Agrawal, 1998). 
20 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 3 
Description minimale des 
clusters 
L’objectif consiste à déterminer : 
 Un ensemble de régions maximales qui soit une 
couverture de l’ensemble des unités denses sur un 
espace de K dimension. 
 Cette étape est assurée par un algorithme glouton. 
 Une couverture minimale calculée grâce à des 
heuristiques. 
21 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple 
 Soit un espace à 2- 
Dimention contenant 
plusieurs points éparpillés 
(point = donnée). 
 On suppose que chaque 
unité contenant plus de 5 
points est considéré 
comme dense. 
22 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 1- 
 Unité dense à 1- 
Dimention: 
D1={u21, u31, u41, u51, 
u81, u91, u12, u22, u32, 
u52, u62} 
 Unité dense à 2- 
Dimention: 
D2={u21, u22, u32, u33, 
u83, u93} 
23 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 2 - 
24 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 3 - 
 C1={(x1): 1£x1<5} 
 C2={(x1): 7£x2<9} 
 C3={(x2): 0£x2<3} 
 C4={(x2): 4£x1<6} 
 C5={(x1, x2): 1£x1<2, 
0£x2<2} È {(x1, x2): 2£ 
x1<3, 1£x2<3} 
 C6={(x1, x2): 7£x1£9, 
2£x2<3} 
25 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE 
Avantages : 
 Peut faire un clustering si on 
a une haute dimensionnalité 
de données. 
 Repose sur une idée simple 
et intuitive. 
 La recherche des sous-espaces 
susceptibles de 
contenir des régions denses 
se fait automatiquement 
Inconvénients: 
 Obtenir un cluster de 
bonne qualité dépend du 
réglage de la taille de la 
grille et du seuil de 
densité, or, ces valeurs 
s’utilisent au travers de 
toutes les dimensions. [1] 
26 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
27 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Expérimentation 
 La figure (A) montre une évolutivité avec le nombre 
d'enregistrements de données (quand la taille de la base de 
données est passée de 100 000 à 500 000 enregistrements). 
 La figure (B) montre une évolutivité avec la dimensionnalité de 
l’espace de donnée. 
 La figure (C) montre une évolutivité avec la dimensionnalité des 
clusters cachés. 
 Pour plus de détail, voir [Agrawal et al. 1998]. 
28 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
29 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Conclusion 
 Quatre méthodes de clustering. 
 Le problème: la majorité des algorithmes de 
clustering ne peuvent pas étudier le cas si on a une 
haute dimensionnalité de données. 
 Naissance de CLIQUE ! 
 C’une méthode fondée sur le clustering par sous-espace. 
 On peut trouver plusieurs variantes de CLIQUE. 
 ENCLUS (ENtropy-based CLUStering)  une 
approche semblable à CLIQUE. 
30 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Merci pour votre attention 
 
31 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Bibliographie 
 [1] Le clustering de données, Nicolas Sola Mathieu Schmitt 
 [2] Nouvelle Approche Scalable par Classification des Charges de 
Requêtes Volumineuses pour la Sélection d’un Schéma de 
Fragmentation, Amina Gacem, 2012 
 [3] Développement et mise en place d’une méthode de classification 
multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014 
 [4] Une méthode de classification non-supervisée pour l’apprentissage 
de règles et la recherche d’information, Guillaume Cleuziou , 2006 
 [5] Connaissances et clustering collaboratif d’objets complexes 
multisources, Germain Forester, 2010 
 [6] Optimisation de l’indexation multidimentionnelle : application aux 
descripteurs multimédia ,Thierry Urruty,2007 
 [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard 
 [8] http ://fr.slideshare.net/skklms/clique 
32 La complexité des algorithmes récursives 
Géométrie algorithmique

Weitere ähnliche Inhalte

Was ist angesagt?

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesEmna Trabelsi
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMichaël Figuière
 
Duchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutDuchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutMichaël Figuière
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 

Was ist angesagt? (10)

Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
 
Duchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutDuchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache Mahout
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Cours1 2 gdmm
Cours1 2 gdmmCours1 2 gdmm
Cours1 2 gdmm
 

Andere mochten auch

Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeSophie Jaboeuf
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
 
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Microsoft Décideurs IT
 
Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Thierry Pastorello
 
Prêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamPrêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamAzis MACh
 
Clusters mondiaux
Clusters mondiauxClusters mondiaux
Clusters mondiauxMaria Manar
 
Szarotka6
Szarotka6Szarotka6
Szarotka6a12
 
الاسد وابن اوى والحمار
الاسد وابن اوى والحمارالاسد وابن اوى والحمار
الاسد وابن اوى والحمارmuhmadbdran
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22octAleemuddin Abbasi
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringtuxette
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...Patrick Guimonet
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011ticien
 

Andere mochten auch (20)

Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration sociale
 
Clustering
ClusteringClustering
Clustering
 
clustering
clusteringclustering
clustering
 
6 clustering
6 clustering6 clustering
6 clustering
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
 
Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Prêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamPrêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'Islam
 
Clusters mondiaux
Clusters mondiauxClusters mondiaux
Clusters mondiaux
 
Szarotka6
Szarotka6Szarotka6
Szarotka6
 
الاسد وابن اوى والحمار
الاسد وابن اوى والحمارالاسد وابن اوى والحمار
الاسد وابن اوى والحمار
 
Distance function
Distance functionDistance function
Distance function
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22oct
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clustering
 
Clusteryanam
ClusteryanamClusteryanam
Clusteryanam
 
Bejaia
BejaiaBejaia
Bejaia
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011
 

Ähnlich wie Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningBassem Brayek
 
ENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoArnaud Lempereur
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfsalmanakbi
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueYassine Mhadhbi
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
Data-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfData-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfSanaMahfoudh2
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Rapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXRapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXThanh Vu Le
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 

Ähnlich wie Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications (20)

Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
test
testtest
test
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
ENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT Chicago
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Clustering.pdf
Clustering.pdfClustering.pdf
Clustering.pdf
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Data-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfData-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdf
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Rapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXRapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUX
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 

Kürzlich hochgeladen

SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationpapediallo3
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 

Kürzlich hochgeladen (20)

SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'information
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

  • 1. 1 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications Rakesh Agrawal et al. 1998 Hajer TRABELSI Master de recherche MR2-IMD/ISAMM 12 Décembre 2014
  • 2. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 2 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 3. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 3 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 4. Introduction  L’objectif de la classification non supervisée (clustering) est d’identifier un ensemble d’individu.  La majorité des algorithmes de clustering ne possèdent pas de solution pour gérer un volume de données et un nombre de dimensions si importants !  Pour pallier à ces problèmes, la recherche dans ce domaine a donné naissance aux méthodes fondées sur le clustering par sous-espace.  Une solution a été proposée c’est l’algorithme CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 4 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 5. Introduction Quelques définitions basiques:  Unité: Après la formation d'une structure de grille sur l'espace, chaque cellule rectangulaire est appelé une unité.  Dense: Une unité est dense, si la fraction de points de données au total contenu dans l'unité dépasse le paramètre de modèle d'entrée.  Cluster: Un cluster est défini comme un ensemble maximal d'unités denses connectées. 5 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 6. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 6 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 7. Clustering  L’objectif du clustering est d’identifier un ensemble d’individu et donc d’affecter à chaque observation une "étiquette de classe" qui matérialise l’appartenance de l’observation à une classe. [7]  Il existe de nombreux algorithmes de clustering.  Il y’a quatre méthodes de clustering :  Les méthodes hiérarchiques  Les méthodes de clustering par partition  Les méthodes basées sur la densité  Les méthodes basées sur les grilles 7 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 8. Clustering - Les méthodes hiérarchiques L’objectif:  Grouper les données sous une forme hiérarchique c’est à dire sous forme d’arbre ou d’un "Dendrogramme" composés de clusters.  Le noeud de l’arbre constitue l’ensemble des données de la base.  Un parcours de l’arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d’objets qui se caractérisent par une notion de similitude. 8 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 9. Clustering - Les méthodes de clustering par partition L’objectif:  Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de cluster défini par avance.  Plusieurs moyens existent pour obtenir une bonne partition proche de la partition « optimale ».  Première technique : représenter chaque cluster par son centre (centroïde)  Exemple : K-means.  Deuxième technique : représenter chaque groupe par un objet qui correspond au membre le plus proche du centre (médoïde).  Exemple : K-medoids et PAM. 9 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 10. Clustering - Les méthodes basées sur la densité L’objectif:  Gérer les clusters de forme sphérique. (ce qui n’est pas le cas des 2 premières méthodes).  Gérer le bruit qui peut exister dans les données.  Exemple : DBSCAN 10 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 11. Clustering - Les méthodes basées sur les grilles  Basées sur 3 étapes :  Diviser l’espace en un nombre fini cellules rectangulaires qui forment une structure de grille  Supprimer les cellules de basse densité  Combiner les cellules adjacentes ayant une forte densité pour former des clusters.  La force de cette approche est qu’elle à une complexité linéaire de O(n).   Exemple : CLIQUE (Agrawal, 1998). 11 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 12. Clustering Répartition des méthodes de classification [Thierry Urruty,2007] 12 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 13. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 13 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 14. Haute dimensionnalité des données Challenges:  Plusieurs dimensions non pertinentes peuvent masquer les clusters.  À chaque fois qu’on ajoute une dimension à nos k dimensions dans l’espace, les données sont étirées à travers de la kème +1 dimension.  « De quelle manière pouvons-nous traiter un volume conséquent de données avec des centaines de dimensions ? » 14 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 15. Haute dimensionnalité des données - Subspatial clustering  Naissance des méthodes clustering par sous-espace. Consistent à :  Rechercher des clusters dans les sous-espaces existants.  Un sous-espace est défini en tant que un sous-ensemble d’objets similaires entre eux dans l’espace.  Pour déterminer de manière optimale les sous-espaces, des heuristiques qui sont regroupées en deux catégories sont alors développées. 15 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 16. Haute dimensionnalité des données - Subspatial clustering  Méthode de recherche ascendante : Les algorithmes commencent leur recherche dans des sous-espaces à petites dimensions, puis sont en quête de sous-espaces plus grands susceptibles de contenir des clusters.  CLIQUE utilise cette approche !  Méthode de recherche descendante : La recherche effectuée par les algorithmes englobe tout l’espace et cette fouille continue dans des sous-espaces de plus en plus petits. 16 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 17. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 17 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 18. CLIQUE  CLIQUE (CLustering In QUest, [Agrawal et al. 1998]) est un algorithme de classification basé sur la densité et sur la grille [8].  Basé sur 3 étapes:  Identification des sous-espaces qui contiennent des clusters  Identification des clusters  Description minimale des clusters 18 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 19. CLIQUE - Etape 1 Identification des sous-espaces  Elle consiste à repérer des régions denses dans les sous-espaces dans l’espace de dimension d.  CLIQUE divise l’espace en unités rectangulaire.  Il partitionne chaque dimension en un nombre identique d’intervalles de même taille.  L’algorithme commence par déterminer la densité des régions sur une seule dimension. Lorsque des unités denses sont déterminées dans K-1 dimension, l’algorithme génère des unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y ait plus de dimension candidate.  La génération d’un ensemble d’unités denses sur K dimensions à partir d’une dimension DK-1 et d’un ensemble d’unités denses sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 20. CLIQUE - Etape 2 Identification des clusters  Des unités denses ont été déterminés (étape 1).  L’algorithme explore ces régions à la recherche de clusters.  C’est comme si une recherche des composants connexes dans un graphe (Agrawal, 1998). 20 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 21. CLIQUE - Etape 3 Description minimale des clusters L’objectif consiste à déterminer :  Un ensemble de régions maximales qui soit une couverture de l’ensemble des unités denses sur un espace de K dimension.  Cette étape est assurée par un algorithme glouton.  Une couverture minimale calculée grâce à des heuristiques. 21 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 22. Exemple  Soit un espace à 2- Dimention contenant plusieurs points éparpillés (point = donnée).  On suppose que chaque unité contenant plus de 5 points est considéré comme dense. 22 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 23. Exemple – Etape 1-  Unité dense à 1- Dimention: D1={u21, u31, u41, u51, u81, u91, u12, u22, u32, u52, u62}  Unité dense à 2- Dimention: D2={u21, u22, u32, u33, u83, u93} 23 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 24. Exemple – Etape 2 - 24 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 25. Exemple – Etape 3 -  C1={(x1): 1£x1<5}  C2={(x1): 7£x2<9}  C3={(x2): 0£x2<3}  C4={(x2): 4£x1<6}  C5={(x1, x2): 1£x1<2, 0£x2<2} È {(x1, x2): 2£ x1<3, 1£x2<3}  C6={(x1, x2): 7£x1£9, 2£x2<3} 25 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 26. CLIQUE Avantages :  Peut faire un clustering si on a une haute dimensionnalité de données.  Repose sur une idée simple et intuitive.  La recherche des sous-espaces susceptibles de contenir des régions denses se fait automatiquement Inconvénients:  Obtenir un cluster de bonne qualité dépend du réglage de la taille de la grille et du seuil de densité, or, ces valeurs s’utilisent au travers de toutes les dimensions. [1] 26 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 27. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 27 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 28. Expérimentation  La figure (A) montre une évolutivité avec le nombre d'enregistrements de données (quand la taille de la base de données est passée de 100 000 à 500 000 enregistrements).  La figure (B) montre une évolutivité avec la dimensionnalité de l’espace de donnée.  La figure (C) montre une évolutivité avec la dimensionnalité des clusters cachés.  Pour plus de détail, voir [Agrawal et al. 1998]. 28 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 29. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 29 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 30. Conclusion  Quatre méthodes de clustering.  Le problème: la majorité des algorithmes de clustering ne peuvent pas étudier le cas si on a une haute dimensionnalité de données.  Naissance de CLIQUE !  C’une méthode fondée sur le clustering par sous-espace.  On peut trouver plusieurs variantes de CLIQUE.  ENCLUS (ENtropy-based CLUStering)  une approche semblable à CLIQUE. 30 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 31. Merci pour votre attention  31 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 32. Bibliographie  [1] Le clustering de données, Nicolas Sola Mathieu Schmitt  [2] Nouvelle Approche Scalable par Classification des Charges de Requêtes Volumineuses pour la Sélection d’un Schéma de Fragmentation, Amina Gacem, 2012  [3] Développement et mise en place d’une méthode de classification multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014  [4] Une méthode de classification non-supervisée pour l’apprentissage de règles et la recherche d’information, Guillaume Cleuziou , 2006  [5] Connaissances et clustering collaboratif d’objets complexes multisources, Germain Forester, 2010  [6] Optimisation de l’indexation multidimentionnelle : application aux descripteurs multimédia ,Thierry Urruty,2007  [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard  [8] http ://fr.slideshare.net/skklms/clique 32 La complexité des algorithmes récursives Géométrie algorithmique