Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Automatic Subspace Clustering of High Dimensional Data for DataMining Applications
1. 1
Automatic Subspace
Clustering of High
Dimensional Data for Data
Mining Applications
Rakesh Agrawal et al. 1998
Hajer TRABELSI
Master de recherche MR2-IMD/ISAMM
12 Décembre 2014
2. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
2
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
3. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
3
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
4. Introduction
L’objectif de la classification non supervisée
(clustering) est d’identifier un ensemble d’individu.
La majorité des algorithmes de clustering ne
possèdent pas de solution pour gérer un volume de
données et un nombre de dimensions si importants !
Pour pallier à ces problèmes, la recherche dans ce
domaine a donné naissance aux méthodes fondées
sur le clustering par sous-espace.
Une solution a été proposée c’est l’algorithme
CLIQUE (CLustering In QUest, [Agrawal et al. 1998]).
4
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
5. Introduction
Quelques définitions basiques:
Unité: Après la formation d'une structure de grille sur
l'espace, chaque cellule rectangulaire est appelé une
unité.
Dense: Une unité est dense, si la fraction de points de
données au total contenu dans l'unité dépasse le
paramètre de modèle d'entrée.
Cluster: Un cluster est défini comme un ensemble
maximal d'unités denses connectées.
5 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
6. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
6
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
7. Clustering
L’objectif du clustering est d’identifier un ensemble
d’individu et donc d’affecter à chaque observation une
"étiquette de classe" qui matérialise l’appartenance de
l’observation à une classe. [7]
Il existe de nombreux algorithmes de clustering.
Il y’a quatre méthodes de clustering :
Les méthodes hiérarchiques
Les méthodes de clustering par partition
Les méthodes basées sur la densité
Les méthodes basées sur les grilles
7 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
8. Clustering - Les méthodes
hiérarchiques
L’objectif:
Grouper les données sous une forme hiérarchique c’est
à dire sous forme d’arbre ou d’un "Dendrogramme"
composés de clusters.
Le noeud de l’arbre constitue l’ensemble des données de
la base.
Un parcours de l’arbre vers le bas nous montre des
clusters de plus en plus spécifiques à un groupe d’objets
qui se caractérisent par une notion de similitude.
8 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
9. Clustering - Les méthodes de
clustering par partition
L’objectif:
Grouper les données de façon optimale pour un critère
de partitionnement donné et un nombre de cluster défini
par avance.
Plusieurs moyens existent pour obtenir une bonne
partition proche de la partition « optimale ».
Première technique : représenter chaque cluster par son centre
(centroïde) Exemple : K-means.
Deuxième technique : représenter chaque groupe par un objet qui
correspond au membre le plus proche du centre (médoïde).
Exemple : K-medoids et PAM.
9 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
10. Clustering - Les méthodes
basées sur la densité
L’objectif:
Gérer les clusters de forme sphérique. (ce qui n’est pas le
cas des 2 premières méthodes).
Gérer le bruit qui peut exister dans les données.
Exemple : DBSCAN
10 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
11. Clustering - Les méthodes
basées sur les grilles
Basées sur 3 étapes :
Diviser l’espace en un nombre fini cellules rectangulaires
qui forment une structure de grille
Supprimer les cellules de basse densité
Combiner les cellules adjacentes ayant une forte densité
pour former des clusters.
La force de cette approche est qu’elle à une complexité
linéaire de O(n).
Exemple : CLIQUE (Agrawal, 1998).
11 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
12. Clustering
Répartition des méthodes de classification
[Thierry Urruty,2007]
12 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
13. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
13
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
14. Haute dimensionnalité des
données
Challenges:
Plusieurs dimensions non pertinentes peuvent masquer
les clusters.
À chaque fois qu’on ajoute une dimension à nos k
dimensions dans l’espace, les données sont étirées à
travers de la kème +1 dimension.
« De quelle manière pouvons-nous traiter un volume
conséquent de données avec des centaines de
dimensions ? »
14 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
15. Haute dimensionnalité des
données - Subspatial clustering
Naissance des méthodes clustering par sous-espace.
Consistent à :
Rechercher des clusters dans les sous-espaces
existants.
Un sous-espace est défini en tant que un sous-ensemble
d’objets similaires entre eux dans l’espace.
Pour déterminer de manière optimale les sous-espaces,
des heuristiques qui sont regroupées en deux catégories
sont alors développées.
15 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
16. Haute dimensionnalité des
données - Subspatial clustering
Méthode de recherche ascendante : Les algorithmes
commencent leur recherche dans des sous-espaces à
petites dimensions, puis sont en quête de sous-espaces
plus grands susceptibles de contenir des clusters.
CLIQUE utilise cette approche !
Méthode de recherche descendante : La recherche
effectuée par les algorithmes englobe tout l’espace et
cette fouille continue dans des sous-espaces de plus en
plus petits.
16 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
17. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
17
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
18. CLIQUE
CLIQUE (CLustering In QUest, [Agrawal et al.
1998]) est un algorithme de classification basé sur
la densité et sur la grille [8].
Basé sur 3 étapes:
Identification des sous-espaces qui contiennent des
clusters
Identification des clusters
Description minimale des clusters
18 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
19. CLIQUE - Etape 1
Identification des sous-espaces
Elle consiste à repérer des régions denses dans les sous-espaces
dans l’espace de dimension d.
CLIQUE divise l’espace en unités rectangulaire.
Il partitionne chaque dimension en un nombre identique
d’intervalles de même taille.
L’algorithme commence par déterminer la densité des régions
sur une seule dimension. Lorsque des unités denses sont
déterminées dans K-1 dimension, l’algorithme génère des
unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y
ait plus de dimension candidate.
La génération d’un ensemble d’unités denses sur K dimensions
à partir d’une dimension DK-1 et d’un ensemble d’unités denses
sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
20. CLIQUE - Etape 2
Identification des clusters
Des unités denses ont été déterminés (étape 1).
L’algorithme explore ces régions à la recherche de
clusters.
C’est comme si une recherche des composants
connexes dans un graphe (Agrawal, 1998).
20 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
21. CLIQUE - Etape 3
Description minimale des
clusters
L’objectif consiste à déterminer :
Un ensemble de régions maximales qui soit une
couverture de l’ensemble des unités denses sur un
espace de K dimension.
Cette étape est assurée par un algorithme glouton.
Une couverture minimale calculée grâce à des
heuristiques.
21 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
22. Exemple
Soit un espace à 2-
Dimention contenant
plusieurs points éparpillés
(point = donnée).
On suppose que chaque
unité contenant plus de 5
points est considéré
comme dense.
22 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
23. Exemple – Etape 1-
Unité dense à 1-
Dimention:
D1={u21, u31, u41, u51,
u81, u91, u12, u22, u32,
u52, u62}
Unité dense à 2-
Dimention:
D2={u21, u22, u32, u33,
u83, u93}
23 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
24. Exemple – Etape 2 -
24 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
25. Exemple – Etape 3 -
C1={(x1): 1£x1<5}
C2={(x1): 7£x2<9}
C3={(x2): 0£x2<3}
C4={(x2): 4£x1<6}
C5={(x1, x2): 1£x1<2,
0£x2<2} È {(x1, x2): 2£
x1<3, 1£x2<3}
C6={(x1, x2): 7£x1£9,
2£x2<3}
25 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
26. CLIQUE
Avantages :
Peut faire un clustering si on
a une haute dimensionnalité
de données.
Repose sur une idée simple
et intuitive.
La recherche des sous-espaces
susceptibles de
contenir des régions denses
se fait automatiquement
Inconvénients:
Obtenir un cluster de
bonne qualité dépend du
réglage de la taille de la
grille et du seuil de
densité, or, ces valeurs
s’utilisent au travers de
toutes les dimensions. [1]
26 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
27. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
27
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
28. Expérimentation
La figure (A) montre une évolutivité avec le nombre
d'enregistrements de données (quand la taille de la base de
données est passée de 100 000 à 500 000 enregistrements).
La figure (B) montre une évolutivité avec la dimensionnalité de
l’espace de donnée.
La figure (C) montre une évolutivité avec la dimensionnalité des
clusters cachés.
Pour plus de détail, voir [Agrawal et al. 1998].
28 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
29. Plan
Introduction
Clustering
Haute dimensionnalité des données
CLIQUE
Expérimentation
Conclusion
29
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
30. Conclusion
Quatre méthodes de clustering.
Le problème: la majorité des algorithmes de
clustering ne peuvent pas étudier le cas si on a une
haute dimensionnalité de données.
Naissance de CLIQUE !
C’une méthode fondée sur le clustering par sous-espace.
On peut trouver plusieurs variantes de CLIQUE.
ENCLUS (ENtropy-based CLUStering) une
approche semblable à CLIQUE.
30 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
31. Merci pour votre attention
31 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications
32. Bibliographie
[1] Le clustering de données, Nicolas Sola Mathieu Schmitt
[2] Nouvelle Approche Scalable par Classification des Charges de
Requêtes Volumineuses pour la Sélection d’un Schéma de
Fragmentation, Amina Gacem, 2012
[3] Développement et mise en place d’une méthode de classification
multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014
[4] Une méthode de classification non-supervisée pour l’apprentissage
de règles et la recherche d’information, Guillaume Cleuziou , 2006
[5] Connaissances et clustering collaboratif d’objets complexes
multisources, Germain Forester, 2010
[6] Optimisation de l’indexation multidimentionnelle : application aux
descripteurs multimédia ,Thierry Urruty,2007
[7] Classification non supervisée, E. Lebarbier, T. Mary-Huard
[8] http ://fr.slideshare.net/skklms/clique
32 La complexité des algorithmes récursives
Géométrie algorithmique