SlideShare ist ein Scribd-Unternehmen logo
1 von 51
Regroupement
(clustering)

1
Qu’est ce qu’un bon regroupement ?


Une bonne méthode de regroupement permet de
garantir





Une grande similarité intra-groupe
Une faible similarité inter-groupe

La qualité d’un regroupement dépend donc de la
mesure de similarité utilisée par la méthode et
de son implémentation
3
Structures de données




Matrice de données

Matrice de similarité

 x11

 ...
x
 i1
 ...
x
 n1


...

x1f

...

...
...

...
xif

...
...

...
...
... xnf

...
...

 0
 d(2,1)
0

 d(3,1) d ( 3,2) 0

:
:
 :
d ( n,1) d ( n,2) ...


x1p 

... 
xip 

... 
xnp 









... 0


4
Mesurer la qualité d’un clustering








Métrique pour la similarité: La similarité est
exprimée par le biais d’une mesure de distance
Une autre fonction est utilisée pour la mesure de
la qualité
Les définitions de distance sont très différentes
que les variables soient des intervalles
(continues), catégories, booléennes ou ordinales
En pratique, on utilise souvent une pondération
des variables
5
Types des variables


Intervalles:



Binaires:



catégories, ordinales, ratio:



Différents types:

6
Intervalle (discrètes)


Standardiser les données


Calculer l’écart absolu moyen:

s f = 1 (| x1 f − m f | + | x2 f − m f | +...+ | xnf − m f |)
n
où



m f = 1 (x1 f + x2 f
n

+ ... +

xnf )

.

Calculer la mesure standardisée (z-score)

xif − m f
zif =
sf

7
Exemple
Personne1
Personne2
Personne3
Personne4

Age
50
70
60
60

Salaire
11000
11100
11122
11074

Personne1
Personne2
Personne3
Personne4

M

M

Age

salaire

Age
-2
2
0
0

= 60

S

= 11074

= 5

Age

S

salaire

Salaire
-0,5
0,175
0,324
2

8

= 148
Similarité entre objets


Les distances expriment une similarité



Ex: la distance de Minkowski :

d (i, j) = q (| x − x |q + | x − x |q +...+ | x − x |q )
i1
j1
i2
j2
ip
jp
où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets

p-dimensionnels et q un entier positif


Si q = 1, d est la distance de Manhattan
d (i, j) =| x − x | + | x − x | + ...+ | x − x |
i1 j1 i2 j 2
ip jp
9
Similarité entre objets(I)


Si q = 2, d est la distance Euclidienne :
d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 )
i1
j1
i2
j2
ip
jp


Propriétés


d(i,j) ≥ 0



d(i,i) = 0



d(i,j) = d(j,i)



d(i,j) ≤ d(i,k) + d(k,j)
10
Exemple: distance de Manhattan
Personne1
Personne2
Personne3
Personne4

Age
50
70
60
60

Salaire
11000
11100
11122
11074

Personne1
Personne2
Personne3
Personne4

Age
-2
2
0
0

Salaire
-0,5
0,175
0,324
0

d(p1,p2)=120
d(p1,p3)=132
Conclusion: p1 ressemble plus
à p2 qu’à p3 

d(p1,p2)=4,675
d(p1,p3)=2,324
Conclusion: p1 ressemble
plus à p3 qu’à p2 
11
Variables binaires


Une table de contingence pour données binaires
Objet j

1
Objet i



1
a

0
b

0
c
d
sum a + c b + d

sum
a +b

a= nombre de positions
où i a 1 et j a 1

c+d
p

Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)

a=1, b=2, c=1, d=2
12
Mesures de distances


Coefficient d’appariement (matching) simple
(invariant pour variables symétriques):
b +c
d (i, j) =
a +b +c +d

Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
d(oi, oj)=3/5


Coefficient de Jaccard

d (i, j) =

b +c
a +b +c

d(oi, oj)=3/4
13
Variables binaires (I)




Variable symétrique: Ex. le sexe d’une personne, i.e
coder masculin par 1 et féminin par 0 c’est pareil que le
codage inverse
Variable asymétrique: Ex. Test HIV. Le test peut être
positif ou négatif (0 ou 1) mais il y a une valeur qui sera
plus présente que l’autre. Généralement, on code par 1
la modalité la moins fréquente
 2 personnes ayant la valeur 1 pour le test sont plus
similaires que 2 personnes ayant 0 pour le test

14


Exemple
Nom
Jack
Mary
Jim





Variables binaires(II)
Sexe
M
F
M

Fièvre
Y
Y
Y

Toux
N
N
P

Test-1
P
P
N

Test-2
N
N
N

Test-3
N
P
N

Test-4
N
N
N

Sexe est un attribut symétrique
Les autres attributs sont asymétriques
Y et P ≡ 1, N ≡ 0, la distance n’est mesurée que sur les asymétriques
d(jack, mary)
d(jack,

jim)

d(jim, mary)

=

2

0 +
1
+
0 +
1

1 +
1
=
1 + +
1
1
1 +
2
=
1 + +
1
2

=0.33

=0.67
=0.75

Les plus similaires sont Jack et Mary⇒atteints du même mal
15
Variables Nominales





Une généralisation des variables binaires, ex: rouge, vert
et bleu
Méthode 1: Matching simple


m: # d’appariements, p: # total de variables

p −m
d (i, j) = p



Méthode 2: utiliser un grand nombre de variables binaires


Créer une variable binaire pour chaque modalité (ex:
variable rouge qui prend les valeurs vrai ou faux)
16
Variables Ordinales


Une variable ordinale peut être discrète ou continue



L’ordre peut être important, ex: classement



Peuvent être traitées comme les variables intervalles
rif ∈ 1,..., M f }
{
 remplacer x par son rang
if





Remplacer le rang de chaque variable par une valeur
dans [0, 1] en remplaçant la variable f dans l’objet I par
rif −
1
zif =
Mf −
1
Utiliser une distance pour calculer la similarité

17
En Présence de Variables de différents
Types




Pour chaque type de variables utiliser une mesure
adéquate. Problèmes: les clusters obtenus peuvent être
différents
On utilise une formule pondérée pour faire la
combinaison
p
(
(
Σ =1δ f ) d ij f )
d (i, j ) = f p ij ( f )
Σ =1δ
f
ij
 f est binaire ou nominale:
dij(f) = 0 si xif = xjf , sinon dij(f) = 1
 f est de type intervalle: utiliser une distance
normalisée
 f est ordinale
zif = r −1
M −1
 calculer les rangs r et
if
 Ensuite traiter z comme une variable de type
if
intervalle
if

f

18
Approches de Clustering


Algorithmes de Partitionnement: Construire plusieurs
partitions puis les évaluer selon certains critères



Algorithmes hiérarchiques: Créer une décomposition
hiérarchique des objets selon certains critères



Algorithmes basés sur la densité: basés sur des notions de
connectivité et de densité



Algorithmes de grille: basés sur un structure à multiniveaux de granularité



Algorithmes à modèles: Un modèle est supposé pour
chaque cluster ensuite vérifier chaque modèle sur chaque
groupe pour choisir le meilleur
19
Algorithmes à partionnement




Construire une partition à k clusters d’une base D de n
objets
Les k clusters doivent optimiser le critère choisi


Global optimal: Considérer toutes les k-partitions



Heuristic methods: Algorithmes k-means et k-medoids





k-means (MacQueen’67): Chaque cluster est
représenté par son centre
k-medoids or PAM (Partition around medoids)
(Kaufman & Rousseeuw’87): Chaque cluster est
représenté par un de ses objets

20
La méthode des k-moyennes (K-Means)


L’algorithme k-means est en 4 étapes :
1.

1.

1.

1.

Choisir k objets formant ainsi k clusters
(Ré)affecter chaque objet O au cluster Ci de
centre Mi tel que dist(O,Mi) est minimal
Recalculer Mi de chaque cluster (le barycentre)
Aller à l’étape 2 si on vient de faire une
affectation
21
K-Means :Exemple




A={1,2,3,
6,7,8,13,
15,17}.
Créer 3
clusters
à partir
de A
On prend
3 objets
au
hasard.
Supposo
ns que
22 1, 2
c’est
K-Means :Exemple (suite)








dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent
pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11
dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent
pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12
dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en
C2. Les autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34,
C3= {8,13,15,17}, M3=13.25
dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15
Plus rien ne bouge

23
Algorithme K-Means


Exemple
10

10

9

9

8

8

7

7

6

6

5

5

4

4

3

3

2

2

1

1

0

0
0

1

2

3

4

5

6

7

8

9

10

0

10

8

9

10

8

9

4

3

7

5

4

6

6

5

5

7

6

4

8

7

3

9

8

2

10

9

1

3
2

2

1

1

0

0
0

1

2

3

4

5

6

7

8

9

10

0

1

2

3

4

5

6

7

10

24
Commentaires sur la méthode des K-Means




Force
 Relativement efficace: O(tkn), où n est # objets, k est #
clusters, et t est # itérations. Normalement, k, t << n.
 Tend à réduire
k

E = ∑∑

p∈

Ci

p − mi

2

i =1
Faiblesses
 N’est pas applicable en présence d’attributs qui ne sont
pas du type intervalle (moyenne=?)
 On doit spécifier k (nombre de clusters)
 Les clusters sont construits par rapports à des objets
inexistants (les milieux)
 Ne peut pas découvrir les groupes non-convexes

25
La méthode des K-Medoids (PAM)




Trouver des objets représentatifs (medoïdes)
dans les clusters (au lieu de la moyenne)
Principe




Commencer avec un ensemble de medoïdes
puis itérativement remplacer un par un autre si
ça permet de réduire la distance globale
Efficace pour des données de petite taille
26
Algorithme des k-Medoides
Choisir arbitrairement k medoides
Répéter
affecter chaque objet restant au medoide le plus proche
Choisir aléatoirement un non-medoide Or
Pour chaque medoide Oj
Calculer le coût TC du remplacement de Oj par Or
Si TC < 0 alors
Remplacer Oj par Or
Calculer les nouveaux clusters
Finsi
FinPour
Jusqu’à ce ce qu’il n’y ait plus de changement

27
PAM (Partitioning Around Medoids) (1987)
Choisir arbitrairement k objets représentatifs


Pour toute paire (h,j) d’objets t.q h est choisi et
j non, calculer le coût TC jh du remplacement
de j par h






Si TCih < 0, j est remplacé par h
Puis affecter chaque objet non sélectionné
au medoïde qui lui est le plus similaire

Répéter jusqu’à ne plus avoir de changements
28
La méthode des K-Medoids






TCjh représente le gain en distance globale que
l’on va avoir en remplaçant h par j
Si TCjh est négatif alors on va perdre en distance.
Ca veut dire que les clusters seront plus
compacts.
TCjh=Σi dist(j,h)-dist(j,i)= Σi Cijh

29
La méthode des K-Medoids: Exemple




Soit A={1,3,4,5,8,9}, k=2 et M={1,8} ensemble des medoides
C1={1,3,4} et C2={5,8,9}
E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(5,9)2+dist(9,8)2=39
Comparons 1 et 3M={3,8}C1={1,3,4,5} et C2={8,9}
E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
E {3,8} - E{1,8}= -29 <0 donc le remplacement est fait.





Comparons 3 et 4 M={4,8} C1 et C2 inchangés et
E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2= 12 3 n’est pas
remplacé par 4
Comparons 3 et 5M={5,8} C1 et C2 inchangés et E{5,8}>E{3,8}

30
PAM Clustering: TCih=∑jCjih
10

10

9

9

t

8
7

j

t

8
7

j

6
5

i

4
3

6
5

h

h
i

4
3

2

2

1

1

0

0
0

1

2

3

4

5

6

7

8

9

10

Cjih = d(j, h) - d(j, i)

0

1

2

3

4

5

6

7

8

9

10

Cjih = 0
10

10

9

9

h

8

8

j

7
6
5

6

i

5

i

4

7

t

3

h

4
3

t

2

2

1

1

j

0

0
0

1

2

3

4

5

6

7

8

9

Cjih = d(j, t) - d(j, i)

10

0

1

2

3

4

5

6

7

8

9

10

Cjih = d(j, h) - d(j, t)
31
Clustering Hiérarchique


Utiliser la matrice de distances comme critère de
regroupement. k n’a pas à être précisé, mais a besoin
d’une condition d’arrêt
Etape
0

a
b

Etap
e1

Etap
e2

Etap
e4

ab

agglomerative
(AGNES)

abcde

c

cde

d

de

e
Etap
e4

Etap
e3

Etap
e3

Etap
e2

Etap
e1

Etap
e0

divisive
(DIANA)
32
AGNES (Agglomerative Nesting)


Utilise la matrice de dissimilarité.



Fusionne les nœuds qui ont la plus faible dissimilarité



On peut se retrouver dans la situation où tous les nœuds
sont dans le même groupe

10

10

10

9

9

8

8

7

7

6

6

5

5

4

4

4

3

3

3

2

2

2

1

1

1

9
8
7
6
5

0

0

0

1

2

3

4

5

6

7

8

9

10

0
0

1

2

3

4

5

6

7

8

9

10

0

1

2

3

4

33

5

6

7

8

9

10
DIANA (Divisive Analysis)
L’ordre inverse de celui d’AGNES



Il se peut que chaque objet forme à lui seul un
groupe



10

10

9

9

8

8

7

7

6

6

5

5
10

4

4

9
8

3

3

2

7
6

2

1

5
4

1

3

0
0

1

2

3

4

5

6

7

8

9

10

0

2

0

1

2

3

4

5

6

7

8

9

10

1
0
0

1

2

3

4

5

6

7

34

8

9

10
Critères de fusion-éclatement

Exemple: pour les méthodes agglomératives,
C1 et C2 sont fusionnés si
 il existe o1 ∈ C1 et o2∈ C2 tels que
Lien
unique dist(o1,o2) ≤ seuil, ou
 il n’existe pas o1 ∈ C1 et o2∈ C2 tels que
dist(o1,o2) ≥ seuil, ou
 distance entre C1 et C2 ≤ seuil avec


dist ( C , C
1

2

)

1
=
dist(o1, o2)
∑
n1 * n2 o1∈C1 o2∈C2
,



et n1=|C1|.
Ces techniques peuvent être adaptées pour les
méthodes divisives
35
BIRCH (1996)




Birch: Balanced Iterative Reducing and Clustering using
Hierarchies
Construit incrémentalement un arbre (CF-tree : Clustering
Feature), une structure hiérarchique où chaque niveau
représente une phase de clustering







Phase 1: scanner la base pour construire le CF-tree
dans la mémoire
Phase 2: utiliser n’importe quel algorithme de clustering
sur les feuilles du CF-tree

Avantage: trouve les clusters en une seule passe sur la BD
Inconvénient: ne considère que les données numériques et
est sensible à l’ordre des enregistrements
36
Clustering Feature Vector
Clustering Feature: CF = (N, LS, SS)
N: Number of data points
LS: ∑Ni=1=Xi
SS: ∑Ni=1=Xi2

CF = (5, (16,30),(54,190))

10
9
8
7
6
5
4
3
2
1
0
0

1

2

3

4

5

6

7

8

9

10

(3,4)
(2,6)
(4,5)
(4,7)
(3,8)
37
CF Tree
N_noeud= 7

Racine
CF2 CF3

CF6

Fils1

N_feuille = 6

CF1

Fils2

Fils6

Fils3

Nœud interne
CF1

CF2 CF3

CF5

Fils1

Fils2

Fils5

Fils3

Feuille
préd

CF1 CF2

CF6 suivant

Feuille
préd

CF1 CF2

CF4 suiv

38
CURE (Clustering Using REpresentatives )





Les méthodes précédentes donnent les groupes
(b)
CURE: (1998)


Arrête la création de clusters dès qu’on en a k



Utilise plusieurs points représentatifs clusters
39
Cure: l’algorithme


Prendre un sous-ensemble s



Partitionner s en p partitions de taille s/p



Dans chaque partition, créer s/pq clusters



Eliminer les exceptions (points aberrants)



Regrouper les clusters partiels

40
Partitionnment et Clustering




s = 50
p=2
s/p = 25

s/pq = 5



y
y

y

x
y

y
x

x
x

x
41
Cure: Rapprochement des points représentatifs
y
y

x

x




Rapprocher les points représentatifs vers le centre de
gravité par un facteur α.
Plusieurs points représentatifs permettent de figurer la
forme du cluster
42
Clustering de données Catégorielles :
ROCK




ROCK: Robust Clustering using linKs
 Utilise les liens pour mesurer la similarité/proximité
 N’est pas basé sur la notion de distance
Idée :
 Fonction de similarité et voisins:
Let T1 = {1,2,3}, T2={3,4,5}
T1 ∩ T2
Sim(T1 , T2 ) =
T1 ∪ T2
{3}
1
Sim( T 1, T 2) =
= = .2
0
{ ,2,3,4,5}
1
5

43
Rock




Considérons 4 transactions et 6 produits t.q
T1={1,2,3,5} T2={2,3,4,5}
T3={1,4} et T4={6}
T1 peut être représentée par {1,1,1,0,1,0}

dist(T1,T2)=2 qui est la plus petite distance entre 2 transactions  T1
et T2 dans même cluster. La moyenne de C1=(0.5,1,1,0.5,1,0).
C2={T3,T4} car dist(T3,T4)=3. Or T3 et T4 n’ont aucun produit en
commun !
Idée : se baser sur le nombre d’éléments en commun
Ce n’est pas suffisant {1,2} est plus proche de {1,2,3} que de
{1,2,3,4,5,6}

44
Rock: l’algorithme


Liens: Le nombre de voisins communs de 2
points

{1,2,3}, {1,2,4}, {1,2,5}, {1,3,4}, {1,3,5}
{1,4,5}, {2,3,4}, {2,3,5}, {2,4,5}, {3,4,5}
3
{1,2,3}
{1,2,4}


Algorithme
 Prendre un sous ensemble
 Regrouper avec les liens
45
Clustering basé sur la densité




Voit les clusters comme des régions denses séparées par
des régions qui le sont moins (bruit)
Deux paramètres:






Eps : Rayon maximum du voisinage
MinPts : Nombre minimum de points dans le voisinageEps d’un point

Voisinage : V Eps (p) :

{q ∈ D | dist(p,q) <= Eps}

Un point p est directement densité-accessible à partir de q
resp. à Eps , MinPts si


1) p ∈V Eps (q)



2) | V Eps (q) | >= MinPts

q

p

MinPts = 5
Eps = 1 cm
46
Clustering basé sur la densité


Accessibilité:




Connexité


p

p est accessible à partir de q resp.
à Eps, MinPts si il existe p1, …, pn,
p1 = q, pn = p t.q pi+1 est directement
densité accessible à partir de pi

p est connecté à q resp. à Eps,
MinPts si il existe un point o t.q p
et q accessibles à partir de o resp.
à Eps et MinPts.

p1

q

p

q
o

47
DBSCAN: Density Based Spatial
Clustering of Applications with Noise



Un cluster est l’ensemble maximal de points connectés
Découvre des clusters non nécessairement convexes

Bruit
Limite
Centr

Eps = 1cm
MinPts = 5

48
DBSCAN: l’algorithme










Choisir p
Récupérer tous les points accessibles à partir de p
resp. Eps et MinPts .
Si p est un centre, un cluster est formé.
si p est une limite, alors il n’y a pas de points
accessibles de p : passer à un autre point
Répéter le processus jusqu’à épuiser tous les points.

49
Découverte d’exceptions






Ce sont les objets qui sont considérablement
différents du reste, exemple: ornithorynque, kiwi
Problème
 Trouver n objets qui sont les plus éloignés du
reste
Applications:
 fraude
 Analyse médicale
 …
50
Approache statistique





On suppose que les données suivent une loi de
distribution statistique (ex: loi normale)
Utiliser les tests de discordance
 Proba(Xi=val)< β alors X est une exception
Problèmes
 La plupart des tests sont sur un attribut
 Dans beaucoup de cas, la loi de distribution
est inconnue
51
Approche Basée sur la Distance


Une (α, β)-exception est un object O dans T tel
qu’il y a au moins α objets O’ de T avec
dist(O,O’)> β

Weitere ähnliche Inhalte

Was ist angesagt?

Fórmulas elementales de derivación
Fórmulas elementales de derivaciónFórmulas elementales de derivación
Fórmulas elementales de derivaciónLuis Castañeda
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Problème De Sac à Dos
Problème De Sac à Dos Problème De Sac à Dos
Problème De Sac à Dos chagra bassem
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 
Espace vectoriel
Espace vectorielEspace vectoriel
Espace vectoriellexois1
 
Suite exercice
Suite exerciceSuite exercice
Suite exercicehassan1488
 
Cours groupe
Cours groupeCours groupe
Cours groupebades12
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoiresBoris Guarisma
 
Suites numériques exercices corrigés
Suites numériques exercices corrigésSuites numériques exercices corrigés
Suites numériques exercices corrigésLamia Lazrak
 
Cours9 programmation linéaire
Cours9 programmation linéaireCours9 programmation linéaire
Cours9 programmation linéaireAroussia Othmen
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabouAchraf Manaa
 
11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalome11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalomeOpenCascade
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsSana Aroussi
 

Was ist angesagt? (20)

Fórmulas elementales de derivación
Fórmulas elementales de derivaciónFórmulas elementales de derivación
Fórmulas elementales de derivación
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Diviser Pour Régner
Diviser Pour RégnerDiviser Pour Régner
Diviser Pour Régner
 
Problème De Sac à Dos
Problème De Sac à Dos Problème De Sac à Dos
Problème De Sac à Dos
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
Espace vectoriel
Espace vectorielEspace vectoriel
Espace vectoriel
 
Suite exercice
Suite exerciceSuite exercice
Suite exercice
 
Cours groupe
Cours groupeCours groupe
Cours groupe
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Cours suite
Cours suiteCours suite
Cours suite
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
Suites numériques exercices corrigés
Suites numériques exercices corrigésSuites numériques exercices corrigés
Suites numériques exercices corrigés
 
Cours9 programmation linéaire
Cours9 programmation linéaireCours9 programmation linéaire
Cours9 programmation linéaire
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
 
Formation traitement d_images
Formation traitement d_imagesFormation traitement d_images
Formation traitement d_images
 
11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalome11 jus 20101123_saturneastersalome
11 jus 20101123_saturneastersalome
 
Proglin
ProglinProglin
Proglin
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutons
 

Andere mochten auch

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Chapitre 3 clustering
Chapitre 3 clusteringChapitre 3 clustering
Chapitre 3 clusteringAnis Masmoudi
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22octAleemuddin Abbasi
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Julien Deneuville
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebHarrathi Mohamed
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...Conférence IC 2009
 
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesSocial Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesFreddy Limpens
 
La CEE ante el Anteproyecto Ley Aborto
La CEE ante el Anteproyecto Ley AbortoLa CEE ante el Anteproyecto Ley Aborto
La CEE ante el Anteproyecto Ley AbortoAM GCH
 
Guia de tiempo tercero
Guia de tiempo terceroGuia de tiempo tercero
Guia de tiempo terceroJose Avendaño
 
Diapositivas De Equipo 1 Desarrollo De Tec Y Sostenible
Diapositivas De Equipo 1  Desarrollo De Tec Y SostenibleDiapositivas De Equipo 1  Desarrollo De Tec Y Sostenible
Diapositivas De Equipo 1 Desarrollo De Tec Y SostenibleIsai Luna
 

Andere mochten auch (20)

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Chapitre 3 clustering
Chapitre 3 clusteringChapitre 3 clustering
Chapitre 3 clustering
 
Knn
KnnKnn
Knn
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22oct
 
6 clustering
6 clustering6 clustering
6 clustering
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site Web
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
XebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learningXebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learning
 
10 Clustering
10 Clustering10 Clustering
10 Clustering
 
Recherche semantique
Recherche semantique Recherche semantique
Recherche semantique
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
 
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesSocial Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
 
La CEE ante el Anteproyecto Ley Aborto
La CEE ante el Anteproyecto Ley AbortoLa CEE ante el Anteproyecto Ley Aborto
La CEE ante el Anteproyecto Ley Aborto
 
Presentación perú
Presentación perúPresentación perú
Presentación perú
 
Fotosaereas 1
Fotosaereas 1Fotosaereas 1
Fotosaereas 1
 
Guia de tiempo tercero
Guia de tiempo terceroGuia de tiempo tercero
Guia de tiempo tercero
 
Diapositivas De Equipo 1 Desarrollo De Tec Y Sostenible
Diapositivas De Equipo 1  Desarrollo De Tec Y SostenibleDiapositivas De Equipo 1  Desarrollo De Tec Y Sostenible
Diapositivas De Equipo 1 Desarrollo De Tec Y Sostenible
 

Ähnlich wie Cours cluster si2e

toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesEL-Hachemi Guerrout
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...
T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...
T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...tawfik-masrour
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdfSidiAbdallah1
 
Paramètres statistiques.pdf
Paramètres statistiques.pdfParamètres statistiques.pdf
Paramètres statistiques.pdfssuser50a397
 
La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications Ibrahim Chegrane
 
cours traitements d'image segmentation.pdf
cours traitements d'image segmentation.pdfcours traitements d'image segmentation.pdf
cours traitements d'image segmentation.pdfBrahimDehri1
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdfMouloudi1
 
Xavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionXavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionKezhan SHI
 
Résolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonRésolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonAli SIDIBE
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
Intro_DeepLearning.pdf
Intro_DeepLearning.pdfIntro_DeepLearning.pdf
Intro_DeepLearning.pdfAmou5
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0guest8b8369
 

Ähnlich wie Cours cluster si2e (20)

toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
Théorie des distributions
Théorie des distributionsThéorie des distributions
Théorie des distributions
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...
T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...
T. Masrour - cours dynamique des systèmes - vibrations - chapitre1-1ddl chapi...
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdf
 
Paramètres statistiques.pdf
Paramètres statistiques.pdfParamètres statistiques.pdf
Paramètres statistiques.pdf
 
La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 
cours traitements d'image segmentation.pdf
cours traitements d'image segmentation.pdfcours traitements d'image segmentation.pdf
cours traitements d'image segmentation.pdf
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdf
 
Xavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régressionXavier Milaud - Techniques d'arbres de classification et de régression
Xavier Milaud - Techniques d'arbres de classification et de régression
 
Résolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonRésolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en python
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
Intro_DeepLearning.pdf
Intro_DeepLearning.pdfIntro_DeepLearning.pdf
Intro_DeepLearning.pdf
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0
 

Cours cluster si2e

  • 2. Qu’est ce qu’un bon regroupement ?  Une bonne méthode de regroupement permet de garantir    Une grande similarité intra-groupe Une faible similarité inter-groupe La qualité d’un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation 3
  • 3. Structures de données   Matrice de données Matrice de similarité  x11   ... x  i1  ... x  n1  ... x1f ... ... ... ... xif ... ... ... ... ... xnf ... ...  0  d(2,1) 0   d(3,1) d ( 3,2) 0  : :  : d ( n,1) d ( n,2) ...  x1p   ...  xip   ...  xnp          ... 0  4
  • 4. Mesurer la qualité d’un clustering     Métrique pour la similarité: La similarité est exprimée par le biais d’une mesure de distance Une autre fonction est utilisée pour la mesure de la qualité Les définitions de distance sont très différentes que les variables soient des intervalles (continues), catégories, booléennes ou ordinales En pratique, on utilise souvent une pondération des variables 5
  • 5. Types des variables  Intervalles:  Binaires:  catégories, ordinales, ratio:  Différents types: 6
  • 6. Intervalle (discrètes)  Standardiser les données  Calculer l’écart absolu moyen: s f = 1 (| x1 f − m f | + | x2 f − m f | +...+ | xnf − m f |) n où  m f = 1 (x1 f + x2 f n + ... + xnf ) . Calculer la mesure standardisée (z-score) xif − m f zif = sf 7
  • 8. Similarité entre objets  Les distances expriment une similarité  Ex: la distance de Minkowski : d (i, j) = q (| x − x |q + | x − x |q +...+ | x − x |q ) i1 j1 i2 j2 ip jp où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets p-dimensionnels et q un entier positif  Si q = 1, d est la distance de Manhattan d (i, j) =| x − x | + | x − x | + ...+ | x − x | i1 j1 i2 j 2 ip jp 9
  • 9. Similarité entre objets(I)  Si q = 2, d est la distance Euclidienne : d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 ) i1 j1 i2 j2 ip jp  Propriétés  d(i,j) ≥ 0  d(i,i) = 0  d(i,j) = d(j,i)  d(i,j) ≤ d(i,k) + d(k,j) 10
  • 10. Exemple: distance de Manhattan Personne1 Personne2 Personne3 Personne4 Age 50 70 60 60 Salaire 11000 11100 11122 11074 Personne1 Personne2 Personne3 Personne4 Age -2 2 0 0 Salaire -0,5 0,175 0,324 0 d(p1,p2)=120 d(p1,p3)=132 Conclusion: p1 ressemble plus à p2 qu’à p3  d(p1,p2)=4,675 d(p1,p3)=2,324 Conclusion: p1 ressemble plus à p3 qu’à p2  11
  • 11. Variables binaires  Une table de contingence pour données binaires Objet j 1 Objet i  1 a 0 b 0 c d sum a + c b + d sum a +b a= nombre de positions où i a 1 et j a 1 c+d p Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1) a=1, b=2, c=1, d=2 12
  • 12. Mesures de distances  Coefficient d’appariement (matching) simple (invariant pour variables symétriques): b +c d (i, j) = a +b +c +d Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1) d(oi, oj)=3/5  Coefficient de Jaccard d (i, j) = b +c a +b +c d(oi, oj)=3/4 13
  • 13. Variables binaires (I)   Variable symétrique: Ex. le sexe d’une personne, i.e coder masculin par 1 et féminin par 0 c’est pareil que le codage inverse Variable asymétrique: Ex. Test HIV. Le test peut être positif ou négatif (0 ou 1) mais il y a une valeur qui sera plus présente que l’autre. Généralement, on code par 1 la modalité la moins fréquente  2 personnes ayant la valeur 1 pour le test sont plus similaires que 2 personnes ayant 0 pour le test 14
  • 14.  Exemple Nom Jack Mary Jim    Variables binaires(II) Sexe M F M Fièvre Y Y Y Toux N N P Test-1 P P N Test-2 N N N Test-3 N P N Test-4 N N N Sexe est un attribut symétrique Les autres attributs sont asymétriques Y et P ≡ 1, N ≡ 0, la distance n’est mesurée que sur les asymétriques d(jack, mary) d(jack, jim) d(jim, mary) = 2 0 + 1 + 0 + 1 1 + 1 = 1 + + 1 1 1 + 2 = 1 + + 1 2 =0.33 =0.67 =0.75 Les plus similaires sont Jack et Mary⇒atteints du même mal 15
  • 15. Variables Nominales   Une généralisation des variables binaires, ex: rouge, vert et bleu Méthode 1: Matching simple  m: # d’appariements, p: # total de variables p −m d (i, j) = p  Méthode 2: utiliser un grand nombre de variables binaires  Créer une variable binaire pour chaque modalité (ex: variable rouge qui prend les valeurs vrai ou faux) 16
  • 16. Variables Ordinales  Une variable ordinale peut être discrète ou continue  L’ordre peut être important, ex: classement  Peuvent être traitées comme les variables intervalles rif ∈ 1,..., M f } {  remplacer x par son rang if   Remplacer le rang de chaque variable par une valeur dans [0, 1] en remplaçant la variable f dans l’objet I par rif − 1 zif = Mf − 1 Utiliser une distance pour calculer la similarité 17
  • 17. En Présence de Variables de différents Types   Pour chaque type de variables utiliser une mesure adéquate. Problèmes: les clusters obtenus peuvent être différents On utilise une formule pondérée pour faire la combinaison p ( ( Σ =1δ f ) d ij f ) d (i, j ) = f p ij ( f ) Σ =1δ f ij  f est binaire ou nominale: dij(f) = 0 si xif = xjf , sinon dij(f) = 1  f est de type intervalle: utiliser une distance normalisée  f est ordinale zif = r −1 M −1  calculer les rangs r et if  Ensuite traiter z comme une variable de type if intervalle if f 18
  • 18. Approches de Clustering  Algorithmes de Partitionnement: Construire plusieurs partitions puis les évaluer selon certains critères  Algorithmes hiérarchiques: Créer une décomposition hiérarchique des objets selon certains critères  Algorithmes basés sur la densité: basés sur des notions de connectivité et de densité  Algorithmes de grille: basés sur un structure à multiniveaux de granularité  Algorithmes à modèles: Un modèle est supposé pour chaque cluster ensuite vérifier chaque modèle sur chaque groupe pour choisir le meilleur 19
  • 19. Algorithmes à partionnement   Construire une partition à k clusters d’une base D de n objets Les k clusters doivent optimiser le critère choisi  Global optimal: Considérer toutes les k-partitions  Heuristic methods: Algorithmes k-means et k-medoids   k-means (MacQueen’67): Chaque cluster est représenté par son centre k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw’87): Chaque cluster est représenté par un de ses objets 20
  • 20. La méthode des k-moyennes (K-Means)  L’algorithme k-means est en 4 étapes : 1. 1. 1. 1. Choisir k objets formant ainsi k clusters (Ré)affecter chaque objet O au cluster Ci de centre Mi tel que dist(O,Mi) est minimal Recalculer Mi de chaque cluster (le barycentre) Aller à l’étape 2 si on vient de faire une affectation 21
  • 21. K-Means :Exemple   A={1,2,3, 6,7,8,13, 15,17}. Créer 3 clusters à partir de A On prend 3 objets au hasard. Supposo ns que 22 1, 2 c’est
  • 22. K-Means :Exemple (suite)     dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11 dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12 dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25 dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2 C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15 Plus rien ne bouge 23
  • 24. Commentaires sur la méthode des K-Means   Force  Relativement efficace: O(tkn), où n est # objets, k est # clusters, et t est # itérations. Normalement, k, t << n.  Tend à réduire k E = ∑∑ p∈ Ci p − mi 2 i =1 Faiblesses  N’est pas applicable en présence d’attributs qui ne sont pas du type intervalle (moyenne=?)  On doit spécifier k (nombre de clusters)  Les clusters sont construits par rapports à des objets inexistants (les milieux)  Ne peut pas découvrir les groupes non-convexes 25
  • 25. La méthode des K-Medoids (PAM)   Trouver des objets représentatifs (medoïdes) dans les clusters (au lieu de la moyenne) Principe   Commencer avec un ensemble de medoïdes puis itérativement remplacer un par un autre si ça permet de réduire la distance globale Efficace pour des données de petite taille 26
  • 26. Algorithme des k-Medoides Choisir arbitrairement k medoides Répéter affecter chaque objet restant au medoide le plus proche Choisir aléatoirement un non-medoide Or Pour chaque medoide Oj Calculer le coût TC du remplacement de Oj par Or Si TC < 0 alors Remplacer Oj par Or Calculer les nouveaux clusters Finsi FinPour Jusqu’à ce ce qu’il n’y ait plus de changement 27
  • 27. PAM (Partitioning Around Medoids) (1987) Choisir arbitrairement k objets représentatifs  Pour toute paire (h,j) d’objets t.q h est choisi et j non, calculer le coût TC jh du remplacement de j par h    Si TCih < 0, j est remplacé par h Puis affecter chaque objet non sélectionné au medoïde qui lui est le plus similaire Répéter jusqu’à ne plus avoir de changements 28
  • 28. La méthode des K-Medoids    TCjh représente le gain en distance globale que l’on va avoir en remplaçant h par j Si TCjh est négatif alors on va perdre en distance. Ca veut dire que les clusters seront plus compacts. TCjh=Σi dist(j,h)-dist(j,i)= Σi Cijh 29
  • 29. La méthode des K-Medoids: Exemple   Soit A={1,3,4,5,8,9}, k=2 et M={1,8} ensemble des medoides C1={1,3,4} et C2={5,8,9} E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(5,9)2+dist(9,8)2=39 Comparons 1 et 3M={3,8}C1={1,3,4,5} et C2={8,9} E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10 E {3,8} - E{1,8}= -29 <0 donc le remplacement est fait.   Comparons 3 et 4 M={4,8} C1 et C2 inchangés et E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2= 12 3 n’est pas remplacé par 4 Comparons 3 et 5M={5,8} C1 et C2 inchangés et E{5,8}>E{3,8} 30
  • 30. PAM Clustering: TCih=∑jCjih 10 10 9 9 t 8 7 j t 8 7 j 6 5 i 4 3 6 5 h h i 4 3 2 2 1 1 0 0 0 1 2 3 4 5 6 7 8 9 10 Cjih = d(j, h) - d(j, i) 0 1 2 3 4 5 6 7 8 9 10 Cjih = 0 10 10 9 9 h 8 8 j 7 6 5 6 i 5 i 4 7 t 3 h 4 3 t 2 2 1 1 j 0 0 0 1 2 3 4 5 6 7 8 9 Cjih = d(j, t) - d(j, i) 10 0 1 2 3 4 5 6 7 8 9 10 Cjih = d(j, h) - d(j, t) 31
  • 31. Clustering Hiérarchique  Utiliser la matrice de distances comme critère de regroupement. k n’a pas à être précisé, mais a besoin d’une condition d’arrêt Etape 0 a b Etap e1 Etap e2 Etap e4 ab agglomerative (AGNES) abcde c cde d de e Etap e4 Etap e3 Etap e3 Etap e2 Etap e1 Etap e0 divisive (DIANA) 32
  • 32. AGNES (Agglomerative Nesting)  Utilise la matrice de dissimilarité.  Fusionne les nœuds qui ont la plus faible dissimilarité  On peut se retrouver dans la situation où tous les nœuds sont dans le même groupe 10 10 10 9 9 8 8 7 7 6 6 5 5 4 4 4 3 3 3 2 2 2 1 1 1 9 8 7 6 5 0 0 0 1 2 3 4 5 6 7 8 9 10 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 33 5 6 7 8 9 10
  • 33. DIANA (Divisive Analysis) L’ordre inverse de celui d’AGNES  Il se peut que chaque objet forme à lui seul un groupe  10 10 9 9 8 8 7 7 6 6 5 5 10 4 4 9 8 3 3 2 7 6 2 1 5 4 1 3 0 0 1 2 3 4 5 6 7 8 9 10 0 2 0 1 2 3 4 5 6 7 8 9 10 1 0 0 1 2 3 4 5 6 7 34 8 9 10
  • 34. Critères de fusion-éclatement Exemple: pour les méthodes agglomératives, C1 et C2 sont fusionnés si  il existe o1 ∈ C1 et o2∈ C2 tels que Lien unique dist(o1,o2) ≤ seuil, ou  il n’existe pas o1 ∈ C1 et o2∈ C2 tels que dist(o1,o2) ≥ seuil, ou  distance entre C1 et C2 ≤ seuil avec  dist ( C , C 1 2 ) 1 = dist(o1, o2) ∑ n1 * n2 o1∈C1 o2∈C2 ,  et n1=|C1|. Ces techniques peuvent être adaptées pour les méthodes divisives 35
  • 35. BIRCH (1996)   Birch: Balanced Iterative Reducing and Clustering using Hierarchies Construit incrémentalement un arbre (CF-tree : Clustering Feature), une structure hiérarchique où chaque niveau représente une phase de clustering     Phase 1: scanner la base pour construire le CF-tree dans la mémoire Phase 2: utiliser n’importe quel algorithme de clustering sur les feuilles du CF-tree Avantage: trouve les clusters en une seule passe sur la BD Inconvénient: ne considère que les données numériques et est sensible à l’ordre des enregistrements 36
  • 36. Clustering Feature Vector Clustering Feature: CF = (N, LS, SS) N: Number of data points LS: ∑Ni=1=Xi SS: ∑Ni=1=Xi2 CF = (5, (16,30),(54,190)) 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 (3,4) (2,6) (4,5) (4,7) (3,8) 37
  • 37. CF Tree N_noeud= 7 Racine CF2 CF3 CF6 Fils1 N_feuille = 6 CF1 Fils2 Fils6 Fils3 Nœud interne CF1 CF2 CF3 CF5 Fils1 Fils2 Fils5 Fils3 Feuille préd CF1 CF2 CF6 suivant Feuille préd CF1 CF2 CF4 suiv 38
  • 38. CURE (Clustering Using REpresentatives )   Les méthodes précédentes donnent les groupes (b) CURE: (1998)  Arrête la création de clusters dès qu’on en a k  Utilise plusieurs points représentatifs clusters 39
  • 39. Cure: l’algorithme  Prendre un sous-ensemble s  Partitionner s en p partitions de taille s/p  Dans chaque partition, créer s/pq clusters  Eliminer les exceptions (points aberrants)  Regrouper les clusters partiels 40
  • 40. Partitionnment et Clustering    s = 50 p=2 s/p = 25 s/pq = 5  y y y x y y x x x x 41
  • 41. Cure: Rapprochement des points représentatifs y y x x   Rapprocher les points représentatifs vers le centre de gravité par un facteur α. Plusieurs points représentatifs permettent de figurer la forme du cluster 42
  • 42. Clustering de données Catégorielles : ROCK   ROCK: Robust Clustering using linKs  Utilise les liens pour mesurer la similarité/proximité  N’est pas basé sur la notion de distance Idée :  Fonction de similarité et voisins: Let T1 = {1,2,3}, T2={3,4,5} T1 ∩ T2 Sim(T1 , T2 ) = T1 ∪ T2 {3} 1 Sim( T 1, T 2) = = = .2 0 { ,2,3,4,5} 1 5 43
  • 43. Rock   Considérons 4 transactions et 6 produits t.q T1={1,2,3,5} T2={2,3,4,5} T3={1,4} et T4={6} T1 peut être représentée par {1,1,1,0,1,0} dist(T1,T2)=2 qui est la plus petite distance entre 2 transactions  T1 et T2 dans même cluster. La moyenne de C1=(0.5,1,1,0.5,1,0). C2={T3,T4} car dist(T3,T4)=3. Or T3 et T4 n’ont aucun produit en commun ! Idée : se baser sur le nombre d’éléments en commun Ce n’est pas suffisant {1,2} est plus proche de {1,2,3} que de {1,2,3,4,5,6} 44
  • 44. Rock: l’algorithme  Liens: Le nombre de voisins communs de 2 points {1,2,3}, {1,2,4}, {1,2,5}, {1,3,4}, {1,3,5} {1,4,5}, {2,3,4}, {2,3,5}, {2,4,5}, {3,4,5} 3 {1,2,3} {1,2,4}  Algorithme  Prendre un sous ensemble  Regrouper avec les liens 45
  • 45. Clustering basé sur la densité   Voit les clusters comme des régions denses séparées par des régions qui le sont moins (bruit) Deux paramètres:     Eps : Rayon maximum du voisinage MinPts : Nombre minimum de points dans le voisinageEps d’un point Voisinage : V Eps (p) : {q ∈ D | dist(p,q) <= Eps} Un point p est directement densité-accessible à partir de q resp. à Eps , MinPts si  1) p ∈V Eps (q)  2) | V Eps (q) | >= MinPts q p MinPts = 5 Eps = 1 cm 46
  • 46. Clustering basé sur la densité  Accessibilité:   Connexité  p p est accessible à partir de q resp. à Eps, MinPts si il existe p1, …, pn, p1 = q, pn = p t.q pi+1 est directement densité accessible à partir de pi p est connecté à q resp. à Eps, MinPts si il existe un point o t.q p et q accessibles à partir de o resp. à Eps et MinPts. p1 q p q o 47
  • 47. DBSCAN: Density Based Spatial Clustering of Applications with Noise   Un cluster est l’ensemble maximal de points connectés Découvre des clusters non nécessairement convexes Bruit Limite Centr Eps = 1cm MinPts = 5 48
  • 48. DBSCAN: l’algorithme      Choisir p Récupérer tous les points accessibles à partir de p resp. Eps et MinPts . Si p est un centre, un cluster est formé. si p est une limite, alors il n’y a pas de points accessibles de p : passer à un autre point Répéter le processus jusqu’à épuiser tous les points. 49
  • 49. Découverte d’exceptions    Ce sont les objets qui sont considérablement différents du reste, exemple: ornithorynque, kiwi Problème  Trouver n objets qui sont les plus éloignés du reste Applications:  fraude  Analyse médicale  … 50
  • 50. Approache statistique   On suppose que les données suivent une loi de distribution statistique (ex: loi normale) Utiliser les tests de discordance  Proba(Xi=val)< β alors X est une exception Problèmes  La plupart des tests sont sur un attribut  Dans beaucoup de cas, la loi de distribution est inconnue 51
  • 51. Approche Basée sur la Distance  Une (α, β)-exception est un object O dans T tel qu’il y a au moins α objets O’ de T avec dist(O,O’)> β