Cours add-r1-part4

Arthur CHARPENTIER - Analyse des données
Analyse des données (4)
La Classification (Ascendante) Hiéracrchique
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Université Rennes 1
1

La classification, une introduction
Ici on cherche à regrouper des objects présentant des similitudes. De manière
intuitive, on voit que le choix de la distance ne sera pas neutre.
L’idée est de constituer des groupes homogènes. Il existe des méthodes
• non hiérarchique ou dites de partitionnement
• hiérarchique où on cherche à construire des suites de partitions emboˆıtées,
contenant n, puis n − 1, puis n − 2, · · · classes, en regroupant à chaque étape
deux parties.
Remarque rappelons que le nombre de partitions en k classes de n éléments est
de l’ordre de kn
/k! et donc le nombre total de partitions d’un ensemble de n
élément vaut
1
e
k≥1
kn
k!
. Aussi, avec n = 10 individus, il y a un peu plus de
100, 000 partitions possible, et pour n = 15, plus de 1.3 milliards.
=⇒ pour plus de 10 individus, il est impossible de comparer toutes les partitions
possibles.
Pour des variables continues, on utilise une distance euclidienne pour mesurer la
2

distance entre deux individus,
d2
(i1, i2) =
j
(Yi1,j − Yi2,j)
2
.
Pour des variables qualitatives, on utilise une distance du chi-deux pour mesurer
la distance entre deux individus, i.e. entre deux proﬁls lignes
d2
(i1, i2) =
j
ni1,j
ni1,·
−
ni1,j
ni2,·
2
.
3

Exemple introductif, sur données continues
Considérons l’exmple au décathlon, en athlétisme
> library(ade4)
> data(olympic)
> head(olympic$tab)
100 long poid haut 400 110 disq perc jave 1500
1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95
2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02
3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20
4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11
5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64
6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07
Afin de comparer “proprement” les variables, on commence
• par centrer et réduire (afin de rendre comparable)
• par transformer certaines variables car elles ne s’interprète pas de la même
manièr : un score élevé en haut signifie que la personne a sauté haut en saut en
hauteur (ce qui est bon), mais un score élevé en 100 signifie que la personne a
mis un temps long pour courrir le 100 mètre (ce qui est mauvais)
4

On pose alors Yi,j = ±
Xi,j − Xj
sj
, avec un signe − pour les sports de course.
> Y=scale(olympic$tab, center=TRUE,scale=TRUE)
> Y[,c(1,5,6,10)]= -Y[,c(1,5,6,10)]
> distY=dist(Y, center=TRUE,scale=TRUE)
> distY
1 2 3 4 5 6
2 4.363550
3 4.108952 1.887325
4 4.183513 2.168189 3.185110
5 5.193806 2.385945 2.190279 3.979429
6 4.280036 2.937114 3.666441 3.346085 2.968765
7 5.074714 3.539372 3.339522 3.787598 4.012323 4.347930
5

Fig. 1 – Constitution de classes : regrouper des individus (et des classes).
6

7

8

9

Retour sur le d´ecathlon
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
32
26
24
25
21
22
16
23
33
29
19
27
05101520
Cluster Dendrogram
hclust (*, "ward")
Fig. 5 – Constitution de classes sur les sportifs du d´ecathlon.
10

−0.2 0.0 0.2 0.4
−0.20.00.20.4
Comp.1
Comp.2
1
1 1
2
1
1
2
1
1
2
2
1
1
1
1
3
4
2
3
2
3
3
3
3
3
3
3
4
3
4
4
4
3
−4 −2 0 2 4 6 8
−4−202468
100long
poid
haut
400
110
disq
perc
jave
1500
Fig. 6 – ACP avec les classes des sportifs du d´ecathlon.
11

−3 −2 −1 0 1 2 3 4
−2024
Component 1
Component2
These two components explain 57.84 % of the point variability.
q
q
q
q
q
q
q
q
q
q
q
1
2
3
4
Fig. 7 – ACP avec les classes des sportifs du d´ecathlon.
12

Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper les
variables.
> distY=dist(t(Y))
> distY
100 long poid haut 400 110 disq perc jave
long 5.428413
poid 7.119673 7.410709
haut 7.393370 6.820509 7.495809
400 5.022220 5.569466 8.369785 7.641971
110 4.810911 5.779988 6.713726 6.661003 5.390198
disq 7.808819 7.830512 3.520434 7.386813 8.549857 7.545075
perc 6.252612 6.450176 5.769002 7.096024 6.603470 5.533615 6.479676
jave 7.736813 7.236939 5.074343 7.521977 8.467736 7.744637 5.971090 6.815316
1500 6.877050 6.219523 9.011386 7.529835 5.139452 7.404658 9.473567 7.873012 8.376637
> hc <- hclust(distY, "ave")
> plot(hc)
> plot(hc, hang = -1)
13

jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
hclust (*, "average")
distY
Height
jave
poid
disq
haut
400
1500
perc
long
100
110
345678
Cluster Dendrogram
distYHeight
Fig. 8 – Regroupement des sports du d´ecathlon
14

Notons que l’on peut aussi changer de distance, ou la m´ethode de regroupement,
par exemple,
> distY=dist(t(Y),method = "euclidean")
> hc <- hclust(distY, "average")
> plot(hc)
> distY=dist(t(Y),method = "canberra")
> hc <- hclust(distY, "single")
> plot(hc)
15

jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
distY
Height
haut
jave
poid
disq
perc
long
1500
400
100
110
3.54.04.55.05.56.06.5
Cluster Dendrogram
hclust (*, "single")
distY
Height
jave
poid
disq
400
1500
haut
perc
long
100
110
2468101214
Cluster Dendrogram
hclust (*, "ward")
distY
Height
400
1500
jave
poid
disq
haut
perc
long
100
110
3456789
Cluster Dendrogram
hclust (*, "complete")
distY
Height
jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
distY
Height
1500
400
long
disq
jave
poid
haut
100
110
perc
2530354045505560
Cluster Dendrogram
distY
Height
Fig. 9 – Regroupement(s) des sports du d´ecathlon 16

Exemple introductif, sur données qualitatives
On peut utiliser cette méthode pour étudier des regroupements de modalités, voir
quelles modalitées sont proches : classification sur un tableau de contingence.
Pour cela, on utilise une distance du chi-deux pour mesurer la proximité entre
des modalités. Par exemple sur le liens entre la CSP et la nationalité, on peut
étudier des regroupements de lignes (i.e. de CSP),
> CSPnat=read.table("D:CSP-nat.txt",head=TRUE)
> mymat=CSPnat[,2:ncol(CSPnat)]
> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)
> distY=dist.dudi(mydf.coa, amongrow = TRUE)
> hc <- hclust(distY, "ward")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
ou de colonnes
> CSPnat=read.table("D:CSP-nat.txt",head=TRUE)
> mymat=CSPnat[,2:ncol(CSPnat)]
17

> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)
> distY=dist.dudi(mydf.coa, amongrow = TRUE)
> hc <- hclust(distY, "ward")
> plot(hc)
18

Commercants
EmployesCommerc
InactDiv
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
ChefsEntreprise
ProfLibérales
CadresPublic
CadresEntrepr
EmployesPublic
Techniciens
EmployesEntrepr
AncArtisans
ProfIntPublic
ProfIntEntrepr
AncCadreProfInt
ChomeursJamTrav
OuvriersAgricol
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.51.01.52.0
Cluster Dendrogram
hclust (*, "ward")
distY
Height
Portugais
Autres
Algerien
Tunisien
Marocain
Turc
Espagnol
Italien
AutresUE
FrancaisNaissance
Francaisacquis
0.00.51.01.52.0
Cluster Dendrogram
hclust (*, "ward")
distYHeight
Fig. 10 – Regroupement(s) des sports du d´ecathlon
19

Une autre piste, pour classer des individus, est d’utiliser des méthodes de
classification sur l’AFC ou l’ACM d’un tableau de variables qualitatives, et de
considérer les coordonnées des individus sur les axes factoriels comme de
nouvelles variables.
> library(FactoMineR)
> afc=CA(mymat, ncp = 5)
> base=CA(mymat, ncp = 5)$row$coord
> hc <- hclust(dist(base), "ave")
> plot(hc)
Ici on utilise une distance euclidienne (classique) sur les projections sur les axes
principaux. Notons qu’on retient ici uniquement les 5 premiers axes. Le graphique
ci-dessous montrer la classifation obtenue sur 2 et sur 5 axes, puis 2, 4, 6 et 10.
20

Agriculteurs
AncAgriculteurs
ProfIntPublic
CadresPublic
CadresEntrepr
EmployesPublic
ChefsEntreprise
ProfLibérales
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
InactDiv
Commercants
EmployesCommerc
Artisans
Contremaitres
AncEmployeOuvr
OuvriersAgricol
ChomeursJamTrav
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.10.20.30.40.5
Cluster Dendrogram
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
ChefsEntreprise
CadresEntrepr
ProfLibérales
CadresPublic
EmployesPublic
ProfIntPublic
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
Commercants
EmployesCommerc
InactDiv
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
dist(base)
Height
21

Agriculteurs
AncAgriculteurs
ProfIntPublic
CadresPublic
CadresEntrepr
EmployesPublic
ChefsEntreprise
ProfLibérales
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
InactDiv
Commercants
EmployesCommerc
Artisans
Contremaitres
AncEmployeOuvr
OuvriersAgricol
ChomeursJamTrav
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.10.20.30.40.5
Cluster Dendrogram
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
AncArtisans
CadresEntrepr
ProfLibérales
CadresPublic
EmployesPublic
Techniciens
EmployesEntrepr
ChefsEntreprise
ProfIntEntrepr
ProfIntPublic
AncCadreProfInt
InactDiv
Commercants
EmployesCommerc
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
ChefsEntreprise
CadresEntrepr
ProfLibérales
CadresPublic
EmployesPublic
ProfIntPublic
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
Commercants
EmployesCommerc
InactDiv
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
Agriculteurs
AncAgriculteurs
ChefsEntreprise
ProfLibérales
CadresPublic
CadresEntrepr
AncArtisans
EmployesPublic
Techniciens
EmployesEntrepr
ProfIntPublic
ProfIntEntrepr
AncCadreProfInt
Commercants
EmployesCommerc
InactDiv
AncEmployeOuvr
Artisans
Contremaitres
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
dist(base)
Height
22

De l’importance du choix de la distance, dans R2
Distance euclidienne, d(a, b) = (a1 − b1)2 + (a2 − b2)2.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance euclidienne
q
q
12
++ 12
== 2
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance euclidienne
barycentre
q
q
plus proches
voisins
q
q
plus lointains
voisins
23

Distance maximale, d(a, b) = max{|a1 − b1|, |a2 − b2|}.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance maximale
q
q
max{|1−0|,|1−0|}=1
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance maximale
q
q
plus proches
voisins
q
q
plus lointains
voisins
24

Distance de Manhantan, d(a, b) = |a1 − b1| + |a2 − b2|.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Manhattan
q
q
|1−0|+|1−0|=2
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Manhattan
q
q
plus proches
voisins
q
q
plus lointains
voisins
25

Distance de Camberra, d(a, b) = ((a1 − b1)p
+ (a2 − b2)p
)
1
p
.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Canberra
q
q
1 −− 0
1 ++ 0
++
1 −− 0
1 ++ 0
== 1
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Canberra
q
q
plus proches
voisinsq
q
plus lointains
voisins
26

Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p
+ (a2 − b2)p
)
1
p
.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 3
q
q
((13
++ 13
))
1
3 == 2
1
3
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 3
q
q
plus proches
voisins
q
q
plus lointains
voisins
27

Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p
+ (a2 − b2)p
)
1
p
.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 1/2
q
q
((1
1
2 ++ 1
1
2))2
== 4
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 1/2
q
q
plus proches
voisins
q
q
plus lointains
voisins
28

Distance entre points, distance entre groupes
Stratégie barycentrique, d(A, B) est la distance entre les barycentre des deux
groupes. On peut aussi pondérer la distance par les effectifs,
d(A, B) =
ωAωB
ωA + ωB
d(xA, xB),
on parle alors de distance de Ward.
29

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
30

La distance entre deux groupes A et B est le maximum des distances entre un
élément de A et un élément de B,
d(A, B) = max
i∈A,j∈B
{δ(i, j)},
on parle alors de complete linkage.
31

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
32

La distance entre deux groupes A et B est le minimum des distances entre un
d(A, B) = min
i∈A,j∈B
{δ(i, j)},
on parle alors de single linkage.
33

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
34

La distance entre deux groupes A et B est la moyenne des distances entre un
d(A, B) = i ∈ A, j ∈ Bωi,j{δ(i, j)},
on parle alors de group average linkage.
35

Visualisation graphique
Le dendrogramme est un arbre binaire présentant les agrégrations successives,
jusqu’à réunion en une classe unique. La hauteur d’une branche est
proportionnelle à la distance entre les objects regroupés. Pour la distance de
Ward, la distance est simplement la perte de variance inter-classes.
36

D´ecomposition de l’inertie
37

Arbre de classification
Deux familles de classification (ou segmentation) entre variables qualitatives
existent
• les méthodes hiérarchiques ou agglomératives
• les méthodes convergentes
La méthodologie de la classification ascendante hiérarchique est simple
1. on commence par un répartition en n classes, la plus fine qui soit, puis on
aggrège itérativement : à chaque étape, les objets les plus ressemblants (au
vue de la mesure de dssimilarité) sont rassemblées, jusquà obtenir une unique
classe. On parle parfois d’algorithme de Lance & Williams,
2. on coupe dans l’arbre de classification (on parle aussi parfois de
dendrogramme.
Malheureusement, le critère d’aggr´gation peut beaucoup influencer la
classification. Et il n’existe pas de méthode permettant de connaˆıtre la meilleur
méthode d’agrégation. Parmi les méthodes de liaisons les plus classiques,
rappelons
38

• la liaison simple : pour chaque couple de groupes, on calcule la distance entre
les individus les plus proches, et on fusionne alors les groupes les plus proches.
Cette méthode crée souvent des gros groupes hétérogènes,
• la liaison complète : pour chaque couple de groupes, on calcule la distance
entre les individus les plus éloignés,
• la liaison moyenne : pour chaque couple de groupes, on calcule la distance
moyenne entre les individus,
• la liaison centrée : pour chaque couple de groupes, on calcule la distance entre
les moyenne des groupes,
• la liaison de Ward : on clacule la variance de chaque groupe, puis celle de
chaque groupe si on les fusionnait. On fusionne les groupes pour lesquels la
distance entre la variance du couple et la somme des variance est la plus petite.
Par exemple, sur la base des athlètes du Decathlon, en utilisant 5 distances, et 4
critères de regroupes, on obtient les classes suivantes
39

33
1
29
19
27
26
24
25
21
22
30
23
28
7
20
10
18
6
4
11
5
13
14
12
15
2
3
16
8
9
17
31
32
123456 Cluster Dendrogram
dist(Y, method = "euclidean")
Height
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
32
26
24
25
21
22
16
23
33
29
19
27
05101520
Cluster Dendrogram
hclust (*, "ward")
Height
17
33
1
32
20
31
6
7
28
30
14
11
23
5
13
4
12
15
16
8
9
2
3
21
22
26
29
19
27
24
25
10
18
1.01.52.02.53.03.54.0
Cluster Dendrogram
Height
17
20
10
18
4
11
14
12
15
8
9
2
3
1
7
6
5
13
33
28
30
31
32
29
19
27
26
24
25
21
22
16
23
12345678
Cluster Dendrogram
Height
40

17
33
19
27
26
29
21
22
23
24
25
32
30
28
31
18
20
1
6
7
10
5
13
4
11
8
9
16
12
15
14
2
3
dist(Y, method = "manhattan")
Height
6
5
13
7
10
8
9
16
4
11
1
12
15
14
2
3
19
27
26
29
33
21
22
23
24
25
28
31
30
32
17
18
20
0102030405060
Cluster Dendrogram
hclust (*, "ward")
Height
33
17
32
1
6
20
30
18
7
11
10
25
24
19
27
26
29
21
22
4
14
5
13
23
8
2
3
9
16
12
15
28
31
345678910
Cluster Dendrogram
Height
17
1
18
20
4
11
14
2
3
12
15
8
9
16
7
10
6
5
13
32
28
31
33
19
27
26
29
21
22
30
23
24
25
05101520
Cluster Dendrogram
Height
41

20
7
11
14
16
8
9
17
18
23
28
31
4
10
2
3
15
1
12
22
24
21
32
33
19
6
5
13
25
27
26
29
30
dist(Y, method = "canberra")
Height
4
10
2
3
15
1
12
14
8
9
20
7
11
28
31
17
18
16
23
19
6
5
13
21
32
33
27
26
29
30
25
22
24
0100200300400
Cluster Dendrogram
hclust (*, "ward")
Height
25
26
14
20
27
21
7
6
5
13
11
16
8
9
15
1
4
10
12
2
3
17
18
23
19
33
32
29
30
28
31
22
24
246810
Cluster Dendrogram
Height
8
9
20
7
11
16
23
14
19
28
31
17
18
2
3
15
1
12
25
4
10
22
24
21
32
33
6
5
13
27
26
29
30
02004006008001000
Cluster Dendrogram
Height
42

33
1
29
19
27
26
24
25
21
22
30
23
28
7
20
10
18
6
4
11
5
13
14
12
15
2
3
16
8
9
17
31
32
dist(Y, method = "minkowski")
Height
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
32
26
24
25
21
22
16
23
33
29
19
27
05101520
Cluster Dendrogram
hclust (*, "ward")
Height
17
33
1
32
20
31
6
7
28
30
14
11
23
5
13
4
12
15
16
8
9
2
3
21
22
26
29
19
27
24
25
10
18
1.01.52.02.53.03.54.0
Cluster Dendrogram
Height
17
20
10
18
4
11
14
12
15
8
9
2
3
1
7
6
5
13
33
28
30
31
32
29
19
27
26
24
25
21
22
16
23
12345678
Cluster Dendrogram
Height
43

7
10
18
21
22
23
8
9
14
12
15
26
25
16
24
6
3
5
13
20
11
2
4
33
19
27
29
28
30
31
32
1
17
0.51.01.52.02.53.0 Cluster Dendrogram
dist(Y, method = "maximum")
Height
21
22
25
16
24
33
27
29
19
26
31
32
23
28
30
20
14
12
15
11
2
4
8
9
3
5
13
1
6
17
7
10
18
0246810
Cluster Dendrogram
hclust (*, "ward")
Height
17
33
31
1
32
28
7
20
30
6
23
11
5
13
14
3
12
15
8
9
2
4
25
21
22
16
24
26
19
27
29
10
18
0.51.01.52.0
Cluster Dendrogram
Height
1
6
17
7
10
18
31
32
33
19
27
29
20
14
12
15
2
4
8
9
3
5
13
28
30
11
23
21
22
16
24
25
26
012345
Cluster Dendrogram
Height
44

−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
45

−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
46

Méthodes de partitionnement
Parmi les méthodes de partitionnement, on retiendra la méthode dite des
k-means, des centres mobiles ou encore des nuées dynamiques.
1. on choisit (au hasard, éventuellement) k individus de référence, appelés
noyaux,
2. on rattache tous individus au noyau dont ils sont les plus proches,
3. on calcule les centres des classes (barycentres), qui deviendront les nouveaux
noyaux,
4. on repète jusqu’à convergence (qui arrive souvent assez vite)
47

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
48

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
49

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
50

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
51

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
52

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
53

Exemple pratique, départements et votes
Reprenons la base étudiées lors de l’analyse en composantes principales, donnant
les pourcentages des différents candidats à l’élection présidentielle, et essayons de
regrouper les régions proches.
CORREZE
VENDEE
ALPES−MARITIMES
VAR
MOSELLE
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
GIRONDE
TARN
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
PAS−DE−CALAIS
ALPES−DE−HAUTE−PROVENCE
SOMME
NORD
SEINE−MARITIME
TERRITOIRE−DE−BELFORT
PYRENEES−ORIENTALES
AISNE
HERAULT
ISERE
DROME
ARDENNES
MEURTHE−ET−MOSELLE
LOIRE
VAUCLUSE
BOUCHES−DU−RHONE
GARD
OISE
SEINE−ET−MARNE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
EURE−ET−LOIR
AIN
MEUSE
RHONE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
DEUX−SEVRES
LOIRE−ATLANTIQUE
CHARENTE−MARITIME
VIENNE
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
SAONE−ET−LOIRE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
SEINE−SAINT−DENIS
ALLIER
CHER
CANTAL
CREUSE
HAUTE−VIENNE
DORDOGNE
LOT
PARIS
CORSE−DU−SUD
HAUTE−CORSE
05102030
Cluster Dendrogram
dist(base)
Height
54

CORREZE
VENDEE
ALPES−MARITIMES
VAR
MOSELLE
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
GIRONDE
TARN
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
PAS−DE−CALAIS
SOMME
NORD
SEINE−MARITIME
AISNE
HERAULT
ISERE
DROME
ARDENNES
LOIRE
VAUCLUSE
GARD
OISE
SEINE−ET−MARNE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
EURE−ET−LOIR
AIN
MEUSE
RHONE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
DEUX−SEVRES
LOIRE−ATLANTIQUE
CHARENTE−MARITIME
VIENNE
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
SAONE−ET−LOIRE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
ALLIER
CHER
CANTAL
CREUSE
HAUTE−VIENNE
DORDOGNE
LOT
PARIS
CORSE−DU−SUD
HAUTE−CORSE
05102030
Cluster Dendrogram
dist(base)
Height
GARD
OISE
SEINE−ET−MARNE
PAS−DE−CALAIS
SOMME
NORD
SEINE−MARITIME
AISNE
HERAULT
ARDENNES
DROME
ISERE
HAUTE−SAVOIE
HAUTE−LOIRE
ORNE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
MEUSE
RHONE
AIN
EURE−ET−LOIR
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
VAR
MOSELLE
LOIRE
VAUCLUSE
CORREZE
CANTAL
CREUSE
HAUTE−VIENNE
DORDOGNE
LOT
AVEYRON
YVELINES
HAUTS−DE−SEINE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
GIRONDE
TARN
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
ALLIER
CHER
SAONE−ET−LOIRE
CHARENTE−MARITIME
VIENNE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
TARN−ET−GARONNE
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
VENDEE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ILLE−ET−VILAINE
FINISTERE
LOIRE−ATLANTIQUE
DEUX−SEVRES
050100150
Cluster Dendrogram
hclust (*, "ward")
dist(base)
Height
55

CORREZE
VENDEE
CANTAL
PARIS
CREUSE
HAUTE−CORSE
HAUTE−VIENNE
DORDOGNE
LOT
CORSE−DU−SUD
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE−ET−LOIRE
DEUX−SEVRES
MOSELLE
LOZERE
MANCHE
MAYENNE
HAUTE−GARONNE
ARIEGE
ALPES−MARITIMES
VAR
AUDE
NIEVRE
COTES−D−ARMOR
HAUTES−PYRENEES
AVEYRON
ILLE−ET−VILAINE
FINISTERE
YVELINES
HAUTS−DE−SEINE
SEINE−ET−MARNE
ALLIER
LOIRE−ATLANTIQUE
ESSONNE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
PAS−DE−CALAIS
LANDES
CHARENTE
GERS
GIRONDE
TARN
MORBIHAN
CHER
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
PUY−DE−DOME
CHARENTE−MARITIME
VIENNE
GARD
ISERE
DROME
ARDENNES
AISNE
HERAULT
NORD
SEINE−MARITIME
SAONE−ET−LOIRE
INDRE
LOT−ET−GARONNE
SOMME
OISE
HAUTE−LOIRE
ORNE
JURA
EURE−ET−LOIR
HAUTE−MARNE
VOSGES
AIN
MEUSE
RHONE
SAVOIE
EURE
AUBE
LOIRET
MARNE
YONNE
LOIRE
VAUCLUSE
ARDECHE
LOIR−ET−CHER
024681014
Cluster Dendrogram
dist(base)
Height
CORREZE
PARIS
CANTAL
CREUSE
YVELINES
HAUTS−DE−SEINE
CORSE−DU−SUD
HAUTE−CORSE
LOZERE
MANCHE
MAYENNE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
MAINE−ET−LOIRE
LOIRE−ATLANTIQUE
DEUX−SEVRES
PAS−DE−CALAIS
SOMME
NORD
SEINE−MARITIME
AISNE
HERAULT
ARDENNES
DROME
ISERE
GARD
OISE
SEINE−ET−MARNE
ALLIER
CHER
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
SAONE−ET−LOIRE
CHARENTE−MARITIME
VIENNE
HAUTE−SAONE
COTE−D−OR
DOUBS
TARN−ET−GARONNE
GIRONDE
TARN
HAUTE−VIENNE
DORDOGNE
LOT
HAUTE−GARONNE
ARIEGE
AUDE
NIEVRE
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
VENDEE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
MEUSE
RHONE
AIN
EURE−ET−LOIR
HAUTE−SAVOIE
HAUTE−LOIRE
ORNE
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
VAR
MOSELLE
LOIRE
VAUCLUSE
010203040
Cluster Dendrogram
dist(base)
Height
56

CORREZE
VENDEE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
MOSELLE
VAR
LOZERE
MANCHE
MAYENNE
MAINE−ET−LOIRE
DEUX−SEVRES
AVEYRON
ILLE−ET−VILAINE
FINISTERE
MORBIHAN
SAONE−ET−LOIRE
INDRE−ET−LOIRE
HAUTES−ALPES
CALVADOS
SARTHE
LOIR−ET−CHER
ARDECHE
JURA
ESSONNE
INDRE
LOT−ET−GARONNE
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
GIRONDE
TARN
PUY−DE−DOME
VIENNE
HAUTE−SAVOIE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
SEINE−ET−MARNE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
AIN
MEUSE
RHONE
LOIRET
EURE
AUBE
MARNE
YONNE
EURE−ET−LOIR
SAVOIE
OISE
HAUTE−MARNE
VOSGES
LOIRE
VAUCLUSE
GARD
PAS−DE−CALAIS
SOMME
SEINE−MARITIME
ISERE
DROME
ARDENNES
NORD
AISNE
HERAULT
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
ALLIER
CHER
LOT
DORDOGNE
HAUTE−VIENNE
051015202530
Cluster Dendrogram
dist(base, "maximum")
Height
EURE
AUBE
MARNE
YONNE
LOIRET
EURE−ET−LOIR
SAVOIE
HAUTE−SAVOIE
AIN
MEUSE
RHONE
BAS−RHIN
HAUT−RHIN
HAUTE−MARNE
VOSGES
OISE
SEINE−ET−MARNE
ALPES−MARITIMES
LOIRE
VAUCLUSE
MOSELLE
VAR
ESSONNE
INDRE
LOT−ET−GARONNE
PAS−DE−CALAIS
SEINE−MARITIME
ALLIER
CHER
SOMME
GARD
NORD
AISNE
HERAULT
ISERE
DROME
ARDENNES
HAUTE−SAONE
COTE−D−OR
DOUBS
TARN−ET−GARONNE
CORREZE
LOT
DORDOGNE
HAUTE−VIENNE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
ARIEGE
AUDE
NIEVRE
COTES−D−ARMOR
HAUTES−PYRENEES
CHARENTE
GERS
HAUTE−GARONNE
LANDES
VENDEE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ARDECHE
JURA
LOIR−ET−CHER
SAONE−ET−LOIRE
HAUTES−ALPES
CALVADOS
SARTHE
INDRE−ET−LOIRE
MORBIHAN
AVEYRON
ILLE−ET−VILAINE
FINISTERE
GIRONDE
TARN
PUY−DE−DOME
VIENNE
DEUX−SEVRES
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
02060100140
Cluster Dendrogram
hclust (*, "ward")
Height
57

VENDEE
CORREZE
CANTAL
CREUSE
PARIS
HAUTE−CORSE
BAS−RHIN
HAUT−RHIN
CORSE−DU−SUD
LOZERE
MANCHE
MAYENNE
MAINE−ET−LOIRE
ALPES−MARITIMES
HAUTE−GARONNE
HAUTE−SAVOIE
DEUX−SEVRES
ARIEGE
SEINE−ET−MARNE
AVEYRON
YVELINES
HAUTS−DE−SEINE
MOSELLE
VAR
COTES−D−ARMOR
HAUTES−PYRENEES
AUDE
NIEVRE
ILLE−ET−VILAINE
FINISTERE
PAS−DE−CALAIS
GIRONDE
TARN
ALLIER
OISE
MORBIHAN
TARN−ET−GARONNE
GARD
HAUTE−LOIRE
ORNE
VAUCLUSE
VIENNE
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
SAONE−ET−LOIRE
INDRE−ET−LOIRE
HAUTES−ALPES
CALVADOS
SARTHE
PUY−DE−DOME
LOIR−ET−CHER
HAUTE−SAONE
COTE−D−OR
DOUBS
LOIRE
CHER
ESSONNE
INDRE
LOT−ET−GARONNE
SOMME
ARDECHE
SEINE−MARITIME
ISERE
NORD
DROME
ARDENNES
AISNE
HERAULT
HAUTE−MARNE
VOSGES
JURA
AIN
MEUSE
RHONE
EURE
LOIRET
AUBE
MARNE
YONNE
EURE−ET−LOIR
SAVOIE
LANDES
CHARENTE
GERS
LOT
DORDOGNE
HAUTE−VIENNE
024681012
Cluster Dendrogram
Height
CORREZE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
VENDEE
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
MOSELLE
VAR
OISE
LOIRE
VAUCLUSE
HAUTE−SAVOIE
HAUTES−ALPES
CALVADOS
SARTHE
INDRE−ET−LOIRE
MORBIHAN
ARDECHE
JURA
LOIR−ET−CHER
SAONE−ET−LOIRE
MAINE−ET−LOIRE
DEUX−SEVRES
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
LOZERE
MANCHE
MAYENNE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
ISERE
DROME
ARDENNES
GARD
NORD
AISNE
HERAULT
AIN
MEUSE
RHONE
LOIRET
EURE−ET−LOIR
SAVOIE
EURE
AUBE
MARNE
YONNE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
SEINE−ET−MARNE
HAUTE−MARNE
VOSGES
ALLIER
CHER
PAS−DE−CALAIS
SOMME
SEINE−MARITIME
ESSONNE
INDRE
LOT−ET−GARONNE
LOT
DORDOGNE
HAUTE−VIENNE
GIRONDE
TARN
PUY−DE−DOME
VIENNE
CHARENTE
GERS
COTES−D−ARMOR
HAUTES−PYRENEES
HAUTE−GARONNE
LANDES
ARIEGE
AUDE
NIEVRE
05102030
Cluster Dendrogram
Height
58

La classification avec R
R propose un grand nombre d’outils et méthodes pour partitionner, en
particulier clara, qui marche très bien sur les très grosses bases de données, daisy
pour construire des matrices de dissimilarité (pour des variables qualitatives ou
quantitatives), dist pour construire des matrices de dissimilarité (pour des
variables quantitatives seulement).
59

Travaux dirigés
Le TD portera sur la base de données departement.xls (dont une codification est
donné dans le fichier code-departement.xls) téléchargeables sur ma page internet.
60

Cours add-r1-part4

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Cours add-r1-part4

Ähnlich wie Cours add-r1-part4 (19)

Mehr von Arthur Charpentier

Mehr von Arthur Charpentier (20)

Cours add-r1-part4