Fouille de données issues d’un grand graphe par carte de Kohonen à noyau
1. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Fouille de données issues d’un grand graphe
par carte de Kohonen à noyau
Nathalie Villa-Vialaneix
En collaboration avec Fabrice Rossi, Romain Boulet & Bertrand
Jouve
Institut de Mathématiques de Toulouse, France -
nathalie.villa@math.univ-toulouse.fr
Séminaire BIA Toulouse, 13 mars 2008
Nathalie Villa Séminaire BIA - 13 mars 2008
2. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
3. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
4. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Nathalie Villa Séminaire BIA - 13 mars 2008
5. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :
les liens sociaux sont-ils familiaux ? géographiques ?
peut-on trouver des personnalités ayant un rôle social
prépondérant ? des familles ?
. . .
Nathalie Villa Séminaire BIA - 13 mars 2008
6. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :
les liens sociaux sont-ils familiaux ? géographiques ?
peut-on trouver des personnalités ayant un rôle social
prépondérant ? des familles ?
. . .
⇒ Data mining est nécessaire.
Nathalie Villa Séminaire BIA - 13 mars 2008
7. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
Nathalie Villa Séminaire BIA - 13 mars 2008
8. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.
Nathalie Villa Séminaire BIA - 13 mars 2008
9. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.
Nombre de sommets : 615
Nombres d’arêtes : 4193
Total des poids : 40 329
Diametre : 10
Densité : 2,2%
Nathalie Villa Séminaire BIA - 13 mars 2008
10. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.
Nombre de sommets : 615
Nombres d’arêtes : 4193
Total des poids : 40 329
Diametre : 10
Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pour
comprendre la structure globale de la communauté paysanne.
Nathalie Villa Séminaire BIA - 13 mars 2008
11. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classification et organisation
Nathalie Villa Séminaire BIA - 13 mars 2008
12. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classification et organisation
Classer les sommets en groupes de proximité. . .
Nathalie Villa Séminaire BIA - 13 mars 2008
13. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classification et organisation
Classer les sommets en groupes de proximité. . . et organiser les groupes.
Nathalie Villa Séminaire BIA - 13 mars 2008
14. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
15. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
Soient des données (xi)i=1,...,n ∈ H (espace vectoriel de grande
dimension, graphe, . . . ).
Nathalie Villa Séminaire BIA - 13 mars 2008
16. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
Chaque xi est affecté à un neurone (une classe) de la carte, f(xi).
Les neurones sont définis les uns par rapport aux autres par une
relation de voisinage (“distance”: d).
Nathalie Villa Séminaire BIA - 13 mars 2008
17. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
p1
p2
p3
1
2
3
Chaque neurone j de la carte est représenté par un prototype pj.
Les couples (j, pj) et (xi, f(xi)) dépendent l’un de l’autre et sont
remis à jour itérativement.
Nathalie Villa Séminaire BIA - 13 mars 2008
18. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − pi
2
H dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).
Nathalie Villa Séminaire BIA - 13 mars 2008
19. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − pi
2
H dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).
L’énergie est approchée par sa version empirique :
En
=
n
j=1
M
i=1
h(d(f(xj), i)) xj − pi
2
H .
et la minimisation est approchée par l’algorithme SOM.
Nathalie Villa Séminaire BIA - 13 mars 2008
20. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Nathalie Villa Séminaire BIA - 13 mars 2008
21. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Nathalie Villa Séminaire BIA - 13 mars 2008
22. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) xi −
n
l =1
γl xl
2
H
Nathalie Villa Séminaire BIA - 13 mars 2008
23. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) xi −
n
l =1
γl xl
2
H
Problème : Quelle “distance” définir entre deux sommets ???
Nathalie Villa Séminaire BIA - 13 mars 2008
24. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
25. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;
Nathalie Villa Séminaire BIA - 13 mars 2008
26. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Nathalie Villa Séminaire BIA - 13 mars 2008
27. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Dissimilarités ou distances basées sur le Laplacien : “spectral
clustering”.
Nathalie Villa Séminaire BIA - 13 mars 2008
28. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Laplacien [Kondor and Lafferty, 2002]
Définitions
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n
j=1 wi,j,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
Nathalie Villa Séminaire BIA - 13 mars 2008
29. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets
de la ième composante connexe du graphe.
1
4
5
2
3
KerL = Span
1
0
0
1
1
;
0
1
1
0
0
Nathalie Villa Séminaire BIA - 13 mars 2008
30. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Laplacien and communautés parfaites
Pour un graphe non pondéré,
Le graphe a une communauté parfaite à m sommets
⇔
L possède m vecteurs propres qui ont les mêmes n − m
coordonnées nulles.
Nathalie Villa Séminaire BIA - 13 mars 2008
31. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Application :
Nathalie Villa Séminaire BIA - 13 mars 2008
32. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Application :
Limite : Seuls 1/3 des sommets du graphe peuvent être
représentés de cette manière.
Nathalie Villa Séminaire BIA - 13 mars 2008
33. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
Nathalie Villa Séminaire BIA - 13 mars 2008
34. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
⇒ problème NP-complet.
Nathalie Villa Séminaire BIA - 13 mars 2008
35. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Nathalie Villa Séminaire BIA - 13 mars 2008
36. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k
plus petites valeurs propres de L, H, et faire la classification sur les
colonnes de H.
Nathalie Villa Séminaire BIA - 13 mars 2008
37. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Une version régularisée de L
Régularisation : la matrice de diffusion : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur).
Nathalie Villa Séminaire BIA - 13 mars 2008
38. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T
est la “chaleur” de chaque sommet au
temps 0 et si une petite fraction de cette chaleur se propage le
long des arêtes du graphe à chaque pas de temps, alors après t
pas de temps, la chaleur des sommets du graphe est :
Zt = (1 + L)t
Z0
Nathalie Villa Séminaire BIA - 13 mars 2008
39. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T
est la “chaleur” de chaque sommet au
temps 0 et si une petite fraction de cette chaleur se propage le
long des arêtes du graphe à chaque pas de temps, alors après t
pas de temps, la chaleur des sommets du graphe est :
Zt = (1 + L)t
Z0
Limites : Pas de temps ∆t par : t → t/(∆t) et → ∆t ; alors
(∆t) → 0 (processus de diffusion continu) ce qui donne :
lim Zt = e tL
= K t
Nathalie Villa Séminaire BIA - 13 mars 2008
40. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;
Nathalie Villa Séminaire BIA - 13 mars 2008
41. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn
∼ V, uT
Kβu est plus
grand pour les vecteurs u qui varient beaucoup entre deux
sommets “proches” du graphe.
β intensité de la regularisation (pour des petits β, les
voisinages directs sont plus importants);
Nathalie Villa Séminaire BIA - 13 mars 2008
42. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn
∼ V, uT
Kβu est plus
grand pour les vecteurs u qui varient beaucoup entre deux
sommets “proches” du graphe.
β intensité de la regularisation (pour des petits β, les
voisinages directs sont plus importants);
3 Propriété de noyau reproduisant : kβ est symétrique et
positif ⇒ ∃ Hilbert space (H, ., . ) et φ : V → H tel que
kβ
(xi, xj) = φ(xi), φ(xj) .
Nathalie Villa Séminaire BIA - 13 mars 2008
43. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
φ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
φ(xi) −
n
i=1
γl
jiφ(xi)
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) φ(xi) −
n
l =1
γl φ(xl )
2
H
Nathalie Villa Séminaire BIA - 13 mars 2008
44. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
φ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
f(xi) = arg min
j=1,...,M
n
u,u =1
γjuγju kβ
(xu, xu ) − 2
n
u=1
γjukβ
(xu, xi)
Phase de représentation
γl
ji =
h(fl
(xi), j))
n
i =1 h(fl(xi , j))
Nathalie Villa Séminaire BIA - 13 mars 2008
45. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
46. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]
Nathalie Villa Séminaire BIA - 13 mars 2008
48. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Quelques cartes thématiques
1 Noms
2 Dates et Comparaison
3 Lieux et Comparaison
Nathalie Villa Séminaire BIA - 13 mars 2008
49. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Représentation globale La Suite...
Réalisée par Dinh Truong et Tao Dkaki
Nathalie Villa Séminaire BIA - 13 mars 2008
50.
51.
52. Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Références
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network
analysis.
Neurocomputing.
To appear.
Kohonen, T. (2001).
Self-Organizing Maps, 3rd Edition, volume 30.
Springer, Berlin, Heidelberg, New York.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning,
pages 315–322.
Villa, N. and Rossi, F. (2007).
A comparison between dissimilarity SOM and kernel SOM for clustering the
vertices of a graph.
In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07),
Bielefield, Germany. Nathalie Villa Séminaire BIA - 13 mars 2008