SlideShare ist ein Scribd-Unternehmen logo
1 von 52
Downloaden Sie, um offline zu lesen
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Fouille de données issues d’un grand graphe
par carte de Kohonen à noyau
Nathalie Villa-Vialaneix
En collaboration avec Fabrice Rossi, Romain Boulet & Bertrand
Jouve
Institut de Mathématiques de Toulouse, France -
nathalie.villa@math.univ-toulouse.fr
Séminaire BIA Toulouse, 13 mars 2008
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :
les liens sociaux sont-ils familiaux ? géographiques ?
peut-on trouver des personnalités ayant un rôle social
prépondérant ? des familles ?
. . .
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :
les liens sociaux sont-ils familiaux ? géographiques ?
peut-on trouver des personnalités ayant un rôle social
prépondérant ? des familles ?
. . .
⇒ Data mining est nécessaire.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.
Nombre de sommets : 615
Nombres d’arêtes : 4193
Total des poids : 40 329
Diametre : 10
Densité : 2,2%
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.
Nombre de sommets : 615
Nombres d’arêtes : 4193
Total des poids : 40 329
Diametre : 10
Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pour
comprendre la structure globale de la communauté paysanne.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classification et organisation
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classification et organisation
Classer les sommets en groupes de proximité. . .
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classification et organisation
Classer les sommets en groupes de proximité. . . et organiser les groupes.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
Soient des données (xi)i=1,...,n ∈ H (espace vectoriel de grande
dimension, graphe, . . . ).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
Chaque xi est affecté à un neurone (une classe) de la carte, f(xi).
Les neurones sont définis les uns par rapport aux autres par une
relation de voisinage (“distance”: d).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
p1
p2
p3
1
2
3
Chaque neurone j de la carte est représenté par un prototype pj.
Les couples (j, pj) et (xi, f(xi)) dépendent l’un de l’autre et sont
remis à jour itérativement.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − pi
2
H dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − pi
2
H dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).
L’énergie est approchée par sa version empirique :
En
=
n
j=1
M
i=1
h(d(f(xj), i)) xj − pi
2
H .
et la minimisation est approchée par l’algorithme SOM.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) xi −
n
l =1
γl xl
2
H
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) xi −
n
l =1
γl xl
2
H
Problème : Quelle “distance” définir entre deux sommets ???
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Dissimilarités ou distances basées sur le Laplacien : “spectral
clustering”.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Laplacien [Kondor and Lafferty, 2002]
Définitions
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n
j=1 wi,j,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets
de la ième composante connexe du graphe.
1
4
5
2
3
KerL = Span





1
0
0
1
1


;


0
1
1
0
0





Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Laplacien and communautés parfaites
Pour un graphe non pondéré,
Le graphe a une communauté parfaite à m sommets
⇔
L possède m vecteurs propres qui ont les mêmes n − m
coordonnées nulles.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Application :
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Application :
Limite : Seuls 1/3 des sommets du graphe peuvent être
représentés de cette manière.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
⇒ problème NP-complet.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k
plus petites valeurs propres de L, H, et faire la classification sur les
colonnes de H.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Une version régularisée de L
Régularisation : la matrice de diffusion : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T
est la “chaleur” de chaque sommet au
temps 0 et si une petite fraction de cette chaleur se propage le
long des arêtes du graphe à chaque pas de temps, alors après t
pas de temps, la chaleur des sommets du graphe est :
Zt = (1 + L)t
Z0
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T
est la “chaleur” de chaque sommet au
temps 0 et si une petite fraction de cette chaleur se propage le
long des arêtes du graphe à chaque pas de temps, alors après t
pas de temps, la chaleur des sommets du graphe est :
Zt = (1 + L)t
Z0
Limites : Pas de temps ∆t par : t → t/(∆t) et → ∆t ; alors
(∆t) → 0 (processus de diffusion continu) ce qui donne :
lim Zt = e tL
= K t
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn
∼ V, uT
Kβu est plus
grand pour les vecteurs u qui varient beaucoup entre deux
sommets “proches” du graphe.
β intensité de la regularisation (pour des petits β, les
voisinages directs sont plus importants);
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn
∼ V, uT
Kβu est plus
grand pour les vecteurs u qui varient beaucoup entre deux
sommets “proches” du graphe.
β intensité de la regularisation (pour des petits β, les
voisinages directs sont plus importants);
3 Propriété de noyau reproduisant : kβ est symétrique et
positif ⇒ ∃ Hilbert space (H, ., . ) et φ : V → H tel que
kβ
(xi, xj) = φ(xi), φ(xj) .
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
φ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
φ(xi) −
n
i=1
γl
jiφ(xi)
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) φ(xi) −
n
l =1
γl φ(xl )
2
H
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
φ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectation
pour tout xi,
f(xi) = arg min
j=1,...,M
n
u,u =1
γjuγju kβ
(xu, xu ) − 2
n
u=1
γjukβ
(xu, xi)
Phase de représentation
γl
ji =
h(fl
(xi), j))
n
i =1 h(fl(xi , j))
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]
RICH
465
7 9
9 8
520
324
107
9 2
423
407
408
524
515
510
2 7
150
2
2
2
3
5
4
2
5
2
62
7
3
8
2
9
3
1 0
2
1 1
2
1 2
2
1 3
2
1 4
2
1 5
2
1 6
2
1 7
4
1 8
2
1 9
3
2 0
2
2 1
2
2 2
2
2 3
3
2 4
2
2 5
2
2 6
2
2 7
5
2 8
2
2 9
2
3 0
1 1
3 1
2
3 2
2
3 3
8
3 4
2
3 6
2
3 7
2
3 8
2
3 9
3
4 0
2
4 1
2
4 2
2
4 3
2
4 4
2
4 5
3
4 6
4
4 8
2
4 9
4
5 0
2
5 1
2
5 3
2
5 4
3
5 5
2
5 9
2
6 0
2
6 1
3
6 2
4
6 3
2
6 4
3
6 5
2
6 6
3
6 7
2
6 8
2
6 9
3
7 0
2
7 1
2
7 2
2
7 3
2
7 4
2
7 6
2
7 9
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Quelques cartes thématiques
1 Noms
2 Dates et Comparaison
3 Lieux et Comparaison
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Représentation globale La Suite...
Réalisée par Dinh Truong et Tao Dkaki
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Références
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network
analysis.
Neurocomputing.
To appear.
Kohonen, T. (2001).
Self-Organizing Maps, 3rd Edition, volume 30.
Springer, Berlin, Heidelberg, New York.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning,
pages 315–322.
Villa, N. and Rossi, F. (2007).
A comparison between dissimilarity SOM and kernel SOM for clustering the
vertices of a graph.
In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07),
Bielefield, Germany. Nathalie Villa Séminaire BIA - 13 mars 2008

Weitere ähnliche Inhalte

Andere mochten auch

Machine Learning, Data Mining, Genetic Algorithms, Neural ...
Machine Learning, Data Mining, Genetic Algorithms, Neural ...Machine Learning, Data Mining, Genetic Algorithms, Neural ...
Machine Learning, Data Mining, Genetic Algorithms, Neural ...butest
 
Github in a Graph
Github in a GraphGithub in a Graph
Github in a Graphakollegger
 
10-15 511 genetic algorithms and machine learning (alan nochenson)
10-15 511 genetic algorithms and machine learning (alan nochenson)10-15 511 genetic algorithms and machine learning (alan nochenson)
10-15 511 genetic algorithms and machine learning (alan nochenson)Alan Nochenson
 
Finding the insights hidden in your graph data
Finding the insights hidden in your graph dataFinding the insights hidden in your graph data
Finding the insights hidden in your graph dataDataStax
 
20141015 how graphs revolutionize access management
20141015 how graphs revolutionize access management20141015 how graphs revolutionize access management
20141015 how graphs revolutionize access managementRik Van Bruggen
 
Graph Database Prototyping made easy with Graphgen
Graph Database Prototyping made easy with GraphgenGraph Database Prototyping made easy with Graphgen
Graph Database Prototyping made easy with GraphgenChristophe Willemsen
 
The Impact of Algorithmic Trading
The Impact of Algorithmic TradingThe Impact of Algorithmic Trading
The Impact of Algorithmic TradingLov Loothra
 
Bringing graph technologies to data analysis : the case of Azerbaijan in th...
Bringing graph technologies to data  analysis : the case of Azerbaijan in  th...Bringing graph technologies to data  analysis : the case of Azerbaijan in  th...
Bringing graph technologies to data analysis : the case of Azerbaijan in th...Linkurious
 
NoSQL Graph Databases - Why, When and Where
NoSQL Graph Databases - Why, When and WhereNoSQL Graph Databases - Why, When and Where
NoSQL Graph Databases - Why, When and WhereEugene Hanikblum
 
An Introduction to Neural Networks and Machine Learning
An Introduction to Neural Networks and Machine LearningAn Introduction to Neural Networks and Machine Learning
An Introduction to Neural Networks and Machine LearningChris Nicholls
 
Reinforcing AML systems with graph technologies.
Reinforcing AML systems with graph technologies.Reinforcing AML systems with graph technologies.
Reinforcing AML systems with graph technologies.Linkurious
 
Introduction to the graph technologies landscape
Introduction to the graph technologies landscapeIntroduction to the graph technologies landscape
Introduction to the graph technologies landscapeLinkurious
 
GraphGen: Conducting Graph Analytics over Relational Databases
GraphGen: Conducting Graph Analytics over Relational DatabasesGraphGen: Conducting Graph Analytics over Relational Databases
GraphGen: Conducting Graph Analytics over Relational DatabasesPyData
 
Solving Problems with Graphs
Solving Problems with GraphsSolving Problems with Graphs
Solving Problems with GraphsMarko Rodriguez
 
Using graph technologies to fight fraud
Using graph technologies to fight fraudUsing graph technologies to fight fraud
Using graph technologies to fight fraudLinkurious
 
Intro to Graphs and Neo4j
Intro to Graphs and Neo4jIntro to Graphs and Neo4j
Intro to Graphs and Neo4jNeo4j
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 

Andere mochten auch (20)

Projet informatique master ISI
Projet informatique master ISIProjet informatique master ISI
Projet informatique master ISI
 
Machine Learning, Data Mining, Genetic Algorithms, Neural ...
Machine Learning, Data Mining, Genetic Algorithms, Neural ...Machine Learning, Data Mining, Genetic Algorithms, Neural ...
Machine Learning, Data Mining, Genetic Algorithms, Neural ...
 
Github in a Graph
Github in a GraphGithub in a Graph
Github in a Graph
 
10-15 511 genetic algorithms and machine learning (alan nochenson)
10-15 511 genetic algorithms and machine learning (alan nochenson)10-15 511 genetic algorithms and machine learning (alan nochenson)
10-15 511 genetic algorithms and machine learning (alan nochenson)
 
Finding the insights hidden in your graph data
Finding the insights hidden in your graph dataFinding the insights hidden in your graph data
Finding the insights hidden in your graph data
 
20141015 how graphs revolutionize access management
20141015 how graphs revolutionize access management20141015 how graphs revolutionize access management
20141015 how graphs revolutionize access management
 
Graph Database Prototyping made easy with Graphgen
Graph Database Prototyping made easy with GraphgenGraph Database Prototyping made easy with Graphgen
Graph Database Prototyping made easy with Graphgen
 
The Impact of Algorithmic Trading
The Impact of Algorithmic TradingThe Impact of Algorithmic Trading
The Impact of Algorithmic Trading
 
Bringing graph technologies to data analysis : the case of Azerbaijan in th...
Bringing graph technologies to data  analysis : the case of Azerbaijan in  th...Bringing graph technologies to data  analysis : the case of Azerbaijan in  th...
Bringing graph technologies to data analysis : the case of Azerbaijan in th...
 
NoSQL Graph Databases - Why, When and Where
NoSQL Graph Databases - Why, When and WhereNoSQL Graph Databases - Why, When and Where
NoSQL Graph Databases - Why, When and Where
 
Link Analysis
Link AnalysisLink Analysis
Link Analysis
 
An Introduction to Neural Networks and Machine Learning
An Introduction to Neural Networks and Machine LearningAn Introduction to Neural Networks and Machine Learning
An Introduction to Neural Networks and Machine Learning
 
Reinforcing AML systems with graph technologies.
Reinforcing AML systems with graph technologies.Reinforcing AML systems with graph technologies.
Reinforcing AML systems with graph technologies.
 
Introduction to the graph technologies landscape
Introduction to the graph technologies landscapeIntroduction to the graph technologies landscape
Introduction to the graph technologies landscape
 
Building a Scalable Data Science Platform with R
Building a Scalable Data Science Platform with RBuilding a Scalable Data Science Platform with R
Building a Scalable Data Science Platform with R
 
GraphGen: Conducting Graph Analytics over Relational Databases
GraphGen: Conducting Graph Analytics over Relational DatabasesGraphGen: Conducting Graph Analytics over Relational Databases
GraphGen: Conducting Graph Analytics over Relational Databases
 
Solving Problems with Graphs
Solving Problems with GraphsSolving Problems with Graphs
Solving Problems with Graphs
 
Using graph technologies to fight fraud
Using graph technologies to fight fraudUsing graph technologies to fight fraud
Using graph technologies to fight fraud
 
Intro to Graphs and Neo4j
Intro to Graphs and Neo4jIntro to Graphs and Neo4j
Intro to Graphs and Neo4j
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 

Mehr von tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Mehr von tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

  • 1. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Fouille de données issues d’un grand graphe par carte de Kohonen à noyau Nathalie Villa-Vialaneix En collaboration avec Fabrice Rossi, Romain Boulet & Bertrand Jouve Institut de Mathématiques de Toulouse, France - nathalie.villa@math.univ-toulouse.fr Séminaire BIA Toulouse, 13 mars 2008 Nathalie Villa Séminaire BIA - 13 mars 2008
  • 2. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Sommaire 1 Contexte et motivations 2 Cartes de Kohonen 3 Noyau de la chaleur 4 Résultats Nathalie Villa Séminaire BIA - 13 mars 2008
  • 3. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Sommaire 1 Contexte et motivations 2 Cartes de Kohonen 3 Noyau de la chaleur 4 Résultats Nathalie Villa Séminaire BIA - 13 mars 2008
  • 4. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Explorer une grosse base de données historique Data 1000 contrats agraires, de 4 seigneuries (environ 10 villages) du Lot, établis entre 1250 et 1350 (avant la guerre de cent ans). Nathalie Villa Séminaire BIA - 13 mars 2008
  • 5. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Explorer une grosse base de données historique Data 1000 contrats agraires, de 4 seigneuries (environ 10 villages) du Lot, établis entre 1250 et 1350 (avant la guerre de cent ans). Questions des historiens : les liens sociaux sont-ils familiaux ? géographiques ? peut-on trouver des personnalités ayant un rôle social prépondérant ? des familles ? . . . Nathalie Villa Séminaire BIA - 13 mars 2008
  • 6. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Explorer une grosse base de données historique Data 1000 contrats agraires, de 4 seigneuries (environ 10 villages) du Lot, établis entre 1250 et 1350 (avant la guerre de cent ans). Questions des historiens : les liens sociaux sont-ils familiaux ? géographiques ? peut-on trouver des personnalités ayant un rôle social prépondérant ? des familles ? . . . ⇒ Data mining est nécessaire. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 7. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un problème modélisé par un graphe À partir de la base de données, construire un graphe pondéré: avec 615 sommets x1, . . . , xn := paysans nommés dans les contrats ; Nathalie Villa Séminaire BIA - 13 mars 2008
  • 8. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un problème modélisé par un graphe À partir de la base de données, construire un graphe pondéré: avec 615 sommets x1, . . . , xn := paysans nommés dans les contrats ; avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités simultanément}. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 9. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un problème modélisé par un graphe À partir de la base de données, construire un graphe pondéré: avec 615 sommets x1, . . . , xn := paysans nommés dans les contrats ; avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités simultanément}. Nombre de sommets : 615 Nombres d’arêtes : 4193 Total des poids : 40 329 Diametre : 10 Densité : 2,2% Nathalie Villa Séminaire BIA - 13 mars 2008
  • 10. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un problème modélisé par un graphe À partir de la base de données, construire un graphe pondéré: avec 615 sommets x1, . . . , xn := paysans nommés dans les contrats ; avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités simultanément}. Nombre de sommets : 615 Nombres d’arêtes : 4193 Total des poids : 40 329 Diametre : 10 Densité : 2,2% Classer les sommets en groupes sociaux homogènes pour comprendre la structure globale de la communauté paysanne. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 11. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un double objectif : classification et organisation Nathalie Villa Séminaire BIA - 13 mars 2008
  • 12. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un double objectif : classification et organisation Classer les sommets en groupes de proximité. . . Nathalie Villa Séminaire BIA - 13 mars 2008
  • 13. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Un double objectif : classification et organisation Classer les sommets en groupes de proximité. . . et organiser les groupes. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 14. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Sommaire 1 Contexte et motivations 2 Cartes de Kohonen 3 Noyau de la chaleur 4 Résultats Nathalie Villa Séminaire BIA - 13 mars 2008
  • 15. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Principe général de l’algorithme de Kohonen [Kohonen, 2001] Soient des données (xi)i=1,...,n ∈ H (espace vectoriel de grande dimension, graphe, . . . ). Nathalie Villa Séminaire BIA - 13 mars 2008
  • 16. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Principe général de l’algorithme de Kohonen [Kohonen, 2001] Chaque xi est affecté à un neurone (une classe) de la carte, f(xi). Les neurones sont définis les uns par rapport aux autres par une relation de voisinage (“distance”: d). Nathalie Villa Séminaire BIA - 13 mars 2008
  • 17. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Principe général de l’algorithme de Kohonen [Kohonen, 2001] p1 p2 p3 1 2 3 Chaque neurone j de la carte est représenté par un prototype pj. Les couples (j, pj) et (xi, f(xi)) dépendent l’un de l’autre et sont remis à jour itérativement. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 18. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Préserver la topologie des données dans H Énergie Le but est de minimiser l’énergie de la carte : E = M i=1 h(d(f(x), i)) x − pi 2 H dP(x) où h est une fonction décroissante (ex : h(t) = αe−t/2σ2 ). Nathalie Villa Séminaire BIA - 13 mars 2008
  • 19. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Préserver la topologie des données dans H Énergie Le but est de minimiser l’énergie de la carte : E = M i=1 h(d(f(x), i)) x − pi 2 H dP(x) où h est une fonction décroissante (ex : h(t) = αe−t/2σ2 ). L’énergie est approchée par sa version empirique : En = n j=1 M i=1 h(d(f(xj), i)) xj − pi 2 H . et la minimisation est approchée par l’algorithme SOM. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 20. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Batch SOM Initialiser de manière aléatoire γ0 ji ∈ R (i, j = 1, . . . , n) et p0 j = n i=1 γ0 ji xi. Ensuite, pour l = 1, . . . , n répéter Nathalie Villa Séminaire BIA - 13 mars 2008
  • 21. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Batch SOM Initialiser de manière aléatoire γ0 ji ∈ R (i, j = 1, . . . , n) et p0 j = n i=1 γ0 ji xi. Ensuite, pour l = 1, . . . , n répéter Phase d’affectation pour tout xi, fl (xi) = arg min j=1,...,M xi − n i=1 γl jixi H Nathalie Villa Séminaire BIA - 13 mars 2008
  • 22. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Batch SOM Initialiser de manière aléatoire γ0 ji ∈ R (i, j = 1, . . . , n) et p0 j = n i=1 γ0 ji xi. Ensuite, pour l = 1, . . . , n répéter Phase d’affectation pour tout xi, fl (xi) = arg min j=1,...,M xi − n i=1 γl jixi H Phase de représentation γl j = arg min γ∈Rn n i=1 h(fl (xi), j) xi − n l =1 γl xl 2 H Nathalie Villa Séminaire BIA - 13 mars 2008
  • 23. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Batch SOM Initialiser de manière aléatoire γ0 ji ∈ R (i, j = 1, . . . , n) et p0 j = n i=1 γ0 ji xi. Ensuite, pour l = 1, . . . , n répéter Phase d’affectation pour tout xi, fl (xi) = arg min j=1,...,M xi − n i=1 γl jixi H Phase de représentation γl j = arg min γ∈Rn n i=1 h(fl (xi), j) xi − n l =1 γl xl 2 H Problème : Quelle “distance” définir entre deux sommets ??? Nathalie Villa Séminaire BIA - 13 mars 2008
  • 24. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Sommaire 1 Contexte et motivations 2 Cartes de Kohonen 3 Noyau de la chaleur 4 Résultats Nathalie Villa Séminaire BIA - 13 mars 2008
  • 25. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Dissimilarités usuelles entre sommets L’indice de Dice (Jaccard) : D(xi, xj) = Γ(xi) ∩ Γ(xj) |Γ(xi)| + |Γ(xj)| (graphes non pondérés) ; Nathalie Villa Séminaire BIA - 13 mars 2008
  • 26. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Dissimilarités usuelles entre sommets L’indice de Dice (Jaccard) : D(xi, xj) = Γ(xi) ∩ Γ(xj) |Γ(xi)| + |Γ(xj)| (graphes non pondérés) ; Dissimilarités basées sur les plus courts chemins ; Nathalie Villa Séminaire BIA - 13 mars 2008
  • 27. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Dissimilarités usuelles entre sommets L’indice de Dice (Jaccard) : D(xi, xj) = Γ(xi) ∩ Γ(xj) |Γ(xi)| + |Γ(xj)| (graphes non pondérés) ; Dissimilarités basées sur les plus courts chemins ; Dissimilarités ou distances basées sur le Laplacien : “spectral clustering”. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 28. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Laplacien [Kondor and Lafferty, 2002] Définitions Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où Li,j = −wi,j if i j di if i = j ; Nathalie Villa Séminaire BIA - 13 mars 2008
  • 29. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de la ième composante connexe du graphe. 1 4 5 2 3 KerL = Span      1 0 0 1 1   ;   0 1 1 0 0      Nathalie Villa Séminaire BIA - 13 mars 2008
  • 30. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien II [Boulet et al., 2008] Communauté parfaite : Sous-graphe complet (clique) dont les sommets possèdent les mêmes voisins à l’extérieur de la clique. Laplacien and communautés parfaites Pour un graphe non pondéré, Le graphe a une communauté parfaite à m sommets ⇔ L possède m vecteurs propres qui ont les mêmes n − m coordonnées nulles. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 31. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien II [Boulet et al., 2008] Communauté parfaite : Sous-graphe complet (clique) dont les sommets possèdent les mêmes voisins à l’extérieur de la clique. Application : Nathalie Villa Séminaire BIA - 13 mars 2008
  • 32. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien II [Boulet et al., 2008] Communauté parfaite : Sous-graphe complet (clique) dont les sommets possèdent les mêmes voisins à l’extérieur de la clique. Application : Limite : Seuls 1/3 des sommets du graphe peuvent être représentés de cette manière. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 33. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale , est équivalent à H = arg min h∈Rn×k Tr hT Lh subject to hT h = I hi = 1/ √ |Ai|1Ai Nathalie Villa Séminaire BIA - 13 mars 2008
  • 34. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale , est équivalent à H = arg min h∈Rn×k Tr hT Lh subject to hT h = I hi = 1/ √ |Ai|1Ai ⇒ problème NP-complet. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 35. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I Nathalie Villa Séminaire BIA - 13 mars 2008
  • 36. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associés aux k plus petites valeurs propres de L, H, et faire la classification sur les colonnes de H. Nathalie Villa Séminaire BIA - 13 mars 2008
  • 37. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Une version régularisée de L Régularisation : la matrice de diffusion : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur). Nathalie Villa Séminaire BIA - 13 mars 2008
  • 38. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Processus de diffusion sur un graphe Si Z0 = (1 1 1 . . . 1 1)T est la “chaleur” de chaque sommet au temps 0 et si une petite fraction de cette chaleur se propage le long des arêtes du graphe à chaque pas de temps, alors après t pas de temps, la chaleur des sommets du graphe est : Zt = (1 + L)t Z0 Nathalie Villa Séminaire BIA - 13 mars 2008
  • 39. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Processus de diffusion sur un graphe Si Z0 = (1 1 1 . . . 1 1)T est la “chaleur” de chaque sommet au temps 0 et si une petite fraction de cette chaleur se propage le long des arêtes du graphe à chaque pas de temps, alors après t pas de temps, la chaleur des sommets du graphe est : Zt = (1 + L)t Z0 Limites : Pas de temps ∆t par : t → t/(∆t) et → ∆t ; alors (∆t) → 0 (processus de diffusion continu) ce qui donne : lim Zt = e tL = K t Nathalie Villa Séminaire BIA - 13 mars 2008
  • 40. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Properties 1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur accumulée dans xj après un temps donné si la chaleur 1 est injectée dans xi au temps 0 et si la diffusion est effectuée de manière continue le long des arêtes du graphe. β intensité de la diffusion; Nathalie Villa Séminaire BIA - 13 mars 2008
  • 41. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Properties 1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur accumulée dans xj après un temps donné si la chaleur 1 est injectée dans xi au temps 0 et si la diffusion est effectuée de manière continue le long des arêtes du graphe. β intensité de la diffusion; 2 Opérateur régularisant : pour u ∈ Rn ∼ V, uT Kβu est plus grand pour les vecteurs u qui varient beaucoup entre deux sommets “proches” du graphe. β intensité de la regularisation (pour des petits β, les voisinages directs sont plus importants); Nathalie Villa Séminaire BIA - 13 mars 2008
  • 42. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Properties 1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur accumulée dans xj après un temps donné si la chaleur 1 est injectée dans xi au temps 0 et si la diffusion est effectuée de manière continue le long des arêtes du graphe. β intensité de la diffusion; 2 Opérateur régularisant : pour u ∈ Rn ∼ V, uT Kβu est plus grand pour les vecteurs u qui varient beaucoup entre deux sommets “proches” du graphe. β intensité de la regularisation (pour des petits β, les voisinages directs sont plus importants); 3 Propriété de noyau reproduisant : kβ est symétrique et positif ⇒ ∃ Hilbert space (H, ., . ) et φ : V → H tel que kβ (xi, xj) = φ(xi), φ(xj) . Nathalie Villa Séminaire BIA - 13 mars 2008
  • 43. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Batch kernel SOM [Villa and Rossi, 2007] Initialiser de manière aléatoire γ0 ji ∈ R (i, j = 1, . . . , n) et p0 j = n i=1 γ0 ji φ(xi). Ensuite, pour l = 1, . . . , n répéter Phase d’affectation pour tout xi, fl (xi) = arg min j=1,...,M φ(xi) − n i=1 γl jiφ(xi) H Phase de représentation γl j = arg min γ∈Rn n i=1 h(fl (xi), j) φ(xi) − n l =1 γl φ(xl ) 2 H Nathalie Villa Séminaire BIA - 13 mars 2008
  • 44. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Batch kernel SOM [Villa and Rossi, 2007] Initialiser de manière aléatoire γ0 ji ∈ R (i, j = 1, . . . , n) et p0 j = n i=1 γ0 ji φ(xi). Ensuite, pour l = 1, . . . , n répéter Phase d’affectation pour tout xi, f(xi) = arg min j=1,...,M n u,u =1 γjuγju kβ (xu, xu ) − 2 n u=1 γjukβ (xu, xi) Phase de représentation γl ji = h(fl (xi), j)) n i =1 h(fl(xi , j)) Nathalie Villa Séminaire BIA - 13 mars 2008
  • 45. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Sommaire 1 Contexte et motivations 2 Cartes de Kohonen 3 Noyau de la chaleur 4 Résultats Nathalie Villa Séminaire BIA - 13 mars 2008
  • 46. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Cartes obtenues [Boulet et al., 2008] Nathalie Villa Séminaire BIA - 13 mars 2008
  • 47. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Cartes obtenues [Boulet et al., 2008] RICH 465 7 9 9 8 520 324 107 9 2 423 407 408 524 515 510 2 7 150 2 2 2 3 5 4 2 5 2 62 7 3 8 2 9 3 1 0 2 1 1 2 1 2 2 1 3 2 1 4 2 1 5 2 1 6 2 1 7 4 1 8 2 1 9 3 2 0 2 2 1 2 2 2 2 2 3 3 2 4 2 2 5 2 2 6 2 2 7 5 2 8 2 2 9 2 3 0 1 1 3 1 2 3 2 2 3 3 8 3 4 2 3 6 2 3 7 2 3 8 2 3 9 3 4 0 2 4 1 2 4 2 2 4 3 2 4 4 2 4 5 3 4 6 4 4 8 2 4 9 4 5 0 2 5 1 2 5 3 2 5 4 3 5 5 2 5 9 2 6 0 2 6 1 3 6 2 4 6 3 2 6 4 3 6 5 2 6 6 3 6 7 2 6 8 2 6 9 3 7 0 2 7 1 2 7 2 2 7 3 2 7 4 2 7 6 2 7 9 Nathalie Villa Séminaire BIA - 13 mars 2008
  • 48. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Quelques cartes thématiques 1 Noms 2 Dates et Comparaison 3 Lieux et Comparaison Nathalie Villa Séminaire BIA - 13 mars 2008
  • 49. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Représentation globale La Suite... Réalisée par Dinh Truong et Tao Dkaki Nathalie Villa Séminaire BIA - 13 mars 2008
  • 50.
  • 51.
  • 52. Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Références Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008). Batch kernel SOM and related laplacian methods for social network analysis. Neurocomputing. To appear. Kohonen, T. (2001). Self-Organizing Maps, 3rd Edition, volume 30. Springer, Berlin, Heidelberg, New York. Kondor, R. and Lafferty, J. (2002). Diffusion kernels on graphs and other discrete structures. In Proceedings of the 19th International Conference on Machine Learning, pages 315–322. Villa, N. and Rossi, F. (2007). A comparison between dissimilarity SOM and kernel SOM for clustering the vertices of a graph. In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07), Bielefield, Germany. Nathalie Villa Séminaire BIA - 13 mars 2008