Fouille de données issues d’un grand graphe par carte de Kohonen à noyau
description
Transcript of Fouille de données issues d’un grand graphe par carte de Kohonen à noyau
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Fouille de données issues d’un grand graphepar carte de Kohonen à noyau
Nathalie Villa-VialaneixEn collaboration avec Fabrice Rossi, Romain Boulet & Bertrand
Jouve
Institut de Mathématiques de Toulouse, France [email protected]
Séminaire BIA Toulouse, 13 mars 2008
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :les liens sociaux sont-ils familiaux ? géographiques ?peut-on trouver des personnalités ayant un rôle socialprépondérant ? des familles ?. . .
⇒ Data mining est nécessaire.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :les liens sociaux sont-ils familiaux ? géographiques ?peut-on trouver des personnalités ayant un rôle socialprépondérant ? des familles ?. . .
⇒ Data mining est nécessaire.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).
Questions des historiens :les liens sociaux sont-ils familiaux ? géographiques ?peut-on trouver des personnalités ayant un rôle socialprépondérant ? des familles ?. . .
⇒ Data mining est nécessaire.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;
avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.
Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;
avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.
Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;
avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.
Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;
avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.
Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un double objectif : classification et organisation
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un double objectif : classification et organisationClasser les sommets en groupes de proximité. . .
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Un double objectif : classification et organisationClasser les sommets en groupes de proximité. . . et organiser les groupes.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen[Kohonen, 2001]
Soient des données (xi)i=1,...,n ∈ H (espace vectoriel de grandedimension, graphe, . . . ).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen[Kohonen, 2001]
Chaque xi est affecté à un neurone (une classe) de la carte, f(xi).Les neurones sont définis les uns par rapport aux autres par unerelation de voisinage (“distance”: d).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen[Kohonen, 2001]
p1
p2
p3
12
3
Chaque neurone j de la carte est représenté par un prototype pj .Les couples (j, pj) et (xi , f(xi)) dépendent l’un de l’autre et sontremis à jour itérativement.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
∫ M∑i=1
h(d(f(x), i))‖x − pi‖2H
dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2).
L’énergie est approchée par sa version empirique :
En =n∑
j=1
M∑i=1
h(d(f(xj), i))‖xj − pi‖2H.
et la minimisation est approchée par l’algorithme SOM.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
∫ M∑i=1
h(d(f(x), i))‖x − pi‖2H
dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2).
L’énergie est approchée par sa version empirique :
En =n∑
j=1
M∑i=1
h(d(f(xj), i))‖xj − pi‖2H.
et la minimisation est approchée par l’algorithme SOM.Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0ji xi . Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f l(xi) = arg minj=1,...,M
∥∥∥∥∥∥∥xi −
n∑i=1
γljixi
∥∥∥∥∥∥∥H
Phase de représentation
γlj = arg min
γ∈Rn
n∑i=1
h(f l(xi), j)
∥∥∥∥∥∥∥xi −
n∑l′=1
γl′xl′
∥∥∥∥∥∥∥2
H
Problème : Quelle “distance” définir entre deux sommets ???
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0ji xi . Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f l(xi) = arg minj=1,...,M
∥∥∥∥∥∥∥xi −
n∑i=1
γljixi
∥∥∥∥∥∥∥H
Phase de représentation
γlj = arg min
γ∈Rn
n∑i=1
h(f l(xi), j)
∥∥∥∥∥∥∥xi −
n∑l′=1
γl′xl′
∥∥∥∥∥∥∥2
H
Problème : Quelle “distance” définir entre deux sommets ???
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0ji xi . Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f l(xi) = arg minj=1,...,M
∥∥∥∥∥∥∥xi −
n∑i=1
γljixi
∥∥∥∥∥∥∥H
Phase de représentation
γlj = arg min
γ∈Rn
n∑i=1
h(f l(xi), j)
∥∥∥∥∥∥∥xi −
n∑l′=1
γl′xl′
∥∥∥∥∥∥∥2
H
Problème : Quelle “distance” définir entre deux sommets ???
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0ji xi . Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f l(xi) = arg minj=1,...,M
∥∥∥∥∥∥∥xi −
n∑i=1
γljixi
∥∥∥∥∥∥∥H
Phase de représentation
γlj = arg min
γ∈Rn
n∑i=1
h(f l(xi), j)
∥∥∥∥∥∥∥xi −
n∑l′=1
γl′xl′
∥∥∥∥∥∥∥2
H
Problème : Quelle “distance” définir entre deux sommets ???Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi , xj) =
∣∣∣Γ(xi) ∩ Γ(xj)∣∣∣
|Γ(xi)|+ |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Dissimilarités ou distances basées sur le Laplacien : “spectralclustering”.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi , xj) =
∣∣∣Γ(xi) ∩ Γ(xj)∣∣∣
|Γ(xi)|+ |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Dissimilarités ou distances basées sur le Laplacien : “spectralclustering”.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi , xj) =
∣∣∣Γ(xi) ∩ Γ(xj)∣∣∣
|Γ(xi)|+ |Γ(xj)|
(graphes non pondérés) ;
Dissimilarités basées sur les plus courts chemins ;
Dissimilarités ou distances basées sur le Laplacien : “spectralclustering”.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Laplacien [Kondor and Lafferty, 2002]
DéfinitionsPour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =
∑nj=1 wi,j ,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
{−wi,j if i , jdi if i = j
;
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexesKerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommetsde la ième composante connexe du graphe.
1
4
5
2
3
KerL = Span
10011
;
01100
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont lessommets possèdent les mêmes voisins à l’extérieur de la clique.
Laplacien and communautés parfaitesPour un graphe non pondéré,
Le graphe a une communauté parfaite à m sommets⇔
L possède m vecteurs propres qui ont les mêmes n −mcoordonnées nulles.
Application :
Limite : Seuls 1/3 des sommets du graphe peuvent êtrereprésentés de cette manière.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont lessommets possèdent les mêmes voisins à l’extérieur de la clique.Application :
Limite : Seuls 1/3 des sommets du graphe peuvent êtrereprésentés de cette manière.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont lessommets possèdent les mêmes voisins à l’extérieur de la clique.Application :
Limite : Seuls 1/3 des sommets du graphe peuvent êtrereprésentés de cette manière.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque
12
k∑i=1
∑j∈Ai ,j′<Ai
wj,j′
est minimale , est équivalent à
H = arg minh∈Rn×k
Tr(hT Lh
)subject to
hT h = Ihi = 1/
√|Ai |1Ai
peut être approché par
H = arg minh∈Rn×k
Tr(hT Lh
)subject to hT h = I
Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque
12
k∑i=1
∑j∈Ai ,j′<Ai
wj,j′
est minimale , est équivalent à
H = arg minh∈Rn×k
Tr(hT Lh
)subject to
hT h = Ihi = 1/
√|Ai |1Ai
⇒ problème NP-complet.
peut être approché par
H = arg minh∈Rn×k
Tr(hT Lh
)subject to hT h = I
Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque
12
k∑i=1
∑j∈Ai ,j′<Ai
wj,j′
est minimale peut être approché par
H = arg minh∈Rn×k
Tr(hT Lh
)subject to hT h = I
Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque
12
k∑i=1
∑j∈Ai ,j′<Ai
wj,j′
est minimale peut être approché par
H = arg minh∈Rn×k
Tr(hT Lh
)subject to hT h = I
Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Une version régularisée de L
Régularisation : la matrice de diffusion : pour β > 0,Kβ = e−βL =
∑+∞k=1
(−βL)k
k ! .⇒
k β : V × V → R
(xi , xj) → Kβi,j
noyau de diffusion (ou noyau de la chaleur).
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T est la “chaleur” de chaque sommet autemps 0 et si une petite fraction ε de cette chaleur se propage lelong des arêtes du graphe à chaque pas de temps, alors après tpas de temps, la chaleur des sommets du graphe est :
Zt = (1 + εL)t Z0
Limites : Pas de temps↘ ∆t par : t ↪→ t/(∆t) et ε ↪→ ε∆t ; alors(∆t)→ 0 (processus de diffusion continu) ce qui donne :
lim Zt = eεtL = K εt
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T est la “chaleur” de chaque sommet autemps 0 et si une petite fraction ε de cette chaleur se propage lelong des arêtes du graphe à chaque pas de temps, alors après tpas de temps, la chaleur des sommets du graphe est :
Zt = (1 + εL)t Z0
Limites : Pas de temps↘ ∆t par : t ↪→ t/(∆t) et ε ↪→ ε∆t ; alors(∆t)→ 0 (processus de diffusion continu) ce qui donne :
lim Zt = eεtL = K εt
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : k β(xi , xj) ' quantité de chaleuraccumulée dans xj après un temps donné si la chaleur 1 estinjectée dans xi au temps 0 et si la diffusion est effectuée demanière continue le long des arêtes du graphe.β ' intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn ∼ V , uT Kβu est plusgrand pour les vecteurs u qui varient beaucoup entre deuxsommets “proches” du graphe.β ' intensité de la regularisation (pour des petits β, lesvoisinages directs sont plus importants);
3 Propriété de noyau reproduisant : k β est symétrique etpositif⇒ ∃ Hilbert space (H , 〈., .〉) et φ : V → H tel que
k β(xi , xj) = 〈φ(xi), φ(xj)〉.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : k β(xi , xj) ' quantité de chaleuraccumulée dans xj après un temps donné si la chaleur 1 estinjectée dans xi au temps 0 et si la diffusion est effectuée demanière continue le long des arêtes du graphe.β ' intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn ∼ V , uT Kβu est plusgrand pour les vecteurs u qui varient beaucoup entre deuxsommets “proches” du graphe.β ' intensité de la regularisation (pour des petits β, lesvoisinages directs sont plus importants);
3 Propriété de noyau reproduisant : k β est symétrique etpositif⇒ ∃ Hilbert space (H , 〈., .〉) et φ : V → H tel que
k β(xi , xj) = 〈φ(xi), φ(xj)〉.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : k β(xi , xj) ' quantité de chaleuraccumulée dans xj après un temps donné si la chaleur 1 estinjectée dans xi au temps 0 et si la diffusion est effectuée demanière continue le long des arêtes du graphe.β ' intensité de la diffusion;
2 Opérateur régularisant : pour u ∈ Rn ∼ V , uT Kβu est plusgrand pour les vecteurs u qui varient beaucoup entre deuxsommets “proches” du graphe.β ' intensité de la regularisation (pour des petits β, lesvoisinages directs sont plus importants);
3 Propriété de noyau reproduisant : k β est symétrique etpositif⇒ ∃ Hilbert space (H , 〈., .〉) et φ : V → H tel que
k β(xi , xj) = 〈φ(xi), φ(xj)〉.
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0jiφ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f l(xi) = arg minj=1,...,M
∥∥∥∥∥∥∥φ(xi) −n∑
i=1
γljiφ(xi)
∥∥∥∥∥∥∥H
Phase de représentation
γlj = arg min
γ∈Rn
n∑i=1
h(f l(xi), j)
∥∥∥∥∥∥∥φ(xi) −n∑
l′=1
γl′φ(xl′)
∥∥∥∥∥∥∥2
H
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0jiφ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f(xi) = arg minj=1,...,M
n∑u,u′=1
γjuγju′k β(xu, xu′) − 2n∑
u=1
γjuk β(xu, xi)
Phase de représentation
γlji =
h(f l(xi), j))∑ni′=1 h(f l(xi′ , j))
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et
p0j =
∑ni=1 γ
0jiφ(xi). Ensuite, pour l = 1, . . . , n répéter
Phase d’affectationpour tout xi ,
f(xi) = arg minj=1,...,M
n∑u,u′=1
γjuγju′k β(xu, xu′) − 2n∑
u=1
γjuk β(xu, xi)
Phase de représentation
γlji =
h(f l(xi), j))∑ni′=1 h(f l(xi′ , j))
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]
RICH
465
7 9
9 8
520
324
107
9 2
423
407
408
524
515
510
2 7
150
22
23
54
25
26
27
38
29
3
1 0
2
1 1
2
1 2
2
1 3
2
1 4
2
1 5
2
1 6
2
1 7
4
1 8
2
1 9
3
2 0
2
2 1
2
2 2
2
2 3
3
2 4
2
2 5 2
2 6
2
2 7
5
2 8
2
2 9
2
3 0
1 13 1
2
3 2
2
3 3
8
3 4
2
3 6
2
3 7
2
3 8
2
3 9
3
4 0
2
4 1
2
4 2
2
4 3
2
4 4
2
4 5
3
4 6
4
4 8
2
4 9
4
5 0
2
5 1
2
5 3
2
5 4
3
5 5
2
5 9
2
6 0
2
6 1
3
6 2
4
6 3
2
6 4
3
6 5
2
6 6 3
6 7
2
6 8
2
6 9
3
7 0
2
7 1
2
7 2
2
7 3
2
7 4
2
7 6
2
7 9
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]
RICH
465
7 9
9 8
520
324
107
9 2
423
407
408
524
515
510
2 7
150
22
23
54
25
26
27
38
29
3
1 0
2
1 1
2
1 2
2
1 3
2
1 4
2
1 5
2
1 6
2
1 7
4
1 8
2
1 9
3
2 0
2
2 1
2
2 2
2
2 3
3
2 4
2
2 5 2
2 6
2
2 7
5
2 8
2
2 9
2
3 0
1 13 1
2
3 2
2
3 3
8
3 4
2
3 6
2
3 7
2
3 8
2
3 9
3
4 0
2
4 1
2
4 2
2
4 3
2
4 4
2
4 5
3
4 6
4
4 8
2
4 9
4
5 0
2
5 1
2
5 3
2
5 4
3
5 5
2
5 9
2
6 0
2
6 1
3
6 2
4
6 3
2
6 4
3
6 5
2
6 6 3
6 7
2
6 8
2
6 9
3
7 0
2
7 1
2
7 2
2
7 3
2
7 4
2
7 6
2
7 9
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Quelques cartes thématiques
1 Noms2 Dates et Comparaison3 Lieux et Comparaison
Nathalie Villa Séminaire BIA - 13 mars 2008
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Représentation globale La Suite...
Réalisée par Dinh Truong et Tao Dkaki
Nathalie Villa Séminaire BIA - 13 mars 2008
Réalisée par Dinh Truong et Tao Dkaki
Réalisée par Dinh Truong et Tao Dkaki
Contexte et motivationsCartes de KohonenNoyau de la chaleur
Résultats
Références
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social networkanalysis.Neurocomputing.To appear.
Kohonen, T. (2001).Self-Organizing Maps, 3rd Edition, volume 30.Springer, Berlin, Heidelberg, New York.
Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning,pages 315–322.
Villa, N. and Rossi, F. (2007).A comparison between dissimilarity SOM and kernel SOM for clustering thevertices of a graph.In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07),Bielefield, Germany.
von Luxburg, U. (2007).A tutorial on spectral clustering.Technical Report TR-149, Max Planck Institut für biologische Kybernetik.Avaliable at http://www.kyb.mpg.de/publications/attachments/luxburg06_TR_v2_4139%5B1%5D.pdf.
Nathalie Villa Séminaire BIA - 13 mars 2008