SlideShare ist ein Scribd-Unternehmen logo
1 von 67
Downloaden Sie, um offline zu lesen
Compte-rendu bibliographique sur les réseaux
biologiques
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
9 octobre 2009
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 1 / 29
Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29
Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classification de sommets
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou nœuds) / en anglais : vertices, nodes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 5 / 29
Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 6 / 29
Inférence non supervisée
Les seules données connues sont les données d’expression des gènes.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 7 / 29
Référence
Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6), pp
754-764.
Brève description : Utilisation de modèles graphiques Gaussien (réseaux
bayésiens) pour l’inférence d’un graphe à partir de données d’expression
de gènes.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 8 / 29
Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
Hypothèse : X suit une loi N(µ, Σ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
Hypothèse : X suit une loi N(µ, Σ).
Pourquoi σij peut être élevé ? :
il existe une interaction directe entre les gènes i et j ;
il existe une interaction indirecte entre les gènes i et j ;
les gènes i et j sont régulés par un même gène.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
Hypothèse : X suit une loi N(µ, Σ).
Pourquoi σij peut être élevé ? :
il existe une interaction directe entre les gènes i et j ;
il existe une interaction indirecte entre les gènes i et j ;
les gènes i et j sont régulés par un même gène.
⇒ L’utilisation des corrélations simples n’est pas une méthode valide pour
reconstruire le graphe d’interactions.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)
= Cor( i, j)
où i et j sont les résidus de la régression linéaire de Xi
et Xj
en X−{i,j}.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)
= Cor( i, j)
où i et j sont les résidus de la régression linéaire de Xi
et Xj
en X−{i,j}.
[Edwards, 1995] montre que
πij =
−ωij
√
ωiiωjj
avec (ωij) = Ω = Σ−1
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
Apports de l’article [Schäfer and Strimmer, 2005]
Utilisation de GGM pour n petit : approche par bootstrap
1 Utilisation du pseudo-inverse de Σn
pour estimer Ω ;
2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour
estimater Ω ;
3 Pour chaque échantillon bootstrap, calcul de Ωb
qui est le pseudo
inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation
de Ω par moyenne des Ωb
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29
Apports de l’article [Schäfer and Strimmer, 2005]
Utilisation de GGM pour n petit : approche par bootstrap
1 Utilisation du pseudo-inverse de Σn
pour estimer Ω ;
2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour
estimater Ω ;
3 Pour chaque échantillon bootstrap, calcul de Ωb
qui est le pseudo
inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation
de Ω par moyenne des Ωb
.
Proposition d’un test de significativité des corrélations partielles
sous l’hypothèse que les distributions partielles suivent une loi de
mélange :
L(π) ∼ η0f0(π, κ) + (1 − η0)fA (π)
avec f0 connue (loi sous l’hypothèse de nullité de π), η0 et κ estimés à
partir des données (par EM ou ML maximisation), fA , loi uniforme sur
[−1, 1] ⇒ P(arrête non nulle) =
(1−η0)fA (π)
η0f0(π,κ)+(1−η0)fA (π)
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29
Simulations
Inférence d’un grand graphe d’association de gènes connu relatif à des
données d’expression pour le cancer du sein dans le but de valider les
approches :
L’approche 1 est à utiliser quand N >> G car elle manque de
puissance sinon. Cependant, si N est grand, les deux autres
approches sont aussi performantes ;
L’approche 2 est meilleure lorsque N < G : bonne puissance dans la
zone où N est petit et moins coûteux que l’approche 3 en temps de
calcul ;
L’approche 3 est à utiliser dans les situations critiques (N << G).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29
Simulations
Inférence d’un grand graphe d’association de gènes connu relatif à des
données d’expression pour le cancer du sein dans le but de valider les
approches :
L’approche 1 est à utiliser quand N >> G car elle manque de
puissance sinon. Cependant, si N est grand, les deux autres
approches sont aussi performantes ;
L’approche 2 est meilleure lorsque N < G : bonne puissance dans la
zone où N est petit et moins coûteux que l’approche 3 en temps de
calcul ;
L’approche 3 est à utiliser dans les situations critiques (N << G).
L’article conclut par une analyse descriptive d’un sous-réseau d’environ
100 gènes autour d’un gène connu pour son implication dans le cancer du
sein (description exhaustive).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29
Inférence supervisée
Une partie du réseau est connue ainsi que des données
supplémentaires de natures diverses
Une approximation du réseau est connue ainsi que des données
supplémentaires de natures diverses
réseaux d’interactions de protéines et réseaux métaboliques
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 13 / 29
Référence
Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 14 / 29
[Yamanishi et al., 2005]
Données disponibles :
une partie du réseau : le réseau est connu partiellement et on
souhaite trouver des liens supplémentaires potentiels ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29
[Yamanishi et al., 2005]
Données disponibles :
une partie du réseau : le réseau est connu partiellement et on
souhaite trouver des liens supplémentaires potentiels ;
des données supplémentaires : on dispose d’informations
supplémentaires (données d’expression de gènes, localisation, profil
phylogénétique . . . ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29
Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;
2 On calcule un noyau pour les autres variables (pour les variables
numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2
, par exemple :
K1, . . . , Kp ;
3 On en déduit un noyau global pour les informations supplémentaires :
Kp
=
p
k=1
αk Kk
où les αk sont des poids à déterminer.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;
2 On calcule un noyau pour les autres variables (pour les variables
numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2
, par exemple :
K1, . . . , Kp ;
3 On en déduit un noyau global pour les informations supplémentaires :
Kp
=
p
k=1
αk Kk
où les αk sont des poids à déterminer.
4 Kernel CCA : Les deux noyaux, K et Kp
permettent de définir deux
plongements dans des espaces euclidiens de grande dimension. On
effectue une analyse canonique à partir de ces deux espaces et on
projette le réseau dans l’espace défini par les premières composantes
de l’analyse canonique. Les liens supplémentaires sont définis par
proximités dans cet espace.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
Raffinements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
Raffinements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;
Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but
de placer les sommets déjà connectés proches les uns des autres
dans l’espace image ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
Raffinements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;
Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but
de placer les sommets déjà connectés proches les uns des autres
dans l’espace image ;
Contraintes chimiques : des contraintes chimiques sont incorporées
de deux manières :
un des Kk est un réseau de réaction chimiquement possible ;
après l’apprentissage, les réactions chimiquement impossibles sont
supprimées.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
Bref résumé des conclusions expérimentales
Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :
Protocole expérimental : Supression des liens correspondant à 10 %
des sommets (puis validation croisée) ; Calcul des taux de bonnes
prédictions sur les arêtes reliées à ces sommets.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29
Bref résumé des conclusions expérimentales
Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :
Protocole expérimental : Supression des liens correspondant à 10 %
des sommets (puis validation croisée) ; Calcul des taux de bonnes
prédictions sur les arêtes reliées à ces sommets.
L’approche pondérée et intégrée (utilisant toutes les informations
disponibles) obtient de meilleurs résultats.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29
[Kato et al., 2005]
Dans cet article, cas particulier où on a, à disposition,
une partie du réseau : le réseau est connu parfaitement pour n
enzymes ou protéines et totalement inconnu pour m nouvelles
enzymes ou protéines : on souhaite trouver les liens entre nouveaux
et anciens éléments et “intra” nouveaux éléments ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29
[Kato et al., 2005]
Dans cet article, cas particulier où on a, à disposition,
une partie du réseau : le réseau est connu parfaitement pour n
enzymes ou protéines et totalement inconnu pour m nouvelles
enzymes ou protéines : on souhaite trouver les liens entre nouveaux
et anciens éléments et “intra” nouveaux éléments ;
des données supplémentaires : on dispose d’informations
supplémentaires (données d’expression de gènes, localisation, profil
phylogénétique . . . ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29
Plongement
Les données sont plongées dans un espace image dont on connait la
matrice des produits scalaires (noyau) :
Pour le réseau,
Q =
Kc Qci
QT
ci
Qii
où Kc est le noyau de la chaleur sur la partie du réseau qui est
connue et Qci, Qii sont les produits scalaires à estimer.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29
Plongement
Les données sont plongées dans un espace image dont on connait la
matrice des produits scalaires (noyau) :
Pour le réseau,
Q =
Kc Qci
QT
ci
Qii
où Kc est le noyau de la chaleur sur la partie du réseau qui est
connue et Qci, Qii sont les produits scalaires à estimer.
Pour les données supplémentaires, on utilise des noyaux similaires
à l’approche précédentes. Dans le cas d’un jeu de données, on note
P la matrice des produits scalaires associée dans l’espace image.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29
Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
Ceci correspond à la minimisation de la distance de Kullback-Leibler
entre p et q.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
Ceci correspond à la minimisation de la distance de Kullback-Leibler
entre p et q.
Q est ensuite seuillée pour obtenir le réseau.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
Mise en œuvre pratique
Amélioration proposée dans le cas d’informations supplémentaires
multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour
l’apprentissage des (αk ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29
Mise en œuvre pratique
Amélioration proposée dans le cas d’informations supplémentaires
multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour
l’apprentissage des (αk ).
Expérimentation sur le réseau de protéines et réseau de protéines de la
levure Saccharomyces cerevisiae. Les résultats du seuillage de Q
améliore les résultats obtenus par KCCA à la fois pour les arêtes entre
anciens et nouveaux élements mais aussi entre les nouveaux éléments
eux-mêmes (encore plus, d’ailleurs).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29
[Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
[Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...
Une fois ce noyau K appris, on procède par seuillage pour obtenir un
réseau.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
[Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...
Une fois ce noyau K appris, on procède par seuillage pour obtenir un
réseau.
La méthode utilise une approche à noyau de l’algorithme CART assorti
d’un bagging.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
Présentation de l’approche “Output Kernel Tree”
On dispose des données suivantes :
les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;
les entrées, (x(vi)), numériques, qui correspondent aux “données
supplémentaires” ;
le noyau de la chaleur k du réseau connu qui peut être vu comme
une approximation du noyau de la chaleur K du réseau réel.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29
Présentation de l’approche “Output Kernel Tree”
On dispose des données suivantes :
les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;
les entrées, (x(vi)), numériques, qui correspondent aux “données
supplémentaires” ;
le noyau de la chaleur k du réseau connu qui peut être vu comme
une approximation du noyau de la chaleur K du réseau réel.
On utilise un algorithme CART pour apprendre la fonction
x(vi) → φ(vi)
où φ(vi) est l’image de vi dans le plongement associé au noyau K. Le
critère de division est calculé par l’utilisation des produits scalaires :
φ(vi), φ(vj) = k(i, j).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29
Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)
K est ensuite estimée par
K(vi, vj) =
1
|v ∈ F(vi)||v ∈ F(vj)|
v∈F(vi), v ∈F(vj)
k(v, v )
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)
K est ensuite estimée par
K(vi, vj) =
1
|v ∈ F(vi)||v ∈ F(vj)|
v∈F(vi), v ∈F(vj)
k(v, v )
Ensemble d’arbres : Une procédure combinant (moyenne) un ensemble
d’arbres obtenus par randomisation des divisions de nœuds (non décrite)
est finalement utilisée.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
Expériences
Même jeu de données, même approche de validation croisée : les
résultats sont améliorés dans le cas de
principalement le réseau métabolique (c’est moins vrai pour le réseau
d’intéractions de protéines) ;
lorsque peu de types de données différentes sont disponibles.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29
Expériences
Même jeu de données, même approche de validation croisée : les
résultats sont améliorés dans le cas de
principalement le réseau métabolique (c’est moins vrai pour le réseau
d’intéractions de protéines) ;
lorsque peu de types de données différentes sont disponibles.
Avantage supplémentaire : L’utilisation d’un arbre unique permet
d’obtenir, en sus, une classification des éléments. Cette classification,
représentée sur le graphe d’intéractions de protéines semble pertinente.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29
Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 28 / 29
À SUIVRE ...
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29
Edwards, D. (1995).
Introduction to Graphical Modelling.
Springer, New York.
Geurts, P., Touleimat, N., Dutreix, M., and d’Alché Buc, F. (2007).
Inferring biological networks with output kernel trees.
BMC Bioinformatics, 8(Supp. 2).
Kato, T., Tsuda, K., and Asai, K. (2005).
Selective integration of multiple biological data for supervised network inference.
Bioinformatics, 21(10) :2488–2495.
Schäfer, J. and Strimmer, K. (2005).
An empirical bayes approach to inferring large-scale gene association networks.
Bioinformatics, 21(6) :754–764.
Yamanishi, Y., Vert, J., and Kanehisa, M. (2005).
Supervised enzyme network inference from the integration of genomic data and chemical information.
Bioinformatics, 21(Supp. 1) :i468–i477.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29

Weitere ähnliche Inhalte

Ähnlich wie Discrimination et régression non paramétriques pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...tuxette
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...tuxette
 
La biométrie_étude de la variation des caractèr_231021_115212.pdf
La biométrie_étude de la variation des caractèr_231021_115212.pdfLa biométrie_étude de la variation des caractèr_231021_115212.pdf
La biométrie_étude de la variation des caractèr_231021_115212.pdfAbdennourAmrani
 

Ähnlich wie Discrimination et régression non paramétriques pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées (7)

Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
Slides ensae-2016-4
Slides ensae-2016-4Slides ensae-2016-4
Slides ensae-2016-4
 
Slides ensae 4
Slides ensae 4Slides ensae 4
Slides ensae 4
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...
 
La biométrie_étude de la variation des caractèr_231021_115212.pdf
La biométrie_étude de la variation des caractèr_231021_115212.pdfLa biométrie_étude de la variation des caractèr_231021_115212.pdf
La biométrie_étude de la variation des caractèr_231021_115212.pdf
 

Mehr von tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Mehr von tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Discrimination et régression non paramétriques pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

  • 1. Compte-rendu bibliographique sur les réseaux biologiques Nathalie Villa-Vialaneix http ://www.nathalievilla.org Institut de Mathématiques de Toulouse IUT de Carcassonne (Université de Perpignan) Groupe de travail BioPuces, INRA de Castanet 9 octobre 2009 BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 1 / 29
  • 2. Vue d’ensemble des thématiques ⇒ ⇒ Compréhension Inférence de graphes Analyse du graphe BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29
  • 3. Vue d’ensemble des thématiques ⇒ ⇒ Compréhension Inférence de graphes Analyse du graphe • non supervisée • Recherche de motifs • semi supervisée • Classification de sommets BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29
  • 4. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
  • 5. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets (ou nœuds) / en anglais : vertices, nodes BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
  • 6. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets Arêtes / en anglais : edges BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
  • 7. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Arêtes éventuellement pondérées BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
  • 8. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
  • 9. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
  • 10. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
  • 11. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E Dans un graphe non pondéré, on convient que wij ∈ {0; 1}. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
  • 12. Sommaire 1 Inférence de graphes Inférence non supervisée Inférence supervisée 2 Analyse de graphes BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 5 / 29
  • 13. Sommaire 1 Inférence de graphes Inférence non supervisée Inférence supervisée 2 Analyse de graphes BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 6 / 29
  • 14. Inférence non supervisée Les seules données connues sont les données d’expression des gènes. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 7 / 29
  • 15. Référence Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to inferring large-scale gene association networks. Bioinformatics, 21(6), pp 754-764. Brève description : Utilisation de modèles graphiques Gaussien (réseaux bayésiens) pour l’inférence d’un graphe à partir de données d’expression de gènes. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 8 / 29
  • 16. Qu’est-ce que le modèle graphique Gaussien ? Données : X de taille N (les individus) par G (les expressions de G gènes). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
  • 17. Qu’est-ce que le modèle graphique Gaussien ? Données : X de taille N (les individus) par G (les expressions de G gènes). Hypothèse : X suit une loi N(µ, Σ). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
  • 18. Qu’est-ce que le modèle graphique Gaussien ? Données : X de taille N (les individus) par G (les expressions de G gènes). Hypothèse : X suit une loi N(µ, Σ). Pourquoi σij peut être élevé ? : il existe une interaction directe entre les gènes i et j ; il existe une interaction indirecte entre les gènes i et j ; les gènes i et j sont régulés par un même gène. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
  • 19. Qu’est-ce que le modèle graphique Gaussien ? Données : X de taille N (les individus) par G (les expressions de G gènes). Hypothèse : X suit une loi N(µ, Σ). Pourquoi σij peut être élevé ? : il existe une interaction directe entre les gènes i et j ; il existe une interaction indirecte entre les gènes i et j ; les gènes i et j sont régulés par un même gène. ⇒ L’utilisation des corrélations simples n’est pas une méthode valide pour reconstruire le graphe d’interactions. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
  • 20. Corrélations partielles On introduit les corrélations partielles πij := Cor(Xi , Xj |X−{i,j} ) BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
  • 21. Corrélations partielles On introduit les corrélations partielles πij := Cor(Xi , Xj |X−{i,j} ) = Cor( i, j) où i et j sont les résidus de la régression linéaire de Xi et Xj en X−{i,j}. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
  • 22. Corrélations partielles On introduit les corrélations partielles πij := Cor(Xi , Xj |X−{i,j} ) = Cor( i, j) où i et j sont les résidus de la régression linéaire de Xi et Xj en X−{i,j}. [Edwards, 1995] montre que πij = −ωij √ ωiiωjj avec (ωij) = Ω = Σ−1 . BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
  • 23. Apports de l’article [Schäfer and Strimmer, 2005] Utilisation de GGM pour n petit : approche par bootstrap 1 Utilisation du pseudo-inverse de Σn pour estimer Ω ; 2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour estimater Ω ; 3 Pour chaque échantillon bootstrap, calcul de Ωb qui est le pseudo inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation de Ω par moyenne des Ωb . BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29
  • 24. Apports de l’article [Schäfer and Strimmer, 2005] Utilisation de GGM pour n petit : approche par bootstrap 1 Utilisation du pseudo-inverse de Σn pour estimer Ω ; 2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour estimater Ω ; 3 Pour chaque échantillon bootstrap, calcul de Ωb qui est le pseudo inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation de Ω par moyenne des Ωb . Proposition d’un test de significativité des corrélations partielles sous l’hypothèse que les distributions partielles suivent une loi de mélange : L(π) ∼ η0f0(π, κ) + (1 − η0)fA (π) avec f0 connue (loi sous l’hypothèse de nullité de π), η0 et κ estimés à partir des données (par EM ou ML maximisation), fA , loi uniforme sur [−1, 1] ⇒ P(arrête non nulle) = (1−η0)fA (π) η0f0(π,κ)+(1−η0)fA (π) . BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29
  • 25. Simulations Inférence d’un grand graphe d’association de gènes connu relatif à des données d’expression pour le cancer du sein dans le but de valider les approches : L’approche 1 est à utiliser quand N >> G car elle manque de puissance sinon. Cependant, si N est grand, les deux autres approches sont aussi performantes ; L’approche 2 est meilleure lorsque N < G : bonne puissance dans la zone où N est petit et moins coûteux que l’approche 3 en temps de calcul ; L’approche 3 est à utiliser dans les situations critiques (N << G). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29
  • 26. Simulations Inférence d’un grand graphe d’association de gènes connu relatif à des données d’expression pour le cancer du sein dans le but de valider les approches : L’approche 1 est à utiliser quand N >> G car elle manque de puissance sinon. Cependant, si N est grand, les deux autres approches sont aussi performantes ; L’approche 2 est meilleure lorsque N < G : bonne puissance dans la zone où N est petit et moins coûteux que l’approche 3 en temps de calcul ; L’approche 3 est à utiliser dans les situations critiques (N << G). L’article conclut par une analyse descriptive d’un sous-réseau d’environ 100 gènes autour d’un gène connu pour son implication dans le cancer du sein (description exhaustive). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29
  • 27. Inférence supervisée Une partie du réseau est connue ainsi que des données supplémentaires de natures diverses Une approximation du réseau est connue ainsi que des données supplémentaires de natures diverses réseaux d’interactions de protéines et réseaux métaboliques BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 13 / 29
  • 28. Référence Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised enzyme network inference from the integration of genomic data and chemical information. Bioinformatics, 21(Supp. 1), i468-i477. Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of multiple biological data for supervised network inference. Bioinformatics, 21(10), 2488-2495. Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F. (2007) Inferring biological networks with output kernel trees. BMC Bioinformatics, 8(Supp. 2). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 14 / 29
  • 29. [Yamanishi et al., 2005] Données disponibles : une partie du réseau : le réseau est connu partiellement et on souhaite trouver des liens supplémentaires potentiels ; BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29
  • 30. [Yamanishi et al., 2005] Données disponibles : une partie du réseau : le réseau est connu partiellement et on souhaite trouver des liens supplémentaires potentiels ; des données supplémentaires : on dispose d’informations supplémentaires (données d’expression de gènes, localisation, profil phylogénétique . . . ). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29
  • 31. Noyau de la chaleur La méthode est basée sur le calcul, pour la partie du réseau connu, du noyau de la chaleur : Pour un graphe donné, le Laplacien est la matrice L = −wij si i j di = k i wik si i = j Le noyau de la chaleur est la matrice K = e−βL . BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
  • 32. Noyau de la chaleur La méthode est basée sur le calcul, pour la partie du réseau connu, du noyau de la chaleur : Pour un graphe donné, le Laplacien est la matrice L = −wij si i j di = k i wik si i = j Le noyau de la chaleur est la matrice K = e−βL . Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la chaleur vu depuis Jean Valjean BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
  • 33. Noyau de la chaleur La méthode est basée sur le calcul, pour la partie du réseau connu, du noyau de la chaleur : Pour un graphe donné, le Laplacien est la matrice L = −wij si i j di = k i wik si i = j Le noyau de la chaleur est la matrice K = e−βL . Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la chaleur vu depuis Jean Valjean BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
  • 34. Noyau de la chaleur La méthode est basée sur le calcul, pour la partie du réseau connu, du noyau de la chaleur : Pour un graphe donné, le Laplacien est la matrice L = −wij si i j di = k i wik si i = j Le noyau de la chaleur est la matrice K = e−βL . Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la chaleur vu depuis Jean Valjean BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
  • 35. Approches proposées Approche directe (on n’utilise que le réseau connu) : on place un lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
  • 36. Approches proposées Approche directe (on n’utilise que le réseau connu) : on place un lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur. Approche supervisée : 1 On calcule le noyau de la chaleur pour le réseau connu, K ; BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
  • 37. Approches proposées Approche directe (on n’utilise que le réseau connu) : on place un lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur. Approche supervisée : 1 On calcule le noyau de la chaleur pour le réseau connu, K ; 2 On calcule un noyau pour les autres variables (pour les variables numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2 , par exemple : K1, . . . , Kp ; 3 On en déduit un noyau global pour les informations supplémentaires : Kp = p k=1 αk Kk où les αk sont des poids à déterminer. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
  • 38. Approches proposées Approche directe (on n’utilise que le réseau connu) : on place un lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur. Approche supervisée : 1 On calcule le noyau de la chaleur pour le réseau connu, K ; 2 On calcule un noyau pour les autres variables (pour les variables numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2 , par exemple : K1, . . . , Kp ; 3 On en déduit un noyau global pour les informations supplémentaires : Kp = p k=1 αk Kk où les αk sont des poids à déterminer. 4 Kernel CCA : Les deux noyaux, K et Kp permettent de définir deux plongements dans des espaces euclidiens de grande dimension. On effectue une analyse canonique à partir de ces deux espaces et on projette le réseau dans l’espace défini par les premières composantes de l’analyse canonique. Les liens supplémentaires sont définis par proximités dans cet espace. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
  • 39. Raffinements Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du noyau Kp seul ; BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
  • 40. Raffinements Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du noyau Kp seul ; Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but de placer les sommets déjà connectés proches les uns des autres dans l’espace image ; BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
  • 41. Raffinements Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du noyau Kp seul ; Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but de placer les sommets déjà connectés proches les uns des autres dans l’espace image ; Contraintes chimiques : des contraintes chimiques sont incorporées de deux manières : un des Kk est un réseau de réaction chimiquement possible ; après l’apprentissage, les réactions chimiquement impossibles sont supprimées. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
  • 42. Bref résumé des conclusions expérimentales Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae : Protocole expérimental : Supression des liens correspondant à 10 % des sommets (puis validation croisée) ; Calcul des taux de bonnes prédictions sur les arêtes reliées à ces sommets. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29
  • 43. Bref résumé des conclusions expérimentales Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae : Protocole expérimental : Supression des liens correspondant à 10 % des sommets (puis validation croisée) ; Calcul des taux de bonnes prédictions sur les arêtes reliées à ces sommets. L’approche pondérée et intégrée (utilisant toutes les informations disponibles) obtient de meilleurs résultats. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29
  • 44. [Kato et al., 2005] Dans cet article, cas particulier où on a, à disposition, une partie du réseau : le réseau est connu parfaitement pour n enzymes ou protéines et totalement inconnu pour m nouvelles enzymes ou protéines : on souhaite trouver les liens entre nouveaux et anciens éléments et “intra” nouveaux éléments ; BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29
  • 45. [Kato et al., 2005] Dans cet article, cas particulier où on a, à disposition, une partie du réseau : le réseau est connu parfaitement pour n enzymes ou protéines et totalement inconnu pour m nouvelles enzymes ou protéines : on souhaite trouver les liens entre nouveaux et anciens éléments et “intra” nouveaux éléments ; des données supplémentaires : on dispose d’informations supplémentaires (données d’expression de gènes, localisation, profil phylogénétique . . . ). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29
  • 46. Plongement Les données sont plongées dans un espace image dont on connait la matrice des produits scalaires (noyau) : Pour le réseau, Q = Kc Qci QT ci Qii où Kc est le noyau de la chaleur sur la partie du réseau qui est connue et Qci, Qii sont les produits scalaires à estimer. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29
  • 47. Plongement Les données sont plongées dans un espace image dont on connait la matrice des produits scalaires (noyau) : Pour le réseau, Q = Kc Qci QT ci Qii où Kc est le noyau de la chaleur sur la partie du réseau qui est connue et Qci, Qii sont les produits scalaires à estimer. Pour les données supplémentaires, on utilise des noyaux similaires à l’approche précédentes. Dans le cas d’un jeu de données, on note P la matrice des produits scalaires associée dans l’espace image. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29
  • 48. Modélisation x = (c, i) est tel que p(x) ∼ N(0, P) q(x) ∼ N(0, Q) BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
  • 49. Modélisation x = (c, i) est tel que p(x) ∼ N(0, P) q(x) ∼ N(0, Q) On estime la loi conjointe q(x) par ˆq(c, i) = p(i|c)q(c) BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
  • 50. Modélisation x = (c, i) est tel que p(x) ∼ N(0, P) q(x) ∼ N(0, Q) On estime la loi conjointe q(x) par ˆq(c, i) = p(i|c)q(c) et donc ˆQci = KcP−1 cc Pci ˆQii = Pii − PT ci P−1 cc Pci + PT ci P−1 cc KcP−1 cc Pci BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
  • 51. Modélisation x = (c, i) est tel que p(x) ∼ N(0, P) q(x) ∼ N(0, Q) On estime la loi conjointe q(x) par ˆq(c, i) = p(i|c)q(c) et donc ˆQci = KcP−1 cc Pci ˆQii = Pii − PT ci P−1 cc Pci + PT ci P−1 cc KcP−1 cc Pci Ceci correspond à la minimisation de la distance de Kullback-Leibler entre p et q. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
  • 52. Modélisation x = (c, i) est tel que p(x) ∼ N(0, P) q(x) ∼ N(0, Q) On estime la loi conjointe q(x) par ˆq(c, i) = p(i|c)q(c) et donc ˆQci = KcP−1 cc Pci ˆQii = Pii − PT ci P−1 cc Pci + PT ci P−1 cc KcP−1 cc Pci Ceci correspond à la minimisation de la distance de Kullback-Leibler entre p et q. Q est ensuite seuillée pour obtenir le réseau. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
  • 53. Mise en œuvre pratique Amélioration proposée dans le cas d’informations supplémentaires multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour l’apprentissage des (αk ). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29
  • 54. Mise en œuvre pratique Amélioration proposée dans le cas d’informations supplémentaires multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour l’apprentissage des (αk ). Expérimentation sur le réseau de protéines et réseau de protéines de la levure Saccharomyces cerevisiae. Les résultats du seuillage de Q améliore les résultats obtenus par KCCA à la fois pour les arêtes entre anciens et nouveaux élements mais aussi entre les nouveaux éléments eux-mêmes (encore plus, d’ailleurs). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29
  • 55. [Geurts et al., 2007] Idée principale : Apprendre le noyau de la chaleur du réseau partiellement connu, à partir de données d’entrées qui peuvent être : une partie du réseau des données supplémentaires comme l’expression des gènes, la localisation des éléments, ... BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
  • 56. [Geurts et al., 2007] Idée principale : Apprendre le noyau de la chaleur du réseau partiellement connu, à partir de données d’entrées qui peuvent être : une partie du réseau des données supplémentaires comme l’expression des gènes, la localisation des éléments, ... Une fois ce noyau K appris, on procède par seuillage pour obtenir un réseau. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
  • 57. [Geurts et al., 2007] Idée principale : Apprendre le noyau de la chaleur du réseau partiellement connu, à partir de données d’entrées qui peuvent être : une partie du réseau des données supplémentaires comme l’expression des gènes, la localisation des éléments, ... Une fois ce noyau K appris, on procède par seuillage pour obtenir un réseau. La méthode utilise une approche à noyau de l’algorithme CART assorti d’un bagging. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
  • 58. Présentation de l’approche “Output Kernel Tree” On dispose des données suivantes : les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ; les entrées, (x(vi)), numériques, qui correspondent aux “données supplémentaires” ; le noyau de la chaleur k du réseau connu qui peut être vu comme une approximation du noyau de la chaleur K du réseau réel. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29
  • 59. Présentation de l’approche “Output Kernel Tree” On dispose des données suivantes : les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ; les entrées, (x(vi)), numériques, qui correspondent aux “données supplémentaires” ; le noyau de la chaleur k du réseau connu qui peut être vu comme une approximation du noyau de la chaleur K du réseau réel. On utilise un algorithme CART pour apprendre la fonction x(vi) → φ(vi) où φ(vi) est l’image de vi dans le plongement associé au noyau K. Le critère de division est calculé par l’utilisation des produits scalaires : φ(vi), φ(vj) = k(i, j). BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29
  • 60. Estimation de K Φ, fonction de plongement associée à K, est estimée pour chaque feuille par : Φ(F) = 1 |v ∈ F| v∈F φ(v) (moyenne des valeurs du réseau initial par le plongement) BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
  • 61. Estimation de K Φ, fonction de plongement associée à K, est estimée pour chaque feuille par : Φ(F) = 1 |v ∈ F| v∈F φ(v) (moyenne des valeurs du réseau initial par le plongement) K est ensuite estimée par K(vi, vj) = 1 |v ∈ F(vi)||v ∈ F(vj)| v∈F(vi), v ∈F(vj) k(v, v ) BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
  • 62. Estimation de K Φ, fonction de plongement associée à K, est estimée pour chaque feuille par : Φ(F) = 1 |v ∈ F| v∈F φ(v) (moyenne des valeurs du réseau initial par le plongement) K est ensuite estimée par K(vi, vj) = 1 |v ∈ F(vi)||v ∈ F(vj)| v∈F(vi), v ∈F(vj) k(v, v ) Ensemble d’arbres : Une procédure combinant (moyenne) un ensemble d’arbres obtenus par randomisation des divisions de nœuds (non décrite) est finalement utilisée. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
  • 63. Expériences Même jeu de données, même approche de validation croisée : les résultats sont améliorés dans le cas de principalement le réseau métabolique (c’est moins vrai pour le réseau d’intéractions de protéines) ; lorsque peu de types de données différentes sont disponibles. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29
  • 64. Expériences Même jeu de données, même approche de validation croisée : les résultats sont améliorés dans le cas de principalement le réseau métabolique (c’est moins vrai pour le réseau d’intéractions de protéines) ; lorsque peu de types de données différentes sont disponibles. Avantage supplémentaire : L’utilisation d’un arbre unique permet d’obtenir, en sus, une classification des éléments. Cette classification, représentée sur le graphe d’intéractions de protéines semble pertinente. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29
  • 65. Sommaire 1 Inférence de graphes Inférence non supervisée Inférence supervisée 2 Analyse de graphes BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 28 / 29
  • 66. À SUIVRE ... BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29
  • 67. Edwards, D. (1995). Introduction to Graphical Modelling. Springer, New York. Geurts, P., Touleimat, N., Dutreix, M., and d’Alché Buc, F. (2007). Inferring biological networks with output kernel trees. BMC Bioinformatics, 8(Supp. 2). Kato, T., Tsuda, K., and Asai, K. (2005). Selective integration of multiple biological data for supervised network inference. Bioinformatics, 21(10) :2488–2495. Schäfer, J. and Strimmer, K. (2005). An empirical bayes approach to inferring large-scale gene association networks. Bioinformatics, 21(6) :754–764. Yamanishi, Y., Vert, J., and Kanehisa, M. (2005). Supervised enzyme network inference from the integration of genomic data and chemical information. Bioinformatics, 21(Supp. 1) :i468–i477. BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29