Informations

Comparaison des scores de modularité entre différents algorithmes dans l'analyse de réseau


J'ai utilisé différents algorithmes pour diviser mon grand réseau de gènes en différents sous-réseaux à l'aide de Cytoscape. J'ai comparé les scores de modularité et décidé que l'algorithme avec le meilleur score de modularité sera utilisé pour le clustering du réseau.

Mon collègue a avancé l'argument selon lequel les scores de modularité ne peuvent être comparés que pour un nombre différent de clusters créés par le même algorithme.

Ma question est donc de savoir si les scores de modularité peuvent être utilisés pour comparer différents algorithmes ou uniquement dans le cas du même algorithme produisant un nombre différent de clusters.


Étant donné que le but des algorithmes d'estimation de modularité est de trouver la structure de communauté qui maximise la modularité, il est valable de comparer différents algorithmes en fonction de leur estimation de modularité. Cependant, i) ce n'est pas la seule considération pour choisir un algorithme de détection de communauté, et ii) l'estimation de modularité obtenue dépendra de la structure particulière de chaque réseau, par ex. son nombre de nœuds. Pour une comparaison de principe entre plusieurs algorithmes différents, voir Yang et al. (2016). Sur la base de critères multiples, ils identifient le multiniveau (ou Louvain) (Blondel et al. 2008) comme le meilleur choix global.


Les références
- Yang, Zhao, René Algesheimer et Claudio J. Tessone. "Une analyse comparative des algorithmes de détection communautaire sur les réseaux artificiels." Rapports scientifiques 6, no. 1 (août 2016). https://doi.org/10.1038/srep30750.
- Blondel, Vincent D., Jean-Loup Guillaume, Renaud Lambiotte et Etienne Lefebvre. « Déploiement rapide des communautés dans les grands réseaux. » Journal of Statistical Mechanics: Theory and Experiment 2008, no. 10 (octobre 2008) : P10008. https://doi.org/10.1088/1742-5468/2008/10/P10008.


Résumé de l'auteur

Dans nos laboratoires, nous avons cherché à utiliser des algorithmes de réseau pour contextualiser les résultats des criblages génomiques fonctionnels et des études d'expression génique. Afin de comprendre comment appliquer ces algorithmes à nos données, nous avons caractérisé dix-sept algorithmes précédemment publiés en fonction des caractéristiques de leur sortie et de leurs performances dans trois tâches : validation croisée, prédiction de cibles médicamenteuses et comportement avec entrée aléatoire.

Citation: Hill A, Gleim S, Kiefer F, Sigoillot F, Loureiro J, Jenkins J, et al. (2019) Analyse comparative des algorithmes de réseau pour contextualiser les gènes d'intérêt. PLoS Comput Biol 15(12) : e1007403. https://doi.org/10.1371/journal.pcbi.1007403

Éditeur: Luonan Chen, Académie chinoise des sciences, CHINE

A reçu: 16 janvier 2019 Accepté: 11 septembre 2019 Publié : 20 décembre 2019

Droits d'auteur: © 2019 Hill et al. Il s'agit d'un article en libre accès distribué sous les termes de la Creative Commons Attribution License, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'auteur original et la source soient crédités.

Disponibilité des données: La majorité des données utilisées pour l'analyse comparative sont accessibles au public et leurs emplacements sont décrits dans le manuscrit. Un petit sous-ensemble des ensembles de données utilisés étaient des résultats d'écrans internes Novartis CRISPR qui sont la propriété de Novartis. Les conclusions générales tirées des données exclusives étaient similaires à celles des ensembles de données accessibles au public. Tous les algorithmes ont déjà été publiés et sont cités dans le manuscrit. Pour ce travail spécifique, nous avons utilisé une ré-implémentation d'algorithmes dans le progiciel CBDD. Ce logiciel est la propriété de Clarivate. Pour ceux qui souhaitent accéder au logiciel CBDD, veuillez visiter www.clarivate.com pour obtenir les coordonnées de l'entreprise. Les réseaux utilisés dans ce travail sont une combinaison d'une ressource propriétaire de Clarivate (voir www.clarivate.com pour les coordonnées de l'entreprise) et d'un réseau accessible au public (STRING). La généralité des résultats à d'autres réseaux a été confirmée avec un réseau accessible au public, HumanNet, tel que décrit dans le manuscrit.

Le financement: Cette recherche a été financée par les instituts Novartis pour la recherche biomédicale. Novartis a apporté un soutien sous forme de salaires à tous les auteurs. Army Research Office Institute for Collaborative Biotechnologies (W911NF-09-0001) a financé les frais de scolarité d'Abby Hill. Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Intérêts concurrents : J'ai lu la politique de la revue et les auteurs de ce manuscrit ont les intérêts concurrents suivants : Tous les auteurs étaient employés par Novartis lorsque le travail a été achevé, et certains ont une participation dans Novartis. AH est actuellement employé par Pfizer.

C'est un Biologie computationnelle PLOS Papier de référence.


Méthodes

Développement de réseau granulaire

Les réseaux granulaires pour la présente étude ont été créés en utilisant deux protocoles différents. Le premier protocole utilise une méthode des éléments discrets (DEM) basée sur la physique qui simule une véritable dynamique granulaire. Dans le deuxième protocole, nous générons synthétiquement un ensemble granulaire où les particules sont positionnées dans un réseau hexagonal. Nous utilisons ensuite un pochoir carré pour éliminer les particules et produire ainsi une région désordonnée à motifs.

Simulation DEM pour générer un ensemble granulaire

L'ensemble granulaire de la présente étude est créé en utilisant la simulation DEM 27,28,29 de 7428 particules macroscopiques 2D de taille uniforme (rayon 0,01 m) par emballage centripète. Dans cette approche, une force centripète appliquée de l'extérieur (de grandeur effectivement égale à la force gravitationnelle), est dirigée vers le centre de la boîte. Le protocole de simulation DEM adopté pour cet article est identique aux références 30,31, mais néanmoins décrit dans les informations supplémentaires (SI)-1 par souci d'exhaustivité. Toutes les particules se déplacent vers le centre de la boîte à cause de cette force centripète et forment un tassement. Au cours de ce processus d'emballage, les collisions entre les particules entraînent une réduction de leur énergie cinétique. La plupart des particules dans la structure finale s'accumulent dans une structure hexagonale coordonnée six fois. Une très petite fraction des particules ont un nombre de coordination (nombre de voisins physiquement en contact) différent de six (Fig. 1a). Le réseau est construit en plaçant une arête entre deux granules quelconques s'ils sont en contact physique. Étant donné que la plupart des particules de l'ensemble présentent une coordination sextuple, le réseau résultant est une composition de régions de sous-graphes régulières pour la plupart 6 séparées par des régions irrégulières (Fig. 1b). Les régions irrégulières sont constituées de nœuds faiblement connectés. Ces régions peuvent être visuellement discriminées des régions régulières fortement connectées.

Ensemble granulaire et réseau granulaire correspondant. (une) Emballage de 7428 disques de taille uniforme obtenus par emballage centripète par simulation DEM (voir texte principal et SI-1). Les particules sont colorées en fonction de leurs numéros de coordination (voir la barre de couleurs à l'extrême gauche). Les régions ordonnées et désordonnées peuvent être discernées visuellement. Une bonne fonction de modularité doit devenir maximale pour la partition qui correspond à ces partitions obtenues par inspection visuelle. (b) Réseau de contacts formé à partir de l'ensemble (une) en suivant la recette : une arête est tracée entre deux particules si elles sont en contact physique. Le poids de toutes les arêtes est fixé à l'unité pour en faire un réseau non pondéré. Six régions de graphique régulières et régions irrégulières sont montrées dans l'encart (extrême droite). [Les fichiers contenant la connectivité des nœuds (graph_srep.gml) et les coordonnées de chaque nœud et leur degré correspondant (Particle_pos_with_coord_no_Srep.xls) peuvent être téléchargés à partir de https://sites.google.com/a/iitbbs.ac.in/kks- recherche-travail/recherche-données].

Ensemble granulaire généré synthétiquement

Dans ce protocole, les particules sont positionnées dans un réseau hexagonal régulier. Nous utilisons ensuite un pochoir carré pour éliminer les particules et produire ainsi une région désordonnée à motifs. Ces modèles forment des limites logiques pour les partitions de communauté. Le protocole de formation de réseau à partir de ces ensembles est le même que celui évoqué précédemment.

Trouver les communautés

Pour trouver et créer des communautés dans le réseau, nous utilisons deux protocoles différents. Dans le premier protocole, nous utilisons un schéma de détection communautaire basé sur le modèle de Potts discuté ci-après. Dans le deuxième protocole, nous définissons manuellement les communautés.

Algorithme de détection de communauté basé sur le modèle de Potts

La précision d'un algorithme de clustering de graphes est principalement contrôlée par la fonction de qualité qu'il utilise. Cela devrait favoriser davantage d'arêtes à l'intérieur de la communauté et restreindre un grand nombre d'arêtes manquantes en utilisant une fonction de pénalisation. Nous avons utilisé un algorithme de modèle de Potts de type verre de spin pour la détection de communauté de Rhonhovde et Nussinov 9 (ci-après dénommé modèle RN) Cet algorithme est décrit en détail dans SI-2 et le code c++ complet de la méthode RN peut être téléchargé de https://sites.google.com/a/iitbbs.ac.in/kks-research-work/research-data). La méthode RN tente de trouver itérativement une partition qui correspond à l'état fondamental de la fonction énergétique suivante (ou hamiltonien H) donné dans l'éq. (2).

L'asymétrie entre connectés (UNEje = 1) et déconnecté (Jje = 1-Aje = 1) les bords peuvent être réfléchis en réglant individuellement les poids de bord respectifs (indiqués par une et b). Le facteur multiplicatif, , est utilisé comme paramètre de résolution structurelle. La modification de la valeur de peut augmenter ou diminuer les poids de bord manquants, offrant ainsi un contrôle sur la taille et le nombre de communautés trouvées en minimisant l'hamiltonien de l'équation. (2). En règle générale, des valeurs plus élevées de ?? favoriser les petites collectivités, et vice versa.

L'hamiltonien de Potts favorise un lien intra-communautaire alors qu'il défavorise les arêtes manquantes au sein d'une même communauté. L'état optimisé de l'hamiltonien du modèle de potts a pour la plupart des entités de spin similaires dans le même état et vice versa 32 .

Définition manuelle des communautés

Dans ce protocole, nous définissons manuellement les limites de la communauté sans aucun égard à son optimalité. Si les limites de la communauté coïncident avec celles associées à des structures identifiables d'origine naturelle, représentant clairement une solution optimale, alors on peut s'attendre à une valeur de modularité plus élevée, à condition que la fonction soit correctement construite. À d'autres moments, nous fixons avec force les limites de la communauté pour qu'elles ne coïncident pas avec de telles structures. On peut alors anticiper des valeurs de modularité très faibles pour de telles partitions sous-optimales. Nous démontrerons clairement que notre nouvelle fonction de modularité est plus sensible à de tels changements et surpasse la modularité NG.

Nouvelle fonction de modularité

Avant de présenter notre nouvelle fonction, nous discutons brièvement de l'intuition physique qui sous-tend notre formulation. Cette intuition est profondément enracinée dans l'étude des matériaux magnétiques naturels. Concrètement, la fonction de modularité que nous allons présenter brièvement s'inspire de la formation de domaines magnétiques dans les matériaux ferromagnétiques. Dans un matériau magnétique, il existe des « domaines » dans lesquels tous les moments tendent à s'aligner localement (ou à se « polariser ») selon la même direction. De telles structures sont de faible énergie. Nous souhaitons faire une analogie entre de tels domaines magnétiques et amas dans un graphe. Chaque nœud du graphique peut être considéré comme un moment magnétique local ou un « spin » (comme celui associé à un atome individuel). Une arête dans le graphique représente une interaction magnétique entre deux moments locaux (atomes/nœuds). Dans cette optique, chaque communauté du graphe peut en effet être considérée comme un domaine magnétique. Notre fonction de modularité est modélisée par un hamiltonien de Potts 33 . La construction de cet hamiltonien repose essentiellement sur les choix que l'on fait pour modéliser les interactions spin-spin pour quatre scénarios différents. L'addition de ces interactions produira l'hamiltonien complet décrivant notre système. Les quatre scénarios possibles dans cette formulation dynamique de spin sont les suivants (voir SI-3 pour plus de détails) : (i) interaction entre des spins de polarisation identique au sein d'une même communauté (ii) interaction associée à une arête manquante entre des nœuds au sein d'une même communauté (c'est-à-dire deux nœuds de polarisation de spin identique), (iii) interaction pour une arête entre deux communautés différentes (ou deux domaines magnétiques différents de polarisation de spin différente) et (iv) interaction représentant une arête manquante entre deux nœuds de deux communautés distinctes. Nous utiliserons une fonction step Heaviside pour incorporer la contrainte géométrique associée aux éléments individuels. Un guide illustré complet pour tous les scénarios possibles se trouve dans SI-4. Alors que l'énergie d'un système (l'hamiltonien) est une quantité extensive, nous ferons de la modularité un paramètre intensif en la mettant à l'échelle avec le nombre total d'arêtes. Nous le faisons car, si l'architecture du réseau est relativement homogène, nous nous attendons à une valeur comparable de la modularité capturant la « qualité » indépendante de la taille du système de la partition. Notre fonction de modularité proposée se lit comme suit :

Ici uneje et bje sont la force (à ne pas confondre avec les poids des bords) des bords connectés et manquants entre je e et j e nœuds respectivement. Pour la mise en place des forces d'arêtes, uneje et bje, il peut y avoir beaucoup de choix. Nous utilisons une comparaison avec la distribution locale des degrés entre les je e et j e nœud avec la distribution de degré moyen 〈kdu réseau, et définir

où, (langle k angle =frac<1>somme _^_) et N est le nombre total de nœuds et k est le degré du nœud.

Notre proposition présente donc deux distinctions importantes par rapport à presque toutes les fonctions de modularité traditionnelles que nous connaissons, y compris la modularité NG (Eq. (1)) ainsi que d'autres fonctions de modularité développées pour les réseaux spatiaux. Premièrement, il ne recourt pas explicitement à un modèle nul (bien que la fonction des équations (2 et 3) ait été largement inspirée d'une telle comparaison). Deuxièmement et surtout, les méthodes traditionnelles négligent les interactions intercommunautaires (à la fois les arêtes existantes et manquantes) alors que notre fonction les prend en compte. La principale différence est incarnée par la dépendance géométrique qui apparaît dans notre modularité de l'équation. (3). La modularité NG pénalise pour tous les bords manquants entre deux nœuds distants au sein d'une même communauté. Cette pénalité est imposée même lorsque ce bord peut ne pas être physiquement possible en raison de contraintes géométriques. Afin de limiter cette surpénalisation incorrecte, nous avons introduit, dans l'Eq. (3), une fonction de pas d'unité Heaviside (Δxje) qui intègre les contraintes géométriques sous forme de définition de voisinage. Ici (< m>_=_-|>_->_|) est la différence de distance euclidienne entre les nœuds je, j et Xc définit la distance de coupure pour le voisinage et a été choisi pour être Xc = 1.05 * (Rje + Rj) où, R est le rayon de la particule pour la présente étude. La fonction (Δxje) introduit une pénalité uniquement pour les chaînons manquants où une arête est géométriquement possible.

Notre fonction compare la distribution locale des degrés au niveau des nœuds avec la distribution moyenne des degrés du réseau (Eq. (4)). Sa valeur sera élevée si les nœuds d'une communauté sont fortement liés les uns aux autres. Les communautés fortement liées présentent une distribution locale des degrés qui est plus grande que la distribution moyenne des degrés sur l'ensemble du réseau. On remarque qu'en employant la valeur absolue |b|, dans l'éq. (3) n'est pas obligatoire, cela prend en charge une subtilité comme nous l'avons expliqué dans SI-4. Une discussion approfondie sur les implications de l'équation. (3) pour tous les scénarios possibles y est également discuté de manière exhaustive.


Le réseau de régulation génique de la différenciation mESC : une référence pour les méthodes d'ingénierie inverse

Un grand nombre de données se sont accumulées qui caractérisent le réseau de régulation génique des cellules souches. Pourtant, une compréhension globale et intégrative de ce réseau complexe fait défaut. Les méthodes d'ingénierie inverse des réseaux qui utilisent des données de transcriptome pour dériver ces réseaux peuvent aider à découvrir la topologie de manière impartiale. De nombreuses méthodes existent qui utilisent la co-expression pour reconstruire des réseaux. Cependant, on ne sait toujours pas comment ces méthodes fonctionnent dans le contexte de la différenciation des cellules souches, car la plupart des évaluations systématiques ont été faites pour les réseaux de régulation des organismes unicellulaires. Ici, nous rapportons une référence systématique des différentes méthodes d'ingénierie inverse par rapport aux données fonctionnelles. Nous montrons que l'élagage du réseau est essentiel pour les performances de reconstruction. Nous constatons également que les performances sont similaires pour les algorithmes qui utilisent différentes mesures de co-expression, c'est-à-dire l'information mutuelle ou la corrélation. De plus, différentes méthodes produisent des topologies de réseau très différentes, soulignant le défi d'interpréter ces réseaux résultants dans leur ensemble.

Cet article fait partie du numéro thématique « Tissus humains de créateurs : venir dans un laboratoire près de chez vous ».

1. Origines

Malgré d'énormes efforts pour cartographier les interactions de régulation génique entre les gènes dans de nombreux types cellulaires différents à l'aide de ChIP-seq et de méthodes similaires, une compréhension globale du réseau de régulation génique régissant les transitions d'état cellulaire fait toujours défaut [1]. En plus des annotations fonctionnelles du génome, un grand nombre de données d'expression génique ont été collectées au cours des dernières décennies. Nous avons donc décidé d'étudier si ces données pouvaient être exploitées pour dériver la topologie du réseau de régulation génique régissant la transition complexe d'une cellule souche à une cellule différenciée. Un certain nombre d'approches qui abordent le problème de déduire des réseaux de régulation génique à partir de données à haut débit ont été développées au cours des 20 dernières années. La plupart des méthodes de reconstruction de réseau qui utilisent des données d'expression supposent que le taux de changement de la concentration d'ARNm d'un gène est fonction de la concentration d'ARNm de tous les autres gènes [2]. Une telle approche suppose que la concentration en protéines de chaque gène est déterminée uniquement par sa concentration en ARNm, et elle ignore l'influence des modifications post-traductionnelles.

De nombreuses approches de reconstruction de réseau ont été systématiquement référencées dans le projet DREAM [3]. Cependant, ces benchmarks ont été principalement effectués sur des données de micro-organismes tels que E. coli et Saccharomyces cerevisiae. En utilisant également les données de Escherichia coli, Allen et al. [4] ont étudié la reconstruction du réseau en utilisant les données de 500 microarrays et ont examiné l'influence du nombre d'échantillons sur la qualité de la reconstruction. Comme la complexité des réseaux de régulation des mammifères est beaucoup plus grande que celle des levures ou des bactéries, les résultats de ces références peuvent ne pas être transférables à la reconstruction de réseaux plus complexes. Très peu d'études ont comparé les algorithmes de reconstruction sur des ensembles de données de mammifères, en grande partie à cause de l'absence d'étalons-or.Une étude a comparé différentes méthodes sur plusieurs ensembles de données [5], montrant que l'algorithme ARACNE, qui est basé sur la théorie de l'information, fonctionne mieux sur les données des cellules B, où il existe un bon étalon-or [6]. Une autre étude a utilisé des ensembles de données de mammifères mais n'a utilisé que l'enrichissement GO, une mesure indirecte, comme mesure de performance, limitant l'interprétation [7].

Deux publications récentes ont tenté de reconstruire des réseaux de cellules souches embryonnaires de mammifères. Cegli et al. [8] ont utilisé ARACNE sur 171 puces à ADN pour reconstruire un réseau de régulation génique dans les cellules souches embryonnaires de souris (mESC). La qualité de la reconstruction a été évaluée à l'aide de Reactome et des données de perturbation du facteur de transcription. Cahan et al. [9] ont utilisé environ 4000 échantillons de différents tissus de souris pour former un réseau de régulation génique à l'aide de l'algorithme CLR [10]. Ils ont utilisé la zone sous la courbe de rappel de précision (AUPR) pour estimer les performances, en utilisant des étalons-or des données ChIP-Chip dans la base de données Escape [11], un ensemble de données mesurant l'expression différentielle après la surexpression et les données Encode ChIP-seq . Cependant, aucun de ces travaux n'incluait de comparaison des méthodes de reconstruction, ce qui rend l'amélioration par rapport aux valeurs aléatoires difficile à interpréter.

D'autres tentatives pour reconstruire le réseau de régulation des gènes dans mESC [10,12] ont utilisé des données ChIP-seq en plus ou exclusivement pour la formation et ne sont donc pas directement comparables aux approches utilisant uniquement des données de transcriptome. Enfin, certains efforts de reconstruction visent uniquement à reconstruire un réseau central de pluripotence contenant quelques nœuds, en utilisant des données résolues en temps [13] ou une expression dépendante des conditions de culture [14].

Dans cet article, nous utiliserons et comparerons différentes méthodes de reconstruction de réseau de pointe pour reconstruire la topologie du réseau de régulation des gènes régissant le processus de différenciation des mESC à partir d'un grand nombre de données de transcriptome. Nous évaluons ces réseaux reconstruits à l'aide de données fonctionnelles sur les interactions régulatrices, telles que les données ChIP-seq ou les expériences de perturbation des facteurs de transcription.

2. Matériel et méthodes

(a) Algorithmes et packages utilisés

Tous les calculs ont été effectués en R. Nous avons comparé différentes mesures de similarité (corrélation de Pearson et Spearman, information mutuelle, ARACNE [15], CLR [16], MRNET [17], corrélation partielle [18]), telles qu'implémentées en base R, en le pack R parmigene, ou dans le pack parcor. La plupart des algorithmes ne nécessitaient pas de paramètre, sauf pour ARACNE (??), corrélation partielle (paramètre k, que nous fixons à 3) et l'information mutuelle (paramètre lié à l'estimation k, qui a été défini sur 9). Toutes les propriétés topologiques ont été calculées à l'aide du package R igraph.

(b) Etalons or

Une liste de facteurs de transcription dans la souris 'Gene list of TFs' a été obtenue à partir de la base de données sur les facteurs de transcription animale (ATFDB) [19], située à l'adresse http://www.bioguo.org/AnimalTFDB/, qui a été utilisée pour limiter les gènes analysés aux facteurs de transcription. Pour définir l'étalon-or ChIP-seq, nous avons téléchargé le Compendium Mouse ES Cell ChIP-Seq maintenu par le Bioinformatics Core at Wellcome Trust—MRC Stem Cell Institute, disponible sur http://lila.results.cscr.cam.ac.uk /ES_Cell_ChIP-seq_compendium_UPDATED.html. Nous avons calculé le score d'association de facteurs de transcription pour chaque gène dans chaque ensemble de données, tel que défini dans [20], avec une échelle de longueur caractéristique à 1000 pb. Pour l'étalon-or de la surexpression, nous avons téléchargé les ensembles de données GEO GSE31381 et GSE14559 à l'aide du package R GEOquery. Étant donné que ces séries contiennent un mélange de valeurs d'expression déjà logarithmées et de valeurs d'expression linéaires, tous les échantillons avec une médiane supérieure à 10 ont été logarithmés. Pour classer les gènes, nous avons calculé empiriquement z-valeurs. Nous avons d'abord calculé l'expression moyenne et l'écart type pour chaque gène en utilisant les quatre échantillons étiquetés comme « contrôle », puis nous avons défini l'écart type par un ajustement de Loess sur l'écart type par rapport à la moyenne avec un intervalle de 3. Nous avons ensuite utilisé une z-seuil de score de 2,9 et un facteur de changement supérieur à 2, ce qui se traduit par un taux de fausses découvertes estimé inférieur à 0,001. Les données de référence de perte de fonction (LoF) ont été obtenues à partir de la base de données Escape [11]. La liste des gènes différentiels pour chaque facteur de transcription testé a été téléchargée à partir de http://www.maayanlab.net/ESCAPE/download/logof.txt.zip. De ces données, nous n'avons conservé que les expériences marquées comme LoF. Les symboles de gènes ont été traduits en identifiants de gènes Ensembl en utilisant la fonction symbolToGene du package R annmap (Ensembl v. 74). Les données de knockdown du facteur de transcription ont été obtenues à partir de la publication [21]. Nous avons téléchargé la liste des gènes différentiels pour chaque facteur de transcription analysé sur http://www.nature.com/srep/2013/130306/srep01390/extref/srep01390-s1.xls. Les symboles de gènes ont été traduits en identifiants de gènes Ensembl en utilisant la fonction symbolToGene du package R annmap (Ensembl v. 74). Le PluriNetWork basé sur la littérature décrit dans [22] a été téléchargé à partir de WikiPathways (http://wikipathways.org/index.php/Pathway:WP1763) le 15 avril 2014 à l'aide de Cytoscape 3.1.0 et exporté sous forme de fichier texte brut. Il a ensuite été importé dans R et limité aux paires de nœuds pouvant être mappées sur les identifiants de gènes Ensembl à l'aide d'Ensembl v. 79. De plus, nous n'avons retenu que les interactions où le premier nœud était un facteur de transcription, ce qui a donné 362 interactions.

(c) Données du transcriptome

Des échantillons de puces à ADN ont été obtenus automatiquement à partir de la base de données GEO à l'aide des packages R GEOquery pour la récupération des données et GEOmetadb pour la sélection des données. À l'aide de GEOmetadb (horodatage 11/2013), la base de données GEO a été recherchée pour les entrées correspondant à la plate-forme Affymetrix Mouse Gene St (GPL6246). Ces entrées ont été filtrées selon les critères suivants. Premièrement, les données CEL brutes devaient être présentes. Deuxièmement, la description devait contenir au moins un des mots clés suivants : mESC, stem cell, stem cells, Oct4, Sox2, Nanog, Pou5f1, embryonic. Les 1194 échantillons correspondants ont ensuite été téléchargés. Ces échantillons ont été normalisés ensemble en utilisant la fonction rma de l'oligo package R. Les sondes ont été annotées avec les identifiants de gènes Ensembl à l'aide du package R mogen10sttranscriptcluster.db. Les sondes associées à plus d'un gène ont été omises. La matrice d'expression finale contenait 19 615 gènes mesurés dans 1194 échantillons.

(d) Annotations tissulaires différenciées

Nous avons téléchargé des données brutes pour les échantillons de puces à ADN référencés dans l'atlas des tissus CellNet [9] et des échantillons normalisés à l'aide de la RMA implémentée dans l'oligo du package R. Les sondes ont été annotées avec des identifiants de gènes ensembl à l'aide du package R mogen10sttranscriptcluster.db. Pour comparer les valeurs d'expression des échantillons CellNet avec les échantillons basés sur des mots-clés, les deux ont été renormalisés ensemble à l'aide de la normalisation quantile.

(e) Calcul de l'aire sous le rappel de précision

Nous avons classé toutes les prédictions en fonction du score et calculé la courbe précision-rappel en utilisant le package ROCR [23] avec l'algorithme d'interpolation de Boyd et al. [24], disponible sur https://github.com/kboyd/raucpr [25]. Les AUPR obtenus ont été utilisés pour calculer l'amélioration des prédictions par rapport au hasard.

(f) Performances dépendantes de la taille

À partir de l'ensemble de données d'expression de 1194 échantillons, cinq échantillons aléatoires ont été tirés avec les tailles 16, 32, 64, 128, 256, 512 et 1024. Les algorithmes de reconstruction ont ensuite été appliqués sur les mêmes échantillons aléatoires.

3. Résultats

Notre approche des algorithmes de reconstruction de réseau de référence était la suivante : nous avons compilé une grande collection de 1194 transcriptomes de mESC accessibles au public en interrogeant la base de données GEO avec des mots-clés. Par co-normalisation, ces données représentaient alors une grande matrice de données d'expression de gènes dans les mESC dans différentes conditions et avec différents statuts de différenciation. Nous avons ensuite appliqué un ensemble de métriques de co-expression et publié des algorithmes de reconstruction de réseau de pointe (figure 1une) à ces données qui ont généré des listes classées de paires de gènes cibles de facteurs de transcription potentiels. Nous avons ensuite comparé les prédictions de ces algorithmes avec différents ensembles d'étalons-or qui relient les facteurs de transcription et leurs gènes cibles. À cette fin, nous avons utilisé des données ChIP-seq, des données sur l'expression différentielle après une perturbation du facteur de transcription et un réseau basé sur la littérature organisé manuellement. À l'aide de ces normes de référence, nous pourrions ensuite classer les algorithmes individuels en fonction de leurs performances moyennes en utilisant l'aire sous la courbe de précision-rappel.

Figure 1. (une) Pipeline pour le benchmarking d'algorithmes de prédiction de réseau. (i) Des échantillons de puces à ADN provenant d'un type de matrice de souris Affymetrix fixe qui sont identifiés par des mots-clés liés aux cellules souches embryonnaires sont téléchargés à partir de la base de données GEO. Tous les échantillons sont normalisés ensemble, ce qui donne la matrice d'expression génique. Différents algorithmes qui prédisent les interactions basées sur la co-expression sont ensuite appliqués à la matrice d'expression pour obtenir une liste de paires de gènes classées par leur score d'interaction. Alors que nous étudions la régulation des gènes par les TF, seules les paires de gènes TF sont retenues. La qualité des prédictions est évaluée à l'aide de deux types de preuves pour l'interaction directe, ChIP-seq et expression différentielle après perturbation TF. (ii) Les paires de gènes TF sont classées comme des succès et des échecs selon les preuves de perturbation ChIP-seq et TF. Pour l'étalon-or ChIP-seq, une paire de gènes TF est classée comme touchée lorsque le TF se lie suffisamment près du promoteur du gène. Pour l'étalon-or de perturbation, les gènes avec un changement de pli significatif lors de la perturbation de TF sont classés comme cibles de la TF respective. De plus, un réseau basé sur la littérature est utilisé pour l'analyse comparative. A partir du rang des paires de gènes TF hit et miss dans la liste classée par score d'interaction, la courbe précision-rappel est calculée. L'aire sous la courbe de rappel de précision (AUPR) sert de référence de qualité pour les prédictions du réseau. (b) Visualisation d'échantillons basés sur des mots clés par rapport aux tissus différenciés annotés et aux échantillons ESC à l'aide de tSNE.

(a) Un grand ensemble de données sur l'expression des gènes dans les mESC

Pour agréger un grand compendium de transcriptome mESC, nous avons utilisé la base de données GEO et recherché les mots-clés suivants dans les résumés : mESC, stem cell, stem cells, Oct4, Sox2, Nanog, Pou5f1 et embryonic. Nous avons ensuite téléchargé tous les ensembles de données en tant que données brutes provenant d'une plate-forme de matrice (plate-forme Affymetrix Mouse Gene 1.0 ST Array (Gene St)). Cela a donné 1194 transcriptomes. Ces données ont ensuite été normalisées entre elles pour obtenir une matrice d'expression (figure 1une). Lorsque nous avons visualisé les échantillons à l'aide de l'intégration de voisins stochastiques distribués en t (t-SNE) avec des échantillons de tissus annotés (ensemble de données CellNet, figure 1b), nous avons noté que nos échantillons sélectionnés forment un groupe hétérogène où la plupart des échantillons se regroupent avec des cellules souches annotées, beaucoup ne sont pas affectés à des tissus spécifiques et certains co-regroupent avec des tissus. Une telle hétérogénéité est potentiellement importante pour reconstruire le réseau, car les données contiennent alors une variance suffisante dans l'expression des TF associés à la pluripotence, ce qui permet à son tour d'identifier les gènes qui covarient avec ces TF.

(b) Sélection de méthodes pour l'ingénierie inverse du réseau

La plupart des méthodes de reconstruction de réseau utilisent une mesure d'association statistique de deux variables [26] pour prédire les liens. Dans ce travail, nous avons décidé de comparer les mesures de similarité qui notent les relations non fonctionnelles (informations mutuelles), fonctionnelles monotones non linéaires (corrélation de Spearman) et linéaires (corrélation de Pearson) [27-29] (figure 2). De plus, nous avons ajouté des algorithmes basés sur ces mesures, mais en plus élaguer ces réseaux soit sur l'information mutuelle (ARACNE [15], MRNET [17], CLR [16]), soit sur la corrélation de Pearson (corrélation partielle).

Figure 2. Classification des scores à l'aide du schéma proposé dans [27]. Les scores sont classés selon leur capacité à détecter les relations de co-expression avec les propriétés indiquées, non linéaires, non monotones et non fonctionnelles. La colonne d'élagage indique si l'algorithme essaie de supprimer les liens indirects.

Tous les algorithmes prennent une m × m matrice d'expression en entrée, où m est le nombre de gènes et m est le nombre d'échantillons (microarray). La sortie est un m × m matrice qui contient un score d'association pour chaque paire de gènes. L'algorithme ARACNE est le seul qui nécessite un paramètre d'entrée. Ce paramètre ?? détermine avec quelle agressivité l'algorithme essaie d'élaguer les liens indirects. La valeur ?? = 1 correspond à l'absence de taille, tandis que pour ?? = 0, le lien le plus faible entre trois nœuds mutuellement connectés sera toujours supprimé. Dans ce travail, nous avons employé ?? = 0,15 (noté aracne_15) et ?? = 0,5 (noté aracne_50) correspondant respectivement à la valeur standard préconfigurée et à l'élagage très faible. Pour comparer la corrélation partielle, nous avons choisi différentes implémentations, à savoir une méthode creuse (pcor_lasso) et une méthode non creuse (pcor_pls, moindres carrés partiels) pour estimer la corrélation partielle [18].

(c) Normes de référence pour la détermination des interactions directes TF-gène

Nous avons compilé différentes normes d'or complémentaires pour comparer les reconstructions de réseau, couvrant la liaison et la régulation de la TF par une TF [30]. Tout d'abord, nous avons utilisé une collection d'ensembles de données ChIP-seq (Mouse ES Cell ChIP-Seq Compendium [31]) qui fournit des informations sur la liaison TF. Deuxièmement, nous avons utilisé trois collections d'expériences de perturbation, où les transcriptomes sont mesurés après knock-out de TF [11], knockdown de TF (Kd) [21] et surexpression de TF [32,33] (voir §2). Ces étalons-or mettent l'accent sur différents aspects. Alors que la surexpression de TF dévoilera les cibles des TF qui ne sont pas actives dans les mESC, le knockdown et le knockout de TF ne dévoileront que les cibles des TF qui sont déjà exprimées dans les mESC. Notez également que le nombre et l'identité des TF sont différents entre les différents étalons-or. De plus, nous avons utilisé le PluriNetWork [22], organisé manuellement, qui se concentre sur les principaux facteurs de pluripotence. Le chevauchement des interactions entre ces étalons-or est illustré dans le matériel électronique supplémentaire, figure S1.

Chaque étalon-or a ensuite été filtré sur les gènes qui sont annotés en tant que facteurs de transcription en utilisant l'annotation des facteurs de transcription de la base de données des facteurs de transcription des animaux (ATFDB [19]). Pour plus de détails, consultez le §2.

(d) Analyse comparative des algorithmes de prédiction de réseau : l'élagage est important

Pour comparer les algorithmes, nous avons d'abord décidé de nous concentrer sur les meilleures prédictions, car l'un des principaux objectifs de la reconstruction de réseau est de générer une liste de candidats intéressants pour des tests supplémentaires. Nous avons ainsi profilé les algorithmes en fonction de l'aire sous la courbe de précision-rappel pour les 5 % supérieurs de rappel (AUPR0.05 voir les courbes de précision-rappel complètes dans le matériel électronique supplémentaire, figure S2). Pour chaque algorithme, les interactions TF-cible ont été classées en fonction de la valeur absolue du score correspondant. Comme le pur AUPR0.05 score est difficile à interpréter, nous avons décidé de le diviser par l'AUPR0.05 score pour les prédictions aléatoires. Ces scores obtenus quantifient l'amélioration par rapport aux prédictions aléatoires pour les algorithmes individuels par rapport aux différents standards de référence et sont illustrés à la figure 3une. Les étalons-or ChIP-seq et LoF sont moins sensibles aux différences entre les algorithmes, comme le montrent les différences de performances relativement faibles des algorithmes les plus performants. En revanche, dans le cas de la surexpression et du benchmark Kd, deux et trois algorithmes, respectivement, surpassent clairement les autres.

Figure 3. (une) Amélioration de l'AUPR0.05 sur des prédictions aléatoires (performances) pour les réseaux prédites par des scores individuels. Les performances sont indiquées pour les étalons-or basés sur les mesures ChIP-seq (ChIP-seq), l'expression génique différentielle après knockdown TF (Kd), les expériences de perte de fonction TF (LoF), l'expression génique différentielle lors de la surexpression TF (surexpression) et une littérature organisée -basé sur le réseau (littérature). Les algorithmes utilisés pour la comparaison sont la corrélation de Spearman (spearman), la corrélation de Pearson (pearson), l'information mutuelle (mi), ARACNE (avec le paramètre de coupure 0,15 et 0,5, respectivement), CLR, MRNET et la corrélation partielle dans le pls (pcor_pls) , implémentation du lasso (pcor_lasso). (b) Rang moyen de l'algorithme pour tous les étalons-or. (c) Dépendance de la taille du journal2 performances (AUPR0.05 trop aléatoire). Les points et les barres d'erreur indiquent la médiane et l'écart type de la performance sur cinq groupes de tableaux échantillonnés au hasard (les mêmes échantillons ont été prélevés pour des scores différents) de la taille indiquée.

Lors de la comparaison d'algorithmes individuels, la corrélation partielle (implémentation pls) et clr_mi atteignent le rang moyen le plus élevé parmi les normes d'or de tous les algorithmes (figure 3b). À l'exception des étalons-or ChIP-seq et de la littérature, la corrélation partielle basée sur pls se classe en tête pour chaque étalon-or. Les deux algorithmes clr_mi et ARACNE avec paramètre de coupure ?? = 0,5, tous deux basés sur des informations mutuelles mais utilisant des stratégies supplémentaires pour éliminer les liens indirects, fonctionnent de manière similaire à pcor_pls. Par conséquent, les trois algorithmes les plus performants utilisent une stratégie pour élaguer les liens indirects. D'un autre côté, être capable de détecter uniquement des relations linéaires n'a pas d'impact important sur les performances. Ceci est indiqué par le fait que la corrélation partielle est parmi les algorithmes les plus performants et que la corrélation de Pearson et l'information mutuelle atteignent un rang moyen similaire. Nous avons conclu que le succès de la reconstruction d'un algorithme est davantage déterminé par la stratégie d'élagage utilisée que par la mesure utilisée pour évaluer les modèles de co-expression.

De manière assez surprenante, les deux implémentations pour la corrélation partielle ont fonctionné très différemment, l'implémentation pls se classant en tête, bien que cette implémentation se soit avérée avoir l'erreur la plus élevée pour estimer la matrice de corrélation partielle sur des données synthétiques [18].

Comme les données expérimentales sont coûteuses, il est également intéressant de savoir à quel point un algorithme fonctionne par rapport à la quantité de données disponibles. Par conséquent, nous avons également comparé les deux algorithmes les plus performants clr_mi et pcor_pls sur des sous-échantillons aléatoires de l'ensemble de données d'expression (figure 3c). Les deux algorithmes diffèrent nettement en ce qui concerne leurs performances dépendantes de la taille. L'algorithme pcor_pls affiche des performances optimales même sur les plus petits sous-échantillons (16 tableaux) tandis que les performances saturent à environ 500 tableaux pour clr_mi. Pour comprendre pourquoi clr_mi a besoin de grandes quantités de données pour des performances optimales, nous avons également calculé la dépendance de taille de l'algorithme CLR basé sur la corrélation de Pearson, CLR_Pearson. Pour cet algorithme, les performances saturent rapidement de manière similaire à pcor_pls. Cela suggère que le comportement à saturation lente de clr_mi est dû à la quantité relativement importante de données nécessaires pour obtenir de bonnes estimations pour l'information mutuelle.

Nous étions ensuite intéressés de voir si certaines cibles de TF peuvent être mieux prédites que d'autres. Nous avons donc évalué les performances de différents algorithmes sur la prédiction des cibles pour les TF individuels présents dans les différents étalons-or, et comparé l'AUPR0.05. Les améliorations résultantes par rapport aux prédictions aléatoires sont illustrées à la figure 4. Nous avons constaté que les performances varient considérablement entre les TF, bien qu'une partie de cette variation puisse être due à différents nombres de véritables cibles pour différents TF (dans les étalons-or Kd, LoF et surexpression) . Cependant, même pour l'étalon-or ChIP-seq, pour lequel nous avions un nombre fixe de cibles, il existe d'énormes variations. Par exemple, le journal2 l'amélioration par rapport au hasard de l'algorithme clr_mi varie d'environ 1 à plus de 4.

Figure 4. (une) Comparaison de l'amélioration des performances par rapport au journal aléatoire2(AUPR0.05/AUPR aléatoire0.05) pour les TF individuelles pour aracne_50 clr_mi et pcor_pls. Nuage de points de l'amélioration de l'AUPR0.05 sur des prédictions aléatoires pour les algorithmes clr_mi et pcor_pls pour les différents étalons or comme indiqué.

Lorsque nous avons regroupé les différents algorithmes en utilisant les corrélations dans leurs performances pour les TF (matériel électronique supplémentaire, figure S3), nous avons noté que le score pcor_pls est le seul score à la fois non corrélé aux scores mutuels dérivés de l'information et performant. en ce qui concerne l'amélioration globale par rapport au hasard. Cela fait de ce score un candidat intéressant pour fournir des cibles TF qui complètent les prédictions d'autres scores performants. Ceci est particulièrement évident lorsque l'on compare les performances de pcor_pls et de l'algorithme clr_mi pour des TF individuelles déterminées sur l'étalon-or de surexpression (figure 4).

(e) Les topologies prévues du réseau TF-TF diffèrent fortement

Nous avons ensuite utilisé les algorithmes les plus performants pour prédire la topologie du réseau de régulation génique dans la différenciation des mESC, et nous avons demandé s'il existait une hiérarchie claire entre les facteurs de pluripotence essentiels et les facteurs de pluripotence auxiliaires [14]. Un autre aspect intéressant qui pourrait être déduit de la topologie est la manière dont les facteurs de pluripotence sont couplés à des facteurs spécifiques à la lignée afin de réguler la transition du maintien de la pluripotence à l'engagement envers certaines lignées [34].

Pour dériver la topologie du réseau, nous avons appliqué les trois algorithmes les plus performants et pris le top 0,1% des interactions sur le réseau prédit. Les réseaux prédits sont montrés avec le réseau basé sur la littérature dans la figure 5une. Ces visualisations révèlent que les réseaux présentent des topologies très différentes. Nous avons ensuite comparé les propriétés topologiques du réseau de la littérature et des réseaux prédits en quantifiant quelques mesures standards (tableau 1). La distribution des degrés (figure 5b) du réseau de la littérature montre une diminution approximativement linéaire du log–log-plot. Contrairement à cela, les réseaux prédits montrent un écart marqué par rapport à une distribution linéaire des degrés pour les degrés les plus élevés. La distribution linéaire des degrés du réseau de la littérature jusqu'aux degrés les plus élevés est reflétée par le fait que les nœuds les plus importants, Nanog et Pou5f1, sont impliqués dans 50% de toutes les interactions. Leurs cibles n'ont généralement aucune interaction entre elles, ce qui conduit à une structure en forme d'étoile centrée sur Nanog et Pou5f1 (figure 5). Ce fait se reflète dans la faible transitivité du réseau de la littérature par rapport aux réseaux prédits. Une quantité liée, le coefficient de corrélation de degré indique si les nœuds de degré élevé sont généralement connectés à d'autres nœuds de degré élevé (corrélation de degré positif) ou à des nœuds de faible degré (corrélation de degré négatif). Le coefficient de corrélation de degré de -0,47 confirme la structure en étoile.

Figure 5. (une) Comparaison des topologies des réseaux TF-TF prédits avec le réseau basé sur la littérature pour les algorithmes de premier rang. Les facteurs de transcription Pou5f1, Sox2 et Nanog sont indiqués par des points magenta. (b) Distribution des degrés pour les réseaux de régulation des gènes TF-TF prédits par les algorithmes indiqués, avec aracne_15 et aracne_50 désignant l'algorithme ARACNE avec 0,15 et 0,5 comme paramètre de coupure et pcor_pls désignant une corrélation partielle dans l'implémentation pls.

Tableau 1. Quantification des propriétés topologiques des réseaux prédits. Les réseaux prédits par les algorithmes clr_mi, corrélation partielle dans l'implémentation pls et ARACNE avec 0,50 comme paramètres de coupure sont comparés au réseau de la littérature. Rang moyen OSN (Oct4, Sox2, Nanog) : désigne le rang moyen des degrés de la triade centrale, avec des valeurs faibles indiquant des degrés élevés % dans le plus grand composant : la fraction de sommets contenus dans le plus grand composant connecté pas de composants connectés : le nombre de composants modularité edge betweenness : la modularité du graphe en fonction de l'arête betweenness communauté mesurer la modularité fastgreedy : la modularité du graphe en fonction de la communauté fastgreedy mesurer le diamètre, la transitivité du diamètre du graphe, la transitivité du graphe.

Dans le réseau reconstruit par ARACNE, les interactions sont concentrées sur une petite fraction de tous les nœuds, qui forment le centre du plus grand composant connecté. Le centre de ce composant connecté est formé par Oct4, Sox2 et Nanog (OSN), entre autres. Cela se reflète dans le rang moyen très bas des degrés de cette triade centrale. Similaire au réseau de la littérature, le réseau ARACNE a une faible modularité et également un diamètre relativement faible. Il diffère du réseau de la littérature par son degré de corrélation, qui est positif. Ce fait pointe vers une hiérarchie de nœuds, les nœuds de degré le plus élevé étant connectés aux nœuds de degré supérieur suivants, et ainsi de suite.

Le réseau prédit par corrélation partielle a la fraction la plus élevée de nœuds avec un faible degré parmi les réseaux prédits. De plus, la corrélation de degré est proche de zéro, ce qui indique qu'il y a peu de sous-structure dans le plus grand composant connecté. Il n'y a pas de communautés qui sont uniquement connectées à d'autres communautés via des nœuds de passerelle, ce qui se traduit par un diamètre comparativement faible et le plus grand composant connecté de tous les réseaux prévus. Le rang moyen du degré de la triade noyau est plus élevé que pour ARACNE, reflétant une place moins centrale de ces TF dans le réseau.

Enfin, le réseau prédit par l'algorithme clr_mi montre la structure modulaire la plus prononcée avec des groupes de nœuds qui ont une connectivité élevée entre eux mais une faible connectivité avec les nœuds extérieurs. La structure modulaire se reflète dans l'indice de modularité le plus élevé de tous les réseaux prédits ainsi que la transitivité et la corrélation de degré les plus élevées. Bien que la triade principale soit située dans une communauté de nœuds avec une connectivité élevée, la petite taille de cette communauté conduit au rang moyen le plus élevé du degré d'OSN parmi les réseaux prédits. Le grand diamètre du réseau clr_mi est également une conséquence de la structure modulaire. Les nœuds de différentes communautés ne peuvent être connectés que par des chemins traversant les quelques nœuds de passerelle qui relient les communautés.

Il est connu que les algorithmes de reconstruction, en général, ont tendance à enrichir différents types de motifs [26], affectant la topologie du réseau prédit. Certaines des différentes caractéristiques topologiques des réseaux prédits peuvent être explicitement attribuées au fonctionnement de l'algorithme utilisé. Les réseaux induits par corrélation sont plus transitifs que les réseaux aléatoires, alors que ceux induits par corrélation partielle sont moins transitifs que les réseaux aléatoires [35]. L'algorithme ARACNE influence également directement la transitivité en coupant tous les maillons les plus faibles en triangles à moins que leur force ne soit supérieure au paramètre de tolérance. Ici, ARACNE montre une transitivité plutôt élevée car le paramètre de coupure ?? a été fixé à la grande valeur de 0,5. L'algorithme clr_mi n'influence pas la topologie de manière explicite, mais induit un réseau qui présente une structure modulaire unique parmi les réseaux prédits. En comparaison avec ces réseaux reconstruits, le réseau de la littérature est fortement façonné par les rôles prépondérants de Pou5f1 et Nanog et dans une moindre mesure Sox2. Ainsi, sa structure peut aussi, dans une certaine mesure, être la conséquence d'un biais de publication. Compte tenu du biais introduit par les différents algorithmes et de l'extrême focalisation du réseau de la littérature sur la triade centrale, il semble que chaque algorithme met l'accent sur différents aspects de la topologie du réseau TF-TF dans mESC à partir de ces tentatives de reconstruction de réseau impartiales.

4. Discussion et conclusion

Comprendre comment le développement et la différenciation sont contrôlés au niveau moléculaire dépend en grande partie de la compréhension des réseaux de régulation des gènes sous-jacents [36]. Tant pour l'ESC humaine que pour la souris, un grand nombre de données de transcriptome publiées se sont accumulées à partir desquelles des interactions régulatrices peuvent être déduites. La reconstruction de réseau basée sur des mesures de co-expression semble être une approche prometteuse pour déduire des interactions à partir de ces données.

Ici, nous avons analysé l'utilité de différents algorithmes de reconstruction pour déduire le réseau de régulation génique sous-jacent à la différenciation des cellules souches embryonnaires. Nous nous concentrons sur la souris, car pour les mESC, il existe plusieurs ensembles de données qui peuvent servir de référence. Nous avons comparé les prédictions générées par différents algorithmes à l'aide d'expériences orthogonales à haut débit. Nous avons pu montrer que les algorithmes les plus performants utilisent des schémas d'élagage qui suppriment les liens indirects. L'un des algorithmes les plus performants, la corrélation partielle, était particulièrement intéressant car ses prédictions ne sont pas fortement corrélées avec celles des autres algorithmes les plus performants. Une analyse topologique du réseau de régulation TF-TF prédit par les trois algorithmes les plus performants a mis en évidence des topologies nettement différentes dont les caractéristiques peuvent être retracées jusqu'à la conception de l'algorithme. Ainsi, bien que les preuves provenant de données à haut débit soutiennent l'utilité des prédictions basées sur la co-expression, les structures de réseau observées sont fortement influencées par l'algorithme utilisé. C'est l'un des aspects limitant actuellement l'utilité des algorithmes de reconstruction de réseau.

La reconstruction du réseau a été abordée avec une portée différente et des outils multiples. La reconstruction de réseaux à petite échelle est souvent utilisée pour intégrer des informations sur plusieurs expériences de perturbation dans un seul modèle. Ce modèle peut ensuite être utilisé pour prédire des perturbations non testées sans expériences fastidieuses ou coûteuses. Cette approche des réseaux moléculaires s'est avérée fructueuse pour concevoir des moyens de manipuler la transduction du signal cellulaire [37]. Dans le domaine des cellules souches, il peut être utilisé pour comprendre comment le câblage entre les voies de signalisation et les facteurs associés à la pluripotence détermine le maintien de l'état pluripotent dans différentes conditions de culture [14,38].

La reconstruction du réseau à plus grande échelle a souvent été effectuée dans le but de générer des listes de gènes candidats pour des expériences de suivi [8,12]. Un autre aspect qui a été étudié avec les réseaux à grande échelle est la structure globale du réseau et sa relation avec les pressions sélectives qui ont donné naissance à la structure de réseau observée [39]. Les concepts importants dans ce contexte sont les motifs surreprésentés et la fréquence à laquelle la rétroaction est rencontrée dans les réseaux biologiques [40].

Les limites actuelles de la qualité des reconstructions de réseaux, comme également observées dans ce travail, montrent que l'objectif d'obtenir une représentation complète et fiable du réseau de régulation est encore lointain. Comment progresser dans cette direction ? De nouvelles données peuvent améliorer considérablement notre capacité à déduire des réseaux. En particulier, les données à cellule unique peuvent ouvrir la possibilité d'observer des états distincts d'un réseau qui deviennent flous dans les données en vrac [41-43]. Cela peut aider à résoudre la séquence temporelle de silençage et d'activation des gènes. Les perturbations associées à des séries chronologiques bien résolues peuvent également fournir des informations importantes car on peut séparer les effets précoces, vraisemblablement directs, des effets tardifs, vraisemblablement indirects. Les données de perturbation des facteurs de transcription actuellement disponibles sont généralement optimisées pour détecter des gènes même faiblement dérégulés [32]. Comme cela est réalisé en évaluant le transcriptome jours après le début de la perturbation, une grande quantité d'expression différentielle est causée par des effets indirects.

Comment ces approches peuvent-elles aider les chercheurs expérimentaux intéressés à étudier la différenciation ? Premièrement, les méthodes d'ingénierie inverse sont suffisamment efficaces pour exploiter le grand nombre de transcriptomes disponibles afin d'identifier les interactions TF-cible probables qui peuvent ensuite être validées expérimentalement. Deuxièmement, nos résultats montrent également que différentes méthodologies dévoilent différents ensembles d'interactions TF-cible, il est donc utile d'utiliser différents algorithmes. Cependant, il est clair que les algorithmes de reconstruction de réseaux ne sont clairement pas (encore) suffisamment fiables pour que leurs résultats puissent être considérés comme allant de soi, et ne peuvent être pris que comme points de départ en tant que candidats à une validation expérimentale supplémentaire.


2 Résultats

2.1 Validité du cadre d'évaluation par simulation

Comme le montre le schéma-cadre (figure 1B), la différence biologique initiale entre les deux conditions résidait dans la différence de réseau, puis cette différence s'est propagée vers le bas à travers les données d'expression simulées jusqu'aux scores de classement résultants des régulateurs candidats. Nous avons d'abord tenté de nous assurer que c'était la différence de réseau initiale qui gouvernait les scores de classement résultants, excluant la possibilité que le classement observé du régulateur soit attribué à des biais techniques. À cette fin, nous avons effectué une expérience de simulation 𠇌ontrasting”, qui impliquait des paires d'ensembles de données provenant de deux réseaux de régulation contrastés, et une expérience “homogeneous”, qui impliquait des paires d'ensembles de données provenant de deux réseaux régulateurs identiques. Nous avons compilé 40 paires de jeux de données pour chaque scénario et avons donc obtenu 40 listes classées pour le cas homogène et 40 autres pour le cas contrasté. Dans les comparaisons de réseaux homogènes, le classement résultant des régulateurs était aléatoire, et les classements alternatifs ne devraient pas avoir une cohérence mutuelle substantielle. Dans les comparaisons de réseaux contrastées, cependant, si l'algorithme de classement des régulateurs avait un pouvoir de discrimination suffisant, alors la différence structurelle persistante devrait conduire les résultats des 40 essais vers un consensus reflétant la véritable divergence structurelle.

Pour les résultats multiples de chaque algorithme sur les 40 exécutions répétitives, nous avons calculé les valeurs de corrélation de Spearman pour chacune des 780 combinaisons formées à partir des 40 listes de scores pour l'expérience contrastée et l'expérience homogène, respectivement, et nous avons comparé les valeurs moyennes de corrélation de Spearman. sous forme de diagrammes à barres (Figure 2). Remarquablement, chaque algorithme a démontré des résultats plus cohérents dans le cas contrasté que dans le cas homogène pour toutes ou la plupart des valeurs de paramètres clés étudiées (test de Mann-Whitney P-valeurπ.01 Figure 2 ). Alors que la figure 2 impliquait la perturbation d'un régulateur spécifique, la même conclusion s'appliquait à la perturbation de chaque régulateur (données non présentées). Une telle augmentation de la cohérence des résultats en présence de différence biologique impliquait que tous les algorithmes existants étaient capables de refléter les signaux de différence de régulation introduits par l'inactivation du régulateur dans leurs résultats de classement. Par conséquent, nous avons jugé que notre cadre de simulation (figure 1B) était valide pour nos besoins d'évaluation de la capacité de discrimination des algorithmes en ce qui concerne le ou les régulateurs différentiels (inactivés).

Les classements des régulateurs sont plus cohérents en présence de différence biologique qu'en l'absence de différence biologique. Sept algorithmes de classement des régulateurs (titres des sous-intrigues) ont été mis en œuvre pour classer 47 régulateurs candidats sur la base d'une paire d'ensembles de données d'expression simulée, qui ont été dérivés soit de deux réseaux de régulation différentiels (𠇌ontrasting”) ou de deux réseaux identiques (“homogeneous& #x0201d). Le cas échéant, une série de valeurs de paramètres clés des algorithmes ont été étudiées. La valeur du paramètre clé étant fixée, 40 paires de jeux de données redondantes ont été simulées pour des tests répétés. Chaque sous-parcelle montre la moyenne et l'écart type des corrélations de Spearman de 780 paires formées à partir de 40 listes de classement redondantes. Un astérisque (*) indique une différence significative entre la cohérence des résultats contrastés et la cohérence des résultats homogènes (test de Mann-Whitney P-valeurπ.01).

Bien que seule la cohérence mutuelle des résultats soit représentée sur la figure 2, nous pourrions avoir un aperçu de certaines caractéristiques techniques des algorithmes étudiés. La cohérence contrastée des résultats a en fait indiqué la robustesse des algorithmes contre les variations résultant du choix de l'échantillon ou du bruit technique. En conséquence, TED, TDD et TFactS semblaient plus stables à cet égard que les autres algorithmes (Figure 2). La cohérence homogène des résultats indiquait à quel point un algorithme était biaisé vers un certain classement des régulateurs par défaut. Et en effet, nous avons observé une certaine cohérence des résultats en l'absence de régulation différentielle pour TED, TDD, TFactS, dCSA_t2t et dCSA_r2t (Figure 2). Par coïncidence, ces cinq algorithmes nécessitent tous un réseau régulateur-cible défini ( Tableau 1 ), et en particulier, TED et TFatS s'appuient sur des tests statistiques dans lesquels le degré de déclassement d'un régulateur joue un rôle décisif (éq. (1) et (3) ). Nous supposons que bon nombre de ces algorithmes peuvent être biaisés en faveur des régulateurs avec des degrés de sortie plus importants. Cette notion a été étayée davantage, comme le montre la section suivante. Néanmoins, nous avons remarqué qu'en général, des valeurs de paramètres clés plus petites étaient associées à une cohérence de résultat homogène plus faible mais à une cohérence de résultat contrastée plus élevée, un modèle le plus évident dans TED mais toujours discernable dans TDD et TFactS (Figure 2). Cette observation peut suggérer que les biais techniques étaient moins graves avec des valeurs de paramètres clés raisonnablement petites.

2.2 TED et TFactS ont surpassé les autres algorithmes dans l'évaluation de la simulation

Dans les tests d'inactivation d'un seul régulateur, nous avons eu 47 ensembles de résultats, chacun pour un régulateur inactivé particulier. Dans chaque ensemble de résultats, les scores PTA ont été récupérés pour sept algorithmes sur une plage de valeurs de paramètres clés testées. Les deux ensembles de résultats pour les régulateurs avec des degrés de sortie maximum et minimum, respectivement, sont illustrés sur les figures 3A et B , tandis que les 47 ensembles de résultats ont été calculés en moyenne et illustrés dans le tableau 2 . Dans les résultats pour le régulateur le plus largement régulateur (figure 3A), nous avons observé que TED et TFactS surclassaient globalement les autres algorithmes avec les scores PTA les plus élevés dans la majorité de la plage de valeurs des paramètres clés. En fait, lorsque tous les résultats pour le total des 47 régulateurs ont été résumés, TED et TFactS se sont en effet avérés être les meilleurs et les deuxièmes meilleurs algorithmes, respectivement, mesurés par la précision (tableau 2, colonne “PTA”). TED et TFactS avaient également une meilleure robustesse contre les variations de données que la plupart des autres algorithmes (tableau 2, colonne “RAV”), suggérant que leurs résultats pourraient être plus stables dans le recrutement d'échantillons variés dans une utilisation pratique réelle.Cependant, TED et TFactS étaient sensibles à la valeur du paramètre clé (tableau 2, colonne “RAP”), ce qui signifie qu'une attention particulière doit être accordée à la fraction de gènes intéressants (DEG ou DCG) dans une application pratique réelle.

(couleur en ligne) Comparaison des performances de sept méthodes dans le scénario d'inactivation d'un seul régulateur. A, Résultats pour le régulateur avec un degré de sortie maximum (72). B, Résultats pour le régulateur avec un degré de sortie minimum (3).

Tableau 2

Résultats d'évaluation basés sur 47 expériences d'inactivation d'un seul régulateur

ATP a) PAR b) RAV c)
Valeur PTArang PTAvaleur RAPRang RAPvaleur RAVRang RAV
TED0.621ଐ.17110.038ଐ.01750.332ଐ.0913
ATS0.571ଐ.18850.036ଐ.02140.440ଐ.0552
TFactS0.616ଐ.22520.110ଐ.04870.768ଐ.0321
RIF10.509ଐ.06770,036ଐ,01430,035ଐ,0337
RIF20.550ଐ.12840,054ଐ,03560.106ଐ.0546
dCSA_t2t0.515ଐ.15960 d) 10.317ଐ.0414
dCSA_r2t0.597ଐ.24030 d) 10.296ଐ.0605

Comme le montrent les deux sous-parcelles de la figure 3, il y avait une différence majeure de précision entre le régulateur avec le degré de sortie maximum et le régulateur avec le degré de sortie minimum. Comme nous l'avons pensé précédemment, la précision de la hiérarchisation différentielle du régulateur peut être corrélée avec le degré de sortie du régulateur. Lorsque nous avons systématiquement analysé cette relation pour les 47 régulateurs inactivés séparément, nous avons trouvé une corrélation positive significative entre les scores PTA et les degrés de sortie TF pour TED, TDD, TFactS et RIF1 (Figure 4A), ce qui implique qu'un régulateur largement régulateur était probable plus découvrable. Un autre algorithme, dCSA_r2t, a démontré une corrélation négative significative entre les scores PTA et les degrés moyens des cibles des régulateurs perturbés (Figure 4B). Comme les petits degrés d'entrée correspondent aux influences dominantes du régulateur unique sur ses cibles, il est indiqué qu'un régulateur exclusivement régulateur peut également être découvert.

(couleur en ligne) Corrélation entre la précision de discrimination de 47 régulateurs inactivés séparément et leurs caractéristiques réglementaires. A, Une corrélation de Pearson significative et positive (P-valueπ.01) a été observée entre les scores PTA (priorité de réponse vraie) et les degrés de sortie des régulateurs dans quatre algorithmes (TED, TDD, TFactS et RIF1). B, Une corrélation négative significative de Pearson (P-valueπ.01) a été observée entre les scores PTA et le degré moyen des cibles de chaque régulateur dans l'algorithme dCSA_r2t.

Une fois que les scores PTA pour quatre algorithmes sur chaque régulateur ont été tracés sur la figure 4A, nous avons pu comparer les précisions des algorithmes impliqués sur une vue d'ensemble. Pourtant, il était évident que les parties supérieures, caractérisées par des scores PTA plus élevés, étaient dominées par TED et TFactS. L'examen des points sur chaque ligne verticale a conduit à une comparaison spécifique au degré de précision des algorithmes, et les résultats peuvent suggérer un avantage de TED par rapport à TFactS pour les régulateurs différentiels avec des degrés plus élevés (Figure 4A).

Enfin, nous avons montré les précisions de discrimination lorsque plusieurs régulateurs étaient inactivés (tableau 3). Au total, nous avons conçu 11 cas de simulation, où les huit premiers (tableau 3, cas A1�) partageaient un réseau réglementaire de base commun, et les trois suivants avaient des réseaux de base sélectionnés séparément (tableau 3, cas B, C et D) . En moyenne, TED et TFactS ont été classés respectivement comme le meilleur et le deuxième meilleur des sept algorithmes. Cependant, il y avait une variation considérable dans les valeurs d'AUC entre les cas, en particulier, entre les différents réseaux de base (tableau 3). La valeur AUC ne semble pas être en corrélation avec la fraction de régulateurs différentiels, car le cas le plus difficile (cas B, tableau 3) pour la plupart des algorithmes s'est avéré avoir la plus petite fraction de régulateurs différentiels. Nous avons constaté précédemment que les degrés de sortie des régulateurs individuels, et parfois, les degrés d'entrée des cibles, étaient des facteurs importants affectant la précision de discrimination des algorithmes. Ainsi, lorsque plusieurs régulateurs étaient désactivés simultanément, le scénario devenait beaucoup plus complexe. Des tests plus rigoureux sont nécessaires pour élucider les mécanismes sous-jacents aux scénarios d'inactivation de plusieurs régulateurs.

Tableau 3

Précisions de hiérarchisation dans les expériences d'inactivation de plusieurs régulateurs

Cas# nœuds# bords# régulateursFR fraction a) ASC b)
TEDATSTFactSRIF1RIF2dCSA (t2t)dCSA (r2t)
A1 30%0.690.610.600.620.480.530.57
A2 29%0.700.670.620.510.670.510.61
A3 28%0.690.580.640.620.430.480.61
A41000230910327%0.770.600.600.480.680.510.54
A526%0.760.620.630.420.510.580.49
A6 24%0.660.640.580.690.770.590.53
A7 23%0.690.580.550.630.680.610.52
A8 18%0.630.560.550.680.650.540.62
B100022939516%0.500.370.470.440.380.420.78
C1000232210549%0.650.710.540.330.630.480.50
100023019820%0.630.550.690.540.620.490.47

2.3 TED et TFactS ont répliqué plusieurs régulateurs différentiels dans deux ensembles de données sur le cancer du poumon

Étant donné que TED et TFactS se sont avérés les algorithmes les plus précis dans les évaluations de simulation ci-dessus, nous avons étendu l'évaluation de ces deux algorithmes en utilisant deux ensembles de données d'expression du cancer du poumon réels. Les listes TF classées produites par TED et TFactS, respectivement, étaient limitées à un seuil de 1,3, correspondant à une valeur nominale P-valeur de 0,05. Selon le réseau et le choix de l'algorithme, de quelques à plusieurs dizaines de régulateurs différentiels ont été récupérés (tableau 4). En général, plus de régulateurs différentiels étaient associés à l'ensemble de données Lung-I (avec plus d'échantillons) qu'à l'ensemble de données Lung-II, et plus de régulateurs différentiels étaient associés au TRANSFAC-A (avec plus de relations réglementaires) qu'au réseau TRANSFAC-B. Une violation mineure de ce schéma général a été trouvée lorsque TED a été exécuté sur l'ensemble de données Lung-II avec le réseau TRANSFAC-B, cette combinaison a conduit à 10 régulateurs différentiels, ce qui était légèrement supérieur à celui (9) du réseau plus large ou à celui (8) à partir du plus grand ensemble de données.

Tableau 4

Résumé des régulateurs différentiels identifiés à partir de deux ensembles de données sur le cancer du poumon

RéseauBase de donnéesTEDTFactSTED+TFacts
TRANSFAC-APoumon-I21633
Poumon II9303
Répliqué0160
TRANSFAC-BPoumon-I770
Poumon II1020
Répliqué210

Nous avons d'abord comparé TED et TFactS en termes de nombre de régulateurs prioritaires. Comme le montre le tableau 4, TFactS a identifié plus de régulateurs différentiels que TED avec le plus grand réseau TRANSFAC-A (63 contre 21, ou 30 contre 9), mais autant ou moins de régulateurs différentiels avec le plus petit réseau TRANSFAC-B (7 contre. 7, ou 2 contre 10). Ensuite, nous avons vérifié le scénario de réplication de chaque algorithme de l'ensemble de données Lung-I à l'ensemble de données Lung-II. En utilisant le plus grand réseau TRANSFAC-A, ceux reproduits numérotaient 0 des 21 régulateurs initiaux de TED et 16 (25,4%) des 63 régulateurs initiaux de TFactS. En utilisant le réseau plus petit TRANSFAC-B, ceux reproduits étaient deux (28,6%) des sept régulateurs initiaux de TED et un (14,3%) des sept régulateurs initiaux de TFactS (tableau 4). Compte tenu de ces deux couches de résultats comparatifs, nous pourrions supposer que TFactS fonctionnait mieux dans un réseau de réglementation à plus grande échelle et plus dense, tandis que TED est comparable à TFactS dans un réseau de réglementation à plus petite échelle et plus clairsemé. Cependant, en raison du nombre limité d'ensembles de données, la conclusion comparative peut ne pas être généralisable à des cas futurs. Il est à noter que les gènes contenus dans l'ensemble de données Lung-I étaient plus discriminables du point de vue DE que du point de vue DCE, car les gènes avec des caractéristiques DE borderline n'étaient pas inclus (voir plus de détails dans [18]) en conséquence, l'ensemble de données Lung-II était également biaisé vers la fonction DE. En effet, de Poumon-I à Poumon-II, nous avons observé une cohérence significative dans la classification DEG/non-DEG (test exact de Fisher, P-valueς.2휐 𢄦), mais pas de cohérence significative dans la classification DCG/non-DCG. Bien que ces deux ensembles de données aient été apparemment favorables à TFactS, TED a tout de même montré des performances comparables sous le réseau TRANSFAC-B. On s'attend à ce que TED puisse montrer une performance encore meilleure dans des applications réelles impliquant des ensembles de gènes non biaisés.

Quel que soit le choix de l'algorithme, de nombreux TF différentiels se sont reproduits de Lung-I à Lung-II. Un total de 19 régulateurs identifiés de manière répétitive sont répertoriés dans le tableau 5 comme référence pour les autres chercheurs. Sur ces 19 TF, cinq (ARID5B, IRF1, MAX, SPI1 et TCF3) ont été couverts dans nos deux matrices de données d'expression. Ces cinq TF avaient généralement des niveaux d'expression moyens à élevés dans l'ensemble de données Lung-I par rapport aux gènes totaux, mais certains ont montré une diminution spectaculaire du niveau d'expression dans l'autre ensemble de données Lung-II. Deux TF ont été considérés comme des DCG dans l'ensemble de données Lung-I mais pas dans Lung-II. D'après ces observations de cas spécifiques, nous pourrions en déduire que les régulateurs différentiels pourraient ne pas démontrer par eux-mêmes des caractéristiques d'expression remarquables et stables. Les algorithmes ont pu discerner leur importance en analysant les changements d'expression systématiques parmi leurs gènes cibles.

Tableau 5

TF différentiels identifiés à partir des deux ensembles de données sur le cancer du poumon par TFactS ou TED

Algorithme/réseauTFEnsemble de données Lung-I Ensemble de données Lung-II
ButRangButRang
TFactS/ TRANSFAC-AGTF2I3.882.22
IRF13.4151.716
RBPJ2.8191.426
GLI12.5232.13
NKX2-22.2251.330
ZIC11.9351.524
ZIC31.9351.524
MYOD11.8391.813
NR4A21.7402.11
ASCL11.7441.87
MYF51.7441.87
MYF61.7441.87
TCF41.7441.87
ARID5B1.6471.95
TCF31.6511.814
HNF1B1.6531.815
TFactS/ TRANSFAC-BSPI12.132.01
TED/ TRANSFAC-BMAXIMUM1.81.51.39.5
E2F11.471.48

Nous avons constaté que SPI1 a été détecté comme un régulateur différentiel reproduit par TFactS (tableau 5). Le TF SPI1 oncogène accélère la réplication de l'ADN et favorise l'instabilité génétique en l'absence de rupture de l'ADN dans la leucémie [24]. Cependant, les rapports sur le rôle de SPI1 dans le développement du cancer du poumon sont rares. TED a identifié deux TF (MAX et E2F1) comme reproductibles dans deux cohortes indépendantes de cancer du poumon (tableau 5). Curieusement, l'inactivation de MAX dans le cancer du poumon perturbe le programme MYC-SWI/SNF, et un réseau MYC-SWI/SNF aberrant est essentiel pour le développement du cancer du poumon [25]. Un autre TF, E2F1, est nécessaire pour que GCN5 (une lysine acétyltransférase qui régule généralement l'expression des gènes) médie la croissance des cellules cancéreuses du poumon et favorise la prolifération d'une lignée cellulaire de cancer du poumon [26]. Ces preuves supplémentaires tirées de la littérature indiquent que les régulateurs différentiels identifiés de manière répétitive sont très probablement la cause du développement du cancer du poumon.

Outre les trois TF (SPI1, MAX et E2F1) discutés ci-dessus, d'autres TF du tableau 5 peuvent également valoir la peine d'être notés pour une enquête de suivi. Selon un compendium des gènes du cancer NCG v4.0 [27], GLI1, ZIC3, TCF3, et HNF1B sont des gènes cancérigènes connus ou candidats, mais les études existantes ne les ont pas encore liés au cancer du poumon. Quatre TF identifiés à plusieurs reprises par TFactS, GTF2I, GLI1, ZIC1 et ZIC3, ont également été accrédités par TED dans l'ensemble de données Lung-I ou Lung-II. Ces TF mis en évidence ont probablement un potentiel plus pathogène dans le développement du cancer du poumon.


5 DISCUSSION

Dans cet article, nous avons comparé quatre algorithmes d'inférence de réseau différents - ARACNE, CLR, MRNET et RN - en fonction de leurs performances. Pour cette comparaison, nous avons utilisé plusieurs mesures basées sur le réseau local en combinaison avec des simulations d'ensemble permettant une analyse détaillée jusqu'au niveau des arêtes individuelles. C'est la résolution la plus élevée possible. L'objectif principal de notre enquête était non seulement de révéler les performances générales de ces méthodes par rapport aux nouvelles mesures étudiées, mais également de mieux comprendre un biais possible de ces méthodes. Par exemple, notre conclusion selon laquelle les bords de répresseur sont plus faciles à déduire pour les quatre algorithmes que les bords d'activateur signifie que les réseaux de régulation déduits par ces méthodes discriminent systématiquement les interactions d'activation. Par conséquent, une interprétation des réseaux inférés en termes biologiques devrait tenir compte de ce biais pour éviter des conclusions erronées qui sont en fait induites par le mécanisme de fonctionnement de la méthode employée. Nous avons trouvé des résultats similaires pour les motifs de réseau constitués de trois gènes. De plus, pour ces mesures, les quatre algorithmes se sont comportés en grande partie de la même manière. Ceci est différent pour la mesure s. Seuls ARACNE et CLR ont montré une dépendance significative s.

L'application de nos résultats de simulation pour ARACNE a permis de prédire le nombre attendu d'interactions régulatrices dans les cellules B humaines. En prolongeant cette discussion, nous pouvons également formuler une hypothèse sur les partenaires d'interaction directe de Myc telle que présentée dans Basso et al. (2005). Sur la base de nos résultats présentés dans le tableau 2, nous émettons l'hypothèse que ces cibles sont susceptibles de former des nœuds foliaires dans le réseau de régulation sous-jacent. Cela signifie que bon nombre de ces cibles peuvent interagir uniquement avec Myc mais pas avec d'autres produits géniques. Cela rendrait ces gènes périphériques dans ce réseau par rapport au traitement de l'information car ils représentent pour ainsi dire des rues à sens unique. Plus intéressant encore, parce qu'ils se connectent directement à Myc, ce facteur de transcription peut également ne pas constituer un élément central du traitement de l'information car il est généralement admis que les réseaux de gènes sont organisés de manière hiérarchique. Par conséquent, soit les réseaux de régulation sont organisés hiérarchiquement, alors la proximité de Myc avec les gènes foliaires suggère son caractère décentralisé, soit Myc est central suggérant soit une organisation non hiérarchique du réseau, soit l'existence de gènes qui se comportent de manière non hiérarchique dans un autrement hiérarchique. système organisé. Si ce dernier cas est vrai, cela pourrait être un indicateur de caractéristiques de réseau qui sont restées jusqu'à présent secrètes.

Une autre prédiction que nous pouvons faire concerne la direction des interactions. Encore une fois, sur la base de nos résultats dans le tableau 2, nous prédisons que les bords devraient être orientés vers la fabrication de gènes foliaires, par ex. Myc la source des arêtes sortantes. Étant donné que Myc est un facteur de transcription, cela semble convaincant. Cependant, nous tenons à souligner que nos méthodes employées dans cet article ne sont pas familières avec la sémantique de le facteur de transcription, ce qui rend une telle prédiction pas simple pour une méthode théorique.

Pour la conception expérimentale de l'inférence de réseaux de régulation à partir de données d'expression (Margolin et Califano, 2007), suivez au moins deux suggestions de nos résultats. Premièrement, malgré le fait que nous ayons étudié quatre méthodes d'inférence différentes qui ont été introduites séparément, nous avons démontré, en utilisant des statistiques de motifs (tableau 1), qu'elles se comportent quantitativement de manière similaire. Une explication possible pourrait être que ces méthodes ont en commun d'être basées sur bivarié estimations de MI, sans tenir compte des ordres supérieurs de celui-ci. Pour cette raison, il semble judicieux d'étudier des informations multivariées en combinaison avec nos mesures pour améliorer certaines combinaisons régulatrices qui sont systématiquement discriminées par les méthodes actuelles. Bien que l'extension à des motifs impliquant plus de trois gènes soit simple, l'interprétation de ces résultats guidant la conception de m- les informations variables peuvent être complexes. Pour cette raison, nous suggérons de nous concentrer d'abord sur les motifs à trois gènes et les mesures d'information correspondantes. Deuxièmement, il serait intéressant d'étudier les différences entre les données d'observation et d'intervention en ce qui concerne, par ex. statistiques de motifs. Plus précisément, il serait bénéfique pour les expériences futures de comprendre ce que les pièces du réseau de régulation peut ou ne peut pas être bien déduit des données d'observations uniquement, respectivement, des données d'intervention, pour identifier une combinaison optimale des deux types de données équilibrant performances et contraintes économiques. Par conséquent, notre étude peut contribuer à compléter les résultats récents de DREAM (Stolovitzky et Califano, 2007 Stolovitzky et al., 2009) en introduisant une nouvelle perspective basée sur le réseau qui peut non seulement aider à évaluer les méthodes, mais aussi à guider la conception de nouveaux estimateurs statistiques.

Cette discussion souligne l'importance d'études de simulation solides afin d'obtenir des interprétations significatives des réseaux inférés. De plus, comme cela a été démontré dans notre discussion sur Myc et les cellules B humaines, de telles études permettent des prédictions pratiques et des hypothèses intrigantes sur le mécanisme de fonctionnement complexe des voies biologiques et leur traitement de l'information sous-jacent.


Comparaison des scores de modularité entre différents algorithmes en analyse de réseau - Biologie

J'ai utilisé différents algorithmes pour diviser mon grand réseau de gènes en différents sous-réseaux à l'aide de Cytoscape. J'ai comparé les scores de modularité et décidé que l'algorithme avec le meilleur score de modularité sera utilisé pour le clustering du réseau.

Mon collègue a avancé l'argument selon lequel les scores de modularité ne peuvent être comparés que pour un nombre différent de clusters créés par le même algorithme.

Ma question est donc de savoir si les scores de modularité peuvent être utilisés pour comparer différents algorithmes ou uniquement dans le cas du même algorithme produisant un nombre différent de clusters.

Le score de modularité d'un graphe est la somme sur tous les clusters du nombre d'arêtes dans un cluster moins le nombre d'arêtes attendues par hasard dans le cluster. Cependant, il existe différentes manières de le calculer (essentiellement en raison de la façon dont on définit les arêtes attendues par hasard) mais une fois qu'une définition donnée de la modularité est choisie, le score de modularité d'un graphe ne dépend que du choix des clusters dans le graphe. Cela signifie : choisissez une définition de modularité puis calculez-la pour chaque partition du graphe qui vous intéresse (éventuellement en utilisant différents algorithmes de clustering). Cependant, il existe déjà des algorithmes qui trouvent les clusters qui maximisent la modularité donc en principe, les algorithmes de clustering qui optimisent une autre fonction objectif ne sont pas censés donner la meilleure modularité (à moins bien sûr qu'ils aboutissent au même partitionnement du graphe).

Connectez-vous avant d'ajouter votre réponse.

L'utilisation de ce site constitue l'acceptation de nos Conditions d'utilisation et de notre Politique de confidentialité.


Introduction

L'identification des gènes associés aux maladies est une étape importante vers l'amélioration de notre compréhension des mécanismes cellulaires qui conduisent les maladies humaines, avec des applications profondes dans la modélisation, le diagnostic, le pronostic et l'intervention thérapeutique [1]. Les études de liaison et d'association à l'échelle du génome (GWAS) dans des populations saines et affectées identifient des régions chromosomiques contenant potentiellement des centaines de gènes candidats éventuellement associés à des maladies génétiques [2]. L'étude de ces candidats à l'aide de méthodes expérimentales est une tâche coûteuse, donc pas toujours une option réalisable. Par conséquent, les méthodes de calcul jouent un rôle important dans la hiérarchisation et l'identification des gènes les plus susceptibles d'être associés à la maladie en utilisant une variété de sources de données telles que l'expression des gènes [3, 4], les annotations fonctionnelles [4-7] et les interactions protéine-protéine (IPP) [3, 8-14]. La portée des méthodes qui reposent sur des annotations fonctionnelles est limitée car seule une petite fraction des gènes du génome est actuellement annotée.

Ces dernières années, plusieurs algorithmes ont été proposés pour intégrer les propriétés topologiques des réseaux PPI dans la compréhension des maladies génétiques [3, 8, 13].Ces algorithmes se concentrent principalement sur la hiérarchisation des gènes candidats et exploitent principalement l'idée que les produits de gènes associés à des maladies similaires ont plus de chances d'être connectés dans le réseau des IPP. Cependant, un défi important pour ces applications est la nature incomplète et bruitée des données PPI [15]. Les interactions manquantes et les faux positifs affectent la précision des méthodes basées sur les informations du réseau local telles que les interactions directes et les distances les plus courtes. Peu de méthodes globales basées sur la simulation des flux d'informations dans le réseau (par exemple., les marches aléatoires [8, 13] ou la propagation du réseau [14]) contournent ce problème dans une certaine mesure en considérant plusieurs chemins alternatifs et la topologie complète des réseaux PPI. Néanmoins, comme nous le démontrons dans cet article, ces méthodes favorisent les gènes dont les produits sont fortement connectés dans le réseau et fonctionnent mal pour identifier les gènes de maladies faiblement connectés.

Dans cette étude, nous proposons de nouvelles méthodes d'ajustement statistique pour corriger le biais de degré dans la hiérarchisation des gènes de la maladie basée sur le flux d'informations. Ces méthodes visent à évaluer la signification statistique de la connectivité du réseau d'un gène candidat à des gènes de maladie connus. Pour cela, nous utilisons trois modèles de référence qui prennent en compte la distribution des degrés du réseau PPI : (je) modèle de référence basé sur le degré de distribution des produits géniques pathologiques connus, (ii) modèle de référence basé sur le degré de produits géniques candidats, et (iii) test du rapport de vraisemblance utilisant la centralité des vecteurs propres comme modèle de référence.

Nous présentons des résultats expérimentaux complets démontrant que les méthodes d'ajustement statistique proposées sont très efficaces pour détecter des gènes de maladies faiblement connectés qui sont généralement moins étudiés, donc potentiellement plus intéressants en termes de génération de nouvelles connaissances biologiques. Cependant, nous observons que ces méthodes pourraient fonctionner moins favorablement dans l'identification de gènes de maladies hautement connectés. Par conséquent, nous développons trois méthodes de hiérarchisation uniformes qui intègrent efficacement les algorithmes existants aux méthodes d'ajustement statistique proposées, dans le but de fournir une grande précision quelle que soit la connectivité réseau des gènes de la maladie cible. Ces méthodes choisissent la mesure pour classer les gènes candidats (scores bruts vs scores ajustés statistiquement), sur la base de plusieurs critères qui prennent en compte le degré de réseau des candidats. Enfin, nous présentons des résultats expérimentaux complets dans la section Résultats. Ces résultats montrent que les méthodes de hiérarchisation résultantes, mises en œuvre dans Matlab sous la forme d'une suite appelée D A D A , surpassent les approches existantes pour identifier les gènes associés à la maladie.


Conclusion

Dans cet article, nous proposons un cadre phylogénétique pour analyser la modularité dans les réseaux d'interaction protéine-protéine. Notre approche est motivée par le postulat que les interactions biomoléculaires et leur modularité sont susceptibles de fournir des informations fonctionnelles directes sur l'évolution des systèmes biologiques. Nous développons également une méthode basée sur la simulation de l'évolution des réseaux pour évaluer les méthodes de reconstruction d'arbres phylogénétiques. Des résultats expérimentaux complets sur des données simulées et réelles montrent que notre algorithme réussit très bien à reconstruire les phylogénies sous-jacentes basées sur les réseaux PPI, est assez robuste au bruit et fonctionne nettement mieux que les algorithmes de reconstruction de phylogénie basés sur les réseaux existants sur les protéines disponibles. données d'interaction protéique. Ces résultats démontrent la promesse des approches basées sur la modularité dans l'analyse comparative des réseaux et motivent l'étude de l'évolution de la modularité des réseaux dans un cadre phylogénétique.


Comparaison des scores de modularité entre différents algorithmes en analyse de réseau - Biologie

Théodosiou et al. Notes de résolution du BMC (2017) 10:278 DOI 10.1186/s13104-017-2607-8

Notes de recherche BMC en libre accès

NAP : The Network Analysis Profiler, un outil Web pour faciliter l'analyse topologique et la comparaison des réseaux biologiques à moyenne échelle Theodosios Theodosiou1†, Georgios Efstathiou1†, Nikolas Papanikolaou1, Nikos C. Kyrpides2, Pantelis G. Bagos3, Ioannis Iliopoulos1* et Georgios A. Pavlopoulos1,2*

Résumé Objectif : De nos jours, en raison des avancées technologiques des techniques à haut débit, la biologie des systèmes a connu une croissance considérable de la génération de données. Avec l'analyse de réseau, regarder les systèmes biologiques à un niveau supérieur afin de mieux comprendre un système, sa topologie et les relations entre ses composants est d'une grande importance. L'expression des gènes, la transduction du signal, les interactions protéine/chimique, les cooccurrences de la littérature biomédicale, sont quelques-uns des exemples capturés dans les représentations de réseaux biologiques où les nœuds représentent certaines bioentités et les bords représentent les connexions entre eux. Aujourd'hui, de nombreux outils de visualisation et d'analyse du réseau sont disponibles. Néanmoins, la plupart d'entre elles sont des applications autonomes qui souvent (i) chargent les utilisateurs en temps de calcul et de calcul en fonction de la taille du réseau et (ii) se concentrent sur la gestion, l'édition et l'exploration d'un réseau de manière interactive. Bien qu'une telle fonctionnalité soit d'une grande importance, des efforts limités ont été faits pour comparer l'analyse topologique de plusieurs réseaux. Résultats : Network Analysis Provider (NAP) est un outil Web complet pour automatiser le profilage du réseau et la comparaison de la topologie intra/interréseau. Il est conçu pour combler le fossé entre l'analyse de réseau, les statistiques, la théorie des graphes et la visualisation partielle d'une manière conviviale. Il est disponible gratuitement et vise à devenir un outil très attrayant pour la communauté au sens large. Il héberge une grande pléthore de méthodes d'analyse topologique telles que les classements de nœuds et de bords. Quelques-unes de ses caractéristiques puissantes sont : sa capacité à permettre des comparaisons de profils faciles sur plusieurs réseaux, à trouver leur intersection et à fournir aux utilisateurs des tracés simplifiés et de haute qualité de l'une des caractéristiques topologiques proposées par rapport à toute autre au sein du même réseau. Il est écrit en R et Shiny, il est basé sur la bibliothèque igraph et il est capable de gérer des graphes pondérés/non pondérés, orientés/non orientés et bipartites à échelle moyenne. NAP est disponible sur http://bioinformatics.med.uoc.gr/NAP. Mots-clés : Biologie des réseaux, Topologie des réseaux, Classement des nœuds et des périphéries, Centralités, Comparaison de réseaux

*Correspondance : [email protected] [email protected] † Theodosios Theodosiou et Georgios Efstathiou ont contribué à parts égales à ce travail 1 Bioinformatics & Computational Biology Laboratory, Division of Basic Sciences, University of Crete Medical School, 70013 Heraklion, Crète, Grèce 2 Joint Genome Institute, Lawrence Berkeley Lab, United States Department of Energy, 2800 Mitchell Drive, Walnut Creek, CA 94598, États-Unis La liste complète des informations sur l'auteur est disponible à la fin de l'article © The Author(s) 2017. Cet article est distribué sous les termes de la licence internationale Creative Commons Attribution 4.0 (http://creativecommons.org/licenses/by/4.0/), qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que vous accordiez le crédit approprié à l'auteur original ( s) et la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. La dérogation Creative Commons Public Domain Dedication (http://creativecommons.org/publicdomain/zero/1.0/) s'applique aux données mises à disposition dans cet article, sauf indication contraire.

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Introduction Les réactions métaboliques, la transduction du signal, l'expression génique, la régulation génique, les interactions protéiques et d'autres concepts biologiques sont souvent capturés dans des représentations en réseau montrant les bioentités individuelles comme des nœuds et leurs interconnexions comme des bords. Chaque réseau est caractérisé par une topologie différente. Dans les réseaux de petit monde par exemple, n'importe quel nœud du graphe peut être atteint à partir de n'importe quel autre nœud en un petit nombre d'étapes. Dans les réseaux sans échelle, les nœuds hautement connectés peuvent être identifiés comme des hubs. Les réseaux avec des quartiers densément connectés ont un coefficient de clustering élevé et ont tendance à former des clusters. Dans les réseaux sociaux, la robustesse est sensible sur les bords à haute centralité d'intermédiarité, nécessaire pour combler les communautés éloignées. Les réseaux d'interaction protéine-protéine (PPI) sont capturés sous forme de graphes connectés non orientés suivant une topologie sans échelle avec une modularité hiérarchique [1, 2]. Alors que les visualisations existantes sont souvent conformes à l'analyse de réseau topologique [3–6], seules quelques-unes d'entre elles se concentrent uniquement sur l'analyse topologique, la comparaison et le classement bord/nœud. L'analyseur de réseau [7] de Cytoscape [8] ainsi que Gephi [9] offrent des fonctionnalités similaires mais ne prennent pas en charge la comparaison directe entre les caractéristiques topologiques de plusieurs réseaux. ZoomOut [10] et Network Analysis Toolkit (NEAT) [11] d'autre part sont principalement axés sur le clustering de graphes. Stanford Network Analysis Platform (SNAP) [12] et igraph [13] offrent un large éventail de fonctions et de modules liés à l'analyse topologique mais sont proposés sous forme de bibliothèques en ligne de commande, les rendant ainsi moins accessibles aux non-experts. Pour surmonter ces obstacles, nous proposons NAP, une application Web modeste, dédiée à rendre l'analyse topologique du réseau et la comparaison topologique inter/intra-réseau plus simples et plus attrayantes pour la communauté au sens large. Texte principal L'interface graphique

NAP est livré avec une interface Web explicite, organisée en plusieurs onglets. Onglet Télécharger le fichier

Il est dédié au téléchargement de fichiers et au nommage du réseau (Fig. 1a). Une fois qu'un ou plusieurs réseaux ont été téléchargés, trois sous-onglets apparaîtront. Dans le premier sous-onglet, les utilisateurs peuvent voir le réseau comme une liste binaire sous forme de tableaux consultables (Fig. 1b), dans le deuxième sous-onglet une visualisation statique du réseau et dans le troisième sous-onglet un réseau interactif visualisation (Fig. 1c). Onglet Topologie

Le deuxième onglet est dédié à l'analyse topologique du réseau. Une fois qu'un ou plusieurs réseaux sont chargés, les utilisateurs peuvent choisir de manière interactive entre plusieurs caractéristiques topologiques.

Alors qu'ici, les utilisateurs peuvent explorer un réseau à la fois, dans un deuxième sous-onglet, les utilisateurs peuvent générer automatiquement un tracé d'analyse topologique de l'interréseau afin de comparer directement un ou plusieurs réseaux. Des exemples de ces cas peuvent être représentés sur la figure 1d, e. Onglet Classement

Cette partie est dédiée au classement des nœuds et des arêtes. Les utilisateurs peuvent choisir de manière interactive entre plusieurs caractéristiques topologiques de nœuds et de bords et trier les nœuds/bords pertinents en conséquence. De plus, les utilisateurs peuvent tracer la distribution de n'importe quelle caractéristique topologique d'un réseau par rapport à n'importe quelle autre et la visualiser dans un tracé matriciel. Des exemples sont présentés sur la figure 1f, g. Onglet Regroupement

Cet onglet est dédié au clustering réseau. Bien que NAP ne soit pas destiné à être une application de clustering de réseau, le clustering MCL Markov est incorporé [14]. De cette façon, l'utilisateur peut regrouper des réseaux de taille moyenne (Fig. 1h). Intersection

Cet onglet est dédié au calcul de l'intersection entre n'importe quelle paire de réseaux sélectionnés. Les résultats sont présentés sous forme de diagrammes de Venn et une fonction d'exportation pour télécharger le réseau d'intersection est proposée (Fig. 1i). Fichier d'entrée

NAP prend en charge le chargement de plusieurs graphiques pondérés/non pondérés, dirigés/non dirigés et bipartites. Chaque réseau peut être chargé sous la forme d'une liste binaire de connexions à deux colonnes sous la forme d'un fichier texte délimité par des tabulations. Après le téléchargement, les utilisateurs doivent donner manuellement un nom et définir le type de chaque réseau. De plus, des réseaux aléatoires de différentes tailles (100, 1000, 10 000 nœuds) et types (Barabási–Albert, Erdos–Renyi, Watts–Strogatz small-world et graphes bipartites) peuvent être générés automatiquement et utilisés comme exemples. Notamment, NAP accepte actuellement des réseaux jusqu'à 50 000 bords. Pour cet article, nous avons utilisé deux réseaux d'interaction protéine-protéine (PPI) de levure : Gavin 2006 [15] et Gavin 2002 [16], le premier constitué de 6531 arêtes et 1430 sommets et le second constitué de 3210 arêtes et 1352 sommets. Pour le premier ensemble de données, la purification par affinité en tandem à grande échelle et la spectrométrie de masse ont été utilisées pour caractériser les complexes multiprotéiques chez Saccharomyces cerevisiae, tandis que le deuxième ensemble de données montre le premier criblage de complexes à l'échelle du génome chez la levure. Visualisation de base

Les nœuds et les arêtes peuvent être présentés sous forme de tableaux dynamiques, faciles à filtrer, de type Excel, ainsi que de visualisations de réseau 2D statiques et dynamiques. Les tableaux sont triables par nom et consultables à l'aide d'une simple correspondance de sous-chaînes.

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Fig. 1 Interface Web de NAP. a Les utilisateurs peuvent télécharger plusieurs réseaux sous forme de liste (connexions par paires) et les nommer par la suite. Les utilisateurs peuvent également générer des graphiques de différentes tailles (50, 100, 1000, 10 000) basés sur le modèle du petit monde de Barabási-Albert, Erdos-Renyi ou Watts-Strogatz. De plus, les utilisateurs peuvent générer des graphiques bipartites de différentes tailles. b Contenus du réseau sous forme de tableaux consultables et triables. c-gauche Visualisation de réseau statique. c-right Visualisation interactive du réseau Cytoscape.js. d Sélection des caractéristiques topologiques et de leurs valeurs. e Comparaisons inter-réseaux des caractéristiques topologiques. f Classement des nœuds/arêtes dans la vue des tables interrogeables. g Comparaison des caractéristiques topologiques intra-réseau sous forme de matrice. h Implémentation de l'algorithme de clustering MCL. i Intersection de deux réseaux choisis

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Bien que NAP ne soit pas conçu pour être un outil de visualisation, sa visualisation de réseau statique 2D est livrée avec une pléthore d'algorithmes de mise en page traditionnels (Random, Circle, Sphere, Fruchterman–Reingold, Reingold–Tilford, Kamada–Kawai, Grid, Lgl et SVD). Une fois la mise en page terminée, les nœuds et leurs coordonnées, ainsi que leurs connexions, peuvent être exportés sous forme de simples fichiers texte et importés vers d'autres outils de visualisation plus avancés [3-6].

vue d'ensemble du réseau chargé. Notamment, la visualisation de NAP ne peut pas très bien évoluer en raison des limitations du navigateur, mais est juste pour les réseaux de taille moyenne. Pour une visualisation, une édition graphique, une manipulation et une exploration interactive du réseau de meilleure qualité, les utilisateurs sont encouragés à utiliser d'autres outils disponibles tels que Cytoscape et Gephi. Le format de fichier d'entrée pour NAP, Cytoscape et Gephi est le même (fichier délimité par des tabulations à 2 colonnes).

NAP utilise CytoscapeWeb/Cytoscape.js [17, 18]. pour fournir en plus une visualisation dynamique du réseau. Les utilisateurs peuvent zoomer/dézoomer de manière interactive, déplacer les nœuds et les sélectionner et choisir entre différentes couleurs et formes de bords/nœuds et parmi des mises en page graphiques très standard. Nous avons choisi de fournir à la fois une visualisation statique et dynamique à un niveau de base afin que l'utilisateur puisse obtenir une

NAP est capable de calculer plusieurs caractéristiques topologiques pour un réseau sélectionné extrait de la bibliothèque igraph. Alors que dans les pages de manuel d'igraph, on peut trouver des informations plus détaillées sur les calculs, la plupart des formules et définitions sont également expliquées dans [19]. Le tableau 1 résume une explication simplifiée des mesures susmentionnées de NAP.

Tableau 1 Fonctionnalités topologiques prises en charge par NAP et leur explication Fonctionnalité topologique

Affiche le nombre de tronçons du réseau. Un réseau modéré de plusieurs milliers de connexions est très acceptable

Affiche le nombre de nœuds dans le réseau. Il n'y a pas de limitation sur le nombre de nœuds

Affiche la longueur de la géodésique la plus longue. Le diamètre est calculé en utilisant une méthode similaire à la recherche en largeur. La distance graphe-théorique ou géodésique entre deux points est définie comme la longueur du chemin le plus court entre eux

L'excentricité d'un sommet est sa distance de chemin la plus courte à partir de l'autre nœud le plus éloigné du graphe. La plus petite excentricité dans un graphique est appelée son rayon. L'excentricité d'un sommet est calculée en mesurant la distance la plus courte depuis (ou vers) le sommet, vers (ou depuis) ​​tous les sommets du graphique, et en prenant le maximum

La densité d'un graphe est le rapport entre le nombre d'arêtes et le nombre d'arêtes possibles

Affiche le nombre de tronçons du réseau. Si le a plus de 10 000 arêtes, il prendra en compte les 10 000 premiers

Le nombre moyen d'étapes nécessaires pour passer d'un nœud à un autre

Une métrique pour montrer si le réseau a tendance à former des clusters

Cette fonction calcule la modularité d'une division donnée d'un graphe en sous-graphes

Combien de nœuds sont connectés à eux-mêmes

L'excentricité d'un sommet est son chemin le plus court à partir de l'autre nœud le plus éloigné du graphe

Centralité moyenne des vecteurs propres C'est une mesure de l'influence d'un nœud dans un réseau Degré d'assortativité

Le coefficient d'assortativité est positif si des sommets similaires (basés sur une propriété externe) ont tendance à se connecter à chacun, et négatif sinon

Est orienté graphe acyclique

Il renvoie Vrai (1) ou Faux (0)

Il renvoie True (1) ou False (0) selon que les bords sont orientés ou non

Il renvoie True (1) ou False (0) selon que le graphe est bipartite ou non

Il renvoie True (1) ou False (0). Un graphe est cordal (ou triangulé) si chacun de ses cycles de quatre nœuds ou plus a une corde, qui est une arête joignant deux nœuds qui ne sont pas adjacents dans le cycle. Une définition équivalente est que tout cycle sans corde a au plus trois nœuds

Nombre moyen de voisins

Combien de voisins chaque nœud du réseau a en moyenne

C'est un indicateur de la centralité d'un nœud dans un réseau. Il est égal au nombre de chemins les plus courts de tous les sommets à tous les autres qui passent par ce nœud. La centralité intermédiaire quantifie le nombre de fois qu'un nœud agit comme un pont le long du chemin le plus court entre deux autres nœuds

Il mesure la vitesse à laquelle les messages de marche aléatoire atteignent un sommet ailleurs dans le graphique

Il est défini comme le nombre de liens incident sur un nœud

Il calcule le st-cut minimum entre deux sommets dans un graphe Le st-cut minimum entre la source et la cible est le poids total minimum des arêtes nécessaires à supprimer pour éliminer tous les chemins de la source à la cible

Utilisation d'igraph pour rechercher dans un graphique des motifs de taille 3

Utilisation d'igraph pour rechercher dans un graphique des motifs de taille 4

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Fig. 2 Comparaison directe des caractéristiques topologiques de deux ensembles de données d'interaction protéine-protéine de levure. un jeu de données Gavin 2002 [16] se compose de 3210 arêtes et 1352 sommets, tandis que Gavin 2006 [15] se compose de 6531 arêtes et 1430 sommets. b Comparaison du coefficient de clustering, de la densité, de la proximité, de l'intermédiarité et du degré des réseaux

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Comparaison des caractéristiques topologiques inter-réseaux

Les caractéristiques topologiques sélectionnées d'un réseau unique peuvent être visualisées sous la forme d'un graphique à barres à plusieurs colonnes. De cette façon, un utilisateur peut, par exemple, voir la centralité de proximité moyenne, le coefficient de regroupement moyen et la longueur de chemin la plus courte moyenne de l'ensemble du graphique sous forme de valeurs numériques ou sous forme de graphique à barres. Notamment, le graphique est dynamique et est automatiquement mis à jour sur une sélection de fonctionnalités. Lorsque les utilisateurs souhaitent comparer directement un ou plusieurs réseaux, un graphique à barres combiné avec des couleurs ajustées indiquant les réseaux sélectionnés peut capturer les caractéristiques topologiques moyennes de tous les réseaux sélectionnés les uns à côté des autres.Par exemple, une comparaison directe des ensembles de données d'interaction protéine-protéine de levure susmentionnés est présentée à la figure 2. Bien que les deux réseaux varient considérablement en nombre de bords, comme le montre la figure 2a, et malgré le fait qu'ils aient une densité similaire, ils ont un coefficient de regroupement significativement différent comme le montre la figure 2b. De cette façon, l'ensemble de données Gavin 2006 a tendance à former des clusters plus serrés par rapport à Gavin 2002. Comparaison des caractéristiques topologiques intra-réseau

Les utilisateurs peuvent sélectionner un réseau à la fois et voir la distribution de chaque métrique topologique. Les figures 3a, b, par exemple, montrent la distribution des degrés pour les réseaux PPI 200 et 2002 de Gavin respectivement.

De plus, les utilisateurs ont la possibilité de générer un tracé de distribution montrant n'importe quelle caractéristique topologique par rapport à n'importe quelle autre au sein d'un réseau sélectionné. Un nuage de points 2D haute résolution est généré à la volée, affichant la distribution d'un paramètre topologique choisi dans une vue de type histogramme. Si l'utilisateur souhaite explorer plus d'un paramètre topologique à la fois, NAP donne à l'utilisateur la possibilité de générer des tracés avancés à la volée en comparant par paires toute caractéristique topologique d'un réseau à toute autre caractéristique du même réseau. Ce tracé matriciel montrant les corrélations par paires de toute combinaison entre les caractéristiques topologiques sélectionnées n'est pas limité au nombre d'entités à tracer. La partie triangulaire supérieure du graphique montre la corrélation numérique entre n'importe quelle paire de caractéristiques topologiques, tandis que la partie triangulaire inférieure de la matrice représente le nuage de points d'une caractéristique par rapport à une autre. La diagonale montre la caractéristique topologique qui correspond à cette colonne et à cette ligne. Comme précédemment, deux graphiques tout contre tout comparant le degré, le coefficient de regroupement, la proximité et la centralité d'intermédiarité des ensembles de données PPI de Gavin 2002 et 2006 sont illustrés respectivement aux figures 3c et d. Notamment, les chiffres peuvent être téléchargés au format jpeg à partir du navigateur tandis que les coordonnées du nuage de points peuvent désormais être téléchargées sous forme de fichiers CSV et visualisées par des applications externes comme Excel ou STATA.

Fig. 3 Comparaison intra-réseau de caractéristiques topologiques sélectionnées dans l'ensemble de données Gavin 2002 PPI de levure [16]. a La distribution des degrés pour l'ensemble de données Gavin 2002. b La distribution des degrés pour l'ensemble de données Gavin 2006. c Une matrice de distribution tout contre tout comparant le degré, la proximité, l'intermédiarité et le coefficient de regroupement pour le réseau Gavin 2002 PPI. d Une matrice de distribution tout contre tout comparant le degré, la proximité, l'intermédiarité et le coefficient de clustering pour le réseau Gavin 2006 PPI

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Les nœuds et les bords d'un réseau sélectionné (accessible sous forme de menu déroulant) peuvent être triés en fonction d'une caractéristique topologique préférée et à l'aide de tableaux dynamiques de type Excel faciles à filtrer. Les nœuds et les arêtes peuvent être triés dans l'ordre décroissant et croissant. La figure 4a par exemple montre les protéines du réseau Gavin 2006 PPI triées par ordre décroissant selon leur degré. Il est évident que la protéine PWP2 (YCR057C), un composant pré-ribosomique 90S conservé essentiel au bon clivage endonucléolytique du précurseur de l'ARNr 35 S aux sites A0, A1 et A2 est la protéine avec le plus de connexions. De même, la figure 4b montre que la connexion entre SEC8 (YPR055W) et RPC17 (YJL011C) a la centralité intermédiaire la plus élevée, créant ainsi une connexion très importante car elle agit comme un pont reliant différents quartiers.

Bien que NAP ne soit pas un outil de visualisation de clustering, l'algorithme de clustering MCL Markov a été implémenté (Fig. 1h). Les utilisateurs peuvent sélectionner un réseau et ajuster la valeur d'inflation de MCL. Une matrice interrogeable à deux colonnes sera générée, indiquant le nom du nœud et le cluster auquel chaque nœud appartient. De cette façon, les utilisateurs peuvent facilement déterminer si deux nœuds appartiennent ou non au même cluster. Cette fonctionnalité est recommandée pour les réseaux de petite et moyenne taille et doit être évitée pour les réseaux plus importants. Pour une analyse de clustering plus approfondie, les utilisateurs sont encouragés à utiliser les outils de ligne de commande ou à essayer le plugin ClusterMaker Cytoscape [20]. Intersection

Les utilisateurs peuvent trouver automatiquement l'intersection entre n'importe quelle paire de réseaux sélectionnés. Une fois que deux réseaux ont

Fig. 4 Classement des nœuds et des arêtes. a Les ensembles de données Protéines de l'IPP Gavin 2006 sont triés en fonction de leur degré. La protéine PWP2 (YCR057C) a de nombreux voisins et pourrait se comporter comme un hub. b Les interactions des jeux de données PPI de Gavin 2006 sont triées en fonction de leur centralité d'intermédiarité. Edge entre SEC8 (YPR055W) et RPC17 (YJL011C) se comporte comme un pont entre les communautés

Théodosiou et al. Notes de résolution BMC (2017) 10:278

été sélectionné, deux diagrammes de Venn seront générés montrant le nœud et le chevauchement de bord entre les deux réseaux sélectionnés. Afin de visualiser la partie d'intersection des réseaux, les utilisateurs peuvent télécharger le réseau au format CVS et l'importer dans des applications tierces telles que Cytoscape ou Gephi. La figure 5 montre un exemple de la façon de trouver l'intersection entre les ensembles de données Gavin 2002 et Gavin 2006 PPI. Graphiques bipartites

NAP est capable de gérer des graphes bipartites. Étant donné un graphe bipartite, les utilisateurs peuvent extraire automatiquement ses deux projections monopartites et les analyser séparément. Dans un graphe bipartite gène-maladie par exemple, on peut générer un réseau maladie-maladie à travers des gènes communs et vice versa, un réseau gène-gène à travers des maladies communes. Mise en œuvre

L'interface Web de NAP est écrite en Shiny et les fonctions principales implémentées dans R. Les caractéristiques topologiques sont calculées à l'aide de la bibliothèque igraph-R [13] et les tracés sont générés via R et plotly [21]. Les visualisations de réseau statiques sont offertes par la bibliothèque d3 tandis que les visualisations dynamiques

la visualisation du réseau est fournie par CytoscapeWeb/ Cytoscape.js [17, 18].

Discussion Network Analysis Provider (NAP) est conçu pour compléter les outils de visualisation et d'analyse de pointe existants. Il met l'accent sur l'analyse du réseau topologique et la comparaison des caractéristiques topologiques inter/intra-réseau. Dans l'ensemble, nous pensons que NAP peut atteindre les utilisateurs au-delà de la communauté plus large de l'analyse de réseau et aider les non-experts à analyser leurs réseaux de manière simplifiée et hautement interactive. Limitations NAP s'exécute sur un navigateur et n'est donc pas optimisé pour les réseaux à grande échelle. Les futures versions de NAP comprendront un ensemble beaucoup plus riche et optimisé d'algorithmes de clustering [22], des algorithmes d'extraction de motifs plus riches, des méthodes d'alignement de réseau telles que Corbi [23] et GraphAlignment [24], une visualisation plus évolutive, des profils de compte utilisateur pour stocker et charger le réseaux, incorporation d'Arena3D [25, 26] pour la visualisation de réseaux multicouches 3D et une meilleure gestion des graphes bipartites en tenant compte de leurs propriétés topologiques particulières.

Fig. 5 Fonctionnalité de NAP pour trouver l'intersection entre la paire de fourmis des réseaux sélectionnés. a Gavin 2006 et 2002 PPI datasets visualisés par Cytoscape 3.4.0 en utilisant la mise en page Prefuse. b Diagrammes de Venn générés par NAP montrant les nœuds et les bords qui se chevauchent des deux réseaux. c Fonction d'exportation d'intersection de NAP et visualisation avec Cytoscape

Théodosiou et al. Notes de résolution BMC (2017) 10:278

Contributions des auteurs GAP a conçu le concept, conçu le processus d'analyse et écrit l'article, TT et GE ont mis en œuvre l'outil, NP a enrichi l'interface utilisateur de l'article, PGB a été le principal acteur derrière l'analyse bipartite, NCK et II ont fourni les commentaires des utilisateurs. Tous les auteurs ont lu et approuvé le manuscrit final. Détails de l'auteur 1 Laboratoire de bioinformatique et de biologie computationnelle, Division des sciences fondamentales, Faculté de médecine de l'Université de Crète, 70013 Héraklion, Crète, Grèce. 2 Joint Genome Institute, Lawrence Berkeley Lab, Département de l'énergie des États-Unis, 2800 Mitchell Drive, Walnut Creek, CA 94598, États-Unis. 3 Département d'informatique et d'informatique biomédicale, Université de Thessalie, Papasiopoulou 2-4, Galaneika, 35100 Lamia, Grèce. Remerciements Sans objet. Intérêts concurrents Les auteurs déclarent n'avoir aucun intérêt concurrent. Disponibilité des données et du matériel Les ensembles de données utilisés et/ou analysés au cours de la présente étude sont disponibles auprès de l'auteur correspondant sur demande. Financement Ce travail a été soutenu par le US Department of Energy Joint Genome Institute, un DOE Office of Science User Facility, sous le numéro de contrat DE-AC0205CH11231 et a utilisé les ressources du National Energy Research Scientific Computing Center, soutenu par l'Office of Science des États-Unis Ministère de l'Énergie.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles. Reçu : 16 février 2017 Accepté : 7 juillet 2017

Références 1. Koschutzki D, Schreiber F. Méthodes d'analyse de centralité pour les réseaux biologiques et leur application aux réseaux de régulation des gènes. Gene Regul Syst Bio. 20082 :193-201. 2. Yook SH, Oltvai ZN, Barabasi AL. Caractérisation fonctionnelle et topologique des réseaux d'interactions protéiques. Protéomique. 20044(4):928-42. 3. Gehlenborg N, O'Donoghue SI, Baliga NS, Goesmann A, Hibbs MA, Kitano H, Kohlbacher O, Neuweger H, Schneider R, Tenenbaum D, et al. Visualisation de données omiques pour la biologie des systèmes. Méthodes Nat. 20107(3 Suppl):S56-68. 4. Pavlopoulos G, Iacucci E, iliopoulos I, Bagos P. Interprétation des données de l'ère omique. In : Services multimédias dans les environnements intelligents, vol. 25. New York : Springer International Publishing 2013. p. 79-100. 5. Pavlopoulos GA, Malliarakis D, Papanikolaou N, Theodosiou T, Enright AJ, Iliopoulos I. Visualiser le génome et la biologie des systèmes : technologies, outils, techniques de mise en œuvre et tendances, passé, présent et futur. Gigascience. 20154:38. 6. Pavlopoulos GA, Wegener AL, Schneider R. Une étude des outils de visualisation pour l'analyse des réseaux biologiques. BioDonnées Min. 20081:12. 7. Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T. Cytoscape : un environnement logiciel pour les modèles intégrés de réseaux d'interaction biomoléculaire. Génome Res. 200313(11) : 2498–504. 8. Doncheva NT, Assenov Y, Domingues FS, Albrecht M. Analyse topologique et visualisation interactive des réseaux biologiques et des structures protéiques. Nat Protoc. 20127(4):670-85.