Informations

Analyse statistique des mutations intercodons

Analyse statistique des mutations intercodons


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche une approche statistique des mutations inter-codons. Par exemple une table 64*64 (64*63 en fait), qui contient la possibilité de mutation d'un codon à un autre (CCA à CAA ou CGG… par exemple).

Existe-t-il des articles, bases de données ou autres qui fournissent un tel tableau ?

Merci de commenter si ma question n'est pas tout à fait claire. J'ai cherché mais je n'ai pas trouvé de réponse à cette question dans Google Scholar.


DÉTECTION ET DÉPISTAGE DES MUTATIONS

Les mutations sont des altérations génétiques acquises dans les cellules germinales ou non germinales (somatiques). Les mutations peuvent être présentes sous la forme d'une insertion, d'une délétion ou d'un changement de paire de bases dans les régions codantes ou non codantes, entraînant des mutations silencieuses, faux-sens ou non-sens. Dans certains cas, une mutation se produit à la frontière intron-exon, perturbant l'épissage normal du transcrit. L'analyse des mutations basée sur le séquençage de Sanger, le dépistage des mutations et le reséquençage des exons impliquent tous une amplification et un séquençage PCR à haut volume pour découvrir ces mutations.

Les techniques d'analyse et de dépistage des mutations peuvent être utilisées soit comme source principale pour la détection des mutations, soit comme confirmation des résultats du séquençage et des puces à ADN de nouvelle génération. Quelle que soit l'application, utilisez l'expertise de GENEWIZ dans le ciblage des régions génomiques de l'ADN avec des tests spécifiques et robustes.


Résumé

L'analyse de couplage statistique (SCA) est une méthode d'analyse d'alignements de séquences multiples qui a été utilisée pour identifier des groupes de résidus coévoluant appelés « secteurs ». La méthode applique une analyse spectrale à une matrice obtenue en combinant des informations de corrélation avec une conservation de séquence. Il a été affirmé que les secteurs protéiques identifiés par SCA sont fonctionnellement significatifs, différents secteurs contrôlant différentes propriétés biochimiques de la protéine. Ici, nous reconsidérons les données expérimentales disponibles et notons qu'il s'agit presque exclusivement de protéines avec un seul secteur. Nous montrons que dans ce cas, la conservation des séquences est le facteur dominant dans SCA, et peut seul être utilisé pour faire des prédictions fonctionnelles statistiquement équivalentes. Par conséquent, nous suggérons de déplacer l'objectif expérimental vers les protéines pour lesquelles le SCA identifie plusieurs secteurs. Les corrélations dans les alignements de protéines, qui se sont avérées informatives dans un certain nombre d'études indépendantes, seraient alors moins dominées par la conservation des séquences.


Résultats

Aperçu de la conception de l'étude

Notre analyse comprenait 33 algorithmes (rapportés dans 29 études) qui pouvaient hiérarchiser ou catégoriser les mutations du SNV entraînant des changements d'acides aminés. Pour évaluer de manière robuste les performances de différents algorithmes, nous avons utilisé cinq ensembles de données de référence différents : (i) les modèles de regroupement de mutations dans les structures 3D de protéines (ii) l'annotation de la littérature basée sur OncoKB [5], une base de données de connaissances largement utilisée dans la communauté de recherche sur le cancer ( iii) les effets des mutations TP53 sur leur activité de transcription cible (iv) les effets des mutations cancéreuses sur la formation de tumeurs dans les expériences de xénogreffe et (iv) l'annotation fonctionnelle basée sur des tests de viabilité cellulaire in vitro développés par notre groupe. Ces ensembles de données de référence représentent différentes caractéristiques des mutations des conducteurs par rapport aux mutations des passagers et sont très complémentaires les unes aux autres, assurant ainsi une évaluation complète. Compte tenu des cas positifs (conducteur) et négatifs (passager) définis dans chaque ensemble de données de référence, sur la base des scores numériques de chaque algorithme, nous avons utilisé l'aire sous la courbe (AUC) des courbes de caractéristiques de fonctionnement du récepteur (ROC) pour évaluer les performances prédictives, qui est une mesure commune indépendante de la valeur seuil dans chaque algorithme. De plus, nous avons comparé les prédictions catégorielles de différents algorithmes par rapport à de vraies étiquettes dans chaque analyse de référence (tableau 1, fichier supplémentaire 1).

Le tableau 1 montre les caractères des 33 algorithmes que nous avons évalués dans cette étude. Parmi eux, six algorithmes ont été développés spécifiquement pour prédire les mutations motrices du cancer, et les autres ont été conçus pour prédire l'impact fonctionnel d'un SNV en général. Bien qu'ils ne soient pas développés pour identifier les moteurs du cancer, ces algorithmes non spécifiques au cancer, tels que SIFT et Polyphen2, ont été largement utilisés pour hiérarchiser les mutations dans la recherche sur le cancer. En outre, 16 sont des algorithmes d'ensemble qui utilisent les scores d'autres algorithmes publiés en entrée (Fig. 1a). Ces algorithmes utilisent une variété d'informations en tant que caractéristiques pour construire des modèles prédictifs : 10 utilisent les caractéristiques liées au contexte de séquence telles que les types de changement de nucléotide et les emplacements d'îlots CpG 9 contiennent des caractéristiques de protéines telles que les changements de domaine et d'acides aminés 24 considèrent la conservation évolutive, et 6 incluent informations épigénomiques (Fig. 1a). Pour étudier les corrélations de différents algorithmes, nous avons compilé et calculé les scores des 33 algorithmes pour

710 000 mutations uniques détectées dans le projet de séquençage de l'exome entier TCGA sur 33 types de cancer par le Multi-Center Mutation-Calling in Multiple Cancers (MC3), [12, 35]. Nous avons ensuite quantifié leurs similitudes de scores à l'aide des corrélations de rang de Spearman pour toutes ces mutations et avons constaté que les scores des algorithmes montraient des corrélations globalement positives (Fig. 1b). Dans l'arbre basé sur la dissimilarité (Fig. 1b), les algorithmes dérivés de la même étude ont toujours été regroupés tels que Eigen-PC et Eigen [32], SIFT4G [31] et SIFT [21], et MetaLR et MetaSVM [36 ], ce qui est attendu étant donné qu'ils ont été construits de la même manière.

Résumé des fonctionnalités et inter-corrélations entre les algorithmes. une Sur la base des caractéristiques incluses, chaque algorithme a été étiqueté comme utilisant un score d'ensemble, un contexte de séquence, une caractéristique de protéine, une conservation ou des informations épigénomiques. Les algorithmes formés sur les données des plongeurs cancéreux ou proposés pour identifier les moteurs du cancer sont étiquetés comme spécifiques au cancer. b À gauche : modèle de regroupement hiérarchique de 33 algorithmes basés sur

710 000 mutations somatiques TCGA à droite, une carte thermique triangulaire affiche le coefficient de corrélation de rang Spearman entre deux algorithmes

Benchmark 1 : Modèles de clustering de mutations dans les structures 3D des protéines

L'impact fonctionnel d'une mutation spécifique dépend en grande partie de sa localisation dans la structure 3D de la protéine. Les mutations fonctionnelles ou motrices ont tendance à former des clusters de points chauds spatiaux. Ces dernières années, plusieurs algorithmes de calcul ont été développés pour détecter des clusters de mutations dans l'espace 3D des protéines, capables de détecter des mutations rares avec des impacts fonctionnels validés. Dans cette perspective, nous avons construit un ensemble de données de référence basé sur les modèles de clustering 3D de mutation. Nous avons utilisé quatre algorithmes de clusters spatiaux (HotMAPs [37], 3DHotSpots [38], HotSpot3D [39] et e-Driver3D [9]) pour prédire les hotspots putatifs de mutation. Nous avons défini le score de consensus comme le nombre des quatre outils qui ont prédit que chaque mutation se trouverait dans un cluster 3D (Fig. 2a). Nous avons trouvé un fort enrichissement des mutations avec un score de consensus élevé dans les gènes du cancer connus (c'est-à-dire le recensement des gènes du cancer [CGC]) (p < 2,2 × 10 −16 , test exact de Fisher voir la section « Méthodes » Fichier supplémentaire 2).

Évaluation à l'aide d'un ensemble de données de référence basé sur le modèle de clustering 3D des mutations. une Aperçu du processus d'évaluation. Nous avons utilisé quatre algorithmes de calcul pour détecter si les mutations sont situées dans les points chauds structurels 3D des protéines, chaque algorithme avec un vote. Le nombre de votes a été défini comme le score du groupe de consensus. Une mutation avec un score ≥ 2 et dans un gène cancéreux (c. b Courbes ROC et scores AUC correspondants pour les 10 meilleurs algorithmes. c Boxplots montrant les différences d'AUC entre deux groupes d'algorithmes avec ou sans certaines fonctionnalités. p La valeur est basée sur le test de somme des rangs de Wilcoxon. Sensibilité et spécificité de chaque algorithme calculées en utilisant la valeur du score médian comme seuil pour faire des prédictions binaires. Barres d'erreur, moyenne ± 2SD

Pour compiler l'ensemble de référence, à partir du

710k mutations TCGA, nous avons désigné des mutations avec un score de consensus élevé (≥ 2) dans un gène de cancer connu comme candidats pilotes (cas positifs, m = 1429) et sélectionné au hasard le même nombre de mutations avec un score consensus de 0 dans les gènes non cancéreux que les candidats passagers (cas négatifs, m = 1429). Nous avons ensuite évalué les performances des 33 algorithmes à l'aide de courbes ROC. Nous avons constaté que les performances des différents algorithmes variaient considérablement et que le score AUC variait de 0,64 à 0,97, avec une valeur médiane de 0,79 (Fig. 2b Fichier supplémentaire 3). Six algorithmes avaient un score AUC de > 0,9, dont CTAT-cancer [12], CanDrA [7], CHASM [8], DEOGEN2 [11], FATHMM-cancer [14] et MVP [26]. Pour confirmer nos résultats, nous avons généré un autre ensemble négatif de même taille de mutations CGC avec un score de consensus de 0, répété l'évaluation et trouvé une forte corrélation des AUC entre les deux évaluations (corrélation de Pearson, r = 0.97 Fichier supplémentaire 4). En termes de comparaison par groupe (Fig. 2c), les algorithmes spécifiques au cancer ont donné de bien meilleurs résultats que les algorithmes généraux (AUC moyenne de 92,2 % contre 79,0 %, test de somme des rangs de Wilcoxon, p = 1,6 × 10 −4 ), et les scores d'ensemble ont montré des scores AUC plus élevés que les autres (AUC moyenne 84,3 % contre 78,7 %, test de somme des rangs de Wilcoxon, p = 0.015).

Pour évaluer les performances des prédictions binaires, nous avons calculé la précision, la sensibilité, la spécificité, la VPP et la VPN (voir la section « Méthodes » Fichier supplémentaire 5). Dans l'analyse, nous avons sélectionné au hasard 1 000 positifs et 1 000 négatifs pour construire les ensembles de référence et utilisé la valeur du score médian de chaque algorithme comme seuil pour faire des prédictions binaires. Le processus a été répété 100 fois pour estimer la moyenne et l'écart type pour chaque métrique. CanDrA a montré la précision globale la plus élevée (moyenne = 0,91), suivi par CTAT-cancer, CHASM, DEOGEN2 et FATHMM-cancer. La sensibilité et la spécificité pour CanDrA, CTAT-cancer, CHASM, DEOGEN2 et FATHMM-cancer se classent systématiquement parmi les premières (Fig. 2d). Certains algorithmes, tels que MutationTaster2 [24], Integrated_fitCons [18], GenoCanyon [17] et LRT [19], avaient des sensibilités et des spécificités très déséquilibrées. De plus, nous avons calculé les mêmes métriques pour les 17 algorithmes avec les prédictions catégorielles par défaut (voir la section « Méthodes » Fichier complémentaire 6). CanDrA et DEOGEN2 ont montré la plus grande précision. Les résultats de cette section donnent un aperçu de la façon dont les algorithmes distinguent les mutations regroupées dans l'espace 3D de celles isolées dans les structures protéiques.

Benchmark 2 : Annotation basée sur la littérature

Les effets fonctionnels de mutations spécifiques sont un thème majeur de la recherche sur le cancer depuis des décennies. Par conséquent, la littérature est une ressource riche pour définir le rôle des mutations somatiques dans le développement du cancer. OncoKB est une base de connaissances en oncologie de précision largement utilisée, guidée par des experts, où les effets fonctionnels des mutations somatiques dans > 400 gènes associés au cancer ont été classés en quatre catégories (oncogènes, probablement oncogènes, probablement neutres et non concluants) en fonction de leur et les effets oncogènes et la signification pronostique et prédictive rapportés dans la littérature [5].

Sur la base de l'annotation OncoKB, nous avons effectué deux comparaisons pour l'évaluation de l'algorithme : (i) oncogène (cas positifs) vs probablement neutre (cas négatifs) (773 vs 497) et (ii) oncogène + probablement oncogène (cas positifs) vs. probablement neutre (cas négatifs) (2327 contre 497) (Fig. 3a). Les deux comparaisons ont donné des résultats très cohérents en termes de scores AUC (corrélation de Pearson r = 0,90 Fig. 3b). Les mutations oncogènes probables ont réduit les scores globaux de l'AUC, probablement en raison d'annotations de la littérature incohérentes pour ces mutations. Les 10 premiers algorithmes de la première comparaison avaient des AUC très proches, allant de 0,71 à 0,75 (Fig. 3b Fichier supplémentaire 7). Nous n'avons pas observé de différences significatives pour les comparaisons par groupe (Fichier supplémentaire 8). Pour les prédictions binaires, nous avons calculé l'exactitude, la sensibilité, la spécificité, la VPP et la VPN (Fichier supplémentaire 9), en utilisant 400 positifs et 400 négatifs sélectionnés au hasard (voir la section « Méthodes »). PROVEAN [29], VEST4 [34] et MPC [22] avaient les valeurs de précision les plus élevées (0,69, 0,69 et 0,68 respectivement PROVEAN, VEST4, MPC, REVEL [30], FATHMM-cancer, CTAT-population [12] étaient les meilleurs en sensibilité et en spécificité (Fig. 3c). De plus, nous avons calculé les mêmes métriques pour les 17 algorithmes avec les prédictions catégorielles par défaut (voir la section « Méthodes » Fichier supplémentaire 10). DEOGEN2 a montré la meilleure précision (moyenne = 0,70). Ces résultats donnent un aperçu de la façon dont les algorithmes prédisent les mutations des conducteurs sur la base des preuves tirées de la littérature.

Évaluation à l'aide d'un ensemble de données de référence basé sur l'annotation OncoKB. une Aperçu du processus d'évaluation. La base de données OncoKB classe les mutations en quatre catégories : oncogènes, probablement oncogènes, probablement neutres et non concluantes. Nous avons considéré les cas « probablement neutres » comme des cas négatifs, et nous avons considéré les mutations « oncogènes » uniquement ou les mutations « oncogènes » et « probablement oncogènes » comme des cas positifs. b Graphiques à barres montrant les scores AUC des 33 algorithmes dans les deux comparaisons. La couleur rouge est pour oncogène plus probablement oncogène vs probablement neutre, et le vert est pour oncogène vs probablement neutre. c Sensibilité et spécificité de 33 algorithmes. Barres d'erreur, moyenne ± 2SD

Benchmark 3 : Effets des mutations de TP53 sur la transactivation du gène cible

TP53 est le gène le plus fréquemment muté dans les cancers humains, et la base de données du CIRC TP53 compile divers types d'informations sur les variants du gène TP53 [40]. Les mutants TP53 avaient été évalués fonctionnellement sur la base des niveaux médians de transactivation, mesurés en pourcentage d'activité de type sauvage, de 8 cibles TP53 (WAF1, MDM2, BAX, h1433s, AIP1, GADD45, NOXA et P53R2). Nous avons construit un ensemble de données de référence en sélectionnant les mutations TP53 avec un niveau de transactivation 50 % comme cas positifs, et toutes les autres comme cas négatifs.

Les cinq premiers algorithmes, classés par scores AUC, étaient CHASM, CTAT-cancer, CTAT-population, DEOGEN2 et VEST4 (Fig. 4b Fichier supplémentaire 11). Alors que quelques algorithmes avaient une AUC de

50 %, la majorité des 33 algorithmes étaient supérieurs à 80 % (Fichier supplémentaire 11). Il convient de noter que CanDrA, le cancer FATHMM et la maladie FATHMM semblent être spécifiques d'un gène, car toutes les mutations TP53 étaient censées être des moteurs. Nous soupçonnons que ces outils donnent intrinsèquement des scores très élevés pour les mutations dans des gènes cancéreux bien connus. En termes de comparaisons par groupe (Fichier supplémentaire 12), les algorithmes qui utilisaient des informations épigénomiques avaient des AUC significativement plus faibles que les autres (test de somme des rangs de Wilcoxon, p = 0,02) les algorithmes spécifiques au cancer ont montré une signification marginale par rapport aux autres algorithmes (test de somme des rangs de Wilcoxon, p = 0,08). Nous avons calculé les précisions en utilisant les scores médians comme seuil pour faire des prédictions binaires pour chaque algorithme et avons constaté que leurs performances variaient considérablement d'un algorithme à l'autre. Le CHASM était le plus précis (AUC moyenne = 0,88) suivi du CTAT-cancer et du CTAT-population (Fichier supplémentaire 13). MetaSVM avait la précision la plus faible (moyenne = 0,44). Plusieurs algorithmes, dont Integrated_fitCons, LRT et SIFT, ont montré des rangs de sensibilité et de spécificité très déséquilibrés (Fig. 4c), du fait que ces algorithmes fournissent les mêmes scores pour la plupart des mutations dans cet ensemble de données de référence. CHASM, CTAT-cancer, CTAT-population, VEST4 et DEOGEN2 avaient à la fois de bonnes sensibilités et spécificités. Pour les 15 algorithmes qui ont été fournis avec des seuils recommandés dans leurs études originales, nous avons calculé les cinq mêmes métriques de performance en fonction de leurs seuils explicites (voir la section « Méthodes » Fichier supplémentaire 14). Ces résultats présentent une vue informative de la façon dont les algorithmes distinguent les moteurs putatifs de mutation TP53 qui ont eu un impact élevé sur l'activité de transcription cible des passagers.

Évaluation à l'aide d'un ensemble de données de référence basé sur les effets de transactivation des mutations de TP53. une Aperçu du processus d'évaluation. L'activité transcriptionnelle spécifique du promoteur a été mesurée pour 8 cibles de la protéine p53. Des mutations avec une activité de transcription médiane ≤ 50 % ont été utilisées comme cas positifs, et d'autres ont été utilisées comme cas négatifs. b Graphique ROC et scores AUC pour les 10 meilleurs algorithmes. c Sensibilité et spécificité de 33 algorithmes. Barres d'erreur, moyenne ± 2SD

Benchmark 4 : Essais de formation de tumeurs in vivo

Une étude récente a utilisé un test de formation de tumeurs in vivo pour évaluer systématiquement l'oncogénicité d'un grand nombre d'allèles mutants sélectionnés à partir de > 5000 tumeurs [41]. Dans l'essai, des lignées cellulaires HA1E-M qui exprimaient de manière stable l'allèle mutant individuel ont été injectées à des souris. Les allèles mutants qui ont formé n'importe quelle tumeur > 500 mm3 en 130 jours ont été considérés comme des mutations oncogènes et donc utilisés comme cas positifs dans notre étude, et tous les autres allèles ont été utilisés comme cas négatifs (Fig. 5a). Sur la base de l'annotation fonctionnelle de ces 71 mutations (45 positifs contre 26 négatifs), nous avons évalué les 33 algorithmes. Cinq algorithmes, dont CHASM, PROVEAN, PrimateAI [28] et REVEL, avaient un score AUC de > 70% (Fig. 5b Fichier supplémentaire 15), tandis que six algorithmes étaient < 60%. Les algorithmes spécifiques au cancer n'ont pas surpassé les autres (Fichier supplémentaire 16), et il n'y avait pas non plus de différences significatives pour les autres comparaisons basées sur les groupes.

Évaluation à l'aide d'un ensemble de données de référence basé sur la formation de tumeurs in vivo. une Aperçu du processus d'évaluation. Des lignées cellulaires stables exprimant des allèles mutants ont été injectées à des souris. Les mutations qui pouvaient former des tumeurs de plus de 500 mm 3 en 130 jours ont été considérées comme des mutations fonctionnelles et utilisées comme positives, et d'autres mutations ont été utilisées comme négatives. b Graphique ROC et scores AUC pour les 10 meilleurs algorithmes. c Sensibilité et spécificité de 33 algorithmes. Barres d'erreur, moyenne ± 2SD

En utilisant les scores médians comme seuils, nous avons comparé les prédictions catégorielles aux vraies étiquettes. PROVEAN avait la précision la plus élevée (0,72), suivi de PrimateAI et CHASM (Fichier supplémentaire 17). La plupart des algorithmes avaient des classements équilibrés en sensibilité et spécificité (Fig. 5c). Cependant, MutationTaster2, GenoCanyon et LRT étaient les trois premiers en termes de sensibilité, mais avaient les spécificités les plus faibles. En effet, ces trois algorithmes ont donné les mêmes scores pour la plupart des mutations dans cette analyse de référence. Les sorties catégorielles, directement fournies par 17 algorithmes comme sorties, ont montré à PROVEAN la précision la plus élevée (précision moyenne = 0,71 Fichier supplémentaire 18). Les résultats de cette section ont fourni des informations sur la façon dont ces algorithmes ont pu différencier les mutations cancéreuses avec un potentiel de formation de tumeurs de celles qui sont improbables à l'origine de la formation de tumeurs.

Benchmark 5 : Essais de viabilité cellulaire in vitro

Une conséquence fonctionnelle courante d'une mutation motrice est de conférer un avantage préférentiel de croissance ou de survie à la cellule, et cet effet peut être directement évalué par des tests cellulaires. Nous avons récemment développé une approche de biologie des systèmes pour tester les effets fonctionnels des mutations sur une base individuelle à l'aide d'un système in vitro [42]. En bref, nous avons généré des clones de cadre de lecture ouvert (ORF) mutés par expression codée par une approche HiTMMoB [43], puis testé les effets des ORF mutés dans des cellules Ba/F3 dépendantes de l'IL-3 (une lignée cellulaire de leucémie sensible, fréquemment utilisés dans le criblage de médicaments) et des cellules EGF et insulinodépendantes MCF10A (une lignée cellulaire épithéliale du sein non tumorigène) en parallèle en utilisant une approche lentivirale, avec des homologues de type sauvage ainsi que des contrôles expérimentaux négatifs et positifs. Sur la base des effets sur la viabilité cellulaire dans les deux modèles cellulaires, nous avons généré une annotation fonctionnelle de consensus pour chaque mutation testée sur la base d'une logique de « porte OU ». Les mutations avec des effets détectables (c. En utilisant cette approche, notre étude récente [42] a rapporté l'annotation fonctionnelle d'un grand nombre de mutations somatiques. Pour augmenter la robustesse de notre évaluation, nous avons sélectionné un autre

200 mutations du pool de mutations TCGA, ont effectué les mêmes tests de viabilité cellulaire et obtenu les annotations fonctionnelles informatives de 164 mutations (Fichier supplémentaire 19). Nous avons effectué l'évaluation de l'algorithme à l'aide de trois ensembles de données annotés par l'expérience : (i) l'ensemble de données publié (797 au total positif contre négatif : 321 contre 476), (ii) le nouvel ensemble de données (164 au total positif contre négatif : 55 contre 109) et (iii) l'ensemble de données combiné (961 au total positif vs négatif : 376 vs 585) (Fig. 6a Fichier supplémentaire 19).

Évaluation à l'aide d'un ensemble de données de référence basé sur la viabilité cellulaire in vitro. une Aperçu du processus d'évaluation. Pour chaque mutation, nous avons effectué des tests de viabilité cellulaire dans deux lignées cellulaires « informatrices », Ba/F3 et MCF10A. Les appels au consensus ont été déduits en intégrant les effets fonctionnels observés dans Ba/F3 et MCF10A. Nous avons considéré les mutations activatrices, inactivantes, inhibitrices et non inhibitrices comme des cas positifs, tandis que les mutations neutres étaient considérées comme négatives. b Les courbes ROC des 33 algorithmes sont basées sur un ensemble combiné de mutations publiées (Ng et al. [42]) et de mutations nouvellement générées dans cette étude. c Graphiques à barres montrant les scores AUC des 33 algorithmes dans les trois ensembles de données : nouvelles données fonctionnelles (rouge), données fonctionnelles publiées (vert) et l'ensemble combiné (bleu). Boxplots montrant les différences d'AUC entre deux groupes d'algorithmes avec ou sans certaines fonctionnalités. p les valeurs sont basées sur le test de somme des rangs de Wilcoxon. Sensibilité et spécificité de 33 algorithmes. Barres d'erreur, moyenne ± 2SD

Nous avons constaté que le pouvoir prédictif des différents algorithmes variait considérablement. Sur la base de l'ensemble de données publié, les trois principaux algorithmes étaient CTAT-cancer (AUC = 77,0%), CHASM (AUC = 75,4%) et CanDrA (AUC = 72,9%) (Fig. 6b Fichier supplémentaire 20A). Sur la base du nouvel ensemble de données, les trois principaux algorithmes étaient PrimateAI (AUC = 81,4%), REVEL (AUC = 77,6%) et CTAT-cancer (AUC = 77,5%) (Fig. 6b Fichier supplémentaire 20B). Sur la base de l'ensemble de données combiné, les principaux algorithmes étaient CTAT-cancer (AUC = 77,1%), CHASM (AUC = 75,7%) et PrimateAI (AUC = 74,0%), alors que quelques algorithmes avaient un score AUC proche de 0,5 (Fig. 6b Fiche complémentaire 20C). Le nouvel ensemble de données a généralement abouti à des scores AUC plus élevés que l'ensemble de données publié, avec les plus grandes différences observées pour la maladie FATHMM [13], MetaLR et MetaSVM (différence AUC = 0,21, 0,14 et 0,14 respectivement). Ces différences peuvent être dues aux caractéristiques intrinsèques des ensembles de mutations de référence.

Nous avons utilisé l'ensemble de données combiné pour les analyses en aval. Dans les comparaisons de groupes, les algorithmes spécifiques au cancer étaient significativement meilleurs que les autres (AUC moyenne 72,0 % contre 63,5 %, test de la somme des rangs de Wilcoxon, p = 7 × 10 -4 ). Les trois premiers algorithmes en termes de précision globale étaient CTAT-cancer (moyenne = 0,70), PrimateAI (moyenne = 0,70) et CHASM (moyenne = 0,69) (Fichier supplémentaire 21). Les trois algorithmes figuraient parmi les meilleurs en termes de sensibilité et de spécificité (Fig. 6d). Pour les 17 algorithmes avec des prédictions catégorielles par défaut, nous avons calculé les mêmes métriques en utilisant le même ensemble de référence (Fichier supplémentaire 22). Les trois principaux algorithmes étaient PrimateAI, PROVEAN et DEOGEN2. Étant donné que ces données expérimentales (en particulier les nouvelles données) ont été générées indépendamment du développement de l'algorithme, ces résultats fournissent une évaluation précieuse de la façon dont les algorithmes identifient les mutations motrices ayant un effet sur la viabilité cellulaire in vitro.

Évaluation globale

À partir des sections ci-dessus, nous avons évalué les performances de différents algorithmes en utilisant cinq critères différents. Chaque benchmark utilise une source d'information indépendante pour définir les candidats à la mutation conducteur et passager. Les cas positifs et les cas négatifs inclus dans chaque ensemble de données de référence sont assez distincts. Pour les cas positifs, le schéma de regroupement 3D, l'annotation OncoKB, la transactivation des mutations TP53, les tests de formation de tumeurs in vivo et les tests de viabilité cellulaire in vitro contenaient respectivement 56,1 %, 68,1 %, 46,4 %, 15,6 % et 54,5 % de mutations uniques ( 7a). Les pourcentages de négatifs uniques étaient encore plus élevés (Fig. 7b).

Évaluation globale. une, b Le résumé de chevauchement de positif (une) et les cas négatifs (b) dans les cinq ensembles de données de référence. c Corrélations des classements de performance des 33 algorithmes basés sur les cinq ensembles de données de référence. Une carte thermique montrant le rang des 33 algorithmes en fonction de chaque ensemble de données de référence. Les classements sont étiquetés pour les cinq premiers algorithmes uniquement. Rouge, rangs supérieurs, et blanc, rangs inférieurs. Les caractéristiques des 33 algorithmes sont affichées en haut, indiquées par la couleur (gris, non et noir, oui)

Les cinq analyses de référence ont montré une bonne cohérence globale : la corrélation de Spearman la plus élevée des scores AUC a été observée entre le test de viabilité cellulaire in vitro et les modèles de clustering 3D (Fig. 7c). Fait intéressant, malgré la diversité des données de référence utilisées, nous avons observé une grande convergence sur quelques algorithmes les plus performants (Fig. 7d, les cinq premiers algorithmes mis en évidence pour chaque référence). CHASM et CTAT-cancer se sont classés quatre fois parmi les 5 premiers, mais ils ne figuraient pas parmi les premiers dans le benchmark OncoKB et DEOGEN2 et PrimateAI figuraient parmi les 5 premiers à trois reprises, y compris OncoKB. Quelques autres, dont VEST4, PROVEAN, MPC, CanDrA, REVEL, CATA-population et FATHMM-cancer, se sont classés parmi les 5 premiers dans un ou deux benchmarks. À l'exception de CTAT-cancer et REVEL, qui étaient uniquement basés sur des prédicteurs publiés, les algorithmes les plus performants utilisent un large éventail de fonctionnalités, notamment les scores publiés, le contexte de séquence, les caractéristiques des protéines et la conservation. Collectivement, CHASM, CTAT-cancer, DEOGEN2 et PrimateAI peuvent représenter le meilleur choix pour prédire les mutations motrices du cancer.


Analyse au niveau de la population des mutations évoluées qui sous-tendent les améliorations de l'hémicellulose végétale et de la fermentation de la cellulose par Clostridium phytofermentans

Fond: La complexité des parois cellulaires végétales crée de nombreux défis pour la décomposition microbienne. Clostridium phytofermentans, une bactérie anaérobie isolée du sol forestier, se décompose directement et utilise de nombreux glucides de la paroi cellulaire des plantes. L'objectif de cette recherche est de comprendre les contraintes sur les taux de décomposition des plantes par Clostridium phytofermentans et d'identifier les mécanismes moléculaires qui peuvent surmonter ces limitations.

Résultats: L'évolution expérimentale via des transferts en série répétés au cours d'une croissance exponentielle a été utilisée pour sélectionner des génotypes de C. phytofermentans qui se développent plus rapidement sur cellobiose, cellulose et xylane. Pour identifier les mutations sous-jacentes, une moyenne de 13 600 000 lectures appariées ont été générées par population, ce qui a entraîné une couverture ∼ 300 fois supérieure à chaque site du génome. Les mutations avec des fréquences alléliques de 5% ou plus ont pu être identifiées avec une confiance statistique. De nombreuses mutations se trouvent dans les gènes liés aux glucides, y compris les régions promotrices des glycoside hydrolases et les substitutions d'acides aminés dans les protéines de transport ABC impliquées dans l'absorption des glucides, les capteurs de transduction du signal qui détectent des glucides spécifiques, les protéines qui affectent l'exportation d'enzymes extracellulaires et les régulateurs de spécificité inconnue . La modélisation structurelle des protéines du complexe transporteur ABC suggère que des mutations dans ces gènes peuvent altérer la reconnaissance des glucides par les protéines de liaison au substrat et la communication entre la face intercellulaire de la transmembrane et les protéines de liaison à l'ATPase.

Conclusion : L'évolution expérimentale a été efficace pour identifier les contraintes moléculaires sur le taux de fermentation de l'hémicellulose et de la cellulose et sélectionnée pour le gain putatif de mutations fonctionnelles qui n'apparaissent généralement pas dans les criblages génétiques moléculaires traditionnels. Les résultats révèlent de nouvelles stratégies pour l'évolution et l'ingénierie des micro-organismes pour une croissance plus rapide sur les glucides végétaux.

Déclaration de conflit d'intérêts

Intérêts concurrents : Qteros n'a joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit. Le financement de Qteros n'a pas modifié l'adhésion des auteurs à toutes les politiques de PLOS ONE sur le partage de données et de matériel.

Les figures

Figure 1. Représentation schématique du système adaptatif…

Figure 1. Représentation schématique du processus d'évolution adaptative à partir d'un fondateur isogénique.

Figure 2. Croissance, utilisation de cellobiose et éthanol…

Figure 2. Croissance, utilisation du cellobiose et production d'éthanol de populations adaptées au cellobiose et du fondateur.

Figure 3. Croissance et production d'éthanol de…

Figure 3. Croissance et production d'éthanol de populations adaptées au xylane et du fondateur.

Figure 4. Formation des principaux produits de fermentation par…

Figure 4. Formation de produits de fermentation majeurs par les populations adaptées à la cellulose et fondateur après 10 jours…

Figure 5. Gènes et régions intergéniques où…

Figure 5. Gènes et régions intergéniques où de multiples mutations ont été détectées.

Des points chauds de mutation qui étaient…

Figure 6. Les modèles d'homologie suggèrent que le…

Figure 6. Les modèles d'homologie suggèrent que les mutations sélectionnées dans une protéine de liaison au transporteur ABC…

Figure 7. La modélisation d'homologie suggère qu'un…

Figure 7. La modélisation d'homologie suggère qu'une mutation sélectionnée dans un domaine transmembranaire de transporteur ABC…

Figure 8. Localisation des SNP dans Cphy…

Figure 8. Localisation des SNP dans les lignées adaptées à la cellulose Cphy 3212.

Figure 9. Aperçu de la détection des glucides, de la saccharification…

Figure 9. Aperçu des systèmes de détection, de saccharification et de transport des glucides avec l'emplacement approximatif de…


Conclusion

Nous fournissons une analyse complète du génome de la mutagenèse somatique dans les cellules humaines. Notre modèle de mutagenèse basale offre une meilleure compréhension de la perte inévitable de l'intégrité du génome et des forces protectrices qui contrecarrent ce processus, y compris la niche des cellules souches et la réparation de l'ADN. La découverte d'expositions à des mutagènes spécifiques à un type cellulaire et de leurs conséquences sur le devenir des cellules dans le rein est une preuve de principe soutenant l'importance de comprendre les processus mutationnels actifs dans les cellules humaines saines pour comprendre le cancer. Les données WGS de génomes uniques constituent un outil précieux pour atteindre l'objectif car elles permettent l'analyse de la partie non codante du génome. Dans l'ensemble, notre classification complète des processus mutagènes introduit une nouvelle perspective pour les progrès cliniques dans la prévention des maladies liées au cancer et à l'âge.


Contenu

Depuis que les toutes premières séquences de la protéine insuline ont été caractérisées par Fred Sanger en 1951, les biologistes tentent d'utiliser ces connaissances pour comprendre la fonction des molécules. [2] [3] Lui et les découvertes de ses collègues ont contribué au séquençage réussi du premier génome basé sur l'ADN. [4] La méthode utilisée dans cette étude, appelée « méthode de Sanger » ou séquençage de Sanger, a constitué une étape importante dans le séquençage de molécules à long brin telles que l'ADN. Cette méthode a finalement été utilisée dans le projet du génome humain. [5] Selon Michael Levitt, l'analyse des séquences est née dans la période 1969-1977. [6] In 1969 the analysis of sequences of transfer RNAs was used to infer residue interactions from correlated changes in the nucleotide sequences, giving rise to a model of the tRNA secondary structure. [7] In 1970, Saul B. Needleman and Christian D. Wunsch published the first computer algorithm for aligning two sequences. [8] Over this time, developments in obtaining nucleotide sequence improved greatly, leading to the publication of the first complete genome of a bacteriophage in 1977. [9] Robert Holley and his team in Cornell University were believed to be the first to sequence an RNA molecule. [dix]


Remerciements

This work was supported by NIH grants 3R01MH101814-02S1, HHSN26820100029C, and 5U01HG006569. We would like to thank the Geuvadis Consortium, the GTEx Consortium, the members of the Lappalainen lab, the former GSA group at the Broad, and the bioinformatics team of the New York Genome Center. The Genotype-Tissue Expression (GTEx) Project was supported by the Common Fund of the Office of the Director of the National Institutes of Health (commonfund.nih.gov/GTEx). Additional funds were provided by the NCI, NHGRI, NHLBI, NIDA, NIMH, and NINDS. Donors were enrolled at Biospecimen Source Sites funded by NCISAIC-Frederick, Inc. (SAIC-F) subcontracts to the National Disease Research Interchange (10XS170), Roswell Park Cancer Institute (10XS171), and Science Care, Inc. (X10S172). The Laboratory, Data Analysis, and Coordinating Center (LDACC) was funded through a contract (HHSN268201000029C) to The Broad Institute, Inc. Biorepository operations were funded through an SAIC-F subcontract to Van Andel Institute (10ST1035). Additional data repository and project management were provided by SAIC-F (HHSN261200800001E). The Brain Bank was supported by a supplement to University of Miami grant DA006227. Statistical Methods development grants were made to the University of Geneva (MH090941), the University of Chicago (MH090951 and MH090937), the University of North Carolina - Chapel Hill (MH090936) and to Harvard University (MH090948).


Molecular dynamics and mutational analysis of a channelopathy mutation in the IIS6 helix of Ca V 1.2

A channelopathy mutation in segment IIS6 of Ca(V)1.4 (I745T) has been shown to cause severe visual impairment by shifting the activation and inactivation curves to more hyperpolarized voltages and slowing activation and inactivation kinetics. A similar gating phenotype is caused by the corresponding mutation, I781T, in Ca(V)1.2 (midpoint of activation curve (V(0.5)) shifted to -37.7 +/- 1.2 mV). We show here that wild-type gating can partially be restored by a helix stabilizing rescue mutation N785A. V(0.5) of I781T/N785A (V(0.5) = -21.5 +/- 0.6 mV) was shifted back towards wild-type (V(0.5) = -9.9 +/- 1.1 mV). Homology models developed in our group (see accompanying article for details) were used to perform Molecular Dynamics-simulations (MD-simulations) on wild-type and mutant channels. Systematic changes in segment IIIS6 (M1187-F1194) and in helix IIS6 (N785-L786) were studied. The simulated structural changes in S6 segments of I781T/N785A were less pronounced than in I781T. A delicate balance between helix flexibility and stability enabling the formation of hydrophobic seals at the inner channel mouth appears to be important for wild-type Ca(V)1.2 gating. Our study illustrates that effects of mutations in the lower part of IIS6 may not be localized to the residue or even segment being mutated, but may affect conformations of interacting segments.

Les figures

Structural details and location of…

Structural details and location of I781 hotspot in the open Ca v 1.2…

Backbone angles of wild-type and…

Backbone angles of wild-type and mutant channels. (A) Backbone angle (ψ) of position…

Structural consequences of mutations on…

Structural consequences of mutations on pore helix stability revealed by MD simulations. (A)…

Pore helices of I781T/N785A and…

Pore helices of I781T/N785A and I781T/N785G double mutants. (A) Ribbon presentation of the…

Changes in hydrophobic-hydrophobic helix interactions.…

Changes in hydrophobic-hydrophobic helix interactions. (A) Ribbon presentation of pore forming S6 segments…

Functional analysis of Ca V…

Functional analysis of Ca V 1.2 mutants in positions I781 and N785. Averaged…

Evidence for membrane localization of…

Evidence for membrane localization of mutant N785A. Transiently transfected ts-A201 cells expressing wild-type…


Computational modeling of protein mutant stability: analysis and optimization of statistical potentials and structural features reveal insights into prediction model development

Fond: Understanding and predicting protein stability upon point mutations has wide-spread importance in molecular biology. Several prediction models have been developed in the past with various algorithms. Statistical potentials are one of the widely used algorithms for the prediction of changes in stability upon point mutations. Although the methods provide flexibility and the capability to develop an accurate and reliable prediction model, it can be achieved only by the right selection of the structural factors and optimization of their parameters for the statistical potentials. In this work, we have selected five atom classification systems and compared their efficiency for the development of amino acid atom potentials. Additionally, torsion angle potentials have been optimized to include the orientation of amino acids in such a way that altered backbone conformation in different secondary structural regions can be included for the prediction model. This study also elaborates the importance of classifying the mutations according to their solvent accessibility and secondary structure specificity. The prediction efficiency has been calculated individually for the mutations in different secondary structural regions and compared.

Résultats: Results show that, in addition to using an advanced atom description, stepwise regression and selection of atoms are necessary to avoid the redundancy in atom distribution and improve the reliability of the prediction model validation. Comparing to other atom classification models, Melo-Feytmans model shows better prediction efficiency by giving a high correlation of 0.85 between experimental and theoretical Delta Delta G with 84.06% of the mutations correctly predicted out of 1538 mutations. The theoretical Delta Delta G values for the mutations in partially buried beta-strands generated by the structural training dataset from PISCES gave a correlation of 0.84 without performing the Gaussian apodization of the torsion angle distribution. After the Gaussian apodization, the correlation increased to 0.92 and prediction accuracy increased from 80% to 88.89% respectively.

Conclusion: These findings were useful for the optimization of the Melo-Feytmans atom classification system and implementing them to develop the statistical potentials. It was also significant that the prediction efficiency of mutations in the partially buried beta-strands improves with the help of Gaussian apodization of the torsion angle distribution. All these comparisons and optimization techniques demonstrate their advantages as well as the restrictions for the development of the prediction model. These findings will be quite helpful not only for the protein stability prediction, but also for various structure solutions in future.


Voir la vidéo: Analyse de données: ACP sous SPSS (Février 2023).