Informations

Comment définir le phénotype dans l'analyse GWAS ?

Comment définir le phénotype dans l'analyse GWAS ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Dans l'analyse GWAS, mon phénotype d'échantillon animal est de savoir si un individu meurt ou survit. Et j'ai tous les échantillons de temps de mort. Comment définir le phénotype dans l'analyse GWAS ?


Simplement, tout d'abord, vous pouvez regrouper les échantillons en animaux survivants et en échantillons morts et vous avez un phénotype binaire.

Dans une approche différente, vous pouvez utiliser le temps de survie (temps jusqu'à la mort) comme phénotype variable ordinal. Si vous le souhaitez, vous pouvez utiliser l'échantillon survivant en leur affectant une grande valeur de temps de mort.

Dans la troisième approche, vous pouvez regrouper le temps de survie (temps jusqu'à la mort) dans le $n$ groupes par la procédure simple comme $k$-moyens. et vous avez une variable ordinale à gros grains que vous pouvez ajouter au groupe d'échantillons survivant à la fin de The Spectrum.


12.9 - Tests statistiques dans GWAS

Dans les études GWAS, un test est généralement effectué pour chaque gène. Plusieurs tests sont disponibles.

Dans le cas le plus simple, nous avons un phénotype catégorique avec deux catégories. Avec les 3 génotypes, cela crée une table 2x3. Les nombres dans le tableau sont le nombre d'échantillons dans l'étude avec une combinaison particulière de génotype et de phénotype.


AA=0
Aa=1
aa=2
Le total
sain
(N_<11>)
(N_<12>) (N_<13>) (R_<1>)
maladie
(N_<21>) (N_<22>) (N_<23>) (R_<2>)
Le total

En supposant que les échantillons sont indépendants (par exemple, ils ne sont pas liés), il n'y a pas de structure de population et pas de covariables, alors le test exact de Fisher ou un test du chi carré peut être fait pour déterminer si le phénotype est associé au génotype.

Un autre test couramment utilisé (là encore pour des échantillons indépendants et aucune structure de population) est le test de Cochran-Armitage :

Le terme (N_<1i>R_<2>-N_<2i>R_<1>) prend essentiellement la différence de comptage entre les lignes, après repondération pour égaliser les totaux des lignes. (Pour voir cela, notez que (sum_^ <3>N_<1i>R_<2>=sum_^3 N_<2i>R_<1>)). Les poids (t_i) sont sélectionnés en fonction du modèle que vous souhaitez tester. Par exemple. si vous faites l'hypothèse que l'allèle A est dominant alors les poids sont (t_1=t_2=1, t_3=0). Si vous faites l'hypothèse que les effets de A et a sont additifs, alors les poids sont (t_1=1, t_2=2, t_3=3). D'autres modèles sont également possibles et peuvent être testés en utilisant différents poids.

Lorsque les échantillons sont liés, qu'il existe une structure de population ou qu'il existe des covariables environnementales, les modèles de régression sont plus flexibles que les modèles pour tableaux. Pour les traits binaires comme dans le tableau ci-dessus, nous pouvons utiliser la régression logistique pour formuler la probabilité d'un des phénotypes (par rapport à l'autre) qui fournit un cadre très flexible similaire au modèle linéaire. Lorsque le trait est quantitatif, des modèles linéaires ordinaires peuvent être utilisés. Le phénotype peut être considéré comme catégorique (en utilisant les variables indicatrices comme prédicteurs) ou ordinal (en utilisant les 0,1,2 comme valeurs numériques.)

Le meilleur logiciel que je connaisse pour les études GWAS est PLINK. Bien que PLINK soit un logiciel autonome, les auteurs fournissent également un lien vers R appelé Rplinkseq. peut être utilisé. " PLINK peut gérer l'haplotypage, le filtrage et tous les modèles actuellement populaires pour l'analyse GWAS. Cependant, la gestion des données telle que le filtrage, la sélection d'échantillons ou de fonctionnalités, etc. est probablement mieux effectuée dans R.

Un problème dans les études GWAS est que les tests multiples n'ont pas été entièrement élaborés. En effet, les multiples méthodes de test dont nous savons qu'elles fonctionnent nécessitent une indépendance entre les tests. Cependant, en raison de LD, si vous utilisez un ensemble dense de SNP, les corrélations entre les tests peuvent être élevées. L'haplotypage peut combiner plusieurs SNP en un plus petit nombre de génotypes plus complexes (avec peut-être plus de 2 allèles), ce qui améliore généralement l'analyse en ayant une association plus élevée avec le phénotype, en ayant moins de caractéristiques à comparer et en réduisant la LD entre les caractéristiques. Dans les études QTL, les génotypes sont supposés être des marqueurs des loci causaux, plutôt que d'être eux-mêmes causaux. Cela tire parti de la LD, car les marqueurs plus corrélés aux régions causales devraient avoir une association plus forte avec le phénotype. Les chercheurs tirent parti de la corrélation entre les valeurs p et tracent le -log10 (valeurs p) en fonction de la distance physique sur le chromosome dans un "graphe de Manhattan". L'axe des x de ce graphique représente les positions chromosomiques de chaque caractéristique au sein de chaque chromosome, classées par numéro de chromosome (et généralement codées par couleur afin qu'il soit facile de voir quelles caractéristiques se trouvent dans quel chromosome). L'axe des y représente les valeurs p transformées. Étant donné que les valeurs p les plus petites sont intéressantes, l'axe des y est généralement -log10 (valeur p), ce qui met l'accent sur les petites valeurs. Les QTL "réels" sont supposés être indiqués par un pic local de petites valeurs p.


Résumé

Les études d'association pangénomique (GWAS) identifient des variantes génétiques associées à des traits ou à des maladies. GWAS ne lie jamais directement les variantes aux mécanismes de régulation. Au lieu de cela, l'annotation fonctionnelle des variantes est généralement déduite par post-hoc analyses. Une classe spécifique de méthodes basées sur l'apprentissage en profondeur permet de prédire les effets régulateurs par variante sur plusieurs caractéristiques de la chromatine spécifiques à un type de cellule. Nous décrivons ici « DeepWAS », une nouvelle approche qui intègre ces prédictions d'effets régulateurs de variantes uniques dans un cadre GWAS multivarié. Ainsi, des variantes uniques associées à un trait ou à une maladie sont directement couplées à leur impact sur une caractéristique de la chromatine dans un type cellulaire. Jusqu'à 61 SNP régulateurs, appelés dSNP, étaient associés à la sclérose en plaques (SEP, 4 888 cas et 10 395 témoins), au trouble dépressif majeur (TDM, 1 475 cas et 2 144 témoins) et à la taille (5 974 personnes). Ces variantes étaient principalement non codantes et atteignaient au moins une signification nominale dans le GWAS classique. La précision de la prédiction était plus élevée pour DeepWAS que pour les modèles GWAS classiques pour 91% des dSNP significatifs à l'échelle du génome et spécifiques à la SEP. Les DSNP ont été enrichis en loci de traits quantitatifs d'expression et de méthylation publics ou appariés à une cohorte et nous avons démontré le potentiel de DeepWAS pour générer des hypothèses fonctionnelles testables basées sur les seules données de génotype. DeepWAS est disponible sur https://github.com/cellmapslab/DeepWAS.


1. Introduction

Démêler les modèles génétiques complexes sous-jacents aux phénotypes complexes a déjà été difficile. Alors que les études individuelles d'association à l'échelle du génome (GWAS) peuvent fournir un aperçu des fondements génétiques des phénotypes mesurés, elles impliquaient généralement des associations de variantes génétiques avec un ou quelques phénotypes. Le domaine de la phénomique implique la collecte de données phénotypiques de grande dimension d'un organisme, dans le but de capturer le phénotype global et complet (le “Phénome”) de l'organisme (Houle et al., 2010). Les études d'association impliquant de nombreux phénotypes mesurés, par exemple, Phenome-Wide Association Studies (PheWAS) présentent de nombreux avantages, en ce sens qu'elles permettent d'élucider les réseaux interconnectés complexes entre les phénotypes et leurs fondements génétiques, et permettent également la détection de la pléiotropie ( Pendergrass et al., 2011, 2013, 2015 Hall et al., 2014).

La pléiotropie est le phénomène dans lequel un gène affecte plusieurs phénotypes (Tyler et al., 2009). On peut également avoir une vision centrée sur le locus de la pléiotropie impliquant un seul SNP affectant plusieurs phénotypes (Solovieff et al., 2013). Alors que la pléiotropie était autrefois considérée comme une exception aux règles de la génétique mendélienne, elle a depuis été proposée comme une propriété commune et centrale inhérente aux systèmes biologiques (Tyler et al., 2009). Des associations multi-phénotypes (MPA) peuvent être détectées dans les résultats des études d'association à l'échelle du génome (GWAS) en tant que polymorphismes nucléotidiques uniques (SNP) au sein de gènes/régions fonctionnelles ayant plusieurs associations phénotypiques significatives. Cela peut être considéré comme un modèle pléiotrope lorsque les deux phénotypes sont apparemment sans rapport. Deux principaux modèles d'AMP existent dans les résultats de GWAS. Les AMP de type 1 se produisent lorsqu'un seul SNP dans une région fonctionnelle (comme un gène) est associé à plus d'un phénotype, tandis que les AMP de type 2 se produisent lorsque deux SNP différents dans une même région fonctionnelle ont des associations de phénotypes différentes (Solovieff et al., 2013 Hackinger et Zeggini, 2017) (Figures 1A,B).

Figure 1. Signatures de l'AMP. (UNE) MPA de type 1 : un gène est associé à plus d'un phénotype en raison d'un seul variant au sein du gène associé à plusieurs phénotypes. (B) MPA de type 2 : un gène est associé à plus d'un phénotype en raison de SNP alternatifs au sein du gène ayant différentes associations phénotypiques (figure créée à partir des informations présentées dans Solovieff et al., 2013). (C) Combinaisons complexes de signatures de type 1 et de type 2.

L'analyse multivariée des résultats des études GWAS sur de nombreux phénotypes a permis d'étudier les relations complexes entre les gènes et les phénotypes, y compris les relations pléiotropiques et le regroupement de variantes en fonction de leurs associations phénotypiques. Bon nombre de ces études ont impliqué l'analyse des associations de SNP avec des traits complexes de maladies humaines. Certaines études ont considéré la pléiotropie comme des gènes et des SNP associés à plus d'un phénotype, et ont constaté que les gènes pléiotropes avaient tendance à être plus longs et que les SNP au sein des gènes pléiotropes étaient plus susceptibles d'être exoniques (Sivakumaran et al., 2011). L'analyse de réseau de co-expression génétique pondérée (WGCNA) a été étendue pour regrouper les SNP en fonction de leurs associations phénotypiques à l'aide d'une matrice de coefficients bêta, suivie d'un regroupement hiérarchique de la matrice de chevauchement topologique (Levine et al., 2017), et montre comment le les clusters résultants peuvent être utilisés pour produire des scores polygéniques. Gupta et al. (2011) ont introduit un algorithme de biclustering, regroupant simultanément les SNP et les phénotypes dans une matrice de coefficients de régression. Des approches basées sur des réseaux ont été développées pour construire des réseaux bipartites d'associations de phénotypes gène-maladie à partir de GWAS, et construire des projections de réseau de ce réseau bipartite résultant en des réseaux de similarité de maladie et de similarité génique (Goh et Choi, 2012). Bien que ces études fournissent une base de référence pour l'utilisation d'approches multivariées et en réseau pour l'analyse des résultats GWAS, il n'existe, à notre connaissance, aucune méthode qui caractérise les signatures MPA détaillées des gènes et aucune méthode qui regroupe les gènes sur la base de ces signatures détaillées. Le simple fait de regrouper les gènes en fonction de leurs associations de phénotypes ne capturera pas la grande quantité de possibilités combinatoires de signatures de type 1 et de type 2 qu'un gène donné peut abriter (Figure 1C), en particulier lorsque l'étude GWAS multi-phénotype implique des millions de variantes et des centaines de phénotypes .

Des méthodes de GWAS multi-traits ont également été développées, associant des variants à des groupes de phénotypes (voir par exemple Stephens, 2013 Furlotte et Eskin, 2015 Cichonska et al., 2016 Kaakinen et al., 2017a,b Mägi et al., 2017 Porter et OReilly, 2017 Thoen et al., 2017). Mägi et al. (2017) et Kaakinen et al. (2017a) présentent des méthodes intéressantes pour identifier l'association entre les SNP/gènes et plusieurs phénotypes en utilisant les phénotypes comme prédicteurs dans la modélisation du génotype. Ce sont des méthodes précieuses pour déterminer à quels phénotypes/ensembles de phénotypes un gène ou un SNP donné est associé et qui sont plus sophistiquées que les approches GWAS univariées standard. Cependant, ces méthodes ne se concentrent pas sur la capacité de caractériser et de regrouper les gènes sur la base de la collection de topologies d'associations SNP-phénotype au sein du gène.

Nous présentons la décomposition MPA et le clustering de signature, une approche basée sur un réseau impliquant un espace de jeu de puissance construit, dans lequel le clustering distingue les gènes en fonction de la topologie détaillée de leur signature MPA unique. La décomposition de l'AMP est une approche post-GWAS/post-PheWAS conçue pour prendre les résultats d'une analyse de type association à l'échelle du génome multi-phénotype (telle qu'une GWAS standard et univariée exécutée sur plusieurs phénotypes ou une approche multi-phénotype telle comme SCOPA (Mägi et al., 2017) et fournit un cadre permettant la représentation mathématique précise de l'architecture des associations variant-phénotype au sein des régions (MPA/signatures pléiotropes), et permet ainsi à ces régions (telles que les gènes) d'être regroupés sur la base de ces signatures complexes.


Résultats et discussion

Associations phénotypiques multiples

Sur un total de 3 792 566 règles extraites, 765 318 règles dont lift ≥ 1 et confidence ≥ 0,5 ont été retenues. 136 551 règles encodées pour les niveaux TG et LDL. Sur 19 837 règles liées à des niveaux élevés de TG, 191 règles intéressantes représentent un faible LDL-C et un TG élevé, contrairement aux 509 règles qui manifestaient des niveaux élevés de TG et de LDL-C élevés. Le tableau ​ Tableau2 2 désigne les règles d'association représentatives (voir Fiche complémentaire 3) et l'interprétation des règles se réfère aux travaux antérieurs [14].

Tableau 2

Règlement de l'association représentative

Régner #Corps de règle Tête de règleSuppConfAscenseur
Règles encodant des niveaux élevés de TG
1LDL5, IMC5, TG5, TCHL5NON HDL50.01571.00005.1732
2GLU1205, TCHL5, LDL5, TG5NON HDL50.01361.00005.1732
3LDL5, TG5, TCHL5, GLU05NON HDL50.01321.00005.1732
4TG5, PLAT5, LDL5, NON HDL5TCHL50.01271.00005.1465
5GLU605, TG5, TCHL5, LDL5NON HDL50.01261.00005.1732
6TG5, LDL5, TCHL5, DS1NON HDL50.01221.00005.1732
7LDL5, INS1205, TCHL5, TG5NON HDL50.01191.00005.1732
8DBP5, TG5, LDL5, TCHL5NON HDL50.01191.00005.1732
9INS605, TCHL5, TG5, LDL5NON HDL50.01161.00005.1732
10TG5, TCHL5, INS05, LDL5NON HDL50.01071.00005.1732
11TG5, LDL5, SBP4, TCHL5NON HDL50.01071.00005.1732
12TG5, TCHL5, WHR5, LDL5NON HDL50.01071.00005.1732
13T_HDL5, NON HDL5, LDL4, HDL2TG50.01020.88754.1105
14TCHL2, LDL1, NONHDL2, PH1TG50.01000.83333.8595
Règles encodant des niveaux élevés de LDL
15TCHL5, NONHDL5, GLU605LDL50.04050.83244.2651
16DS1, NON HDL5, GLU605LDL50.01550.81824.1924
17NONHDL5, SONA4, TCHL5LDL50.02420.84504.3297
18TG3, BUN5, NON HDL5LDL50.01141.00005.1239

La définition des noms de traits se réfère à la Figure ​ Figure1 1 .

Associations entre des niveaux élevés de TG et des traits liés à la SEP

Les modèles d'association de traits uniques extraits de 359 règles contenant des niveaux élevés de TG ont été visualisés par un graphique connecté (Figure ​ (Figure 1). 1). Trait TG élevé ( TG5 sur la figure ​ Figure1) 1 ) lié à des nœuds particuliers représentant les 17 traits distinctifs : mesure de la densité minérale osseuse (DMO), rayon distal SOS (DS) Composants sanguins, HB, WBC_B, PLAT et HBA1C et mesures du syndrome métabolique (SEP) (Daskalopoulou, et al., 2006), de l'obésité (IMC, WHR et SUP), des lipides (LDL, HDL, TCHL, T_HDL, TG et NONHDL), de l'hypertension (SBP et DBP) et de la résistance à l'insuline ( GLU0, INS0, GLU60 et GLU120), insuline post-provocation (INS60 et INS120). L'abréviation de traits uniques fait référence à la Figure ​ Figure1 1 .

Visualisation des associations phénotypiques avec des graphes connectés.

Les associations entre des niveaux élevés de TG et un groupe de 4 traits communs (obésité, résistance à l'insuline, hypertension et hyperlipidémie) liés à la SEP étaient cohérentes avec le fait que la SEP augmente le DT2 et les maladies cardiovasculaires (MCV) [20].

Associations entre les niveaux élevés de TG et la DMO

L'un des résultats notables est l'association entre un faible DS pour la mesure de la DMO et des niveaux élevés de TG. Les associations entre un faible DS et un groupe de SEP défini par les quatre traits communs à savoir l'obésité, l'hypertension, l'hyperlipidémie et la résistance à l'insuline avec des taux de glucose élevés et une dissociation avec les taux d'insuline (INS0, INS60, INS120) étaient en accord avec les travaux récemment publiés [21 ] qui a examiné une association entre la SEP et la santé des os. Il existe des relations négatives entre un faible DS associé à des taux élevés de lipides dont TG, TCHL et LDL et des relations positives entre un faible DS et de faibles taux de HDL [22]. Une découverte plus intéressante a été observée en ce que les faibles DS sont associés à des niveaux élevés de glucose mais pas à des niveaux d'insuline, bien que l'association entre des niveaux élevés de glucose ou une résistance à l'insuline avec la DMO n'ait pas été concluante. En revanche, l'hyperglycémie est connue pour être un prédicteur de la perte osseuse et des fractures ostéoporotiques [23]. Notre découverte peut être une preuve suggestive que l'obésité, l'hypertension et l'hyperlipidémie parmi les traits liés à la SEP pourraient être associées à l'ostéoporose.

Associations avec un LDL élevé

Des niveaux élevés de LDL ont montré des relations positives avec l'IMC, les niveaux de glucose et les lipides plasmatiques, y compris TCHL, TG et NONHDL ainsi que des relations négatives avec DS. Nous n'avons pas trouvé d'associations entre des taux élevés de LDL et des taux d'insuline. Il est intéressant de noter que les taux élevés de LDL ont des relations positives avec des traits uniques liés à la fonction rénale tels que l'azote uréique du sang (BUN) et le sodium dans l'urine (SONA).

Modèle de phénotype multivarié highLDLhighTG

Parmi plusieurs associations phénotypiques avec un TG élevé, nous avons considéré les associations phénotypiques qui subdivisent les échantillons en tailles réalisables de cas et de témoins pour GWAS. Nous nous sommes concentrés sur la relation contradictoire entre les niveaux élevés de TG (TG5 dans la figure 1(a)) avec des niveaux faibles ou élevés de LDL (LDL1 dans la figure 1(a) et LDL5 dans la figure 1(b)). C'est-à-dire qu'il existe des corrélations positives : entre TG et LDL-C et TCHL entre LDL-C et HDL ainsi que des corrélations négatives : entre TG et LDL-C entre HDL et TG, LDL-C et TCHL. Les deux traits uniques, des niveaux élevés de TG et des niveaux élevés de LDL, partageaient des traits communs (IMC, PLAT, TCHL et GLU0) associés à eux-mêmes.

La combinaison de deux caractères uniques, un LDL élevé et un TG élevé, introduit un phénotype multivarié highLDLhighTG ce qui peut amplifier la force d'association avec des traits simples corrélés par des effets additifs des traits simples. Sur 17 caractères associés, quatre caractères (DS, GLU0, INS0 et SONA) ont plus de pouvoir pour classer de manière distincte des échantillons de highLDLhighTG dans les cas et les contrôles (Figure ​ (Figure2 2 ).

Distribution des traits associés avec des traits multivariés et uniques. 1 et 2 représentent respectivement des groupes de témoins et des cas dans des échantillons de traits. (a), (b) et (c) représentent highLDLhighTG, LDL élevé et TG élevé respectivement. Sur les 17 traits uniques associés avec un LDL élevé et un TG élevé, 9 traits uniques ont été sélectionnés pour être visualisés en raison du maintien de la résolution de l'image.

Les associations entre les caractères peuvent être justifiées par des règles d'association codant des niveaux élevés de TG (Règles 1

14) et des taux élevés de LDL-C (Règles 15-18). Les règles ont été triées et sélectionnées par leurs confidences.

Comme on le voit d'en haut, il existe des associations compliquées entre des traits uniques. La sélection de cas et de témoins basée sur des traits uniques sans tenir compte de ces associations peut augmenter les effets de confusion dans les échantillons. Par rapport à la sélection de cas et de témoins basée sur des traits uniques, l'approche basée sur plusieurs variables peut avoir plus de pouvoir pour distinguer les cas des témoins.

Résultats GWAS des taux de lipides plasmatiques

Nous avons identifié un total de 50 variantes associées à highLDLhighTG et 15 sont localisés dans six gènes (PAK7, C20orf103, NRIP1, BCL2, TRPM3, et NAV1) (Tableau ​ (Tableau3 3 et Figure ​ Figure3). 3 ). Il est intéressant de savoir que rs11700112 de PAK7 sur 20p12.2 est dans une mutation faux-sens par substitution de l'arginine (CGA) par la proline (CCA). L'association clinique n'a pas encore été trouvée avec cette variante. Il est situé dans un bloc LD (530kb) avec quatre autres SNP, dont deux (rs6140956 et rs6133716) sont dans la région intronique de C20orf103. Il vaut la peine de noter que C20orf103 contient une mutation de décalage du cadre de lecture à rs72238296, qui est de 755 bases en amont de rs6140956 dans le même gène (tableau. ​ (tableau.3 3 et figure 4(a) ). La mutation de décalage du cadre de lecture est connue pour une cause d'hypercholestérolémie [24 ].

Tableau 3

Variantes génétiques associées à highLDLhighTG

SNPChrPosition de basetype SNPgèneBrinAllèle (+/-)Fréq (+)Valeur p hLDLhTGOUmORP LDL mORP TG r 2
rs11700112209495018non-synonymePAK7-gC0.316.2휐 -5 1.443.251.581.00
rs6140956209450080introniqueC20orf103+CT0.416.3휐 -5 1.402.791.850.56
rs6133716209455931introniqueC20orf103+UNEg0.401.0휐 -4 1.392.581.750.59
rs9967942209503781introniquePAK7-CUNE0.349.6휐 -5 1.413.241.760.89
rs11087847209504159introniquePAK7-Tg0.318.6휐 -5 1.433.021.590.99
rs28229942115282928introniqueNRIP1-UNEg0.418.7휐 -5 1.402.462.591.00
rs28229982115285230introniqueNRIP1-CUNE0.414.1휐 -4 1.352.092.120.97
rs10414042115346738introniqueNRIP1-UNEg0.431.7휐 -4 1.372.382.330.64
rs99598741859045526introniqueBCL2-UNEg0.151.2휐 -4 1.603.402.201.00
rs18935061859044660introniqueBCL2-gUNE0.151.5휐 -4 1.593.312.081.00
rs4744611972551280introniqueTRPM3-gUNE0.491.8휐 -4 1.361.933.141.00
rs7039780972469777introniqueTRPM3-gUNE0.503.7휐 -4 1.341.572.980.90
rs4744608972470797introniqueTRPM3-gC0.503.7휐 -4 1.341.522.990.90
rs6657701200014747introniqueNAV1+UNEg0.382.0휐 -4 1.382.651.541.00
rs5295811200016143introniqueNAV1+Cg0.372.0휐 -4 1.382.591.590.99
rs693221085700codageAPOB-UNEg0.077.3휐 -4 1.830.042.21-

SNP rs693 rapporté dans une étude précédente (Kathiresan, et al, 2008) pour les associations entre TG élevé et LDL élevé. Le rs693 a été élagué car son effet était plus fort dans les traits uniques à LDL élevé que multivarié highLDLhighTG avec une signification limite.

Un complot de Manhattan pour un test d'association de highLDLhighTG. Les symboles des gènes en violet représentent les loci identifiés dans les précédents GWAS des lipides (Kathiresan, et al., 2008). Les SNP en bleu ont été élagués.

Distributions de valeurs p des tests d'association pour highLDLhighTG et des traits uniques highTG et highLDL. Les points en rouge sont des SNP significativement identifiés dans le test d'association de highLDLhighTG. highLDLhighTG est présenté avec hLDLhTG et les traits uniques highTG et highLDL sont présentés respectivement dans hTG et hLDL.

Un bloc LD puissant (longueur de 81 Ko) avec des valeurs r 2 élevées (r 2 ≥ 0,90) détecté sur trois SNP (rs4744611, rs7039780 et rs4744608) (Figure 5(b)) de TRPM3 sur le chromosome 9 (9q21.11-q21 .12) qui est relativement proche des régions liées à la maladie coronarienne [25]. Parmi neuf variantes d'épissure de TRPM3, les variantes d'épissage 7 et 8 n'incluent pas les trois SNP identifiés (Figure 5(a)). Cette observation suggère que les SNP peuvent avoir des effets fonctionnels différents sur les variantes d'épissage. Bien qu'aucun lien génétique solide avec la maladie n'ait été établi et que peu de rapports sur les propriétés de TRPM3, l'activité fonctionnelle de TRPM3 est pertinente pour les cellules musculaires lisses vasculaires contractiles et proliférantes. Des travaux récents [26] ont étudié la pertinence et la régulation des TRPM3 en biologie vasculaire et a montré qu'un taux élevé de cholestérol peut agir comme un régulateur négatif de TRPM3.

Caractéristiques génomiques des structures LD dans les populations HapMap.

Deux SNP de BCL2 gène sur le chromosome 18 (18q21.33) ont été identifiés. BCL2, qui est impliqué dans un certain nombre de cancers, notamment le mélanome, les carcinomes du sein, etc., a été reconnu comme d'importants modulateurs de l'apoptose des myocytes cardiaques. Un soutien distinct à la pertinence de BCL2 aux maladies cardio-vasculaires (MCV) a été signalée par une découverte récente [27] que PPARγ protégeait les myocytes cardiaques du stress oxydatif et de l'apoptose grâce à une régulation positive BCL2 expression.

NRIP1 a été rapporté pour avoir une association avec HDL [28]. Des études récentes ont identifié un rôle spécifique des hépatocytes pour NRIP1 comme cofacteur de LXR de différentes manières, à savoir en servant de coactivateur dans la lipogenèse et de corépresseur dans la gluconéogenèse [29]. NAV1 sur le chromosome 1q32.1, un homologue humain d'un C. elegans Le gène unc-53 est exprimé dans le cœur adulte et le cerveau en développement. L'association clinique n'a pas été établie avec elle. Nos résultats garantissent que les variantes associées à highLDLhighTG devraient être évalués pour une étude plus approfondie.

Il est important de souligner que les structures LD pour les six gènes dans trois populations (YRI, CEU, JPT+CHB) sont distinctes. Le modèle de la LD la plus forte a été observé dans JPT + CHB parmi les trois. Alors que le modèle faible de LD semblait être en CEU (voir le fichier supplémentaire 4).

In silico réplication

In silico une analyse de réplication a été menée pour les 15 SNP dans deux sous-cohortes régionales ainsi que des groupes de sexe (tableau ​ (tableau4). 4). Neuf des 15 SNP associés à highLDLhighTG étaient bien reproductibles dans les sous-cohortes régionales (P < 0,05), tandis que les valeurs p de six SNP (p ≥ 0,05) étaient à la limite de la signification statistique. Cinq SNP dans NIRP1 (rs2822994, rs2822998 et rs1041404) et NAVIGATION (rs665770 et rs529581) étaient plus reproductibles dans les sous-cohortes régionales et les groupes de sexe.

Tableau 4

Réplication de GWAS de highLDLhighTG

SNPAnsungAnsanCombinéHommeFemelleCombiné
LDLTG n=205LDL-C n=919TG n=936LDLTG n=340LDL-C n=1352TG n=843LDLTG n=545LDLTG n=288LDL-C n = 1044TG n=969LDLTG n=257LDL-C n=1227TG n=810LDLTG n=545
rs117001122.6휐 -2 0.18180.38493.1휐 -2 0.71720.01722.8휐 -2 1.8휐 -1 0.41610.63211.0휐 -3 0.09670.00729.2휐 -2
rs61409568.8휐 -4 0.17700.10177.1휐 -2 0.77490.03323.6휐 -2 1.1휐 -1 0.63530.31258.4휐 -4 0.23170.00965.6휐 -2
rs61337161.8휐 -3 0.26910.07489.3휐 -2 0.76030.07014.7휐 -2 1.1휐 -1 0.95500.22311.9휐 -3 0.17570.02595.8휐 -2
rs99679422.6휐 -2 0.34760.48164.1휐 -2 0.67070.01983.3휐 -2 4.1휐 -1 0.29250.83256.9휐 -4 0.15450.00722.0휐 -1
rs110878471.9휐 -2 0.15310.32003.5휐 -2 0.72180.01512.7휐 -2 1.5휐 -1 0.44590.54241.1휐 -3 0.07500.00627.4휐 -2
rs28229941.1휐 -1 0.15820.25362.9휐 -5 0.01580.00195.4휐 -2 1.5휐 -2 0.44000.00602.4휐 -4 0.00450.12827.9휐 -3
rs28229981.2휐 -1 0.19850.24567.4휐 -5 0.01720.00435.8휐 -2 3.2휐 -2 0.48750.00842.9휐 -4 0.01010.13611.6휐 -2
rs10414041.6휐 -3 0.06680.03573.1휐 -3 0.02740.03382.4휐 -3 7.8휐 -3 0.38430.00494.4휐 -4 0.00940.09394.1휐 -3
rs99598741.2휐 -1 0.49530.19421.1휐 -3 0.05400.25365.9휐 -2 4.3휐 -3 0.46200.07201.8휐 -1 0.20070.96069.3휐 -2
rs18935061.2휐 -1 0.49530.19421.3휐 -3 0.05840.26165.9휐 -2 5.3휐 -3 0.46200.07711.8휐 -1 0.20180.97979.4휐 -2
rs47446111.7휐 -2 0.96520.00784.3휐 -2 0.00900.89333.0휐 -2 1.1휐 -3 0.01130.19251.8휐 -1 0.62210.48809.1휐 -2
rs70397807.8휐 -3 0.63340.01071.4휐 -1 0.02380.73877.6휐 -2 2.2휐 -3 0.00800.28932.2휐 -1 0.63170.49471.1휐 -1
rs47446087.8휐 -3 0.58460.01221.6휐 -1 0.02530.69558.2휐 -2 1.8휐 -3 0.00740.26502.6휐 -1 0.63170.59361.3휐 -1
rs6657702.3휐 -2 0.27150.32194.7휐 -2 0.07470.31563.5휐 -2 1.6휐 -2 0.55290.15298.1휐 -2 0.03210.61824.9휐 -2
rs5295812.2휐 -2 0.24980.34134.5휐 -2 0.05240.33373.4휐 -2 2.4휐 -2 0.50120.19326.2휐 -2 0.02600.59764.3휐 -2
rs6938.0휐 -3 0.08890.21481.1휐 -2 0.00450.03969.6휐 -3 2.1휐 -3 0.03730.01472.8휐 -2 0.00560.61461.5휐 -2

n représente le nombre de cas.

La reproductibilité de la différence entre les sexes dans les 15 SNP était la suivante : PAK7 et NRIP1 étaient plus efficaces chez les femmes BCL2, TRPM3 et NAV1 étaient plus reproductibles chez les hommes. highLDLhighTG était plus détectable chez les femmes que chez les hommes (χ 2 �,9, valeur p = 2,05 × 10 -11 ). PAK7 et NRIP1 peut conduire à une susceptibilité spécifique au sexe en concordance avec des travaux antérieurs [30] rapportant plus d'effets spécifiques au sexe pour les MCV chez les femmes que chez les hommes.

Comparaison des GWAS généraux

La distribution globale des valeurs p pour un test d'association semble être moins significative que celles pour le GWAS général. D'autre part, les valeurs p des SNP significatifs identifiés pour le phénotype multivarié highLDLhighTG étaient apparemment plus significatifs que ceux pour les caractères uniques highLDL et highTG (Figure ​ (Figure 6). 6). Il convient de noter que les tailles d'effet des SNP significatifs qui variaient entre des tailles d'effet modestes (rapports de cotes = 1,38-1,60) et intermédiaires étaient comparables à celles de la GWAS générale, allant de faibles à modestes.

Diagrammes de dispersion pour la valeur p pour un trait multivarié par rapport à des traits uniques.

Modèles pléiotropes des loci de caractères quantitatifs

Les modèles pléiotropes peuvent être observés plus précisément dans les loci de traits quantitatifs (QTL) ou les blocs LD que dans les SNP. Nous avons examiné les QTL et leurs phénotypes associés pour les six gènes identifiés à l'aide du groupe de suivi Phenotype and Disease Association dans le navigateur du génome de l'UCSC. Les QTL et leurs phénotypes associés ont été extraits des QTL de rat et de souris de RAT DB et MGI (Mouse Genome Information) (Tableau ​ (Table5 5).

Tableau 5

Phénotypes associés aux QTL cartographiés sur 6 gènes identifiés

Gène(s) (bande chromosomique)Phénotype OMIM (numéro OMIM)Phénotypes pour les QTL de rat de RGDPhénotypes pour les QTL de souris de MGI
PAK7,
C20orf103 (20p12.2)
Indice de masse corporelle (608559),
Dermatite atopique(605804),
Lupus érythémateux disséminé (610065),
Glaucome(608696),
Maladie d'Alzheimer(607116)
Tension artérielle, poids corporel,
Masse cardiaque, Réponse au stress,
Diabète sucré non insulinodépendant, susceptibilité aux maladies rénales, suppresseur de l'hypertrophie du thymus
taux de glucose dans le sang,
diabète sucré de type 2,
Densité minérale osseuse, Glomérulonéphrite en croissant, Modificateur de la dégénérescence rétinienne
NRIP1 (21q11.2)Syndrome myéloprolifératif(159595)
Narcolepsie(609039), Autisme(610838)
Résistance des tumeurs testiculaires
BCL2 (18q21.33)Trouble hypotenseur orthostatique
(143850), diabète sucré insulino-dépendant(601941), sclérose latérale amyotrophique(606640)
Pression artérielle, Morphologie des cellules cardiaques, Diabète insulinodépendant, Fonction rénaleDensité minérale osseuse
TRPM3
(9q21.11
-9q21.13)
Trait quantitatif Hématocrite/hémoglobine (609320), Cataracte (605749),
Prolapsus des organes pelviens (613088),
Surdité (syndrome de duplication du chromosome 9q21.11)(613558),
Épilepsie(611631), paraplégie(607152), Otosclérose(612096), Spastique
Sclérose latérale amyotrophique(105550)
Tension artérielle, poids corporel,
Fréquence cardiaque, Réponse au stress, Masse cardiaque, Taux de glucose, Taux de lipides,
Fonction rénale, Masse rénale, Concentration de rénine,
Niveau d'hormone stimulant la thyroïde,
Réponse inflammatoire anormale,
susceptibilité à l'hépatocarcinome,
Athérosclérose,
Trait mécanique des os,
Aorite auto-immune,
Gravité de la cataracte
NAV1
(1q32.1)
Maladie intestinale inflammatoire (612381),
Pseudohypoaldostéronisme(145260),
maladie de Parkinson(613164),
Glomérulopathie(601894)
Pression artérielle, Masse cardiaque,
Réponse au stress, Fonction rénale,
L'élargissement du thymus,
Réponse inflammatoire anormale
Glomérulonéphrite en croissant,
Densité minérale osseuse

Les phénotypes associés aux QTL ont été extraits des pistes de Phenotype and Disease Association dans le navigateur de génome UCSC. Les phénotypes pour OMIM, rat QTL, souris QTL correspondaient respectivement aux loci de phénotype OMIM, RGD RAT QTL et MGI Mouse QTL.

Les six gènes sauf NRIP1 partagent des QTL des traits couramment associés tels que la DMO et un groupe de traits communs définissant la SEP. Les caractéristiques communes de la SEP partagées par les six gènes sont la pression artérielle, le diabète sucré non insulinodépendant, la fonction rénale, la masse cardiaque et le poids corporel. Les associations phénotypiques de niveaux élevés de TG et de LDL élevés avec une faible DMO ont été examinées par le biais d'associations QTL de rat et de souris, sauf NRIP1 ont été cartographiés dans les régions de QTL associées à la BMD. De plus, il peut s'agir d'un plus grand soutien que TRPM3 a été mis en correspondance avec des phénotypes OMIM tels que l'ostéosclérose durcissant les os, l'épilepsie, la sclérose latérale amyotrophique (SLA), dont l'association avec les MCV a été rapportée dans un travail récent [31]. Différents marqueurs génétiques partagent des phénotypes OMIM identiques ou similaires : BCL2 et TRPM3 ont en commun avec l'association de la SLA PAK7 et NAV1 ont en commun avec des phénotypes similaires la maladie d'Alzheimer (MA) et la maladie de Parkinson (MP) où une communication croisée entre la SEP et la MA a été rapportée [32].

En résumé, nos résultats suggèrent que les marqueurs génétiques identifiés avec le phénotype multivarié highLDLhighTG ont des associations phénotypiques avec des traits communs dans la SEP. Les traits communs de la SEP, en particulier l'hyperlipidémie, peuvent être liés à des associations pathogènes avec l'ostéosclérose et des troubles neurodégénératifs, notamment la MA et la MP influencés par des facteurs génétiques pléiotropes. Ainsi, les marqueurs génétiques identifiés dans nos travaux peuvent avoir un effet pléiotrope sur la SEP, la DMO et les troubles neurodégénératifs.

Analyse de réseau de gènes à l'aide d'interactions protéine-protéine

Nous avons exploré les relations fonctionnelles possibles entre cinq des six gènes associés à highLDLhighTG en utilisant STRING, une base de données d'interactions protéine-protéine (PPI) prédites. Nous avons obtenu 5 réseaux différents de gènes interagissant avec chacun des cinq gènes par preuve de confiance d'association (≥ 0,5). Chacun des réseaux de gènes (Figure ​ (Figure7) 7 ) a été mappé sur les voies KEGG et les voies examinées en commun. Quatre gènes, c'est-à-dire BCL2, NAV1, NIRP1 et TRPM3 interagir avec les gènes (CASP7, BACE1, SDHB, TRPC6) dans les voies de la MA et de la MP, tandis que BCL2 et NIRP1 partagé la maladie de Huntington et la maladie d'Alzheimer. En particulier, trois gènes, c'est-à-dire BCL2, PAK7, et NIRP1 voies partagées dans le cancer et d'autres voies, soutenant notre hypothèse selon laquelle les phénotypes multivariés ont des voies étiologiques communes lorsqu'ils sont affectés par des facteurs génétiques pléiotropes.

Réseaux de gènes construits à partir de protéines en interaction. Les lignes continues en rouge représentent les gènes dans les voies de la MA, de la MP, de la MH et de la SLA. Les symboles des gènes en noir sont impliqués dans les voies de signalisation des chimiokines, MAPK et Wnt. Les lignes pointillées en rouge représentent la cartographie des gènes vers les voies du cancer à partir de la base de données KEGG ou des voies spécifiques liées au cancer annotées par les annotations fonctionnelles PANTHER et DAVID.


Pilier 3 : les polymorphismes causaux individuels se séparent à des fréquences modérées à intermédiaires

Le débat sur les modèles « mutation commune-maladie commune » versus « mutations rares-maladie commune » s’est avéré être la source d’un grand nombre de manuscrits, dont de nombreuses revues récentes (par exemple, Manolio et al., 2009). Nous soulevons cette question uniquement dans la mesure où elle concerne la perspective de GWAS. Rappel Hill et al. (2008). Si les polymorphismes causaux sont à basse fréquence, ils contribuent à la variation additive. Cependant, le pouvoir de détecter de tels polymorphismes est plutôt faible, nécessitant potentiellement des tailles d'échantillon prohibitives (Zuk et al., 2012). Curieusement, à mesure que la puissance diminue avec la fréquence des allèles, la surestimation attendue de la taille de l'effet augmente (Lynch et Walsh, 1998). En conséquence, des polymorphismes causaux moins fréquents sembleront avoir un effet plus fort que ce n'est réellement le cas (Mackay et al., 2012), biaisant peut-être le flux de ressources de GWAS vers les paradigmes « écran mutationnel » qui ont récemment gagné en popularité ( Tennessen et autres (2012).

Quelle proportion de variation phénotypique est alors due aux allèles de basse fréquence (par rapport à la fréquence intermédiaire) ? Se référant à Mackay et al. (2012), Jordan et al. (2012) et Weber et al. (2012), les mutations à basse fréquence sont importantes. Ceci est problématique pour GWAS si les tailles d'effet sont relativement petites. Cependant, selon l'analyse d'Ober et al. (2012), les allèles de fréquence intermédiaire sont importants. Cela en soi peut poser des problèmes pour les analyses GWAS qui se concentrent sur la détection d'effets additifs car, comme indiqué ci-dessus, bien que l'additivité apparente soit susceptible d'être pour des variantes rares, ce n'est pas une conséquence nécessaire pour les allèles de fréquence intermédiaire.

Pour résumer, GWAS sera plus efficace si (i) la variation génétique additive est abondante, (ii) les polymorphismes causaux individuels ont des effets importants et (iii) ils se séparent à des fréquences modérées à intermédiaires. Alors, la variation génétique est-elle principalement additive ? En général, on ne sait pas. Les polymorphismes causaux individuels ont-ils des effets importants ? Encore une fois, en général, nous ne savons pas. Se séparent-ils à des fréquences modérées à intermédiaires ? Encore une fois, on ne sait pas vraiment. Dans l'ensemble, il semble que nous soyons encore loin d'être certains d'affirmer ces exigences, du moins dans le Drosophile modèle que nous présentons dans cette mini-revue.


PSEA : analyse d'enrichissement de l'ensemble de phénotypes : une nouvelle méthode d'analyse de plusieurs phénotypes

Des informations complémentaires sont disponibles dans le numéro en ligne à l'adresse http://wileyonlinelibrary.com.

Connexion institutionnelle
Connectez-vous à la bibliothèque en ligne Wiley

Si vous avez déjà obtenu l'accès avec votre compte personnel, veuillez vous connecter.

Acheter un accès instantané
  • Consultez le PDF de l'article et les éventuels suppléments et chiffres associés pendant une durée de 48 heures.
  • L'article peut ne pas être imprimé.
  • L'article peut ne pas être téléchargé.
  • L'article peut ne pas être redistribué.
  • Visualisation illimitée de l'article PDF et des éventuels suppléments et figures associés.
  • L'article peut ne pas être imprimé.
  • L'article peut ne pas être téléchargé.
  • L'article peut ne pas être redistribué.
  • Visualisation illimitée de l'article/chapitre PDF et des éventuels suppléments et figures associés.
  • L'article/le chapitre peut être imprimé.
  • Article/chapitre téléchargeable.
  • L'article/le chapitre peut ne pas être redistribué.

Résumé

La plupart des études d'association pangénomique (GWAS) sont limitées à un phénotype, même si plusieurs phénotypes apparentés ou non apparentés sont disponibles. Cependant, une analyse intégrée de plusieurs phénotypes peut donner un aperçu de leur base génétique commune et peut améliorer la puissance des études d'association. Nous présentons une nouvelle méthode, appelée « analyse d'enrichissement des ensembles de phénotypes » (PSEA), qui utilise des idées d'analyse d'enrichissement des ensembles de gènes pour l'étude des ensembles de phénotypes. PSEA combine des statistiques d'analyses phénotypiques univariées et des tests par permutation. Il permet non seulement d'analyser des ensembles de phénotypes prédéfinis, mais également d'identifier de nouveaux ensembles de phénotypes. Outre l'application à des situations où les phénotypes et les génotypes sont disponibles pour chaque personne, la méthode a été adaptée à l'analyse des statistiques de synthèse GWAS. Le PSEA a été appliqué aux données de la cohorte de population KORA F4 (N = 1,814) en utilisant des traits liés au fer et à la numération globulaire. En confirmant les associations précédemment trouvées dans les grandes méta-analyses sur ces traits, la PSEA s'est avérée être un outil fiable. Beaucoup de ces associations n'étaient pas détectables par GWAS sur des phénotypes uniques dans KORA F4. Par conséquent, les résultats suggèrent que la PSEA peut être plus puissante qu'une GWAS à phénotype unique pour l'identification de l'association avec plusieurs phénotypes. PSEA est une méthode précieuse pour l'analyse de plusieurs phénotypes, qui peut aider à comprendre les réseaux de phénotypes. Sa conception flexible permet à la fois l'utilisation des connaissances antérieures et la génération de nouvelles connaissances sur la connexion de plusieurs phénotypes. Un logiciel pour la LEFP basé sur les résultats de GWAS est disponible sur demande.


Les références

Cariaso M, Lennon G : SNPedia : un wiki prenant en charge l'annotation, l'interprétation et l'analyse du génome personnel. Acides nucléiques Res. 2012, 40 : D1308-1312. 10.1093/nar/gkr798.

Eriksson N, Macpherson JM, Tung JY, Hon LS, Naughton B, Saxonov S, Avey L, Wojcicki A, Pe'er I, Mountain J : des études basées sur le Web et menées par les participants produisent de nouvelles associations génétiques pour des traits communs. Génétique PLoS. 2010, 6 : e1000993-10.1371/journal.pgen.1000993.

Do CB, Tung JY, Dorfman E, Kiefer AK, Drabant EM, Francke U, Mountain JL, Goldman SM, Tanner CM, Langston JW : une étude d'association à l'échelle du génome basée sur le Web identifie deux nouveaux loci et une composante génétique substantielle de la maladie de Parkinson . Génétique PLoS. 2011, 7 : e1002141-10.1371/journal.pgen.1002141.

Futreal PA, Liu Q, Shattuck-Eidens D, Cochran C, Harshman K, Tavtigian S, Bennett LM, Haugen-Strano A, Swensen J, Miki Y, et al. : mutations BRCA1 dans les carcinomes primitifs du sein et de l'ovaire. Science. 1994, 266 : 120-122. 10.1126/science.7939630.

Lancaster JM, Wooster R, Mangion J, Phelan CM, Cochran C, Gumbs C, Seal S, Barfoot R, Collins N, Bignell G : mutations BRCA2 dans les cancers primitifs du sein et de l'ovaire. Génétique de la nature. 1996, 13 : 238-240. 10.1038/ng0696-238.

Klein TE, Altman RB, Eriksson N, Gage BF, Kimmel SE, Lee MT, Limdi NA, Page D, Roden DM, Wagner MJ : Estimation de la dose de warfarine avec des données cliniques et pharmacogénétiques. N Engl J Med. 2009, 360 : 753-

Ashley EA, Butte AJ, Wheeler MT, Chen R, Klein TE, Dewey FE, Dudley JT, Ormond KE, Pavlovic A, Morgan AA : évaluation clinique intégrant un génome personnel. Lancette. 2010, 375 : 1525-1535. 10.1016/S0140-6736(10)60452-7.

van der Net JB, Janssens AC, Sijbrands EJ, Steyerberg EW : valeur du profilage génétique pour la prédiction de la maladie coronarienne. Am Heart J. 2009, 158 : 105-110. 10.1016/j.ahj.2009.04.022.

Mihaescu R, Meigs J, Sijbrands E, Janssens AC : profilage du risque génétique pour la prédiction du diabète de type 2. Cour. PLoS 2011, 3 : RRN1208-

Wei Z, Wang K, Qu HQ, Zhang H, Bradfield J, Kim C, Frackleton E, Hou C, Glessner JT, Chiavacci R : De l'association de la maladie à l'évaluation du risque : une vision optimiste des études d'association pangénomique sur le diabète de type 1 . PLoS Genet. 2009, 5 : e1000678-10.1371/journal.pgen.1000678.

Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, McCarthy MI, Ramos EM, Cardon LR, Chakravarti A : Trouver l'héritabilité manquante des maladies complexes. La nature. 2009, 461 : 747-753. 10.1038/nature08494.

Janssens AC, van Duijn CM : Une perspective épidémiologique sur l'avenir des tests génomiques personnels directement destinés aux consommateurs. Enquête sur Genet. 2010, 1 : 10-10.1186/2041-2223-1-10.

Evans DM, Visscher PM, Wray NR : Exploiter les informations contenues dans les études d'association à l'échelle du génome pour améliorer la prédiction individuelle du risque de maladie complexe. Hum Mol Genet. 2009, 18 : 3525-3531. 10.1093/hmg/ddp295.

He Q, Lin DY : Une méthode de sélection de variables pour les études d'association à l'échelle du génome. Bioinformatique. 2011, 27 : 1-8. 10.1093/bioinformatique/btq600.

Kooperberg C, LeBlanc M, Obenchain V : Prédiction des risques à l'aide d'études d'association pangénomique. Genet Epidémiol. 2010, 34 : 643-652. 10.1002/gepi.20509.

Cho YS, Go MJ, Kim YJ, Heo JY, Oh JH, Ban HJ, Yoon D, Lee MH, Kim DJ, Park M : Une étude d'association à grande échelle à l'échelle du génome des populations asiatiques révèle des facteurs génétiques influençant huit traits quantitatifs. Génétique de la nature. 2009, 41 : 527-534. 10.1038/ng.357.

Li MD, Yoon D, Lee JY, Han BG, Niu T, Payne TJ, Ma JZ, Park T : Associations de variantes du groupe de gènes CHRNA5/A3/B4 avec des comportements tabagiques dans une population coréenne. PLoS One. 2010, 5 : e12183-10.1371/journal.pone.0012183.

Yoon D, Kim YJ, Cui WY, Van der Vaart A, Cho YS, Lee JY, Ma JZ, Payne TJ, Li MD, Park T : une étude d'association à grande échelle sur l'ensemble du génome de la population asiatique révèle des facteurs génétiques dans FRMD4A et d'autres loci influençant l'initiation au tabac et la dépendance à la nicotine. La génétique humaine. 2012, 131 : 1009-1021. 10.1007/s00439-011-1102-x.

Chen LS, Saccone NL, Culverhouse RC, Bracci PM, Chen CH, Dueker N, Han Y, Huang H, Jin G, Kohno T : tabagisme et variation du risque génétique entre les populations d'ascendance européenne, asiatique et afro-américaine - une méta -analyse du chromosome 15q25. Genet Epidémiol. 2012, 36 : 340-351. 10.1002/gepi.21627.

Scheet P, Stephens M : Un modèle statistique rapide et flexible pour les données de génotype de population à grande échelle : applications pour déduire les génotypes manquants et la phase haplotypique. Suis J Hum Genet. 2006, 78 : 629-644. 10.1086/502802.

Jakobsdottir J, Gorin MB, Conley YP, Ferrell RE, Weeks DE : interprétation des études d'association génétique : les marqueurs avec des rapports de cotes hautement significatifs répliqués peuvent être de mauvais classificateurs. PLoS Genet. 2009, 5 : e1000337-10.1371/journal.pgen.1000337.

Xu M, Tantisira KG, Wu A, Litonjua AA, Chu JH, Himes BE, Damask A, Weiss ST : étude de l'association à l'échelle du génome pour prédire les exacerbations sévères de l'asthme chez les enfants à l'aide de classificateurs de forêts aléatoires. BMC Med Genet. 2011, 12 : 90-

Zou H, Hastie T : Régularisation et sélection de variables via le filet élastique. J Roy Statistical Society : Série B. 2005, 67 : 301-320. 10.1111/j.1467-9868.2005.00503.x.

Cho S, Kim K, Kim YJ, Lee JK, Cho YS, Lee JY, Han BG, Kim H, Ott J, Park T : identification conjointe de plusieurs variantes génétiques via la sélection de variables élastiques dans une analyse d'association à l'échelle du génome. Ann Hum Genet. 2010, 74 : 416-428. 10.1111/j.1469-1809.2010.00597.x.

Fang S, Fang X, Xiong M : prédiction du psoriasis à partir de profils SNP à l'échelle du génome. BMC Dermatol. 2011, 11 : 1-10.1186/1471-5945-11-1.

Ahdesmaki M, Strimmer K : sélection de caractéristiques dans les problèmes de prédiction omique à l'aide des scores de chat et du contrôle du taux de fausse non-découverte. Annales de statistiques appliquées. 2010, 4 : 503-519. 10.1214/09-AOAS277.

Burges C : un didacticiel sur les machines à vecteurs de support pour la reconnaissance de formes. Exploration de données et découverte des connaissances. 1998, 2 : 1-47.

Hastie T, Tibshirani R, Friedman JH : Les éléments de l'apprentissage statistique : exploration de données, inférence et prédiction. 2009, New York, NY : Springer, 2

Guyon I, Weston J, Barnhill S, Vapnik V : sélection de gènes pour la classification du cancer à l'aide de machines à vecteurs de support. Mach Apprendre. 2002, 46 : 389-422. 10.1023/A:112487302797.

Rakotomamonjy A : Sélection de variables utilisant des critères basés sur svm. J Mach Apprendre Rés. 2003, 3 : 1357-1370.

Breiman L : Forêts aléatoires. Mach Apprendre. 2001, 45 : 5-32. 10.1023/A:1010933404324.

Banfield RE, Hall LO, Bowyer KW, Kegelmeyer WP: Une comparaison des techniques de création d'ensembles d'arbres de décision. IEEE Trans Pattern Anal Mach Intell. 2007, 29 : 173-180.

Jiang R, Tang W, Wu X, Fu W : Une approche forestière aléatoire pour la détection des interactions épistatiques dans les études cas-témoins. BMC Bioinformatique. 2009, 10 (Suppl 1) : S65-10.1186/1471-2105-10-S1-S65.

DeLong ER, DeLong DM, Clarke-Pearson DL : Comparer les aires sous deux ou plusieurs courbes caractéristiques de fonctionnement du récepteur corrélées : une approche non paramétrique. Biométrie. 1988, 44 : 837-845. 10.2307/2531595.

Lasko TA, Bhagwat JG, Zou KH, Ohno-Machado L : L'utilisation des courbes caractéristiques de fonctionnement du récepteur en informatique biomédicale. J Biomed Inform. 2005, 38 : 404-415. 10.1016/j.jbi.2005.02.008.

Kraft P, Hunter DJ : Prévision des risques génétiques – en sommes-nous encore là ? N Engl J Med. 2009, 360 : 1701-1703. 10.1056/NEJMp0810107.

Li MD, Cheng R, Ma JZ, Swan GE: Une méta-analyse des effets génétiques et environnementaux estimés sur le comportement tabagique chez les jumeaux adultes mâles et femelles. Dépendance. 2003, 98 : 23-31. 10.1046/j.1360-0443.2003.00295.x.


Fiche complémentaire 1 : Description des caractères. Un tableau présente 52 traits ainsi que leur description et leur mesure. (XLS 66 Ko)

12918_2011_803_MOESM2_ESM.xls

Fiche complémentaire 2 : Caractéristiques de base des caractères. Caractéristiques de base selon les moyennes et les écarts types. (XLS 50 Ko)

12918_2011_803_MOESM3_ESM.xls

Fichier supplémentaire 3 : Règles d'association encodant des niveaux élevés de TG et de LDL élevés. Règles d'association représentatives codant un TG élevé et un LDL élevé. (XLS 8 Mo)


Stratégies d'analyse des voies à l'aide des données GWAS et WGS

Les conceptions d'études à allèle unique, couramment utilisées dans les études d'association pangénomique (GWAS) ainsi que les études de séquençage du génome entier (WGS) plus récemment développées, constituent une approche standard pour étudier la relation entre la variation commune au sein du génome humain et un phénotype d'intérêt. Cependant, les résultats d'association à un seul allèle publiés pour de nombreuses études GWAS ne représentent que la pointe de l'iceberg pour les informations qui peuvent être extraites de ces ensembles de données. La stratégie d'analyse principale pour GWAS implique une analyse d'association dans laquelle seuls les polymorphismes nucléotidiques simples (SNP) avec les plus forts valeurs p sont déclarés statistiquement significatifs en raison de problèmes résultant de tests multiples et d'erreurs de type I. Des facteurs tels que l'hétérogénéité du locus, l'épistasie et les gènes multiples conférant de petits effets contribuent à la complexité des modèles génétiques sous-jacents à l'expression du phénotype. Ainsi, de nombreuses associations biologiquement significatives ayant des tailles d'effet plus faibles sur des gènes individuels sont négligées, ce qui rend difficile de séparer les vraies associations d'une mer d'associations faussement positives. Il est souhaitable d'organiser ces SNP individuels en groupes biologiquement significatifs pour examiner les effets globaux de perturbations mineures sur les gènes et les voies. Cette approche basée sur les voies fournit aux chercheurs un aperçu des fondements fonctionnels du phénotype étudié et permet de tester divers scénarios génétiques. © 2018 par John Wiley & Sons, Inc.


Voir la vidéo: Como desmontar o Samsung Galaxy S5 Sm G900 - TELECELULA (Février 2023).