Informations

Comment les biologistes estiment-ils qu'il y a 8 % de gènes codant des protéines dans le génome humain ?


En classe, le professeur a dit qu'il y avait environ 8 % de gènes codant des protéines chez l'homme. Je me demande comment les biologistes estiment cela sans annoter tous les gènes humains. Merci!


Il/elle est à l'écart d'environ 6 à 7 %.

Selon l'institut national de recherche sur le génome humain, environ 1% du génome humain code pour des protéines. Nous pouvons le dire en examinant la séquence (ce que nous sommes maintenant en mesure de faire assez rapidement) et en identifiant ces portions de la séquence qui peuvent être traduites en protéine à l'aide du code génétique.

Les scientifiques ont pu identifier environ 21 000 gènes codant pour des protéines, en grande partie en utilisant le code génétique établi de longue date. Mais ces régions codant pour les protéines ne représentent qu'environ 1% du génome humain…


Il est important de se rappeler que les gènes codant pour les protéines ont un début et une fin, des exons et des introns, et des promoteurs identifiables. Sachant que ces facteurs existent et comment les identifier (généralement par leurs séquences d'ADN uniques, la fréquence à laquelle ils surviennent et la longueur de leurs séquences), nous pouvons identifier ces séquences dans le cadre d'analyses du génome entier.

Le séquençage de nouvelle génération a permis de séquencer l'intégralité du génome d'un humain en quelques jours, voire quelques heures. Cette base de données massive permet d'identifier ses éléments variables. Maintenant, sachant où se trouve un promoteur, le codon de départ suivant d'un gène peut être trouvé avec son codon d'arrêt. Cela conduit à identifier des cadres de lecture ouverts (ORF).

Maintenant, c'est simple, dans la mesure où il suffit de compter tous les ORF par rapport à l'autre ADN structurel et "non-sens" et le pourcentage de séquences codant pour les protéines peut être déterminé. N'oubliez pas que c'est la norme, mais il y a encore beaucoup de choses que nous ne savons pas sur le génome humain. Il peut y avoir plus de gènes codant pour des protéines avec des promoteurs inconnus que nous ne connaissons pas. Alors continuez toujours à demander !


Le génome au niveau chromosomique du fruit du dragon révèle une duplication du génome entier et une colocalisation chromosomique des gènes de biosynthèse de la bétacyanine

Les fruits du dragon sont des fruits tropicaux économiquement importants pour les industries agricoles. En tant que membres de la famille de Cactacées, ils ont évolué pour s'adapter à l'environnement aride. Nous rapportons ici le projet de génome de Hylocereus undatus, commercialement connu sous le nom de fruit du dragon à chair blanche. L'assemblage du génome au niveau chromosomique contient 11 échafaudages les plus longs correspondant aux 11 chromosomes de H. undatus. Annotation du génome de H. undatus trouvé

29 000 gènes codant pour des protéines, similaires à Carnegiea gigantea (saguaro). L'analyse de la duplication du génome entier (WGD) a révélé un événement WGD dans le dernier ancêtre commun de Cactacées suivi de réarrangements étendus du génome. Le temps de divergence entre H. undatus et C. gigantea a été estimé à 9,18 MYA. Analyse d'enrichissement fonctionnel de groupes de gènes orthologues (OGC) dans six Cactacées les plantes ont trouvé des OGC significativement enrichis dans la résistance à la sécheresse. Les fonctions liées à la saveur des fruits étaient surreprésentées dans les OGC qui sont considérablement élargies dans H. undatus. Les H. undatus Le projet de génome a également permis la découverte d'un enrichissement fonctionnel lié aux glucides et à la paroi cellulaire végétale dans les fruits du dragon traités à la trypsine pour une durée de stockage plus longue. Enfin, les gènes de la voie de biosynthèse de la bétacyanine (un pigment rouge-violet et antioxydant avec une concentration très élevée dans les fruits du dragon) se sont avérés co-localisés sur une région de 12 Mb d'un chromosome. La conséquence pourrait être une plus grande efficacité de la biosynthèse de la bêtacyanine, qui nécessitera une validation expérimentale à l'avenir. Les H. undatus le projet de génome sera une excellente ressource pour étudier diverses plantes de cactus.


Introduction

Chez l'homme, la famille de gènes codant pour les protéines structurelles des filaments intermédiaires cytoplasmiques (FI) compte plus de 60 membres et est l'une des 100 plus grandes familles multigéniques (Hesse et al., 2001). Les niveaux d'identité de séquence des protéines IF, l'organisation des gènes correspondants et leurs schémas d'expression définissent plusieurs sous-types IF (Fuchs et Weber, 1994 Herrmann et Aebi, 2000 Coulombe et al., 2001). Les kératines de type I et de type II sont les plus grandes sous-familles. Ils donnent naissance aux filaments épithéliaux de kératine qui reposent sur des spires enroulées double brin hétéromères obligatoires formées d'une kératine de type I et de type II. Le type III comprend quatre protéines qui peuvent former des FI homopolymères. Les gènes des sept protéines de type IV présentent un modèle d'intron entièrement différent de celui des gènes de type I-III. Ils n'ont que deux à trois introns liés au domaine de tige central des protéines et ces introns se trouvent dans des positions non observées dans les gènes de type I-III. Les lamines nucléaires forment le type V, tandis que les protéines du cristallin de l'œil filensine et phakinine constituent un groupe distinct (BF, pour les filaments perlés). Une étude du projet de séquence du génome humain (International Human Genome Sequencing Consortium, 2001) montre que les gènes codant pour les protéines IF non kératiniques ne sont pas regroupés (Hesse et al., 2001). En revanche, tous les gènes de la kératine de type I, à l'exception de K18, forment un cluster dense sur le chromosome 17q21, tandis que tous les gènes de la kératine de type II et K18 forment un cluster similaire sur le chromosome 12q13 (Waseem et al., 1990).

Des mutations ponctuelles dans un nombre toujours croissant de gènes IF sont liées à des maladies humaines. Des mutations dans au moins 14 gènes de la kératine épidermique provoquent des syndromes de fragilité de la peau (Irvine et McLean, 1999) et des mutations similaires dans le gène de la desmine de type III se connectent à des myopathies du cœur et du muscle squelettique (Goldfarb et al., 1998), tandis que des mutations dans le gène GFAP sont retrouvés dans la maladie d'Alexander (Brenner et al., 2001 Li et al., 2002). Enfin, dans Caenorhabditis elegans, au moins quatre des 11 gènes IF sont essentiels au développement des nématodes (Karabinos et al., 2001). Les gènes de type I-III ne sont pas limités aux vertébrés mais ont également été documentés chez les premiers chordés, qui semblent cependant manquer de gènes de type IV (examiné dans Karabinos et al., 2002 Wang et al., 2002).

Certains gènes des protéines IF cytoplasmiques de type I-IV de poisson ont été précédemment documentés par clonage d'ADNc en particulier chez le poisson rouge et la truite arc-en-ciel (Markl et Schechter,1998 Schaffeld et al., 2002a,b), et des lamines nucléaires ont été analysées. chez le poisson rouge (Yamaguchi et al., 2001) et le poisson zèbre (Hofemeister et al., 2002). Cependant, seul le génome émergent du poisson téléostéen Rubripes de fugu (Aparicio et al., 2002) permet une comparaison détaillée de l'organisation et de la complexité des gènes IF chez l'homme et un vertébré inférieur. Ici, nous rapportons certaines différences inattendues entre les gènes IF dans F. rubripes et les mammifères.


Les virus normaux infectent les cellules afin de profiter des mécanismes cellulaires pour se reproduire. Une classe de virus connus sous le nom de « rétrovirus » a un mécanisme légèrement particulier pour y parvenir : ils synthétisent une enzyme spéciale appelée « transcriptase inverse », qui traduit leur propre ARN en ADN qui est incorporé dans le génome de la cellule hôte. La cellule hôte réplique ensuite l'ADN du virus avec le reste du sien.

Si un rétrovirus infecte une cellule germinale - c'est-à-dire un spermatozoïde ou un ovule - l'ADN rétroviral sera copié dans l'ADN de la progéniture. Et leur progéniture. C'est ce qu'on appelle un "rétrovirus endogène". Certains causent ou contribuent aux cancers - et parfois (par exemple) cet ADN est même coopté à des fins utiles.

Compte tenu de milliers ou de millions de générations, ces infections endogènes s'accumulent. Il n'est même pas nécessaire qu'il s'agisse d'infections indépendantes - lorsqu'une cellule est infectée, elle produit de nouvelles copies du virus à ARN qui peuvent s'insérer à nouveau ailleurs dans le génome de la lignée germinale - même à travers les générations. Ils finissent par être désactivés par une mutation ou une autre, mais des études phylogénétiques ont montré que les quelque 98 000 éléments et fragments rétroviraux du génome humain proviennent de relativement peu d'infections.

Les estimations varient - de nombreuses séquences rétrovirales ont été modifiées par mutation au cours des éons, ce qui rend difficile de toutes les trouver - mais des estimations récentes indiquent qu'environ 8 % du génome humain a une origine rétrovirale. Il y a une bonne part de virus en chacun de nous.


Sandwalk

Il est difficile d'expliquer les concepts fondamentaux de la biologie à la personne moyenne. C'est pourquoi je suis si intéressé par le livre de Siddhartha Mukherjee "Le gène : une histoire intime". C'est un best-seller n°1 donc il doit faire quelque chose de bien.

Ma définition de travail d'un gène est basée sur un article de blog d'il y a plusieurs années [Qu'est-ce qu'un gène ?].

Cela recouvre deux types de gènes : ceux qui produisent à terme des protéines (polypeptides) et ceux qui produisent des ARN fonctionnels non codants. Cette distinction est importante lorsque l'on discute de ce qu'il y a dans notre génome.

Ma définition d'un gène, qui est partagée par de nombreux scientifiques, inclut les introns. Dans le cas des gènes codant pour des protéines, il comprend les parties du gène spécifiant des séquences non traduites aux extrémités d'une molécule d'ARNm (5&prime-UTRs et 3&prime-UTRs). Ainsi, les gènes codant pour les protéines représentent 25 à 30 % de notre génome. La majeure partie de cette fraction est non codante et la plupart sont indésirables. Les régions codantes ne représentent que 1,25% du génome humain. Il est trompeur de dire que les gènes ne représentent que 2 % de notre génome.

Ma définition d'un gène n'inclut pas les régions régulatrices qui contrôlent l'expression des gènes. Ces séquences jouent un rôle essentiel dans le génome et elles sont en grande partie responsables des différences entre espèces étroitement apparentées. Les mutations dans ces régions non génétiques provoquent souvent des maladies génétiques chez l'homme et un sujet majeur du livre de Mukherjee.

Son livre a un petit glossaire où vous pouvez trouver la définition suivante d'un gène (p. 499).

Ce n'est pas aussi clair que je le voudrais, mais peut-être que c'est bien pour un public général. Il y a beaucoup d'unités d'hérédité qui ne sont pas des gènes&mdashLes régions régulatrices en sont d'excellents exemples&mdashmais peut-être que la personne moyenne n'a pas besoin de le savoir ? Malheureusement, la discussion dans le texte principal ne s'en tient pas à la définition du glossaire. Il se concentre presque exclusivement sur les gènes codant pour les protéines. Il y a plusieurs chiffres basés sur un diagramme comme celui-ci.

C'est, bien sûr, une description incorrecte du dogme central de Crick 1, mais, plus important encore, c'est une définition restreinte des gènes et de l'information. Cette fausse déclaration est-elle excusable lorsque vous écrivez pour un public général ? Le lecteur moyen a-t-il besoin de savoir qu'il existe des informations en dehors des gènes et que certains gènes ne codent pas pour les protéines ?

Mukherjee n'ignore pas les introns. Il les décrit aux pages 219-220 mais il n'est pas clair qu'il les considère comme faisant partie d'un gène. Ce qui est clair, c'est qu'il a adhéré à l'idée que les introns ont un but. Selon Mukherjee, les introns permettent le brassage des régions codant pour les protéines pour créer "un grand nombre de messages variants & mdash appelés isoformes & mdashout d'un seul gène". Ceci est cohérent avec le message dans la plupart du livre. Comme de nombreux scientifiques, Mukherjee adore les explications adaptatives. Vous ne trouverez rien dans ce livre qui suggère une évolution par accident.

Cela inclut l'ADN entre les gènes. Mukherjee dit qu'ils sont là pour réguler les gènes (p. 220).

Vous vous demandez peut-être si Mukherjee aborde le génome humain et la controverse sur l'ADN indésirable. La réponse est non." Il ne donne pas beaucoup d'informations à ses lecteurs sur ce sujet. Le chapitre 2 pertinent est celui qui commence à la page 322 "Le Livre de l'Homme (en vingt-trois volumes)". 3 Il s'agit de cinq pages de puces.

Regardons quelques-uns d'entre eux.

La taille réelle est de 3,2 milliards de paires de bases [Quelle est la taille du génome humain ?]. La quantité d'ADN qui a réellement été séquencée et organisée en échafaudages dépendra de la construction et les derniers couvrent environ 92% du génome [Combien de notre génome est séquencé?].

Le nombre exact de bases n'est pas important pour le lecteur moyen, mais si vous l'incluez dans votre livre, ne devrait-il pas s'agir de la valeur correcte ?

  • Il code environ 20 687 gènes au total et seulement 1 796 de plus que les vers, 12 000 de moins que le maïs et 25 000 de moins que le riz ou le blé. La différence entre « humain » et « céréale pour le petit-déjeuner » n'est pas une question de nombre de gènes, mais de sophistication des réseaux de gènes. Ce n'est pas ce que nous avons, c'est la façon dont nous l'utilisons.

Il semble que Siddhartha Mukherjee pourrait avoir un cas bénin du problème de l'ego dégonflé. Les humains et les céréales pour petit-déjeuner ont des réseaux génétiques sophistiqués, ce n'est donc pas vraiment une différence significative. La différence réside dans la manière et le moment où les gènes sont exprimés mais aussi, dans ce cas, dans les types de gènes dans le génome. Les humains et les plants de riz ont des milliers de gènes différents qui ne sont pas partagés.

Il y a environ 25 000 gènes dans le génome humain. 4 Tous les mammifères ont à peu près le même nombre de gènes et ils ont tous à peu près les mêmes gènes. La différence entre les baleines, les chauves-souris, les éléphants et les humains est en grande partie due aux différences dans le moment et l'endroit où les gènes de développement sont exprimés au cours de l'embryogenèse. Ce n'est pas ce que toutes ces espèces ont, c'est la façon dont elles l'utilisent qui fait la plus grande différence. Les humains ne sont pas spéciaux.

Je pense qu'il est temps d'arrêter d'être surpris par le fait que certaines espèces pourraient avoir plus de gènes que nous et le temps d'expliquer pourquoi certaines plantes pourraient avoir plus de gènes. Et il est temps d'arrêter de dire que les humains pourraient avoir un moyen plus sophistiqué de contrôler leurs gènes. Les non-experts 5 ont peut-être été surpris par le faible nombre de gènes en 2001, mais c'était il y a 15 ans. Passer à autre chose.

Si votre ego a été dégonflé par le fait que nous n'avons pas beaucoup plus de gènes que les céréales du petit-déjeuner, alors vous feriez mieux de trouver une explication autre que le fait que vous ne comprenez tout simplement pas l'évolution. J'ai énuméré les sept rationalisations les plus courantes. L'un d'eux est l'épissage alternatif. Une autre est la régulation génique "sophistiquée" et très précise. Mukherjee va en partie sur la voie de l'utilisation de certaines de ces rationalisations pour expliquer sa déception face à notre faible nombre de gènes.

  • Il [le génome humain] est farouchement inventif. Il élimine la complexité de la simplicité. Il orchestre l'activation ou la répression de certains gènes uniquement dans certaines cellules et à certains moments, créant des contextes et des partenaires uniques pour chaque gène dans le temps et l'espace, et produit ainsi une variation fonctionnelle quasi infinie à partir de son répertoire limité. [toutes les espèces multicellulaires le font - LAM] Et il mélange et associe des modules de gènes & mdash appelés exons & mdash au sein de gènes uniques pour extraire encore plus de diversité combinatoire de son répertoire de gènes. Ces deux stratégies&mdashgene régulation et gene splicing&mdash semblent être utilisées plus largement dans le génome humain que dans les génomes de la plupart des organismes. Plus que l'énormité du nombre de gènes, la diversité des types de gènes ou l'originalité de la fonction des gènes, c'est la ingéniosité de notre génome qui est le secret de notre complexité.

C'est faux. Premièrement, nous ne sommes pas significativement plus complexes que les baleines, les chauves-souris et les éléphants et pas plus complexes que les mouches des fruits qui peuvent voler et peuvent exister sous deux formes très différentes d'adulte et de larve.

Deuxièmement, la régulation génique chez l'homme n'est pas différente de la régulation génique chez d'autres espèces.

Troisièmement, l'épissage alternatif existe mais il n'affecte qu'un petit nombre de gènes et, pour la plupart, ces gènes sont également épissés alternativement chez tous les autres mammifères. L'idée que la plupart des gènes humains sont épissés alternativement pour produire différentes protéines fonctionnelles est certainement fausse. Et l'idée que seuls les humains peuvent faire cela est encore plus fausse !

Qu'en est-il de l'ADN indésirable ? Voici une autre puce.

  • Les gènes, curieusement, n'en constituent qu'une infime fraction. Une proportion énorme&mdasha déconcertante 98 %&mdashis n'est pas dédiée aux gènes en soi, mais à d'énormes étendues qui sont intercalées entre les gènes (ADN intergénique) ou à l'intérieur des gènes (introns). Ces longues séquences ne codent pas d'ARN [introns ? - LAM], et aucune protéine ils n'existent dans le génome soit parce qu'ils régulent l'expression des gènes, soit pour des raisons que nous ne comprenons pas encore, soit sans aucune raison (c'est-à-dire qu'ils sont de l'ADN « poubelle »).

N'oubliez pas que les scientifiques experts savent que la majeure partie de notre génome est indésirable depuis plus de 40 ans. N'est-il pas temps que nous arrêtions de dire au grand public que c'est « étrange » ou « déroutant » ?

C'est la seule tentative d'expliquer l'ADN indésirable et l'idée qu'une grande partie de notre génome pourrait être là sans « aucune raison ». Je me demande ce que pense la personne moyenne quand on lui dit, encore une fois, que les gènes ne représentent que 2% de notre génome. Je parie qu'ils se concentrent sur l'idée qu'une grande partie du reste est consacrée à la réglementation et que nous ne comprenons tout simplement pas ce qui se passe d'autre. C'est trompeur.

Nous sommes en 2016 et nous en savons beaucoup sur l'ADN non codant et sur la quantité de déchets dans notre génome. N'est-il pas temps d'expliquer cela au grand public ?

Pourquoi Siddhartha Mukherlee ne le fait-il pas quand il en a l'occasion ?

  • Bien que nous comprenions parfaitement le code génétique&mdashi.e., comment l'information contenue dans un seul gène est utilisée pour construire une protéine&mdashnous ne comprenons pratiquement rien sur le génétique code&mdashi.e., comment plusieurs gènes répartis dans le génome humain coordonnent l'expression des gènes dans l'espace et le temps pour construire, maintenir et réparer un organisme humain. Le code génétique est simple : l'ADN est utilisé pour construire l'ARN, et l'ARN est utilisé pour construire une protéine. Un triplet de bases dans l'ADN spécifie un acide aminé dans une protéine. Le code génomique est complexe : à côté d'un gène se trouvent des séquences d'ADN qui portent des informations sur le moment et l'endroit où exprimer le gène. Nous ne savons pas pourquoi certains gènes sont situés à des emplacements géographiques particuliers dans le génome, et comment les étendues d'ADN qui se trouvent entre les gènes régulent et coordonnent la physiologie des gènes. Il y a des codes au-delà des codes, comme des montagnes au-delà des montagnes. [je souligne - LAM]

J'écris des manuels sur la biochimie et la biologie moléculaire depuis 30 ans et je lis des manuels depuis bien plus longtemps que cela. Tous ces livres contiennent de nombreuses informations sur la régulation de l'expression des gènes. Nous en savons beaucoup sur les facteurs de transcription et la liaison à l'ADN et nous en savons beaucoup sur les raisons pour lesquelles certains gènes sont exprimés dans certaines cellules et pas dans d'autres.

Pourquoi Siddhartha Mukherjee donnerait-il à ses lecteurs l'impression qu'il s'agit d'un grand mystère ? Êtes-vous d'accord avec lui?

Trois énormes projets nous attendent pour la génétique humaine. Tous trois concernent la discrimination, la division et la reconstruction éventuelle. La première consiste à discerner la nature exacte de l'information contenue dans le génome humain. Le projet du génome humain a fourni le point de départ de cette enquête, mais il a soulevé une série de questions intrigantes sur ce qui, précisément, est "codé" par les 3 milliards de nucléotides de l'ADN humain. Quels sont les éléments fonctionnels du génome ? Il existe des gènes codant pour des protéines, bien sûr, environ vingt et un à vingt-quatre mille au total, mais aussi des séquences régulatrices de gènes et des segments d'ADN (introns) qui divisent les gènes en modules. Il existe des informations pour construire des dizaines de milliers de molécules d'ARN qui ne sont pas traduites en protéines mais semblent jouer divers rôles dans la physiologie cellulaire. Il existe de longues autoroutes d'ADN « poubelle » qui ne le seront probablement pas après tout et qui pourraient coder des centaines de fonctions encore inconnues. Il existe des nœuds et des plis qui permettent à une partie du chromosome de s'associer à une autre dans un espace tridimensionnel.

Pour comprendre le rôle de chacun de ces éléments, un vaste projet international, lancé en 2013 (sic), espère créer un compendium de chaque élément fonctionnel du génome humain, n'importe quelle partie de n'importe quelle séquence dans n'importe quel chromosome qui a un fonction de codage ou d'instruction. Ingénieusement appelé l'Encyclopédie des éléments de l'ADN (ENC-O-DE), ce projet croisera la séquence du génome humain par rapport à toutes les informations qu'il contient.

Une fois ces « éléments » fonctionnels identifiés, les biologistes peuvent passer au deuxième défi : comprendre comment les éléments peuvent être combinés dans le temps et dans l'espace pour permettre l'embryologie et la physiologie humaines, la spécification des parties anatomiques et le développement des caractéristiques et des caractéristiques. Un fait humiliant au sujet de notre compréhension du génome humain est le peu que nous connaissons du Humain génome : une grande partie de notre connaissance de nos gènes et de leurs fonctions est déduite de gènes d'apparence similaire chez la levure, les vers, les mouches et les souris.

Je pense que c'est très trompeur. C'est peut-être juste un cas où Mukherjee voit le verre à moitié vide alors que je le vois à moitié plein. Il se concentre sur toutes les choses que nous ne savons pas alors que je pense qu'il fait un peu de ménagement avec tout ce que nous savons.

Est-ce tout ou y a-t-il autre chose? Est-il possible que Mukherjee n'en sache pas assez sur les génomes et la régulation des gènes pour avoir une opinion éclairée ?

Quelle qu'en soit la raison, le public est mal informé sur l'état des connaissances en biochimie, biologie moléculaire, biologie du développement et génomique. Ce livre est acheté et probablement lu et mdash par un grand nombre de personnes. La plupart des critiques sont élogieuses.

Certains critiques ont adopté avec enthousiasme le point de vue de Mukherjee. Par exemple, voici ce que Nathaniel Comfort a écrit dans L'Atlantique [Les gènes sont surestimés].

Ironiquement, plus nous étudions le génome, plus le gène recule. Un génome était initialement défini comme un ensemble complet de gènes d'un organisme. Quand j'étais à l'université, dans les années 1980, les humains en avaient 100 000 aujourd'hui, seuls environ 20 000 gènes codant pour les protéines sont reconnus. Ceux qui restent sont modulaires, réutilisés, mélangés et assortis. Ils se superposent et s'entrelacent. Certains peuvent être lus en avant ou en arrière. Le nombre de maladies supposées être causées par un seul gène diminue. La plupart des effets des gènes sur une maladie donnée sont faibles. Seulement environ 1% de notre génome code pour des protéines. Le reste est de la matière noire de l'ADN. Elle est encore incomplètement comprise, mais certaines d'entre elles impliquent la régulation du génome lui-même. Certains scientifiques qui étudient l'ADN non codant pour les protéines s'éloignent même du gène en tant que chose physique. Ils le considèrent comme un "concept d'ordre supérieur" ou un "cadre" qui évolue avec les besoins de la cellule. L'ancien génome était un ensemble linéaire d'instructions, entrecoupé de déchets, le nouveau génome est un corps dynamique en trois dimensions, comme l'appelait la généticienne Barbara McClintock, en 1983, un « organe sensible de la cellule ».

Le fait n'est pas que ce soit la bonne façon de comprendre le génome. Le fait est que la science n'est pas une marche vers la vérité. Au contraire, comme l'écrivait l'auteur John McPhee en 1967, « la science efface ce qui était auparavant vrai. » Chaque génération de scientifiques broie les faits d'hier pour fertiliser ceux de demain.

Il va falloir beaucoup de travail pour convaincre les lecteurs de L'Atlantique que beaucoup de "vieille science" sont toujours valables et qu'il n'y a rien de mal avec l'ancienne définition d'un gène.

2. Les chapitres ne sont pas numérotés.

3. Ce serait 22 autosomes, plus un chromosome X plus un chromosome Y = 23.

4. Nous n'avons pas une très bonne estimation du nombre total de gènes qui spécifient des ARN non codants.


Controverse sur le code indésirable

Le projet ENCODE, composé de 400 scientifiques travaillant dans 32 laboratoires à travers le monde, a publié une série d'articles controversés en 2012 dans lesquels il estimait que jusqu'à 80 pour cent du génome humain remplissait des fonctions biochimiques. Depuis sa publication, certains scientifiques ont critiqué le projet pour avoir surestimé la fonctionnalité de ce qui était autrefois considéré comme de l'ADN indésirable. Par exemple, un article de 2013 dans « Genome Biology and Evolution » par Graur et al. remet en question la logique utilisée par le projet ENCODE pour arriver à ses estimations. Une étude plus approfondie sera nécessaire pour confirmer ou réviser les conclusions tirées par le projet ENCODE.


Le génome de la pieuvre : pas "extraterrestre" mais toujours un gros problème pour le darwinisme

De nos jours, de nouveaux génomes de différents types d'organismes sont séquencés et publiés régulièrement. Lorsqu'un nouveau génome est séquencé, les biologistes évolutionnistes s'attendent à ce qu'il soit très similaire aux génomes d'autres organismes qui sont supposés être étroitement liés.

Comme ENV déjà noté, le dernier organisme à avoir séquencé son génome a déjoué cette attente : la pieuvre, dont le génome a été récemment signalé dans La nature. Il s'avère être si différent des autres mollusques et autres invertébrés qu'il est appelé « étranger » par les scientifiques qui ont travaillé sur ce projet.

Pas pour vous envoyer dans un effondrement ou quoi que ce soit, mais les pieuvres sont fondamentalement des "extraterrestres" selon les scientifiques.

Les chercheurs ont trouvé une nouvelle carte du code génétique du poulpe qui est si étrange qu'il pourrait s'agir d'un « extraterrestre ».

[…]

"La pieuvre semble être totalement différente de tous les autres animaux, même des autres mollusques, avec ses huit bras préhensibles, son grand cerveau et ses capacités intelligentes de résolution de problèmes", a déclaré le chercheur américain Dr Clifton Ragsdale, de l'Université de Chicago. .

[…]

L'analyse de 12 tissus différents a révélé des centaines de gènes spécifiques au poulpe trouvés chez aucun autre animal, beaucoup d'entre eux étant très actifs dans des structures telles que le cerveau, la peau et les ventouses.

Évidemment, personne ne pense que la pieuvre est un "extraterrestre" d'une autre planète. (Nouvelles de la nature cite un co-auteur de l'article sur le génome, notant que la plaisanterie extraterrestre est une "blague". Ainsi, La nature souligne le grand nombre de gènes uniques trouvés dans le génome du poulpe :

Étonnamment, le génome de la pieuvre s'est avéré être presque aussi grand que celui d'un humain et contenir un plus grand nombre de gènes codant pour des protéines - environ 33 000, contre moins de 25 000 dans Homo sapiens.

Cet excès résulte principalement de l'expansion de quelques familles de gènes spécifiques, explique Ragsdale. L'un des groupes de gènes les plus remarquables est celui des protocadhérines, qui régulent le développement des neurones et les interactions à courte portée entre eux. La pieuvre possède 168 de ces gènes, soit plus de deux fois plus que les mammifères. Cela résonne avec le cerveau exceptionnellement grand de la créature et l'anatomie encore plus étrange de l'organe. …

Une famille de gènes impliquée dans le développement, les facteurs de transcription à doigt de zinc, est également très développée chez les poulpes. Avec environ 1 800 gènes, il s'agit de la deuxième plus grande famille de gènes découverte chez un animal, après les 2 000 gènes récepteurs olfactifs de l'éléphant.

L'analyse a également révélé des centaines d'autres gènes spécifiques à la pieuvre et fortement exprimés dans des tissus particuliers. Les ventouses, par exemple, expriment un curieux ensemble de gènes similaires à ceux qui codent pour les récepteurs du neurotransmetteur acétylcholine. Les gènes semblent permettre à la pieuvre une remarquable capacité à goûter avec ses drageons.

Les scientifiques ont identifié six gènes pour des protéines appelées réflectines, qui sont exprimées dans la peau d'une pieuvre. Ceux-ci modifient la façon dont la lumière se reflète sur la pieuvre, donnant l'apparence d'une couleur différente - l'une des nombreuses façons dont une pieuvre peut se déguiser, tout en modifiant sa texture, son motif ou sa luminosité.

L'article technique explique que le génome du poulpe révèle des expansions massives dans deux familles de gènes que l'on pensait auparavant être uniquement agrandies chez les vertébrés : les protocadhérines, qui régulent le développement neuronal, et la superfamille C2H2 de facteurs de transcription à doigt de zinc.

Nous avons identifié des centaines de gènes spécifiques aux céphalopodes, dont beaucoup ont montré des niveaux d'expression élevés dans des structures spécialisées telles que la peau, les ventouses et le système nerveux.

Ils concluent : « Notre analyse suggère que l'expansion substantielle d'une poignée de familles de gènes, ainsi qu'un remodelage étendu des liaisons génomiques et du contenu répétitif, ont joué un rôle essentiel dans l'évolution des innovations morphologiques des céphalopodes, y compris leurs systèmes nerveux vastes et complexes. » #8221 En d'autres termes, le génome des céphalopodes est inhabituel à bien des égards, contrairement à d'autres organismes que nous avons séquencés.

En fait, ce n'est pas tout à fait correct. Il existe des similitudes particulières entre le génome des céphalopodes et quelque chose d'autre qu'ils ont vu, mais ce ne sont pas le genre de similitudes prédites par la descendance commune. Les articles techniques notent que le génome des céphalopodes présente une ressemblance inattendue à certains égards avec les génomes des vertébrés et puisque ces similitudes ne sont pas prédites par descendance commune, ils les attribuent de manière prévisible à une évolution convergente :

les expansions indépendantes et l'enrichissement du système nerveux des protocadhérines chez les céphalopodes coléoïdes et les vertébrés offrent un exemple frappant d'évolution convergente entre ces clades au niveau moléculaire.

En effet, même au sein des céphalopodes, ils ont trouvé des preuves d'une évolution convergente (c'est-à-dire une similitude génétique qui ne correspondait pas aux attentes d'une descendance commune) : « Étonnamment, nos analyses phylogénétiques suggèrent que les réseaux de protocadhérines de calmar et de poulpe sont apparus indépendamment. Les protocadhérines de poulpe non liées semblent s'être développées

135 Mya, après que les poulpes se soient éloignés des calmars.

Mais la grande histoire ici est le grand nombre de gènes uniques trouvés dans le génome du poulpe. Le document technique élabore sur l'un de ces principaux groupes de gènes :

Le génome de la pieuvre code 168 gènes de protocadhérine multi-exoniques, dont près des trois quarts se trouvent dans des clusters en tandem sur le génome (Fig. 2b), une expansion frappante par rapport aux 17-25 gènes trouvés dans Lottia [une patelle], Crassostrea gigas (huître) et Capitelle [vers polychètes et annélides] génomes.

L'article n'essaie même pas de spéculer sur la manière dont ces gènes uniques de céphalopodes pourraient être apparus. L'opinion standard selon laquelle les nouveaux gènes proviennent de la duplication de gènes est à peine mentionnée. Mais pour invoquer la duplication de gènes, il faut trouver ailleurs un autre gène similaire. Étant donné que les céphalopodes ont apparemment de nombreux gènes uniques qui ne sont pas similaires aux gènes trouvés dans d'autres organismes, la duplication de gènes pourrait ne pas être une explication candidate dans bon nombre de ces cas. On se demande si les futurs enquêteurs auront recours à “de novo” origine du gène.

Qu'est-ce que c'est ? Stephen Meyer explique dans Le doute de Darwin:

Souvenez-vous : ORFans, par définition, n'ont pas d'homologues. Ces gènes sont uniques, uniques en leur genre, un fait tacitement reconnu par le nombre croissant de biologistes évolutionnistes qui tentent d'expliquer l'origine de ces gènes à travers de novo (“out de nulle part”) origine.

[…]

De nombreux autres articles invoquent de novo origine des gènes. Long mentionne, par exemple, une étude cherchant à expliquer l'origine d'une protéine antigel chez un poisson de l'Antarctique qui cite “de novo l'amplification d'une courte séquence d'ADN pour engendrer une nouvelle protéine avec une nouvelle fonction. De même, Long cite un article dans Science pour expliquer l'origine de deux gènes humains impliqués dans le développement neurologique qui ont fait appel à “de novo génération de blocs de construction (gènes uniques ou segments de gènes codant pour des domaines protéiques, où un exon est spontanément originaire d'une séquence non codante unique). D'autres articles font des appels similaires. Un article de 2009 a rapporté “le de novo origin of at least three human protein- coding genes since the divergence with chimp[s],” where each of them “has no proteincoding homologs in any other genome.” An even more recent paper in Génétique PLoS reported 󈬬 new protein- coding genes that originated de novo on the human lineage since divergence from the chimpanzee,” a finding that was called “a lot higher than a previous, admittedly conservative, estimate.”

Another 2009 paper in the journal Recherche sur le génome was appropriately titled “Darwinian Alchemy: Human Genes from Noncoding RNA.” It investigated the de novo origin of genes and acknowledged, “The emergence of complete, functional genes — with promoters, open reading frames (ORFs), and functional proteins — from ‘junk’ DNA would seem highly improbable, almost like the elusive transmutation of lead into gold that was sought by medieval alchemists.” Nonetheless, the article asserted without saying how that: “evolution by natural selection can forge completely new functional elements from apparently nonfunctional DNA — the process by which molecular evolution turns lead into gold.”

The presence of unique gene sequences forces researchers to invoke de novo origin of genes more often than they would like. After one study of fruit flies reported that “as many as

12% of newly emerged genes in the Drosophila melanogaster subgroup may have arisen de novo from noncoding DNA,” the author went on to acknowledge that invoking this “mechanism” poses a severe problem for evolutionary theory, since it doesn’t really explain the origin of any of its “nontrivial requirements for functionality.” The author proposes that “preadaptation” might have played some role. But that adds nothing by way of explanation, since it only specifies when (before selection played a role) and where (in noncoding DNA), not how the genes in question first arose. Details about how the gene became “preadapted” for some future function is never explained. Indeed, evolutionary biologists typically use the term “de novo origination” to describe inexpliqué increases in genetic information it does not refer to any known mutational process. (Le doute de Darwin, pp. 216, 220-221.)

En d'autres termes, de novo isn’t an explanation at all. It’s more like a magic wand to be invoked when evolutionary biologists encounter some unique gene and they have no way to explain its origin via duplication from a similar pre-existing gene. (As an evolutionary mechanism, gene duplication has its own issues.)

Nonetheless, a recent article in Quanta Magazine points out just how many recent scientific studies have resorted to calling upon de novo origin of genes:

For most of the last 40 years, scientists thought that this was the primary way new genes were born — they simply arose from copies of existing genes. The old version went on doing its job, and the new copy became free to evolve novel functions.

Certain genes, however, seem to defy that origin story. They have no known relatives, and they bear no resemblance to any other gene. They’re the molecular equivalent of a mysterious beast discovered in the depths of a remote rainforest, a biological enigma seemingly unrelated to anything else on earth.

The mystery of where these orphan genes came from has puzzled scientists for decades. But in the past few years, a once-heretical explanation has quickly gained momentum — that many of these orphans arose out of so-called junk DNA, or non-coding DNA, the mysterious stretches of DNA between genes. “Genetic function somehow springs into existence,” said David Begun, a biologist at the University of California, Davis.

If the idea that “Genetic function somehow springs into existence” doesn’t sound compelling to you, join the club. But that’s about as much detail as you’re likely to get from proponents of de novo gene origination. One proponent of this idea in the article is even quoted saying: “It’s hard to see how to get a new protein out of random sequence when you expect random sequences to cause so much trouble.” Unfortunately for evolutionists, this problem seems to be common among animals, as the Quanta article continues:

This metamorphosis was once considered to be impossible, but a growing number of examples in organisms ranging from yeast and flies to mice and humans has convinced most of the field that these de novo genes exist. Some scientists say they may even be common. Just last month, research presented at the Society for Molecular Biology and Evolution in Vienna identified 600 potentially new human genes. “The existence of de novo genes was supposed to be a rare thing,” said Mar Albà, an evolutionary biologist at the Hospital del Mar Research Institute in Barcelona, who presented the research. “But people have started seeing it more and more.”

Whenever you see “de novo” origin of a gene invoked, you know that evolutionary biologists lack any explanation for how that gene arose. Scientists haven’t had much time yet to analyze the cephalopod genome, but given early reports of many unique genes, it will be interesting to learn to what extent they are forced to invoke these mysterious processes — what amounts to evolution ex nihilo — to explain how this “alien” genome arose.

Image: Minoan clay vase, c. 1500 BCE, by Wolfgang Sauber (Own work) [GFDL or CC BY-SA 3.0], via Wikimedia Commons.


Renseignements à l'appui

Graphique S1.

Trimming of alignments improves the consistency across alignments. The four different alignments were generated by UCSC with different genome assemblies and under different parameterisations. Of particular significance, the mm8-rn4 and the mm9-rn4(1) alignments used less stringent alignment parameterisations than those used for the mm9-rn4(2) and the mm10-rn5 alignments (Table S1 for all alignment parameterisations). A. αselIndel estimated by the NIM1 on different mouse-rat alignments. The estimates on the alignments trimmed using a log-odds approach (red) are less variable than on the untrimmed alignments (blue). This trend is also observed when αselIndel is estimated with NIM2 (Figure S1). B. The trimmed off sequence is of substantially worse quality then the remaining sequence, as shown by the removed sequence's low sequence identify and high repetitive content. C. Trimming removes more short IGSs from the mm8-rn4/mm9-rn4(1) (mm8-rn4 shown left), than from the mm9-rn4(2)/mm10-rn5 (mm10-rn5, right) alignments.

Graphique S2.

The quantity of constrained sequence estimated by NIM2 (αselIndel) on un-trimmed and trimmed alignments. The trimmed alignments provide more consistent results. This trend is also seen when NIM1 is used to estimate αselIndel (Figure S1A).

Graphique S3.

The quantity of constrained sequence (αselIndel) estimated by NIM1 and NIM2 under different simulation scenarios. NIM1 αselIndel estimates are relatively robust, while NIM2 estimates show a moderate loss of power with increasing divergence.

Graphique S4.

Quantity of constrained sequence estimated by NIM1 that overlaps sequence identified as conserved by either PhastCons and/or GERP++. Much of the lineage-specific constrained sequence identified by NIM1 is not detected by these other methods that mainly have power to identify pan-mammalian conserved sequences.

Graphique S5.

Strong positive correlation between ancestral repeat (AR) divergence and synonymous substitution rate (dS). The correlation implies that our results are robust to the choice of neutral standard. The following mammalian species pairs were used: human – cow, human – dog, human – horse, human – mouse, mouse – rat, mouse – cow, mouse – horse, mouse – dog, dog – cow and dog – horse.

Graphique S6.

The proportions of coding sequence that are inferred to be under constraint by NIM1 or NIM2 for different pairs of eutherian genomes. NIM1 consistently identifies a greater percentage of coding sequence as being constrained compared to NIM2.

Figure S7.

Sequence constraint over time for different human element types. A. The proportion, and B. the quantity, of annotation bases inferred as being constrained plotted against divergence.

Figure S8.

Comparisons of the rates of turnover of different constrained element types. A. P-values are computed by looking at the ratio of observations, which under the hypothesis that the turnover rate is equal, should fit a model with b = 0. B. P-values are computed using a likelihood ratio test to compare a model where the b parameter is shared between the two annotations to one where b is independent for the annotations. C. The same computation as B. except that the length of the NIM1 95% confidence interval were used to calculate the weight for each data point.

Figure S9.

The conservation and turnover of ENCODE lncRNAs and a set from Hangauer et al. (2013) [21]. A. The proportion of lncRNA bases identified as constrained by NIM1 plotted against the divergence. B. The estimated rates of turnover of the two different lncRNA data sets.

Figure S10.

The overlap between different human functional annotations in megabases. The considerable overlap between some annotations has the consequence that evidence of sequence constraint on one type of annotation may instead be attributable to a different annotation that covers the same inter-gap segment.

Figure S11.

Quantity of constrained sequence (αselIndel) estimated by NIM1 in simulated data under two different scenarios of clustering of functional elements. The estimates were made on simulated sequences of 200 Mb and then scaled (×15) to produce estimates for 3 Gb genomes. The true quantity of constrained sequence is fixed at a scaled value of 150 Mb in every simulation. Varying the clustering coefficient has little effect on estimates of αselIndel.

Tableau S1.

LASTZ parameterisations implemented for the different alignments. BLASTZ parameter names are in parentheses. Rows highlighted in bold represent alignments that we constructed, while the other alignments were constructed by UCSC Genome Informatics.

Tableau S2.

Sequence quality statistics from different mouse – rat alignments for untrimmed sequence, non-maximally positively scoring sequence trimmed off the starts and ends of alignment blocks, and internally trimmed negatively scoring inter-gap segments. The alignments remaining after trimming are of higher quality than the trimmed-off aligning sequence in the sense that they are both less divergent and consist of proportionally fewer transposable element (TE) derived sequences.

Tableau S3.

Quantity of constrained sequence (αselIndel) estimated by NIM1 on trimmed alignments with alignments processed in one of two ways. Firstly, non-reciprocally aligning sequence was removed, that is sequence that aligns when Species A is the target input and Species B the query input, but not when Species B is the target input and the Species A the query input, or vice-versa. Secondly, indel hotspot regions of the genome were removed. These steps have relatively small effects on estimates of αselIndel.

Tableau S4.

Definitions of parameterisations that were varied across the genome simulations.

Tableau S5.

The quantity of constrained sequence estimated by NIM1 (αselIndel) on simulated data under different paramerisations. The estimates were made on simulated sequences of 200 Mb and then scaled (×15) to produce estimates for genomes of 3 Gb in size. The true quantity of constrained sequence is fixed at a scaled value of 150 Mb in each simulation. Our implementation of NIM1 always estimates αselIndel accurately or conservatively, although there is variation in estimates across the different parameterisations. The previous implementation of the NIM1 by Meader et al. (2010) [15] sometimes overestimates αselIndel. The parameters for the simulations are provided in Table S4.

Tableau S6.

The total quantities of constrained sequence estimated in the human genomes at present by different methods. The annotations are mutually exclusive sets as in Figure 4.

Text S1.

A new justification for the Neutral Indel Model 1 (NIM1).

Text S2.

Neutral Indel Model 2 (NIM2).

Text S3.

Alignment trimming improves alignment quality and αselIndel estimates.

Text S4.

Genome simulations demonstrate the accuracy and robustness of the NIMs.

Text S5.

Simulating genome evolution.

Text S6.

Technical artefacts cannot explain observed signatures of turnover.

Text S7.

Modelling turnover of pan-mammalian conserved sequence.

Text S8.

Levels of sequence constraint for protein coding sequences.


ENGINEER BIOCOMPUTERS

The chemical nature of a protein is dictated by the sequence of its amino acids. And that sequence depends on the pattern of DNA bases, which contain all the information needed for an organism’s development. By manipulating these DNA bases, the protein can perform the desired computations and calculations. Scientists and engineers would have to join forces to synthetically design molecules to create biocomputers.


How much of your DNA is functional?

(Phys.org) —The human genome consists of six billions rungs of DNA – but how much of this DNA is actually doing anything important?

Two years ago research emerged that suggested that a large proportion of DNA, 80 percent, was functional. This figure came from interpretations of research conducted by the Encyclopedia of DNA Elements (ENCODE).

This estimate was almost immediately taken up by news outlets and received a lot of media attention, as well as backlash from other geneticists including Dr. Dan Graur who called the findings "absurd".

Now a new study, lead by Dr. Gerton Lunter from the University of Oxford's Wellcome Trust Centre for Human Genetics in the UK, has instead found that only 8.2 percent of human DNA is functional.

Yes, a jump from 80 to 8.2 percent seems a bit extreme – and you may be asking how these two research groups came to such drastically different conclusions? As University of Melbourne researcher Dr. Charles Robin explains, the disparity lies in the definition of the term "functional".

ENCODE defined functional as a "biochemical function" – meaning that if a section of DNA is transcribed or bound by particular proteins, it would be termed "biochemically functional", even if it did not have any eventual impact on the individual's phenotype.

It was this version of functional that lead to the large estimation of 80%. However, many researchers, including Dr. Graur and Dr. Robin, disagree with this definition of function.

Dr. Robin instead suggests the term "functional" should be used to denote sections of DNA that, if disrupted, would have harmful effects, therefore making these sections of DNA critical to development – and this is the definition used by Dr. Lunter and his colleagues in their recent study.

To test this a geneticist could purposely delete sections of the DNA and examine the impact on fitness. However, there are obvious ethical limitations for doing this in humans.

Instead, Dr. Lunter and his research group examined the disruptions generated by evolution to assess what parts of DNA are functional. Essentially, those sequences that were most unchanged, or conserved, are likely to have a function, while those without function evolve over time without any constraints.

The researchers looked at a range of species that all had different levels of divergence from humans. The functional part of the genome has changed over evolutionary time as species diverged, leading to phenotypic evolution that causes a human to look different to a mouse. Lunter and colleagues quantified these differences between human genome and the genomes of species of various evolutionary distances to arrive at their estimate of 8.2 percent.

"The figure of 8.2 percent is not surprising," said Dr. Robin. "It is what we would expect based of previous research. The great thing about this paper, however, is the quantitative methods that have now given us a clearer answer."

These results will not only have significant implications for genetics research, but also will become important for a number of other fields, such as medical research.

When using mice models, knowing the differences in functional genes between mice and humans will help medical researchers understand how humans may react differently to mice in medical studies.

The next step for researchers will be to determine the purpose and function of this important 8.2 percent of DNA.

And what about the other 91.8 percent?

Surprisingly, the rest of the DNA is mostly useless, and although there may be genes in there that encode interesting elements, research will focus first on uncovering the secrets of that small, but important, 8.2 percent of functional DNA.


Voir la vidéo: What is a Protein? Learn about the 3D shape and function of macromolecules (Janvier 2022).