Informations

Introns codant pour les protéines dans les génomes mitochondriaux

Introns codant pour les protéines dans les génomes mitochondriaux


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'étudie le génome mitochondrial et j'ai lu que certains contiennent des introns. Cependant, ces introns codent pour des protéines. Je ne peux pas vraiment comprendre cela. Quelqu'un pourrait-il me dire à quel intron dans quel génome mitochondrial cela fait référence ?


Les génomes mitochondriaux diffèrent considérablement par leur taille, leur potentiel de codage et même s'ils sont circulaires ou linéaires. L'ADN mitochondrial des mammifères est petit (11-28 kpb) et sans intron. Cependant, les mitochondries de certains autres organismes ont une taille allant jusqu'à 1000 kpb.

Certaines éponges (démosponges) avec de grands génomes mitochondriaux contiennent des introns de type I et des introns de type II. Bien que les introns aient été initialement pensés pour n'avoir d'autre fonction que de séparer les exons, les introns de certains gènes nucléaires se sont avérés eux-mêmes contenir des gènes. Cela s'avère également être vrai pour certains des introns mitochondriaux. Pour citer l'introduction d'un article que j'ai trouvé grâce à une recherche sur Internet :

La plupart des introns du groupe I codent pour des gènes d'endonucléase de référence (HEG) et/ou une maturase de la famille LAGIDADG , tandis que la plupart des introns du groupe II codent pour une transcriptase inverse (RT).

Ces introns se trouvent dans des gènes tels que celui codant pour la sous-unité 1 de la cytochrome oxydase (COI).


† Cela semble être une faute d'impression pour le GALLLes mutases IDAD, qui sont également des endonucléases, sont impliquées dans l'épissage des introns dans lesquels elles résident.


Proposition d'une nouvelle nomenclature pour les introns dans les gènes codant pour les protéines dans les mitogénomes fongiques

Les gènes mitochondriaux fongiques sont souvent envahis par des introns du groupe I ou II, qui représentent un marqueur idéal pour comprendre l'évolution fongique. Une nomenclature standard des introns mitochondriaux est nécessaire pour éviter toute confusion lors de la comparaison de différents mitogénomes fongiques. Actuellement, il existe une nomenclature standard pour les introns présents dans les gènes d'ARNr, mais il manque une nomenclature standard pour les introns présents dans les gènes codant pour les protéines. Dans cette étude, nous proposons un nouveau système de nomenclature pour les introns dans les gènes codant pour les protéines mitochondriales fongiques basé sur (1) l'abréviation à trois lettres du nom scientifique de l'hôte, (2) le nom du gène de l'hôte, (3), une lettre majuscule P (pour introns du groupe I), S (pour les introns du groupe II) ou U (pour les introns de types inconnus), et (4) site d'insertion des introns dans le gène hôte selon le champignon producteur de cyclosporine Tolypocladium inflatum. La nomenclature suggérée s'est avérée réalisable en nommant les introns présents dans les mitogénomes de 16 champignons de différent embranchements, y compris les lignées fongiques basales et supérieures, bien qu'un ajustement mineur de la nomenclature soit nécessaire pour s'adapter à certaines conditions spéciales. La nomenclature avait également le potentiel de nommer des introns mitochondriaux végétaux/protistes/animaux. Nous espérons que les futures études suivront la nomenclature proposée pour assurer une comparaison directe entre différentes études.


Génomes

L'une des caractéristiques déterminantes et essentielles de la vie est le matériel génétique. Un organisme’s génome est l'ensemble complet de tous les gènes et du matériel génétique présents dans cet organisme ou cette cellule individuelle. Souvent, nous pensons aux gènes en termes de gènes codant pour des protéines, ou de gènes qui sont transcrits en ARNm puis traduits en protéines, cependant, les génomes consistent en bien plus que de simples gènes codant pour des protéines. De plus, les caractéristiques des génomes procaryotes et eucaryotes diffèrent à la fois en termes de taille et de contenu.
L'image ci-dessous montre les différentes gammes de tailles de génomes dans différents groupes taxonomiques de la vie. Notez qu'en général, les génomes procaryotes sont plus petits que les génomes eucaryotes. Cependant, les tailles des génomes eucaryotes varient énormément et ne sont pas liées à la "complexité organique".

Tailles du génome, de Wikipedia

Génomes procaryotes

  • Les génomes des bactéries et des archées sont compacts, essentiellement tout leur ADN est «fonctionnel» (contient des gènes ou des éléments de régulation des gènes).
  • La taille des génomes procaryotes varie d'environ 1 million à 10 millions de paires de bases d'ADN, généralement dans un seul, circulaire chromosome
  • Les gènes d'une voie biochimique ou d'une voie de signalisation sont souvent regroupés et organisés en opérons, où ils sont transcrits en un seul ARNm qui est traduit pour fabriquer toutes les protéines de l'opéron.
  • La taille des génomes procaryotes est directement liée à leurs capacités métaboliques - plus il y a de gènes, plus ils fabriquent de protéines et d'enzymes.

Génomes eucaryotes

  • La taille du génome des eucaryotes est extrêmement variable, même au sein d'un groupe taxonomique (ce qu'on appelle le paradoxe de la valeur C).
  • Les génomes eucaryotes sont divisés en plusieurs chromosomes linéaires, chaque chromosome contient une seule molécule d'ADN duplex linéaire.
  • Les gènes eucaryotes dans une voie biochimique ou de signalisation ne sont pas organisés en opérons, un ARNm produit une protéine.
  • De nombreux gènes eucaryotes (la plupart des gènes humains) sont divisés. Les introns non codants doivent être supprimés et les exons épissés ensemble pour former un ARNm mature. Les introns sont des séquences « intervenantes » dans les gènes qui ne codent pas pour les protéines. L'image ci-dessous montre une région agrandie d'un gène mettant en évidence l'alternance d'exons et d'introns.

Un gène est transcrit, puis épissé de différentes manières pour produire des ARNm qui codent pour des protéines apparentées provenant de différentes combinaisons d'exons. http://www.genome.gov/Images/EdKit/bio2j_large.gif

Qu'est-ce qui explique la variation de la taille du génome?
Il n'y a pas de bonne corrélation entre la taille corporelle ou la complexité d'un organisme et la taille de son génome. Les génomes eucaryotes séquencés jusqu'à présent ont entre

30 000 gènes codant pour des protéines, ou moins de 10 fois la variation du nombre de gènes. Le génome humain compte environ 21 000 gènes codant pour des protéines (récemment révisés à aussi peu que

19 000 gènes). Par conséquent, la variation de 10 000 fois de la taille du génome eucaryote est principalement due à des quantités variables d'ADN non codant.
Voici une comparaison rapide de la taille du génome et du nombre de gènes prédit pour un échantillon d'eucaryotes :

Il est très intéressant de noter que les humains ont à peu près le même nombre de gènes que le ver nématode microscopique, C. elegans , et moins de gènes que le riz.

Qu'y a-t-il dans le génome humain ?

Le contenu du génome humain, de Wikipedia

  • Les séquences d'ADN codant pour les protéines (exons) représentent moins de 2 % du génome humain.
  • Les introns représentent un peu plus d'un quart du génome humain.
  • Les éléments transposables et l'ADN qui en dérive constituent environ la moitié du génome humain. Les éléments transposables sont essentiellement de l'ADN «parasitaire» qui réside dans un génome hôte, occupant de l'espace dans le génome mais ne contribuant pas aux séquences utiles ou fonctionnelles du génome. Ce sont les transposons ADN, les rétrotransposons LTR, les LINE et les SINE.
  • Parce qu'ils sont des éléments d'ADN parasites, les éléments transposables sont extrêmement précieux pour étudier les relations évolutives. Si un élément transposable "envahit le génome d'un organisme, il est susceptible de rester dans ce génome à mesure que la population évolue et lorsque la spéciation se produit. Si le même élément transposable est présent au même endroit dans les génomes de deux espèces différentes, c'est une preuve solide que ces deux espèces partagent un ancêtre commun récent qui avait également l'élément transposable dans son génome.
  • Une famille de SINE, appelée élément Alu, est une séquence de 300 nucléotides présente à plus d'un million de copies dans les génomes humains et chimpanzés.
  • Les duplications segmentaires sont des segments d'ADN relativement longs (> 1 kb = 1 000 pb) qui se sont dupliqués. Ces duplications créent des copies de gènes qui peuvent muter et acquérir de nouvelles fonctions. Les familles de gènes (par exemple, alpha- et bêta-hémoglobine, myoglobine) sont nées de cette façon.

Le génome humain est-il fonctionnel à 80 % ?
La publication récente de données et d'articles du projet ENCODE, une étude systématique de la variation et de l'activité du génome humain depuis les modifications de la chromatine jusqu'à la transcription, a affirmé que, contrairement à la croyance précédente, 80% du génome humain a au moins une certaine activité biochimique, comme la transcription (The ENCODE Project Consortium, 2012). En effet, de nombreux petits ARN, appelés microARN (miARN) avec des rôles régulateurs importants sont transcrits à partir de régions intergéniques. Cependant, ces miARN et autres ARN régulateurs représentent moins de 1 % du génome humain, et d'autres études ont indiqué que seulement 10 % du génome semble être soumis à une certaine contrainte évolutive (revue de Palazzo et Gregory, 2014).

séquençage ADN
Le projet du génome humain a été réalisé par de grandes banques de séquenceurs automatisés qui ont utilisé la technologie de séquençage didésoxy de Sanger. Ces dernières années, cependant, les technologies de séquençage massivement parallèles ont réduit le coût et le débit du séquençage de l'ADN beaucoup plus rapidement que la vitesse et la puissance de calcul n'ont augmenté (loi de Moore).

Les implications de la possibilité d'obtenir d'énormes quantités de séquences d'ADN rapidement et à moindre coût ont des implications surprenantes pour la recherche biologique dans tous les domaines et pour la santé humaine. Le TedTalk ci-dessous de Richard Resnick traite de certaines des applications :


Résultats et discussion

Diversité génétique mitochondriale à travers S. cerevisiae population

Nous avons exploré 1011 S. cerevisiae isolats séquencés [47] pour étudier la diversité et l'évolution du génome mitochondrial intraspécifique. Étant donné que les génomes mitochondriaux comprennent des régions intergéniques longues et variables, riches en AT, difficiles à comparer, nous nous sommes d'abord concentrés sur les huit séquences d'ADN codant pour les mitochondries (CDS). À partir de 698 assemblages de génomes de novo, nous avons collecté les huit CDS complets. Parmi ceux-ci, 553 isolats avaient également une séquence mitochondriale complète ou presque complète. Un sous-ensemble de 353 séquences génomiques n'avait aucune base ambiguë à travers les CDS (Fichier supplémentaire 1 : Figure S1, Fichier supplémentaire 2 : Tableau S1). Nous avons estimé la diversité génétique mondiale par la divergence moyenne par paires ??. Globalement, nous avons observé une plus faible diversité dans le codage nucléaire (??

0,003) [47] par rapport aux séquences mitochondriales (??

0,0085, Fichier supplémentaire 2 : Tableau S2), ce qui contraste avec ce qui a été observé précédemment pour d'autres espèces de levures (Fichier supplémentaire 1 : Figure S2). Cette tendance opposée, plus similaire au schéma observé chez les animaux plutôt que chez les champignons [19, 48], est cohérente avec S. cerevisiae ont connu une évolution rapide des gènes mitochondriaux après la duplication complète du génome [49].

Nous avons observé des différences marquées de divergence génétique des génomes nucléaires et mitochondriaux parmi les isolats sauvages et domestiqués. Dans les clades sauvages, malgré une divergence nucléaire plus élevée (jusqu'à 1,1% au niveau CDS), la distance génétique mitochondriale CDS atteint son maximum de

0,4% de divergence nucléaire et plateau ensuite. En revanche, la divergence des séquences mitochondriales entre les clades domestiqués a une augmentation plus importante, atteignant son maximum à des divergences nucléaires plus faibles (Fichier supplémentaire 1 : Figure S3). Cette différence de variation est observée à travers tous les CDS mitochondriaux dont les valeurs de ?? sont systématiquement plus élevés dans les isolats domestiqués par rapport aux isolats sauvages.

Les CDS les plus courts, ATP8 et ATP9, ont la plus faible proportion de sites polymorphes (

2%) et les valeurs les plus basses de ?? (0,003 ou moins) et n'ont pas de mutations non synonymes. En revanche, COX1 et COX2 sont très polymorphes. Même si COX1 a les sites polymorphes les plus élevés (8 %), COX2 a le plus haut ?? valeur (0,0163, tableau 1). Nous avons utilisé les analyses discriminantes de composant principal (DAPC) [50] pour évaluer la contribution de gènes spécifiques pour classer les «haplotypes» mitochondriaux et le regroupement de population. Nous avons quantifié que ATP6 et COX2 représentent respectivement 38 % et 28 % du regroupement de la population. Cette observation confirme l'utilisation généralisée de COX2 en phylogénie mitochondriale (Fig. 1a) [37, 38, 51, 52].

Distribution des allèles à travers les CDS mitochondriales. une Distribution des allèles majeurs (bleu) et mineurs (rouge) pour les 259 positions polymorphes dans les 234 S. cerevisiae profils complets uniques (qui incluent 353 isolats). Les profils sont classés en fonction de leur relation phylogénétique en utilisant l'arbre phylogénétique voisin-jointure (côté gauche). b Le nombre d'allèles uniques pour chaque CDS mitochondrial montre une différence dramatique entre les gènes

Ensuite, nous avons généré une base de données d'allèles non redondante. Nous avons observé un nombre variable d'allèles CDS distincts (Fig. 1b), résultant en une proportion élevée de profils alléliques uniques (234 sur 353 isolats, fichier supplémentaire 1 : Figure S1). Nous avons utilisé ces profils alléliques non redondants comme proxy pour étudier la distribution du génome mitochondrial dans la population. Globalement, nous avons observé un faible chevauchement entre les lignées phylogénétiques du génome mitochondrial et nucléaire [47] à quelques exceptions près qui incluent des lignées du génome nucléaire quasi clonal, ayant des profils mitochondriaux spécifiques. Ces exceptions incluent une sous-clade Sake, les deux sous-clades cliniques Vin/Europe (amplification Y′ et S. boulardii), les clades nord-américains et malais isolés sur le plan de la reproduction [53]. En revanche, le clade d'origine mixte [47], qui a des origines écologiques (par exemple, boulangeries, bière, plantes, animaux, eau, échantillon clinique) et géographiques (par exemple, Europe, Asie, Moyen-Orient, Amérique) très diverses, montre une faible intra -différence de clade malgré une variation substantielle du génome nucléaire (Fichier supplémentaire 1 : Figure S4). En effet, à travers le clade d'origine mixte, seuls des profils très similaires de gènes mitochondriaux se séparent, avec des variantes limitées à COX1 et VAR1, ce qui entraîne un très faible ?? (0.00008) par rapport aux autres clades (

0,001, Fichier supplémentaire 2 : Tableau S2).

Les VAR1 est un gène particulièrement variable, très riche en AT et sujet à des mutations et des indels non synonymes. Ces indels représentent principalement des éléments de type byp riches en GC capables de provoquer des sauts dans la traduction des protéines chez d'autres espèces de levures [33]. Deux positions ont été décrites, une nommée « commune » et une autre en aval avec un cluster GC en orientation inversée [54]. Nous avons identifié 35 variantes alléliques de VAR1 gène hébergeant ces deux clusters dans 117 isolats, appartenant principalement aux groupes mosaïques (N = 52) (Fichier supplémentaire 2 : Tableau S1). Alors que la plupart des cas signalés abritaient le cluster GC soit dans leN = 91, ce qui représente 18 différents VAR1 allèles), ou dans les deux positions (N = 6, sur 4 VAR1 allèles) [54], une grande partie des variants alléliques observés ici n'abritaient le cluster GC que dans le deuxième site (N = 19, sur 13 VAR1 allèles). Nous avons également découvert deux nouvelles variantes, l'une avec le cluster GC en position commune mais en orientation inversée (2 isolats) et la seconde avec le cluster GC en duplication en tandem à la seconde position (3 isolats).

En plus des ORF canoniques, nous avons caractérisé les quatre ORF non canoniques F-SceIV (OMÉGA intron), F-SceI (RF3), RF2 et F-SceIII (RF1) [31, 32]. F-SceIV est relativement rare dans la population (198 isolats), alors que F-SceI, RF2 et F-SceIII sont plus répandus (447, 542 et 477 isolats, respectivement). Ces trois ORF sont connus pour contenir des clusters GC, qui introduisent souvent des décalages de trame dans les séquences. Dans F-SceIII, nous avons identifié trois positions de clusters GC. La première position est particulièrement rare (43 isolats), et dans deux cas, le cluster GC est tronqué. Les deux autres clusters GC sont beaucoup plus abondants (dans 277 et 206 isolats, respectivement). Nous avons identifié 6 positions de cluster GC distinctes dans les deux RF2 et F-SceI (voir Fiche complémentaire 2 : Tableau S1). Dans l'ensemble, ces résultats ont révélé une grande variabilité de la séquence mitochondriale à travers le S. cerevisiae population naturelle.

Mélange étendu de génomes mitochondriaux

Nous avons étudié la structure de la population du génome mitochondrial en utilisant les huit CDS concaténés pour calculer le réseau phylogénétique en utilisant SPLITSTREE [55]. L'ensemble de données comprend 239 profils CDS non redondants, avec 234 S. cerevisiae isolats avec des séquences CDS complètes et cinq S. paradoxus représentants [56] en tant qu'exogroupes. Le réseau entrelacé résultant montre une forte interconnectivité des séquences, sous-jacente à de fréquentes recombinaisons historiques (Fig. 2a). En revanche, les arbres phylogénétiques classiques sont incapables de regrouper systématiquement les isolats (Fig. 2b). En utilisant ADMIXTURE [57], nous avons observé que les bords opposés des arbres tombent dans la même population pour les faibles K valeurs (K = 2-3), ce qui sous-tend encore un mauvais groupement.

Phylogénie complexe du génome mitochondrial. Seul S. cerevisiae des isolats avec des données CDS complètes ont été utilisés (N = 353) en plus de cinq S. paradoxus isolats utilisés comme groupe externe. une Réseau phylogénétique de séquences CDS concaténées non redondantes (N = 237 profils) a produit un réseau fortement imbriqué entraîné par la recombinaison avec quelques groupes de souches étroitement apparentées. b L'arbre enraciné (à gauche) montre une topologie faible avec peu de nœuds (en rouge) avec des valeurs de bootstrap supérieures à 75. Analyse ADMIXTURE des composants génomiques (à droite) avec K allant de 2 à 15 confirme le haut degré de mosaïcisme. La lignée taïwanaise très divergente (point vert) n'est pas divergente des autres lignées contrairement à la phylogénie du génome nucléaire

La structure de la population mitochondriale semble mal refléter le regroupement obtenu à partir du génome nucléaire. Par exemple, la lignée taïwanaise divergente précoce basée sur le génome nucléaire ne montre pas une distance de séquence plus élevée. Cependant, les isolats appartenant aux groupes mosaïques de la S. cerevisiae La population présente les degrés de mélange les plus élevés, ce qui indique que la consanguinité a eu un impact à la fois sur les génomes mitochondriaux et nucléaires.

Nous avons ensuite calculé le coefficient de concordance « W » en utilisant la métrique de congruence entre les matrices de distance (CADM) [58] à 0,79, 0 indiquant un désaccord complet et 1 un accord complet entre les matrices de distance. Cette valeur indique une relativement bonne concordance entre les réseaux phylogéniques des génomes mitochondriaux et nucléaires. Ceci est probablement dû à des isolats avec une séquence mitochondriale très proche ayant souvent également une séquence de génome nucléaire similaire, tandis que les branches principales de l'arbre mitochondrial sont discordantes. Nous avons ensuite comparé des arbres et des réseaux phylogénétiques basés sur des séquences concaténées dérivées des 8 CDS mitochondriales et des 8 gènes nucléaires précédemment utilisés pour les études phylogénétiques [59, 60] dans une sélection de 14 isolats (Fichier supplémentaire 1 : Figure S5).De manière cohérente, les séquences mitochondriales ont abouti à un réseau plus large, impliquant une structure phylogénétique moins définie et un mélange plus prononcé, les premières lignées ramifiées faisant partie des lignées mondiales non chinoises. Dans l'ensemble, nos résultats mettent en évidence une séparation prononcée dans les histoires évolutives des deux génomes coexistants, et le mélange étendu du génome mitochondrial fournit un soutien supplémentaire à son héritage mitochondrial nécessitant une réplication par recombinaison [34, 61, 62].

Les introgressions interspécifiques de l'ADNmt sont rares

Nous avons récemment décrit quatre clades (à savoir l'Alpechin, l'Agave mexicain, la Guyane française et le bioéthanol brésilien) avec une abondance S. paradoxus introgressions interspécifiques dans le génome nucléaire [47]. Nous avons analysé les CDS mitochondriaux pour rechercher des allèles introgressés. Les quatre clades avec d'abondantes introgressions du génome nucléaire n'ont montré aucune S. paradoxus allèles mitochondriaux. Néanmoins, deux isolats d'Amérique (CQS, YCL) et un d'Afrique (ADE), tous génétiquement apparentés aux clades guyanais et mexicains de l'agave, présentent deux profils distincts de S. paradoxus introgressions mitochondriales. Nous avons récupéré l'ensemble CDS complet pour deux d'entre eux (CQS et YCL), tandis que le troisième (ADE) est incomplet mais très proche de YCL. L'introgression des mitochondries dans la souche YCL (YJM1399) a déjà été rapportée, mais aucune autre analyse n'a été présentée [28]. Nous avons généré un ensemble de marqueurs polymorphes (méthodes), pour identifier avec précision les limites d'introgression. Les S. cerevisiae les principaux allèles ont été identifiés à partir des 1011 isolats, alors que pour S. paradoxus, ils étaient dérivés de 23 isolats nord-américains pour lesquels la séquence chromosomique complète était disponible [21, 56]. eurasien S. paradoxus les isolats n'ont pas été inclus en raison de leur similitude avec S. cerevisiae séquences, probablement dues à un ancien événement d'introgression de S. cerevisiae à S. paradoxus [21, 56, 63]. Nous avons généré un catalogue de 110 positions polymorphes et dérivé différents allèles entre les deux espèces. Plusieurs gènes de ces deux isolats ont été catalogués comme partiellement ou totalement introgressés (Fig. 3a). Étant donné que la fréquence de certains allèles est proche de 50 % et que souvent l'allèle le moins commun d'une espèce est l'allèle le plus commun de la seconde, il existe un risque d'appeler des introgressions faussement positives. Néanmoins, de longues séries consécutives de S. paradoxus marqueur dans le ÉPI, ATP9, COX1, COX2 et COX3 gènes dans YCL, ainsi que ceux dans le ÉPI, COX1, COX2 et COX3 gènes dans CQS, sont susceptibles d'être authentiques. L'absence de traces d'introgression dans S. cerevisiae les isolats d'Europe pourraient s'expliquer par la similitude de séquence plus élevée avec les isolats européens S. paradoxus, qui empêchent la détection. Cependant, les introgressions entre S. cerevisiae et européenne S. paradoxus les isolats pourraient également être évités par la non-colinéarité dans la structure de leurs génomes mitochondriaux qui altère probablement la recombinaison [56].

Rare S. paradoxus introgressions. une Marqueurs polymorphes entre S. cerevisiae et S. paradoxus à travers les CDS mitochondriaux ont été utilisés pour identifier les événements d'introgression. Les limites d'introgression sont définies comme le point médian entre les marqueurs. Les deux rangées du bas indiquent la fréquence dans la population de l'allèle majeur ou consensus (AF), dans la position et l'espèce spécifiques. b Le nombre d'ORF introgressés dans le génome nucléaire n'est pas corrélé avec le pourcentage de marqueurs génétiques de S. paradoxus dans le CDS mitochondrial. Seuls les isolats avec des données CDS complètes et non ambiguës ont été inclus (N = 353). Position de l'isolat signalée dans une est entouré en rouge

Nous étendons en outre l'analyse des 110 sites polymorphes à 353 isolats avec CDS entièrement assemblés. Nous avons observé des cas potentiels supplémentaires d'introgressions mitochondriales. La séquence mitochondriale de l'isolat YCL abrite plus de 50 % de S. paradoxus marqueurs, indiquant éventuellement un génome recombinant dérivé d'un événement de transfert récent. De plus, un petit nombre de S. paradoxus des marqueurs se trouvent dans chaque S. cerevisiae isoler, peut-être en raison d'un tri de lignée incomplet. Globalement, le nombre de S. paradoxus Les marqueurs dans les génomes mitochondriaux ne sont pas corrélés avec le nombre d'ORF introgressés dans les génomes nucléaires (Fig. 3b), suggérant que les flux de gènes interspécifiques étaient indépendants en raison d'une origine et/ou d'un destin distincts.

Gain et perte d'introns au cours de l'évolution et de la dispersion

Deux gènes codant pour des protéines mitochondriales, ÉPI et COX1, hébergent des introns sur plusieurs sites, et nous avons exploré leurs modèles de présence-absence dans l'ensemble de la collection d'isolats de 1011. COX1 les introns sont trouvés à des fréquences variables (médiane 0,48) avec des profils de présence-absence très variables (Fig. 4a). Les modèles d'intron soutiennent en outre une faible variabilité au sein des lignées d'origine nord-américaine, malaisienne et mixte (Fichier supplémentaire 1 : Figure S6). En revanche, les groupes de mosaïques vaguement apparentées (clusters M1, M2 et M3) présentent le plus faible niveau de conservation des introns, ce qui correspond à leurs antécédents génétiques mélangés.

La phylogénie des introns sous-tend à la fois les événements de perte et de gain. une La distribution de la présence et de l'absence d'intron n'est pas cohérente avec la phylogénie de l'arbre mitochondrial. Les introns rares bi1α et ai3β sont mis en évidence (en gras) l'intron ai4γ n'a pas été trouvé dans la collection séquencée et n'est pas représenté. b Seules 4 séquences non redondantes ont été trouvées pour l'intron cox1 ai3β. Leurs séquences n'ont aucun rapport avec les autres Saccharomyces espèces, qui ne pouvaient pas être utilisées pour l'enracinement. La particularité de la distribution de cet intron pourrait suggérer un événement de gain spécifique à la lignée. c Arbre enraciné du ÉPI intron bi1α utilisant S. paradoxus et S. eubayanus séquences en tant qu'exogroupe. Les nœuds avec des valeurs de bootstrap inférieures à 0,5 ont été réduits. Sa présence dans de multiples lignées asiatiques très divergentes et dans d'autres Saccharomyces est compatible avec la perte d'introns suite à la dispersion hors de Chine. L'isolat CQS, qui abrite une introgression à la fois dans le génome nucléaire et mitochondrial, dérive également de S. paradoxus origine. Ceci est compatible avec la séquence exonique en aval, qui est également introgressée

Les COX1 les fréquences des introns dans la population sont cohérentes avec le rapport précédent [28], allant de 26 à 86%. Nous avons identifié un total de 103 différents COX1 combinaisons d'introns avec deux introns, ai4β et ai5α, qui ne sont jamais trouvées ensemble (ai4β est dans 89 tandis que ai5α dans 85, sur 408 allèles). Compte tenu du lien entre ces positions introniques étroitement espacées, soit elles ont grandi dans deux populations ancestrales, soit il est peu probable qu'elles soient réunies par recombinaison ou la double présence est fonctionnellement incompatible. Deux supplémentaires COX1 les introns, ai3β et ai4γ, sont très rares dans S. cerevisiae population. Alors que aI4γ est également absent dans la plupart des Saccharomyces espèces, l'intron ai3β est présent dans toutes. La seule occurrence d'ai3β précédemment signalée dans S. cerevisiae était dans l'isolat YCL, qui contient également S. paradoxus introgression autour de la position de l'intron dans COX1. Cependant, bien que l'intron ai3β soit présent dans S. paradoxus, la séquence d'intron ai3β de YCL est plus proche de celle trouvée dans Lachancea meyersii [28]. En plus de l'allèle YCL, nous avons trouvé trois autres variantes d'ai3β, toutes liées au Lachancea séquence. Deux variantes sont présentes dans les isolats YCL et ADE avec S. paradoxus introgressions, tandis que la souche CQS a une version apparentée. Un intron ai3β supplémentaire est présent dans deux isolats asiatiques et dans 19 isolats guyanais, dont le clade est fortement introgressé à partir de S. paradoxus (Fig. 4b). La présence de l'intron ai3β parmi ces lignées hautement introgressées suggère des événements de transfert latéral séparés de Lachancea, bien qu'il ne soit pas exclu que ces introns aient été initialement transférés de Lachancea, ou un genre apparenté, à S. paradoxus avant que l'introgression ne se produise.

En revanche, les six ÉPI les introns sont plus uniformément présents (fréquences allant de 88 à 99%, Fig. 4a) à la seule exception du bi1α récemment décrit [28] se produisant à basse fréquence (

5%). Étonnamment, bi1α est courant parmi les clades asiatiques à ramification précoce [47]. D'autres isolats l'hébergent, principalement des isolats de mosaïque, mais se séparent à faible fréquence dans les clades non asiatiques. Sa présence dans plusieurs Saccharomyces espèces hors groupe et dans le S. cerevisiae des lignées divergentes précoces suggèrent une perte précédant ou pendant la dispersion hors d'Asie. L'intron aurait pu être réintroduit, à partir de contacts secondaires avec des lignées asiatiques bi1α-positives. Pour tester ces hypothèses, nous avons construit un arbre phylogénétique en utilisant toutes les séquences d'intron bI1α et les groupes externes (Fig. 4c). L'arbre phylogénétique bi1α montre plus de variantes de séquences asiatiques que de séquences non asiatiques, qui se regroupent principalement en deux groupes issus de branches séparées d'introns asiatiques, ce qui correspond à de multiples événements de reprise séparés dans la population mondiale.

Les introns d'auto-épissage ont été associés à une augmentation des fréquences de mutation à la frontière intron/exon [29]. Nous avons scanné les séquences exoniques dans une fenêtre de 70 nucléotides à la fois en amont et en aval de chaque intron dans COX1 et ÉPI. Constamment, le très mobile COX1 les introns sont associés à une fréquence plus élevée d'allèles alternatifs dans une fenêtre de 20 nucléotides adjacente aux limites d'insertion (Fichier supplémentaire 1 : Figure S7).

Les réarrangements structurels sont rares dans les génomes mitochondriaux

Ensuite, nous étudions la taille et la présence de variations structurelles à travers les génomes mitochondriaux. Considérant les 250 assemblages circularisés, les tailles du génome mitochondrial vont de 73 450 à 95 658 pb (Fichier supplémentaire 2 : Tableau S3). Comme le contenu en gènes est entièrement conservé entre ces isolats, cette plasticité de grande taille est due à la variabilité de la région intergénique (allant de 45 254 à 69 807 pb) et du contenu en introns (allant de 7748 à 20 024 pb en taille) (Fichier supplémentaire 1 : Figure S8). Les deux facteurs sont fortement corrélés à la longueur totale du génome mitochondrial (r 2 0,769 et 0,756, respectivement liés à la corrélation p valeurs < 2.0E−04) (Fichier supplémentaire 1 : Figure S9). La taille du génome mitochondrial est variable parmi les isolats de la même lignée.

L'analyse de la synténie sur les 553 isolats avec génome sur un seul échafaudage met en évidence quatre inversions génomiques distinctes (Fig. 5, Fichier supplémentaire 1 : Figure S10). Deux souches des lignées de bière Wine/European et Ale, BKI et AQT, partagent une inversion de la région qui va de trnW à la COX2 tandis que trois souches Wine/européennes étroitement apparentées (AIM, BNG et CFB) partagent une plus grande inversion qui englobe également le gène de l'ARNr 15S (Fig. 5b, c). Des inversions ont également été trouvées dans la BDN (bière africaine) et la CDN (équatorienne) et sont liées à des régions allant de l'ARNr 15S ou COX1 gènes, respectivement, à la ATP6 gène (Fig. 5d, e). Toutes les limites d'inversion correspondent à des régions intergéniques riches en AT hautement répétitives, ce qui empêche leur délimitation précise. Fait intéressant, toutes ces inversions conduisent à la perte d'une caractéristique partagée par la plupart des levures ascomycètes, à savoir que tous les gènes codant pour les protéines mitochondriales sont transcrits à partir du même brin d'ADN [64]. Cependant, les fonctions mitochondriales ne semblent pas être altérées, car ces isolats conservent leurs capacités respiratoires.

Variantes structurales dans les génomes mitochondriaux. Schéma de l'organisation du génome mitochondrial annoté pour les gènes codant pour les protéines et les gènes rRNA et tRNA. Les emplacements approximatifs des points d'arrêt des inversions sont indiqués par des lignes pointillées. Ces organisations du génome mitochondrial sont liées à différents isolats. une S288C (partagé par la grande majorité des isolats). b AQI et BKI. c AIM, BNG et CFB. CDN. e BDN

Un rapport récent a suggéré que l'altération de l'ordre des gènes au sein des genres de levure pourrait être liée à la taille du génome mitochondrial [65]. Tandis que le Lachancea et Yarrowia clades, avec un génome mitochondrial inférieur à 50 kb, montrent une grande synténie entre les espèces [66, 67], le Saccharomyces le clade (taille du génome mitochondrial > 65 kb) est plus sujet aux réarrangements [65]. En effet, des réarrangements structurels ont également été détectés dans le génome mitochondrial de S. paradoxus [56]. Nos résultats suggèrent que la variation structurelle de l'ADNmt peut être tolérée, peut-être limitée à des événements équilibrés qui ne modifient pas le nombre de copies de CDS.

La variation du nombre de copies d'ADNmt révèle de petits isolats naturels

Le nombre de copies mitochondriales peut affecter considérablement les phénotypes, mais est difficile à mesurer avec des méthodes à haut débit. Nous avons estimé le nombre de copies d'ADNmt en utilisant la couverture relative de ATP6, COX2 et COX3, qui fournissent une cartographie robuste. Le nombre de génomes mitochondriaux est généralement constant à travers les clades (Fichier supplémentaire 1 : Figure S11), sans différence significative entre les lignées domestiquées et sauvages, avec une médiane de 18 génomes mitochondriaux pour chaque génome nucléaire haploïde. L'écart est cependant particulièrement élevé au sein de la population, atteignant plus de 80 exemplaires. Comme indiqué précédemment [68], le nombre de copies d'ADNmt augmente avec la ploïdie de manière linéaire, les souches diploïdes ayant environ le double du nombre de génomes mitochondriaux et triploïdes ayant trois fois le nombre, par rapport aux cellules haploïdes (Fig. 6a).

Variation naturelle du nombre de copies du génome mitochondrial. une Le nombre de copies du génome mitochondrial augmente linéairement avec le contenu du génome nucléaire. Quinze petits isolats naturels ont été détectés. Le nombre d'isolats est indiqué au dessus de la parcelle correspondante. b Le test de repérage sur une source de carbone non fermentescible (YPEG) confirme les petits isolats naturels (un sous-ensemble d'isolats testés est montré). c L'activité mitochondriale (en tant que potentiel membranaire) est fortement altérée par l'absence de génome mitochondrial (symboles noirs versus gris), tandis que le volume reste inchangé. Variation de la courbe de croissance des souches isogéniques avec des mitochondries normales (rho + , rouge), petite (rho 0 , verte) et petite hébergeant la mutation suppressive ATP2G1099T (rho 0 ATP2 sup, bleu). Parmi les petites naturelles, nous pouvons identifier à la fois des isolats avec un temps de doublement élevé (DT, ligne continue noire) et des isolats avec un taux de croissance récupéré, comparable aux petites avec des mutations suppressives (ligne pointillée noire). e Les temps de génération pour les isolats avec différents CN mitochondriaux montrent au moins deux petits isolats naturels qui semblent avoir récupéré un taux de croissance normal sur un milieu riche. Les courbes de croissance pour les isolats encerclés sont montrées dans

La présence de génomes mitochondriaux est supposée être l'état naturel de S. cerevisiae cellules, qui est défini comme rho + . Cependant, les souches peuvent perdre leur fonctionnalité mitochondriale dans différentes conditions soit par accumulation de mutations (rho − ) soit par perte complète (rho 0 ) du génome mitochondrial. Ces mutants sont définis comme « petites cytoplasmiques » (c'est-à-dire « petits ») car ils forment de petites colonies dans des milieux fermentescibles riches en raison de leur croissance lente. Étant donné que la production d'ATP médiée par la respiration est altérée chez les petites souches, elles sont incapables de se développer dans des sources de carbone non fermentescibles. Nous avons identifié 15 petites isolats naturels potentiels (Fichier supplémentaire 2 : tableaux S1 et S4) à partir de l'analyse de couverture et confirmé qu'ils ne pouvaient pas pousser sur des milieux à base de sources de carbone non fermentescibles (Fig. 6b). Tous les petits isolats semblent être rho 0 , à l'exception de deux isolats rho − : ABM qui a retenu ÉPI gène et AHV qui a gardé ATP9 et VAR1 gènes (Fichier supplémentaire 2 : Tableau S4). Ces isolats rho −, avec cinq autres rho 0 petite, étaient haploïdes dérivés de laboratoire (HO supprimé), et comme la manipulation de la souche aurait pu causer leur état mitochondrial, ils ont été exclus des analyses ultérieures. Nous avons examiné une sélection de quatre souches pour l'activité mitochondriale (mesurée en tant que potentiel de membrane) et le volume. Nous avons inclus comme témoins une souche rho + de type sauvage et deux variants rho 0 dérivés, l'un portant une mutation supplémentaire (ATP2 G1099T), qui restaurent en partie la croissance du rich media (Michael Breitenbach, données inédites). Comme prévu, les données d'activité montrent une incapacité à se développer sur des sources de carbone non fermentescibles (YPEG). Il n'y avait, cependant, aucune variation significative entre le volume mitochondrial des isolats de type sauvage et des petites, compatible avec le caractère essentiel du maintien des mitochondries également dans les petites souches (Fig. 6c, fichier supplémentaire 2 : tableau S4). Nous avons étudié si ces petites naturelles présentaient un défaut de doublement du temps en mesurant les courbes de croissance dans les milieux riches (YPD). Les petites souches ont montré des taux de croissance différents, deux d'entre elles ayant un temps de doublement proche de la normale (Fig. 6d, e Fichier supplémentaire 2 : Tableau S4). Ces souches n'ont ni ATP2 G1099T ni ATP3 Polymorphisme G348T qui restaure partiellement la croissance dans les milieux riches (Michael Breitenbach, données non publiées), par conséquent, d'autres mutations compensatoires pourraient avoir partiellement restauré la croissance dans ces souches. Nous ne pouvons pas exclure que le petit phénotype ait pu augmenter lors de manipulations en laboratoire, cependant, le rétablissement d'une croissance proche de la normale dans certains de ces isolats a probablement nécessité une propagation étendue avec de grandes tailles de population suggérant un événement de perte d'ADNmt plus éloigné. La sporulation est connue pour être altérée dans les petits isolats [69], et systématiquement, tous les petits isolats naturels ne sporulent pas.


Discussion

Nous avons séquencé le génome mitochondrial de Liriodendron tulipifera, le premier de la grande lignée (>10 000 espèces) de magnoliidés, à combler une lacune phylogénétique importante et à fournir un groupe externe pour la comparaison avec les lignées monocotylédones et eudicotées précédemment étudiées. La position phylogénétique de Liriodendron nous a permis de polariser les changements chez les monocotylédones et les eudicots, conduisant à une compréhension plus détaillée des modèles de perte d'édition d'ARN, de gains d'ARNt de plaste et de conservation des groupes de gènes chez les plantes à fleurs. Ces efforts ont été renforcés par le fait que le Liriodendron Le génome mitochondrial évolue exceptionnellement lentement en termes de séquence, de contenu et d'ordre des gènes, permettant un examen sans précédent de l'évolution précoce des génomes mitochondriaux des plantes. Ainsi, à bien des égards frappants, Liriodendron possède un génome mitochondrial « fossilisé », ayant subi remarquablement peu de changements au cours des 100 derniers millions d'années.

Aperçu de l'acquisition d'ARNt dérivés de plastes

Les preuves présentées ici indiquent une histoire évolutive différente des ARNt dérivés des plastes mitochondriaux chez les angiospermes que précédemment postulé [16, 54], repoussant généralement leurs origines plus tôt dans l'évolution des plantes à fleurs (Figure 2). Alors que Wang et al.[54] ont avancé une origine récente de trnP(TGG)-cp sur la branche menant à Nicotiana, sa présence chez les monocotylédones, les eudicots et maintenant les magnoliidés (Figure 2) suggère que son acquisition est probablement antérieure à l'ancêtre commun de ces trois lignées. De même, la présence de trnD(GTC)-cp dans Liriodendron repousse probablement l'origine de cet ARNt de l'ancêtre commun des eudicots à quelque temps après la divergence gymnosperme/angiosperme. Il convient de noter, cependant, que des gains parallèles chez les magnoliidae et les eudicots sont également possibles dans ce cas. La petite taille et la nature conservée des gènes d'ARNt sont telles que ces hypothèses concurrentes sont difficiles, voire impossibles, à tester avec une analyse phylogénétique.

Nous savons, grâce à d'autres génomes mitochondriaux d'angiospermes, que le transfert de séquence à partir du génome du plaste est fréquent à une échelle de temps évolutive [14, 55] et qu'à l'occasion, ces événements de transfert ont conduit à l'obtention d'ARNt fonctionnels, sur la base de leur conservation généralisée à travers les angiospermes [56] . Cependant, le calendrier des transferts fonctionnels n'est pas clair. En raison de ses faibles taux de perte de gènes, de changement de séquence et de fragmentation des groupes de gènes, Liriodendron peut avoir conservé une ou plusieurs régions d'ADN de plaste qui remontent aux transferts de séquence d'origine qui ont ensemencé de manière permanente certains des ARNt de plaste trouvés dans les génomes mitochondriaux des angiospermes (Figures 2 et 3). D'autres interprétations sont cependant possibles. Par exemple, que Liriodendron et la plupart des eudicots ont trnD(GTC)-cp (Figures 2 et 3A) pourrait être dû à des gains parallèles indépendants, une fois chez un ancêtre magnoliidé et une fois au début de l'évolution des eudicots.

Une partie de notre raisonnement selon lequel les séquences dérivées des plastes de la figure 3A, B peuvent être des vestiges de transferts d'ARNt de plaste fonctionnels précoces est que l'ARNt semble être plus fortement conservé que les régions flanquantes qui ont été simultanément transférées, ce qui suggère que la sélection purificatrice a préservé le ARNt tandis que la séquence non codante environnante s'est détériorée. Le fragment de la figure 3A semble être le plus ancien, ayant accumulé 15 % de divergence de séquences par paires. Étant donné les faibles taux d'évolution des séquences inférés dans les génomes mitochondriaux et plastidiens de Liriodendron, son transfert pourrait bien dater du début de l'évolution des angiospermes. Nous hésitons cependant à estimer le moment réel de l'événement de transfert pour plusieurs raisons. Les faibles taux de substitution actuels dans la lignée des magnoliides sont peut-être inférieurs aux taux antérieurs dans l'évolution des angiospermes, ce qui exclut l'utilisation d'une horloge moléculaire stricte. Les régions transférées contiennent une séquence de plaste avec de l'ADN intergénique, ainsi que des sites synonymes et non synonymes, qui sont soumis à des contraintes différentes dans le plaste par rapport au génome mitochondrial, ce qui complique encore les estimations du temps de divergence à l'échelle du fragment. Le fragment dérivé du plaste contenant trnP(TTG)-cp (Figure 3B) semble avoir été transféré plus récemment que le fragment de la Figure 3A, étant donné la divergence globale plus faible par rapport à sa séquence de plaste apparentée. Dans ce cas, cependant, une plus grande partie du fragment est constituée de gènes codant pour des protéines, ce qui diminuerait probablement le taux global de divergence de séquences par paires après l'événement de transfert.

Notre interprétation du temps écoulé depuis le transfert peut également être compliquée par la possibilité qu'une évolution concertée homogénéise des séquences homologues de plastes et de mitochondries [57]. Par exemple, il est possible qu'un fragment de séquence divergent dérivé du plaste contenant trnN(GTT)-cp (Figure 3C) était déjà présent dans le Liriodendron génome mitochondrial d'un transfert antérieur, et le court tronçon contenant l'ARNt a été «mis à jour» via une conversion génique entre celui-ci et une copie réintroduite du même tronçon d'ADN plastidial, restaurant l'identité de séquence entre le plaste et les copies mitochondriales. Ce mécanisme d'évolution concertée a été postulé pour expliquer les modèles de divergence de séquence dans un tronçon de séquence dérivée de plaste dans les génomes mitochondriaux de Oryza et Zéa, où la divergence plaste/mitochondrie au sein de l'espèce est moindre qu'entre les espèces de la région mitochondriale, malgré l'origine supposée partagée du fragment transféré [57]. Si les copies mitochondriales et plastidiales évoluent de concert, le fragment dérivé du plaste presque identique sur la figure 3C pourrait être beaucoup plus ancien que ne le suggère la similitude de séquence élevée.

Faibles taux de substitution mitochondriale et plastidiale chez les magnoliides

Les gènes mitochondriaux dans Liriodendron évoluent à un rythme exceptionnellement bas, accumulant seulement 0,035 substitutions de nucléotides par site silencieux par milliard d'années. Comme point de référence, en utilisant la même approche informatique que celle utilisée pour l'analyse du taux mitochondrial des plantes, nous avons aligné les 13 gènes codant pour les protéines des génomes mitochondriaux complets d'un humain [58], d'un Néandertal [59], d'un Denisova plus éloigné. hominine [60], et un groupe externe de chimpanzés [61]. Nous avons calculé un taux de substitution silencieux absolu de 69,5 ssb chez l'homme, en utilisant les dates de divergence pertinentes de Krause et al.[60]. Le taux de substitution mitochondriale humaine est plus de 5 000 fois plus rapide que Magnolia et 2 000 fois plus rapide que Liriodendron. En d'autres termes, la quantité moyenne de divergence mitochondriale du site silencieux accumulée au cours d'une seule génération (25 ans) chez l'homme prendrait environ 50 000 ans en Liriodendron et 130 000 ans en Magnolia.

Tondeuse et al.[10] ont caractérisé les taux de substitution mitochondriale silencieuse à travers environ 600 espèces végétales avec des ensembles de données d'un à cinq gènes et ont également constaté que Silène noctiflore est le plus rapide [10]. Le génome mitochondrial à évolution la plus lente rapporté par Mower et al.[10] était Cycas à 0,02 +/- 0,1 ssb, similaire au Liriodendron taux rapporté ici, et supérieur à notre estimation pour Magnolia en utilisant un alignement concaténé de 18 gènes. A notre connaissance, le taux estimé de 0,013 ssb en Magnolia est le plus faible taux de substitution à l'échelle du génome signalé dans tous les organismes, mais cette conclusion est tempérée par l'erreur associée dans nos estimations. Pour Magnolia et Liriodendron, l'intervalle de confiance de probabilité de 95 % concernant l'estimation de la bs en raison d'erreurs dans l'estimation de la substitution synonyme spécifique à la branche était respectivement de 0,003 à 0,034 et de 0,015 à 0,065 (Fichier supplémentaire 1 : tableau S3). De plus, nos estimations reposent fortement sur des temps de divergence calibrés par les fossiles, ce qui ajoute une source d'erreur supplémentaire (par exemple, voir [30, 31, 62, 63]). Nous avons utilisé deux fossiles largement acceptés au sein des magnoliidés [64, 65], qui ensemble devraient fournir une estimation relativement précise du temps de divergence pour les LiriodendronMagnolia diviser. L'intervalle de densité de probabilité le plus élevé à 95 % pour cette division était de 94,9 à 102,2 mya, et la valeur médiane que nous avons utilisée pour notre estimation était de 97,4 mya (voir Méthodes). Par conséquent, dans notre étude, les erreurs dans l'estimation du taux absolu pour Liriodendron et Magnolia sont moins influencées par l'incertitude du temps de divergence que par l'erreur dans l'estimation de la probabilité des taux de substitution synonymes spécifiques à la branche.

Nous avons constaté que les taux de substitution mitochondriale et chloroplastique étaient à peu près corrélés dans les taxons examinés ici (figure 4), une observation méritant une étude de suivi plus détaillée. Bien qu'il soit trop tôt pour trop extrapoler, le mode de croissance (annuel vs vivace, arbuste vs arbre) pourrait sous-tendre ce schéma [66]. Le temps de génération et les taux de substitution synonyme sont généralement inversement corrélés dans les plantes (pour une revue, voir [67]). Les forces motrices derrière cette relation ne sont pas claires, cependant, car les plantes n'ont pas de lignée germinale dédiée, donc le temps de génération et le nombre de divisions cellulaires reproductrices par an ne sont pas aussi étroitement liés que chez les animaux. Les différences entre les annuelles et les vivaces, en termes de taux de spéciation et/ou de métabolisme, pourraient sous-tendre la relation de taux de substitution entre les générations [67] et pourraient influencer de la même manière chacun des trois génomes de la plante. À mesure que des données de génomique nucléaire seront disponibles pour une plus grande diversité de plantes, il sera intéressant de déterminer si cette corrélation s'étend aux trois compartiments génétiques.

Nos données ont également récupéré un plus grand rapport de taux de substitution silencieuse entre les plastes et les mitochondries que précédemment [9, 13, 51, 52]. Notre estimation a bénéficié de beaucoup plus de données de séquence et d'un échantillonnage de taxons beaucoup plus large que les études précédentes, ce qui pourrait expliquer l'écart. De plus, étant donné la gamme de 5 000 fois et 40 fois des taux de substitution mitochondriale et plastidiale, respectivement, que nous avons trouvé, il semble que l'échantillonnage des taxons peut avoir un effet important sur les rapports moyens inférés. Les lignées mitochondriales et plastidiales « à taux élevé » n'ont pas toujours des taux proportionnellement élevés dans les deux génomes des organites [48], ce qui conduit à des relations extrêmes entre les taux plaste et mitochondrial (par exemple, 0,08 dans Silène conique) (Figure 4). La variation de gène à gène des taux de substitution silencieuse mitochondriale [10] et plastidiale [48, 53] est également courante, ce qui souligne la nécessité de prendre en compte de nombreux gènes mitochondriaux et plastidiques pour une détermination précise des taux relatifs.

Rétention des sites d'édition d'ARN perdus dans de nombreuses lignées

Le niveau global élevé d'édition d'ARN C-à-U dans Liriodendron, ainsi que son grand nombre de sites d'édition uniques, ajoutent un support supplémentaire pour un modèle de niveaux relativement élevés d'édition d'ARN dans le génome mitochondrial ancestral des angiospermes (environ 700 sites dans les gènes codant pour les protéines), suivis de divers degrés de perte ultérieure dans différents lignées (Figure 5) [26, 27]. Données d'édition d'ARN d'un angiosperme d'une lignée « divergente précoce », telle que Amborella ou Nymphée, aiderait à polariser le degré de perte d'édition dans Liriodendron, qui semble être exceptionnellement bas sur la base de ces données. Il n'y a pas d'explication adaptative claire pour l'émergence et le maintien de l'édition de l'ARN chez les plantes [25, 68, 69], mais il peut avoir émergé par des processus neutres, seulement pour devenir essentiel à la suite de substitutions au niveau des cytosines fonctionnellement importantes qui ont nécessité une édition post-transcriptionnelle pour produisent l'acide aminé conservé [70] – une hypothèse entrant dans la catégorie de « l'évolution neutre constructive » [71, 72]. Conformément à ce modèle, la plupart des sites d'édition modifient la séquence d'acides aminés traduite [21, 73], un modèle souligné dans Liriodendron, dans laquelle 82 % des modifications ont été effectuées sur des sites non synonymes. Alors que l'émergence de l'édition d'ARN peut être due à des processus neutres, des travaux comparatifs ont trouvé un support pour la sélection favorisant la perte d'édition au fil du temps [26, 27], et il est probable qu'une telle sélection serait plus forte sur les sites non synonymes, où une édition peu fiable serait être le plus délétère. Conformément à cette hypothèse, nous avons trouvé que le rapport perte/gain était de 14:1 sur les sites non synonymes par rapport à 2:1 sur les sites silencieux à travers les angiospermes (Figure 5).

Conservation des amas de gènes anciens

Bien que l'ordre général des gènes soit très variable parmi les génomes mitochondriaux des angiospermes [13], même entre des taxons étroitement apparentés [15], les résultats soulignent ici des contraintes compensatoires sur de courts groupes de liaisons génétiques opérant tout au long de l'évolution des angiospermes. Alors que certains des clusters conservés (par exemple, rrnS–rrn5 et rpl2–rps19–rps3–rpl16) remontent à l'ancêtre bactérien original des mitochondries [19], d'autres sont uniques aux angiospermes, comme le atp8–cox3–sdh4 et rps13–nad1.x2.x3 groupes. Les cinq clusters partagés par Liriodendron et Cycas étaient très probablement présents au début de l'évolution des plantes à graines, et nous pouvons regarder en dehors des plantes à graines pour en déduire lesquelles d'entre elles étaient également présentes au début de l'évolution des plantes vasculaires. Une analyse comparative de l'ordre des gènes a montré Huperzia avoir connu moins de réarrangements par rapport aux bryophytes que tout autre génome mitochondrial de plante vasculaire [74], ce qui en fait une comparaison significative pour la conservation de l'ordre des gènes des plantes vasculaires. Sur les cinq clusters partagés par Cycas et Liriodendron, trois sont partagés avec Huperzia et deux ne le sont pas. Tous les groupes de gènes trouvés dans Liriodendron à l'exclusion de Cycas manquent également de Huperzia, suggérant que de tels clusters sont en effet spécifiques aux angiospermes.

La transcription est probablement une contrainte importante, par laquelle les gènes adjacents partagent un seul promoteur et sont co-transcrits, comme cela a été montré pour trois groupes de gènes conservés dans Nicotiana[16]. Cela pourrait expliquer pourquoi tous les clusters conservés à travers les angiospermes impliquent des gènes codés sur le même brin. Fait intéressant, trois des grappes supposées être présentes dans l'angiosperme ancestrale impliquent des fragments internes de trans-gènes épissés (Figure 6), qui peuvent, après un examen plus approfondi, fournir des indices quant à la régulation et à la reconstruction de transcrits de pleine longueur à partir de trans-gènes épissés.

Les Liriodendron Le génome mitochondrial semble avoir été soumis à la fois à de faibles taux de substitution silencieuse et à une fragmentation peu fréquente des groupes de gènes par rapport aux génomes mitochondriaux eudicot et monocot séquencés (Figures 4 et 6). Cependant, les niveaux de substitution silencieuse et de fragmentation des groupes de gènes ne varient pas nécessairement entre tous les angiospermes de notre étude. Par exemple, l'un des taxons avec un taux de substitution silencieuse relativement élevé (>30 × plus rapide que Liriodendron), Cucurbitacées, a 11 groupes de gènes conservés contre 12 dans Liriodendron, tandis que Zéa, avec un taux relativement plus lent (10 × plus rapide que Liriodendron), n'en a que cinq. Dans les génomes des plastes des angiospermes, il existe un soutien pour une relation positive entre les taux d'évolution structurelle et séquentielle [75], mais cette relation n'est pas universelle [48, 53]. Dans Silène, par exemple, bien que les taux de réarrangement de l'ordre des gènes des plastes soient plus élevés chez les espèces ayant des taux de substitution plus élevés, bon nombre de ces substitutions se produisent sur des sites non synonymes et ne sont donc pas facilement expliquées par un modèle simple, axé sur les mutations [48].


Contenu

Les introns ont d'abord été découverts dans les gènes codant pour les protéines de l'adénovirus, [8] [9] et ont ensuite été identifiés dans les gènes codant pour l'ARN de transfert et les gènes d'ARN ribosomique. Les introns sont maintenant connus pour se produire dans une grande variété de gènes dans les organismes et les virus dans tous les règnes biologiques.

Le fait que les gènes soient divisés ou interrompus par des introns a été découvert indépendamment en 1977 par Phillip Allen Sharp et Richard J. Roberts, pour lesquels ils ont partagé le prix Nobel de physiologie ou médecine en 1993. [10] Le terme intron a été introduit par le biochimiste américain Walter Gilbert : [5]

« La notion de cistron [c'est-à-dire de gène] . doit être remplacée par celle d'une unité de transcription contenant des régions qui seront perdues du messager mature - que je suggère que nous appelions introns (pour les régions intragéniques) - en alternance avec des régions qui seront exprimé - exons." (Gilbert 1978)

Le terme intron fait également référence à intracistron, c'est-à-dire un morceau supplémentaire d'ADN qui apparaît dans un cistron. [11]

Bien que les introns soient parfois appelés séquences intermédiaires, [12] le terme « séquence intermédiaire » peut faire référence à l'une des nombreuses familles de séquences d'acides nucléiques internes qui ne sont pas présentes dans le produit génique final, y compris les intéines, les régions non traduites (UTR) et les nucléotides éliminés par édition d'ARN, en plus aux introns.

On observe que la fréquence des introns dans différents génomes varie considérablement à travers le spectre des organismes biologiques. Par exemple, les introns sont extrêmement courants dans le génome nucléaire des vertébrés à mâchoires (par exemple, les humains et les souris), où les gènes codant pour les protéines contiennent presque toujours plusieurs introns, tandis que les introns sont rares dans les gènes nucléaires de certains micro-organismes eucaryotes, [13] par exemple. levure de boulanger/de bière (Saccharomyces cerevisiae). En revanche, les génomes mitochondriaux des vertébrés sont entièrement dépourvus d'introns, tandis que ceux des micro-organismes eucaryotes peuvent contenir de nombreux introns. [14]

Un cas particulièrement extrême est le Drosophile dhc7 gène contenant un intron ≥3,6 mégabases (Mb), dont la transcription prend environ trois jours. [15] [16] À l'autre extrême, une étude récente suggère que la plus courte longueur d'intron eucaryote connue est de 30 paires de bases (pb) appartenant à l'homme MST1L gène. [17]

L'épissage de toutes les molécules d'ARN contenant des introns est superficiellement similaire, comme décrit ci-dessus. Cependant, différents types d'introns ont été identifiés grâce à l'examen de la structure des introns par analyse de la séquence d'ADN, ainsi qu'à l'analyse génétique et biochimique des réactions d'épissage de l'ARN.

Au moins quatre classes distinctes d'introns ont été identifiées : [1]

    qui sont éliminés par les spliceosomes (introns spliceosomal)
  • Introns dans les gènes d'ARN de transfert nucléaires et archéens qui sont éliminés par des protéines (introns d'ARNt)
  • Introns du groupe I à auto-épissage qui sont éliminés par catalyse à ARN
  • Introns auto-épissés du groupe II qui sont éliminés par catalyse ARN

Les introns du groupe III sont proposés pour être une cinquième famille, mais on sait peu de choses sur l'appareil biochimique qui médie leur épissage. Ils semblent être liés aux introns du groupe II, et peut-être aux introns spliceosomal. [18]

Introns spliceosomiques Modifier

Les introns nucléaires de pré-ARNm (introns spliceosomal) sont caractérisés par des séquences d'introns spécifiques situées aux frontières entre les introns et les exons. [19] Ces séquences sont reconnues par les molécules d'ARN spliceosomal lorsque les réactions d'épissage sont initiées. [20] De plus, ils contiennent un point de ramification, une séquence nucléotidique particulière près de l'extrémité 3' de l'intron qui devient liée de manière covalente à l'extrémité 5' de l'intron pendant le processus d'épissage, générant un ramification (lasso) intron. En dehors de ces trois éléments conservés courts, les séquences d'intron de pré-ARNm nucléaire sont très variables. Les introns pré-ARNm nucléaires sont souvent beaucoup plus longs que leurs exons environnants.

Introns d'ARNt Modifier

Les introns d'ARN de transfert qui dépendent des protéines pour être éliminés se produisent à un emplacement spécifique dans la boucle d'anticodon des précurseurs d'ARNt non épissés et sont éliminés par une endonucléase d'épissage d'ARNt. Les exons sont ensuite liés entre eux par une seconde protéine, la ligase d'épissage de l'ARNt. [21] Notez que les introns d'auto-épissage sont aussi parfois trouvés dans les gènes d'ARNt. [22]

Introns du groupe I et du groupe II Modifier

Les introns des groupes I et II se trouvent dans les gènes codant pour les protéines (ARN messager), l'ARN de transfert et l'ARN ribosomique dans un très large éventail d'organismes vivants., [23] [24] Après la transcription en ARN, les introns des groupes I et II sont également faire des interactions internes étendues qui leur permettent de se replier dans une architecture tridimensionnelle spécifique et complexe. Ces architectures complexes permettent à certains introns des groupes I et II d'être auto-épissage, c'est-à-dire que la molécule d'ARN contenant l'intron peut réorganiser sa propre structure covalente de manière à retirer précisément l'intron et à lier les exons ensemble dans le bon ordre. Dans certains cas, des protéines particulières de liaison aux introns sont impliquées dans l'épissage, agissant de telle manière qu'elles aident l'intron à se replier dans la structure tridimensionnelle nécessaire à l'activité d'auto-épissage. Les introns du groupe I et du groupe II se distinguent par différents ensembles de séquences conservées internes et de structures repliées, et par le fait que l'épissage de molécules d'ARN contenant des introns du groupe II génère des introns ramifiés (comme ceux des ARN spliceosomal), tandis que les introns du groupe I utilisent un non -nucléotide guanosine codé (généralement GTP) pour initier l'épissage, en l'ajoutant à l'extrémité 5' de l'intron excisé.

Bien que les introns ne codent pas pour les produits protéiques, ils font partie intégrante de la régulation de l'expression des gènes. Certains introns eux-mêmes codent pour des ARN fonctionnels par un traitement ultérieur après l'épissage pour générer des molécules d'ARN non codantes. [25] L'épissage alternatif est largement utilisé pour générer plusieurs protéines à partir d'un seul gène. De plus, certains introns jouent un rôle essentiel dans un large éventail de fonctions régulatrices de l'expression génique, telles que la désintégration à médiation non-sens [26] et l'exportation d'ARNm. [27]

Les origines biologiques des introns sont obscures. Après la découverte initiale des introns dans les gènes codant pour les protéines du noyau eucaryote, il y a eu un débat important pour savoir si les introns des organismes modernes étaient hérités d'un ancien ancêtre commun (appelé l'hypothèse des introns précoces), ou s'ils apparaissaient dans gènes assez récemment dans le processus évolutif (appelée hypothèse des introns tardifs). Une autre théorie est que le spliceosome et la structure intron-exon des gènes sont une relique du monde de l'ARN (l'hypothèse des introns en premier). [28] Il y a encore un débat considérable sur la mesure dans laquelle de ces hypothèses est la plus correcte. Le consensus populaire à l'heure actuelle est que les introns sont apparus au sein de la lignée eucaryote en tant qu'éléments égoïstes. [29]

Les premières études des séquences d'ADN génomique d'un large éventail d'organismes montrent que la structure intron-exon des gènes homologues dans différents organismes peut varier considérablement. [30] Des études plus récentes de génomes eucaryotes entiers ont maintenant montré que les longueurs et la densité (introns/gène) des introns varient considérablement entre les espèces apparentées. Par exemple, alors que le génome humain contient en moyenne 8,4 introns/gène (139 418 dans le génome), le champignon unicellulaire Encéphalitozoon cuniculi contient seulement 0,0075 introns/gène (15 introns dans le génome). [31] Puisque les eucaryotes sont nés d'un ancêtre commun (descendance commune), il doit y avoir eu un gain ou une perte considérable d'introns pendant le temps évolutif. [32] [33] On pense que ce processus est soumis à la sélection, avec une tendance au gain d'intron dans les espèces plus grandes en raison de leurs plus petites tailles de population, et l'inverse dans les espèces plus petites (en particulier unicellulaires). [34] Les facteurs biologiques influencent également quels gènes dans un génome perdent ou accumulent des introns. [35] [36] [37]

L'épissage alternatif d'exons au sein d'un gène après l'excision d'intron agit pour introduire une plus grande variabilité des séquences protéiques traduites à partir d'un seul gène, permettant à plusieurs protéines apparentées d'être générées à partir d'un seul gène et d'un seul transcrit d'ARNm précurseur. Le contrôle de l'épissage alternatif de l'ARN est effectué par un réseau complexe de molécules de signalisation qui répondent à une large gamme de signaux intracellulaires et extracellulaires.

Les introns contiennent plusieurs séquences courtes qui sont importantes pour un épissage efficace, telles que des sites accepteurs et donneurs à chaque extrémité de l'intron ainsi qu'un site de point de branchement, qui sont nécessaires pour un épissage correct par le spliceosome. Certains introns sont connus pour améliorer l'expression du gène dans lequel ils sont contenus par un processus connu sous le nom d'amélioration médiée par les introns (IME).

Les régions d'ADN activement transcrites forment fréquemment des boucles R qui sont vulnérables aux dommages de l'ADN. Dans les gènes de levure fortement exprimés, les introns inhibent la formation de boucles R et l'apparition de dommages à l'ADN. [38] L'analyse à l'échelle du génome à la fois chez la levure et chez les humains a révélé que les gènes contenant des introns ont diminué les niveaux de boucle R et diminué les dommages à l'ADN par rapport aux gènes sans intron d'expression similaire. [38] L'insertion d'un intron dans un gène enclin à la boucle R peut également supprimer la formation et la recombinaison de la boucle R. Bonnet et al. (2017) [38] ont émis l'hypothèse que la fonction des introns dans le maintien de la stabilité génétique pourrait expliquer leur maintien évolutif à certains endroits, en particulier dans les gènes fortement exprimés.

Adaptation à la famine Modifier

La présence physique d'introns favorise la résistance cellulaire à la famine via la répression renforcée par les introns des gènes des protéines ribosomiques des voies de détection des nutriments. [39]

Les introns peuvent être perdus ou gagnés au cours du temps évolutif, comme le montrent de nombreuses études comparatives de gènes orthologues. Des analyses ultérieures ont identifié des milliers d'exemples d'événements de perte et de gain d'intron, et il a été proposé que l'émergence des eucaryotes, ou les étapes initiales de l'évolution eucaryote, impliquait une invasion d'intron. [40] Deux mécanismes définitifs de perte d'intron, la perte d'intron médiée par la transcriptase inverse (RTMIL) et les délétions génomiques, ont été identifiés et sont connus pour se produire. [41] Les mécanismes définitifs de gain d'intron, cependant, restent insaisissables et controversés. Au moins sept mécanismes de gain d'intron ont été rapportés à ce jour : transposition d'intron, insertion de transposon, duplication génomique en tandem, transfert d'intron, gain d'intron pendant la réparation de cassure double brin (DSBR), insertion d'un intron du groupe II et intronisation. En théorie, il devrait être plus facile de déduire l'origine des introns récemment acquis en raison de l'absence de mutations induites par l'hôte, mais même les introns acquis récemment ne proviennent d'aucun des mécanismes susmentionnés. Ces découvertes soulèvent donc la question de savoir si les mécanismes proposés de gain d'intron ne parviennent pas à décrire l'origine mécaniste de nombreux nouveaux introns parce qu'ils ne sont pas des mécanismes précis de gain d'intron, ou s'il existe d'autres processus, encore à découvrir, générant de nouveaux introns. [42]

Dans la transposition d'intron, le mécanisme de gain d'intron le plus souvent prétendu, on pense qu'un intron épissé inverse l'épissage dans son propre ARNm ou un autre ARNm à une position auparavant sans intron. Cet ARNm contenant des introns est ensuite transcrit de manière inverse et l'ADNc contenant des introns résultant peut alors provoquer un gain d'introns via une recombinaison complète ou partielle avec son locus génomique d'origine. Les insertions de transposons peuvent également entraîner la création d'introns. Une telle insertion pourrait introniser le transposon sans perturber la séquence codante lorsqu'un transposon s'insère dans la séquence AGGT, entraînant la duplication de cette séquence de chaque côté du transposon. On ne comprend pas encore pourquoi ces éléments sont épissés, que ce soit par hasard, ou par une action préférentielle du transposon. Dans la duplication génomique en tandem, en raison de la similitude entre les sites d'épissage donneur et accepteur consensus, qui ressemblent tous deux à AGGT, la duplication génomique en tandem d'un segment exonique hébergeant une séquence AGGT génère deux sites d'épissage potentiels. Lorsqu'elle est reconnue par le spliceosome, la séquence entre l'AGGT d'origine et dupliquée sera épissée, entraînant la création d'un intron sans altération de la séquence codante du gène. La réparation des cassures double brin via une jonction d'extrémités non homologues a récemment été identifiée comme une source de gain d'intron lorsque les chercheurs ont identifié de courtes répétitions directes flanquant 43% des introns gagnés chez Daphnia. [42] Ces nombres doivent être comparés au nombre d'introns conservés flanqués de répétitions dans d'autres organismes, cependant, pour la pertinence statistique. Pour l'insertion d'intron de groupe II, le rétrohoming d'un intron de groupe II dans un gène nucléaire a été proposé pour provoquer un gain récent d'intron spliceosomal.

Le transfert d'intron a été supposé entraîner un gain d'intron lorsqu'un paralogue ou un pseudogène gagne un intron, puis transfère cet intron par recombinaison vers un emplacement sans intron dans son paralogue sœur. L'intronisation est le processus par lequel les mutations créent de nouveaux introns à partir d'une séquence anciennement exonique. Ainsi, contrairement à d'autres mécanismes proposés de gain d'intron, ce mécanisme ne nécessite pas l'insertion ou la génération d'ADN pour créer un nouvel intron. [42]

Le seul mécanisme hypothétique de gain d'intron récent sans aucune preuve directe est celui de l'insertion d'intron du groupe II, qui, lorsqu'il est démontré in vivo, abolit l'expression des gènes. [43] Les introns du groupe II sont donc probablement les ancêtres présumés des introns spliceosomals, agissant comme des rétroéléments spécifiques au site, et ne sont plus responsables du gain d'intron. [44] [45] La duplication génomique en tandem est le seul mécanisme proposé avec des preuves expérimentales in vivo à l'appui : une courte duplication en tandem intragénique peut insérer un nouvel intron dans un gène codant pour une protéine, laissant la séquence peptidique correspondante inchangée. [46] Ce mécanisme a également des preuves indirectes étendues soutenant l'idée que la duplication génomique en tandem est un mécanisme répandu pour le gain d'intron. Le test d'autres mécanismes proposés in vivo, en particulier le gain d'intron pendant DSBR, le transfert d'intron et l'intronisation, est possible, bien que ces mécanismes doivent être démontrés in vivo pour les solidifier en tant que mécanismes réels de gain d'intron. D'autres analyses génomiques, en particulier lorsqu'elles sont exécutées au niveau de la population, peuvent ensuite quantifier la contribution relative de chaque mécanisme, en identifiant éventuellement des biais spécifiques aux espèces qui peuvent faire la lumière sur les taux variés de gain d'introns parmi différentes espèces. [42]


MÉTHODES

Afin d'établir une nomenclature standard pour les introns dans les gènes codant pour les protéines à travers le Royaume Champignons, il est nécessaire de trouver un mitogénome de référence approprié. En examinant les espèces fongiques avec des mitogénomes disponibles, nous choisissons le mitogénome du champignon producteur de cyclosporine Tolypocladium inflatum ARSEF 3280 (numéro d'accès NC_036382) comme mitogénome de référence. Le mitogénome de 25 328 pb de T. inflatum contient les 15 gènes codant pour les protéines que l'on trouve généralement dans les mitogénomes fongiques, et il n'y a aucun intron dans aucun de ces gènes codant pour les protéines (Zhang et al. 2017d). Nous n'avons pas choisi le modèle le mieux compris champignons: 'La levure de boulanger' Saccharomyces cerevisiae, la levure de fission Schizosaccharomyces pombe, le champignon pathogène opportuniste Candida albicans, l'euascomycète filamenteux Neurospora crassa, etc. C'est parce que les levures Sa. cerevisiae et Sc. pombe les deux manquent de gènes codant pour les déshydrogénases de NADH dans leurs mitogénomes (Foury et al. 1998), et C. albicans et N. crassa contiennent des introns dans de nombreux gènes différents codant pour des protéines (Borkovich et al. 2004 Bartelli et al. 2013). Nous n'avons pas non plus choisi le génome mitochondrial humain, qui a été choisi comme référence pour nommer les introns trouvés dans nad5 et cox1 chez certains métazoaires (Emblem et al. 2011). En effet, le mitogénome humain ne contient que 13 gènes codant pour des protéines standard sans atp9 et rps3. Ces deux derniers gènes sont connus pour héberger des introns dans les mitogénomes fongiques.

À la fois basal et supérieur champignons peuvent contenir des introns dans leurs mitogénomes. Nous avons sélectionné au hasard des espèces représentatives dans chaque embranchement fongique pour localiser et nommer les introns possibles (tableau 1). La détermination de la position d'insertion d'un intron repose sur l'alignement entre les séquences de son gène hôte et les séquences géniques correspondantes de T. inflatum (Fichier supplémentaire 1). Bien qu'il existe de nombreux programmes d'alignement de séquences disponibles, nous vous recommandons d'utiliser MAFFT (https://mafft.cbrc.jp/alignment/software/), qui est rapide lors de l'alignement de longues séquences contenant de nombreux introns et peut toujours générer un alignement satisfaisant selon notre expérience . Le paramètre par défaut de MAFFT fonctionne bien dans la plupart des cas. Si les limites exon-intron ne sont pas correctement identifiées (probablement en raison de l'interférence des séquences d'intron ou de la présence d'exons courts) sous les paramètres par défaut, on peut envisager d'ajuster les paramètres d'alignement (par exemple, essayez « Unalignlevel > 0 » et éventuellement « Leave gappy régions» en sélectionnant la stratégie d'alignement G-INS-1 ou G-INS-i) et/ou en important des séquences supplémentaires à aligner à partir d'une espèce étroitement apparentée à l'espèce test. De plus, il est toujours conseillé de se référer aux résultats d'annotation connus et/ou aux nucléotides caractéristiques aux sites d'épissage des introns des groupes I/II (Cech 1988) pour assurer un alignement et une identification corrects des limites exon-intron.


Informations sur l'auteur

Affiliations

Universidade Federal do Espírito Santo, Grupo de Ecologia Bêntica, Departamento de Oceanografia, Av. Fernando Ferrari, 514, Vitória, ES, 29075-910, Brésil

Université d'Auburn, Département des sciences biologiques, 101 Life Sciences Building, Auburn, AL, 36849, États-Unis

Yuanning Li et Kenneth M. Halanych

Département d'océanographie, SOEST, Université d'Hawaï à Manoa, 1000 Pope Road, Honolulu, HI, 96822, États-Unis

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

Conception et réalisation des expériences : C.R.S., K.M.H. Réalisation des expériences : A.F.B., Y.L., C.R.S., K.M.H. Analyse des données : A.F.B., Y.L., K.M.H. Réactifs/matériaux/outils d'analyse fournis : K.M.H., C.R.S. A écrit l'article : A.F.B., Y.L., C.R.S., K.M.H.

Auteurs correspondants


Méthodes

Isolats fongiques et extraction d'ADN

Seize T. fuciformis les isolats (TF01-TF16) ont été obtenus par le Centre de gestion des ressources génétiques fongiques comestibles de la province de Fujian, Fuzhou, Chine. L'origine des isolats est répertoriée dans le tableau supplémentaire 3. Parmi eux, TF15 a été isolé des parcs nationaux de Wuyishan, Fujian, Chine, en 2014, TF11 et TF14 ont été obtenus de la réserve naturelle nationale de Wuyishan en 2015, et TF01 était un autre isolat sauvage de Réserve naturelle nationale Huboliao du Fujian.

Après avoir été cultivées sur un bouillon de dextrose de pomme de terre à 25 °C pendant 48 h, des cellules uniques de type levure de T. fuciformis ont été lavés et récoltés par centrifugation à 10 000 g pendant 5 min, et conservés à - 20 °C après lyophilisation. Pour le séquençage Illumina, ADN génomique total de 16 T. fuciformis les isolats ont été extraits à l'aide du kit Omega HP Plant DNA selon les instructions du fabricant, au moins 500 ng d'ADN (> 18 ng/ul) étaient nécessaires pour chaque échantillon. Pour le séquençage PacBio, le séquençage en temps réel d'une seule molécule (SMRT), de longs fragments d'ADN de TF02 et TF15 ont été isolés à l'aide de la méthode au bromure de cétyl triméthylammonium (CTAB) comme décrit dans www.pacb.com/wp-content/uploads/2015/09 / DNA-extraction-chlamy-CTAB-JGI.pdf au moins 20 g d'ADN (DO260/280 entre 1,8 et 2,0, DO260/230 entre 2,0 et 2,2, ADNg intact > 20 kb) était nécessaire pour chaque échantillon.

Séquençage, assemblage et annotation de gènes du génome

Séquençage au fusil de chasse du génome entier de 16 T. fuciformis isolats a été réalisée à Beijing Novogene Bioinformatics Technology Co., Ltd. en utilisant la plate-forme Illumina HiSeq 2500 avec des bibliothèques appariées, ciblant 3 à 6 Gb de données par isolat. Les données brutes de séquençage Illumina de T. mesenterica ATCC28783 (accession SRX8046622) a été téléchargé à partir de la base de données SRA du NCBI. Les lectures brutes ont été assemblées à l'aide de Velvet 1.2.03 [52].

Les contigs mitochondriaux ont été identifiés par BLAST par rapport au génome mitochondrial publié de Cryptococcus neoformans var. grubii H99 (accession NC_004336). Les contigs mitochondriaux ont été étendus étape par étape en fonction de la relation paire-extrémité des lectures : si une lecture est mappée à l'extrémité d'un contig, l'autre extrémité peut étendre la séquence. Des extensions ou des lacunes ambiguës ont été confirmées ou fermées par séquençage PCR. Les contigs ont été concaténés en séquences d'ADN circulaires uniques sur la base d'un chevauchement de 100 %.

La technologie de séquençage PacBio a été utilisée pour vérifier la précision de l'assemblage de deux des isolats séquencés par Illumina, TF13 et TF15. Ceux-ci ont été séquencés à l'aide de PacBio RS II, ciblant environ 2,5 Gb de données brutes par isolat. L'assemblage du génome pour les données de séquençage PacBio a été réalisé à l'aide du programme Canu 1.3 [53]. Des contigs uniques pour chaque mitogénome ont été identifiés par comparaison avec les génomes mitochondriaux des isolats correspondants obtenus à partir des données de séquençage d'Illumina, pour obtenir des ADN circulaires complets après avoir coupé les extrémités 3'.

La prédiction des gènes et l'annotation des gènes ont été initialement effectuées à l'aide de l'outil en ligne MFannot (http://megasun.bch.umontreal.ca/cgi-bin/mfannot/mfannotInterface.pl). Les ARNt ont été annotés en combinant les résultats de MFannot, tRNAscan-SE [54] et RNAweasel [55]. Les limites des gènes conservés et les points de jonction exon-intron ont été confirmés par comparaison avec les gènes correspondants sans intron d'autres isolats testés à l'aide de Clustal X [56].

Analyse phylogénétique de T. fuciformis isole

Pour déterminer les relations évolutives entre les 16 T. fuciformis isolats, séquences d'acides aminés concaténées de 14 gènes conservés (atp6, atp8, atp9, épi, cox1, cox2, cox3, nad1, nad2, nad3, nad4, nad4L, nad5, et nad6) totalisant 4252 caractères, ont été utilisés pour l'analyse phylogénétique, en utilisant T. mesenterica en tant qu'exogroupe. Les alignements d'acides aminés ont été effectués à l'aide de Clustal W dans le programme MEGA 6 [57] avec des valeurs de pénalité d'ouverture de trou et de pénalité extensive de trou de 10 et 3, respectivement (identiques aux alignements par paires et multiples). Un arbre phylogénétique a été construit en utilisant le Maximum de Vraisemblance dans MEGA 6, et testé par analyse Booststrap avec 500 réplications. Les lacunes et les données manquantes dans les alignements ont été traitées comme des suppressions.

Analyse PCR pour confirmer les introns spéciaux prédits

Des analyses PCR ont été utilisées pour confirmer les introns prédits. Les amorces (tableau supplémentaire 4) ont été conçues à l'aide de l'outil en ligne primer-blast du site Web du NCBI. Ces amorces ciblaient des régions d'ADNc de l'exon en amont à la séquence N-terminale, et dans des cas particuliers, des régions de l'exon en amont à la duplication N-terminale. Des isolats représentatifs ont été sélectionnés pour le travail de PCR. Les ADNmt de ces isolats devaient inclure tous les introns et les séquences correspondantes sans intron.

Les cellules de levure ont été collectées en phase logarithmique et l'ARN a été extrait à l'aide du kit Omega HP Plant RNA.L'ADNc a été rétrotranscrit à l'aide du kit PrimeScript™ RT-PCR (Takara, Dalian) et utilisé comme modèles de PCR. Les produits de PCR ont été séquencés à Sangon Biotech (Shanghai).


Matériaux et méthodes

Échantillonnage et extraction d'ADN

Le mycélium symptomatique de l'agent pathogène de la cicatrice glissante de A. polytricha a été collecté à Jintang, dans la province du Sichuan, en Chine. L'isolement de l'agent pathogène responsable a été effectué selon Peng et al. 1 . Les champignons suspects ont d'abord été cultivés sur milieu PDA pendant 3 jours, puis inoculés dans des sacs de culture avec des A. polytricha mycélium. Les sacs de culture inoculés ont été cultivés à 25 °C pendant 20 jours. Ensuite, les champignons pathogènes ont été ré-isolés des sacs de culture avec des A. polytricha, qui a montré les symptômes de cicatrice glissante. La souche a été identifiée comme S. auriculariicola basé sur les postulats de Koch, la morphologie et les séquences ITS. Le mycélium de S. auriculariicola a été cultivé dans un milieu liquide de dextrose de pomme de terre pendant 4 jours, puis collecté pour l'extraction de l'ADN. L'ADN total a été extrait du mycélium à l'aide du kit ADN fongique D3390-00 (Omega Bio-Tek, Norcross, GA, USA) selon les instructions du fabricant. La qualité de l'ADN extrait a été vérifiée par électrophorèse et l'ADN a été conservé à -20 °C jusqu'au séquençage. Les S. auriculariicola souche a été stockée à l'Académie des sciences agricoles du Sichuan (n° SAAS_Sau), et est disponible auprès de Cheng Chen et Daihua Lu de l'Académie des sciences agricoles du Sichuan, Chine.

Séquençage, assemblage et annotation du génome mitochondrial

L'ADN purifié a été utilisé pour construire des bibliothèques de séquençage en suivant les instructions du kit de préparation de bibliothèque d'ADN NEBNext Ultra II (NEB, Pékin, Chine). Le séquençage au fusil de chasse du génome entier a été réalisé à l'aide d'une plate-forme Illumina HiSeq 2500 (Illumina, San Diego, CA, USA). Nous avons effectué un contrôle qualité et de novo assemblage du mitogénome selon Bi 52 . Le logiciel SPAdes 3.9.0 53 a été utilisé pour de novo l'assemblage du mitogénome, et le programme MITObim V1.9 54 a été utilisé pour combler les lacunes entre les contigs.

Les outils MFannot (http://megasun.bch.umontreal.ca/cgi-bin/mfannot/mfannotInterface.pl) et MITOS 55 ont été utilisés pour l'annotation du mitogénome de S. auriculariicola, qui sont tous deux basés sur le code génétique 4. Les résultats incertains ont été ajustés manuellement par des alignements de séquences avec des gènes orthologues sans intron provenant d'espèces étroitement apparentées. Les gènes codant pour les protéines initialement annotés, les gènes d'ARNr ou d'ARNt de S. auriculariicola ont également été modifiés par alignement avec les mitogénomes de Leotiomycetes précédemment publiés. Les ORF ont été annotés fonctionnellement par le logiciel InterProScan 56 . Le programme tRNAscan-SE 2.0 a été utilisé pour prédire les gènes de l'ARNt 57 . Enfin, nous avons utilisé l'outil OrganellarGenomeDraw (OGDRAW) 58 pour tracer une carte des S. auriculariicola mitogénome complet.

Analyse de l'organisation mitogénomique

Nous avons utilisé l'outil Lasergene v7.1 (DNASTAR http://www.dnastar.com/) avec des paramètres par défaut pour analyser la composition de base du mitogénome de S. auriculariicola. L'asymétrie des brins du mitogénome a été évaluée à l'aide des formules suivantes : AT skew = [A − T]/[A + T], et GC skew = [G − C]/[G + C] 59 . Nous avons calculé l'utilisation des codons à l'aide du logiciel Sequence Manipulation Suite 60 basé sur le code génétique 4. Nous avons comparé l'arrangement des gènes dans S. auriculariicola avec celles d'autres espèces de Leotiomycètes publiées. L'analyse de la synténie génomique des mitogénomes de six espèces représentatives au sein des Léotiomycètes a été réalisée avec Mauve v2.4.0 61 .

Analyse des éléments répétitifs

Nous avons recherché l'ensemble du mitogénome de S. auriculariicola par BLASTn recherche contre lui-même en utilisant Circoletto 62 (http://tools.bat.infspire.org/circoletto/) avec une valeur E de <10 -10 , visant à identifier de grandes réplications intragénomiques de séquences et de répétitions intercalées. Le Tandem Repeats Finder 63 (http://tandem.bu.edu/trf/trf.advanced.sub-mit.html) avec les paramètres par défaut a été utilisé pour analyser les répétitions en tandem. Nous avons recherché des séquences répétées, y compris des séquences complémentaires directes, inverses, complémentaires et inverses dans S. auriculariicola en utilisant l'outil REPuter 64 avec les valeurs E <10 −5 .

Analyse phylogénétique

Pour l'analyse phylogénétique, nous avons construit un arbre phylogénétique basé sur 15 gènes mitochondriaux communs de S. auriculariicola et 15 autres espèces de Léotiomycètes, 8 espèces de Dothideomycètes, 11 espèces d'Eurotiomycètes et 3 espèces de Sordariomycètes (groupe externe). L'algorithme MAFFT au sein de la plate-forme en ligne TranslatorX 65 a été utilisé pour aligner les 15 gènes codant pour les protéines conservés. Le programme Sequence Matrix 1.7.8 66 a été utilisé pour combiner les gènes individuels dans une matrice combinée. Nous avons utilisé l'outil Modelgenerator v851 67 pour déterminer le modèle évolutif le mieux adapté pour l'analyse phylogénétique.

La méthode d'inférence bayésienne (BI) a été utilisée pour l'analyse phylogénétique basée sur l'ensemble de données génétiques combiné avec le programme MrBayes 3.2.6 68. Deux passages indépendants ont été effectués pour un échantillonnage de 2 × 10 6 générations pour 100 générations. Chaque série a été échantillonnée toutes les 100 générations. La stationnarité était supposée avoir été atteinte lorsque la taille estimée de l'échantillon (ESS) était >100, et le facteur de réduction d'échelle potentiel (PSRF) approchait de 1,0. Une fois l'analyse stable, les premiers 25 % des arbres obtenus ont été rejetés en tant que burn-in, et un arbre de consensus de règle majoritaire de 50 % avec des valeurs de probabilité postérieure (PP) a été généré à partir des arbres restants. Afin de comparer la phylogénie mitochondriale avec la phylogénie nucléaire multi-locus, nous avons téléchargé un espaceur interne transcrit (SON), la deuxième plus grande sous-unité de l'ARN polymérase II (RPB2), facteur d'allongement en translation-1 alpha (EF1-α) et la bêta-tubuline (-TUB) gènes de 38 espèces de la base de données NCBI. Les arbres phylogénétiques ont été construits en utilisant la même méthode que les gènes mitochondriaux. Nous avons également utilisé la méthode BI pour analyser les relations phylogénétiques de S. auriculariicola et des espèces apparentées utilisant des gènes mitochondriaux individuels (15 gènes codant pour des protéines de base) dont le but est de tester si ces gènes étaient utiles comme marqueurs moléculaires pour l'analyse phylogénétique des espèces de Léotiomycètes.


Voir la vidéo: Synthèse des protéines 1 - La Transcription (Février 2023).