Informations

Qu'est-ce que les « contigs » dans ReorderSAM de Picard ?


J'ai utilisé BWA pour mapper mes lectures NGS contre le génome hg38, et j'ai un fichier BAM. Je ne fais pas d'assemblage de génomes, et mon fichier de génome de référence contient les chromosomes humains. Ainsi, je ne devrais pas avoir de "contigs". Mais…

https://broadinstitute.github.io/picard/command-line-overview.html#ReorderSam

et citer :

ReorderSam réorganise les lectures dans un fichier SAM/BAM pour correspondre à l'ordre des contigs dans un fichier de référence fourni, tel que déterminé par la correspondance exacte des noms des contigs

Question : Qu'est-ce quecommande contigsignifie, pour mon expérience de séquençage du génome entier ? En particulier, que signifie faire correspondre le contig à un fichier de référence ?


Je ne connais pas picard et leur fonction reorderSam, mais pour autant que je sache/comprenne d'après leur documentation, ils veulent dire ceci :
L'ordre des contigs en utilisant une séquence de référence. Comme ça:

Figure 5 : Anatomie de l'assemblage du génome entier. Dans l'assemblage du génome entier, les fragments BAC (segments de ligne rouge) et les lectures de cinq individus (segments de ligne noire) sont combinés pour produire un contig et une séquence consensus (ligne verte). Les contigs sont connectés à des échafaudages, représentés en rouge, par appariement de séquences de fin, également appelées partenaires. S'il y a un écart entre des contigs consécutifs, il a une taille connue. Ensuite, les échafaudages sont mappés sur le génome (ligne grise) à l'aide d'informations de site étiqueté par séquence (STS), représentées par des étoiles bleues. © 2001 Association américaine pour l'avancement des sciences Venter, C. et al. La séquence du génome humain. Sciences 291, 1304-1351 (2001). Tous les droits sont réservés. (la source)

Recommande SAM (Picard) Donc en Picard vous avez votreENTRÉE (Fichier), les lectures dans ce fichier sont ensuite mappées sur leRÉFÉRENCE (Fichier). Cela peut également être vu dans leur code:

// écrit les lectures dans l'ordre contig 109 pour (contig final SAMSequenceRecord : refDict.getSequences() ) { 110 final SAMRecordIterator it = in.query(contig.getSequenceName(), 0, 0, false); 111 writeReads(out, it, newOrder, contig.getSequenceName()); 112}

(code source)

ReorderSam réorganise la lecture dans un fichier SAM/BAM pour correspondre à la commande contig dans un fichier de référence fourni

Un peu plus d'arrière-plan
Il existe deux approches principales pour obtenir une séquence du génome :

il existe deux approches « principales » pour cela :
g. Les technologies de séquençage de deuxième génération produisent des millions de chaînes courtes (quelques centaines de pb) de nucléotides (lectures), ce qui est idéal pour le reséquençage lorsque les lectures sont mappées sur un génome de référence (assemblage basé sur des références). Assemblage du génome de novo basé sur le séquençage de deuxième génération est difficile en raison des difficultés avec les étirements d'ADN riches en GC ou en AT et d'homonucléotides, qui sont sous-représentés dans la sortie du séquençage (source)

Les caractéristiques de ceux-ci sont :
de novo

  • pas de biais vers un génome de référence
  • pas de modèle à adapter
  • l'ensemble est normalement plus fragmenté
  • cela fonctionne normalement mieux pour les différences d'échelle à grande échelle/médiane (source)


cartographie de référence

  • moins de contigs
  • dans la plupart des méthodes, les lectures qui ne correspondent pas ne sont pas utilisées dans la séquence finale (c'est aussi le cas avec reorderSAM :Les lectures mappées aux contigs absentes dans la nouvelle référence sont supprimées
  • vous regardez ce qui est similaire à votre génome de référence
  • Les SNP et les très petites vérifications sont plus facilement positionnés et comparés entre les groupes (source)

Je recommanderais fortement de regarder cette courte animation pour différencier ces deux et comprendre ce qu'est la cartographie du génome de référence.