Informations

9.7D : Bactériophages à ADN double brin - Biologie

9.7D : Bactériophages à ADN double brin - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Les phages à queue dsDNA, ou Caudovirales, représentent 95% de tous les phages connus et constituent peut-être la majorité des phages de la planète.

Objectifs d'apprentissage

  • Décrire les bactériophages à ADNdb

Points clés

  • Les Caudovirales sont un ordre de virus également connus sous le nom de bactériophages à queue. Les particules virales ont une forme distincte ; chaque virion a une tête icosoédrique qui contient le génome viral et est attaché à une queue flexible par une protéine connecteur.
  • L'ordre englobe un large éventail de virus, dont beaucoup contiennent des gènes de séquence nucléotidique et de fonction similaires. Certains génomes de bactériophages à queue peuvent varier de manière assez significative dans la séquence nucléotidique, même au sein du même genre. Il y a au moins 350 espèces reconnues dans cet ordre.
  • En raison du manque d'homologie entre les séquences d'acides aminés et d'ADN de ces virus, les trois familles sont ici définies en fonction de la morphologie : les Myoviridae ont de longues queues contractiles, les Podoviridae ont des queues courtes non contractiles et les Siphoviridae ont de longues queues non contractiles. .

Mots clés

  • Caudovirales: Un ordre taxonomique au sein du royaume Virus—les bactériophages qui ont des queues.

Les phages à queue à ADN double brin (ADNdb), ou Caudovirales, représentent 95% de tous les phages rapportés dans la littérature scientifique et constituent peut-être la majorité des phages de la planète. Dix-neuf familles qui infectent les bactéries et les archées sont actuellement reconnues ; parmi ceux-ci, 15 ont des génomes à ADN double brin.

Selon le schéma de classification de Baltimore, les Caudovirales sont des virus du groupe I car ils ont des génomes à ADN double brin (ADNdb), qui peuvent avoir une longueur comprise entre 18 000 paires de bases et 500 000 paires de bases. Les particules virales ont une forme distincte ; chaque virion a une tête icosoédrique qui contient le génome viral et est attaché à une queue flexible par une protéine connecteur. L'ordre englobe un large éventail de virus, dont beaucoup contiennent des gènes de séquence nucléotidique et de fonction similaires. Cependant, certains génomes de bactériophages à queue peuvent varier de manière assez significative dans la séquence nucléotidique, même au sein d'un même genre. En raison de leur structure caractéristique et de la possession de gènes potentiellement homologues, on pense que ces bactériophages possèdent une origine commune. Il y a au moins 350 espèces reconnues dans cet ordre.

Lorsqu'elle rencontre une bactérie hôte, la queue du virion se lie aux récepteurs à la surface de la cellule et délivre l'ADN dans la cellule à l'aide d'un mécanisme de type injectisome (un injectable est une nanomachine qui a évolué pour la livraison de protéines par sécrétion de type III). La section de la queue du virus perce un trou à travers la paroi cellulaire bactérienne et la membrane plasmique et le génome passe par la queue dans la cellule. Une fois à l'intérieur, les gènes sont exprimés à partir de transcrits fabriqués par la machinerie hôte, en utilisant les ribosomes de l'hôte. En règle générale, le génome est répliqué à l'aide de concatémères, dans lesquels des segments d'ADN se chevauchant sont fabriqués, puis assemblés pour former le génome entier.

Les protéines de la capside virale se réunissent pour former un précurseur prohead, dans lequel pénètre le génome. Une fois que cela s'est produit, la prohead subit une maturation par clivage des sous-unités de capside pour former une tête de phage icosoédrique avec une symétrie 5 fois. Après la maturation de la tête, la queue est jointe de l'une des deux manières suivantes : soit la queue est construite séparément et jointe au connecteur, soit la queue est construite directement sur la tête du phage. Les queues sont constituées de protéines à base d'hélice avec une symétrie 6 fois. Après maturation des particules virales, la cellule est lysée par des lysines, des holins ou une combinaison des deux.

Étant donné que le manque d'homologie entre les séquences d'acides aminés et d'ADN de ces virus empêche leur utilisation comme marqueurs taxonomiques (comme c'est souvent le cas pour d'autres organismes), les trois familles sont ici définies sur la base de la morphologie. Ce système de classification a été créé par Bradley en 1969 et a depuis été étendu. Tous les virus de cet ordre ont des têtes icosaédriques ou aplaties, mais diffèrent par la longueur et les capacités contractiles de leur queue. Les Myoviridae ont de longues queues contractiles, les Podoviridae ont des queues courtes non contractiles et les Siphoviridae ont de longues queues non contractiles. Les siphoviridae constituent la majorité des virus à queue connus.


Caractérisation du premier bactériophage à ARN double brin infectant Pseudomonas aeruginosa

Les bactériophages (phages) sont largement distribués dans la biosphère et jouent un rôle clé dans la modulation de l'écologie microbienne dans le sol, l'océan et l'homme. Bien que le rôle des bactériophages à ADN soit bien décrit, la biologie des bactériophages à ARN est mal comprise. Plus de 1900 génomes de phages sont actuellement déposés dans le NCBI, mais seules 6 séquences de génomes de bactériophages à ARNdb et 12 bactériophages à ARNsb sont rapportées. Les 6 bactériophages à ARNdb ont été isolés à partir d'échantillons de légumineuses ou de lacs avec Pseudomonas syringae comme hôte. Nous rapportons ici le premier phage phiYY de Pseudomonas aeruginosa avec un génome d'ARNdb à trois segments. phiYY a été isolé dans les eaux usées d'hôpitaux en Chine avec la souche clinique de P. aeruginosa, PAO38, comme hôte. De plus, le phage dsRNA phiYY a une large gamme d'hôtes, qui infecte 99 des 233 souches cliniques de P. aeruginosa isolées dans quatre provinces de Chine. Ce travail a présenté une caractérisation détaillée du bactériophage ARNdb infectant P. aeruginosa.

Les figures

Figure 1. Caractéristiques biologiques du phage…

Figure 1. Caractéristiques biologiques du phage phiYY.

( UNE ) Courbe de croissance en une étape de…

Figure 2. Cartes génomiques du phage…

Figure 2. Cartes génomiques du phage phiYY.

Vingt cadres de lecture ouverts (ORF) potentiels étaient…

Figure 3. Identification des protéines structurelles phiYY.

Figure 3. Identification des protéines structurelles phiYY.

( UNE ) Analyse SDS-PAGE de la structure du phage…

Arbres phylogénétiques montrant les relations…

Arbres phylogénétiques montrant les relations entre phiYY et d'autres phages ARNdb basés sur…

( UNE ) Typage ERIC-PCR des collectés P. aeruginosa souches et le…


Réplication de l'ARN génétique | Acides nucléiques

Plusieurs virus et bactériophages contiennent de l'ARN simple ou double brin comme matériel génétique (tableau 3.1).

La réplication de ces chromosomes d'ARN se produit dans le cytoplasme de l'hôte suivant l'un des deux modes indiqués ci-dessous :

(i) Utilisation directe de la matrice d'ARN pour la synthèse d'ARN (ARN ARN) par l'enzyme – ‘RNA réplicase” ou “ARN polymérase dépendante de l'ARN”.

(ii) Utilisation de la matrice d'ARN par l'enzyme “transcriptase inverse” pour produire une molécule d'ADN complémentaire (ADNc), qui sert ensuite de matrice pour la synthèse d'ARN complémentaire par l'enzyme ARN polymérase (ARN à ADN à ARN).

(je) Réplication directe de l'ARN génétique :

L'enzyme ARN polymérase dépendante de l'ARN, également appelée « réplicase » catalyse la réplication directe de l'ARN génétique. Spiegelman et ses associés ont isolé une forme de cette enzyme du bactériophage QB en 1965, elle pourrait fonctionner en présence d'une matrice d'ARN, d'ions Mg 2+ et des quatre ribonucléotides triphosphates (ATP, GTP, CTP, UTP) in vitro.

L'ARN double brin se réplique d'une manière semi-conservatrice similaire à l'ADN pour produire deux molécules de descendance double brin.

L'ARN génétique simple brin trouvé dans certains virus, tels que le TMV, est appelé ARN brin plus (+), il agit comme une matrice pour la synthèse d'un brin complémentaire moins (-) pour produire une molécule d'ARN double brin. Cet ARN double brin subit une réplication semi-conservatrice comme les autres molécules d'ARN double brin. Cependant, seul le brin plus (+) est emballé dans le virus.

(ii) Réplication de l'ARN via l'ADN complémentaire (ADNc) :

L'ARN viral oncogène est une molécule simple brin d'environ TO kb avec une répétition terminale, et est désigné comme brin plus (+). Le virion contient deux molécules d'ARN maintenues ensemble par une structure de liaison dimère à l'extrémité 5, formée par l'ARNt (un ARNt hôte non chargé présent dans le virion).

L'extrémité 3 & 8242 de l'ARNt a une séquence de 18 bases qui s'apparient à un site de 100 à 200 bases à partir de l'extrémité 5 & 8242 de l'une des deux molécules d'ARN viral. L'autre molécule d'ARN peut également être appariée près de son extrémité 5 avec l'ARNt, de sorte que les deux molécules d'ARN forment un dimère. Lors de la dénaturation, le dimère d'ARN se sépare en deux molécules identiques indiquant que le virion est diploïde, c'est-à-dire qu'il possède deux copies du génome.

Les rétrovirus à ARN simple brin contiennent environ 30 molécules/virion de l'enzyme “transcriptase inverse”. Cette enzyme est également appelée "ADN polymérase dépendante de l'ARN" elle a été découverte en 1970 indépendamment par Temin et Baltimore. Il synthétise la molécule d'ADN complémentaire de l'ARN viral.

Un ARNt hôte non chargé présent dans le virion agit comme amorce pour la synthèse d'ADN, en utilisant le brin d'ARN génétique comme matrice. Le brin d'ADN (brin -) ainsi obtenu est appelé ADN complémentaire (ADNc). Cette synthèse d'ADN est catalysée par l'enzyme transcriptase inverse. La synthèse du brin (+) d'ADN complémentaire du brin (-) d'ADN commence avant même que la synthèse du brin (-) ne soit terminée.

L'ARN viral est dégradé et éliminé par la même enzyme transcriptase inverse dès que la synthèse du brin (-) est terminée. La transcriptase inverse a l'activité 5’->3′ exonucléase (RNAaseH) et dégrade les brins d'ARN présents dans les hybrides ADN-ARN, en commençant par l'extrémité 5′ de l'ARN (activité 5’->3′ exonucléase) brin.

L'ADN viral nouvellement synthétisé est double brin avec un brin continu (-) et un brin discontinu (+). Les lacunes sont comblées et les entailles sont scellées par de l'ADN ligase. Cet ADN double brin se déplace vers le noyau où il s'intègre dans le chromosome hôte. Il reste dans le génome de l'hôte en tant que « provirus » et se réplique avec l'ADN de l'hôte.

L'ADN double brin produit a une redondance terminale qui est absente dans l'ARN viral. Cette redondance facilite la circularisation de la molécule d'ADN et persiste dans le provirus intégré. Les virus qui utilisent cette voie médiée par la transcriptase inverse pour l'intégration virale dans le chromosome hôte et la réplication sont appelés rétrovirus.

La réplication se déroule comme suit (Fig. 3.20) :

(1) Une molécule d'ARNt (ARNt hôte non chargé) déjà présente dans le virion et appariée à l'extrémité 5 de l'ARN viral agit comme une amorce pour la synthèse du brin (-) d'ADN, qui est initiée près de l'extrémité 5 & 8242 de l'ARN viral. La synthèse de ce brin d'ADN est continue et se poursuit jusqu'à ce que l'extrémité 5, y compris les répétitions terminales, soit atteinte.

(2) À ce stade, la synthèse du brin d'ADN (-) arrête l'ADN produit jusqu'à présent est appelé ADN d'arrêt fort qui reste attaché à l'amorce d'ARNt.

(3) La transcriptase inverse change de matrice, transportant l'ADN naissant avec elle vers la nouvelle matrice. Ainsi, l'ADN d'arrêt fort se sépare de l'extrémité 5 et “sauts” à la répétition terminale à la fin 3′. Dans cette réaction, la région “R” à l'extrémité 5′ de la matrice d'ARN est dégradée par l'activité RNAaseH de la transcriptase inverse.

(4) L'élimination de la région “R” à l'extrémité 5′ permet à la région R à l'extrémité 3′ de s'apparier avec l'ADN nouvellement synthétisé (Fig. 3.20). En conséquence, un “U3” est ajouté à l'extrémité 5′- pour créer un tronçon de séquence 𔄝′ U5-R-U3 3″‘ qui est appelé la longue répétition terminale (LTR). Des séries d'événements similaires produisent 𔄝’ U5-R-U3″‘, séquence à l'extrémité 3’ en ajoutant un segment U5).

(5) La synthèse du brin d'ADN (-) se poursuit dans la direction 5’->3′ jusqu'à ce qu'il atteigne l'extrémité 5′ de l'ARN, ce qui produit une molécule hybride ADN-ARN.

(6) L'ARN viral est dégradé par l'activité exonucléase (ARNase H) de l'enzyme transcriptase inverse, à partir de l'extrémité 5′.

(7) La synthèse du brin d'ADN (+) commence à différents sites le long du brin d'ADN (-) qui est utilisé comme matrice. Cette synthèse est discontinue, utilise de petites amorces d'ARN et donne plusieurs petits fragments d'ADN (+).

(8) L'extrémité 3 & 8242 du brin d'ADN (-) à nouveau “sauts” à l'autre extrémité (5 & 8242-end) où il s'apparie avec l'extrémité 5 & 8242 du fragment de l'ADN brin (+), et la région R-U3 est synthétisée.

(9) Les fragments de l'ADN brin (+) sont joints par la polynucléotide ligase.

(10) L'ARNt est retiré et un ADN double brin est produit qui est plus long que l'ARN viral avec de longues répétitions terminales (LTR) des deux côtés (Fig. 3.20).

(11) Cette molécule d'ADN peut être circularisée et s'intégrer dans le chromosome hôte.

Le génome viral produit des protéines oncogènes qui transforment la cellule hôte normale en une cellule tumorale. L'ARN viral est produit à partir de l'ADN pro-viral et se combine avec des protéines d'enveloppe pour produire de nouvelles particules virales. Ces particules virales sont libérées et sont enfermées par la membrane de la cellule hôte. Le cycle de vie d'un rétrovirus est illustré à la figure 3.21.


Résultats et discussion

L'ensemble de phages dsDNA utilisé dans cette étude comprend toutes les séquences complètes du génome déposées dans GenBank avant 2005 (tableau S1, disponible en tant que fichier supplémentaire 1). Ces génomes contiennent des gènes conservés qui appartiennent à 981 POG, dont 803 POG qui semblent ne presque jamais être échangés avec les génomes hôtes [2]. Ces 803 POG dans 158 génomes sont le jeu de caractères principal que nous avons utilisé pour déduire l'arbre du contenu génétique des bactériophages.

À la première étape vers la compréhension de l'histoire évolutive des phages, nous avons construit un arbre phylogénétique conventionnel sur la base du contenu génétique. L'arbre ne contient que des bifurcations et aucune réticulation, même si, comme indiqué ci-dessus, notre ensemble de données contient également des informations sur les échanges de gènes (éventuellement fréquents) entre les phages. Nous avons pensé que, bien que HGT soit initialement ignoré, nous pourrions toujours découvrir des phylogénies partielles solidement étayées et informatives sur l'évolution, dans les cas où l'hérédité génétique verticale est le mode d'évolution dominant dans une lignée de phages particulière. Nous pouvons ensuite augmenter cette image initiale en inférant des événements de réticulation.

La matrice symétrique de toutes les distances par paires entre les vecteurs de contenu génétique du phage (voir Méthodes) a été utilisée pour construire l'arbre par l'algorithme de jointure de voisin. Dans une approche fondamentalement différente, nous avons également construit un arbre directement à partir des caractères de présence-absence POG en utilisant l'inférence bayésienne. De plus, nous avons préparé des ensembles de données dans lesquels les présences et les absences de chaque POG à travers les génomes ont été mélangées, et construit des arbres à partir de ces ensembles de données pour comparaison avec les données réelles. Un signal phylogénétique considérable a été capturé par les arbres basés sur la matrice de distance et bayésiens lorsque des données réelles ont été analysées (Figure 1 et Figure S1 et Tableau S1, disponibles en tant que fichiers supplémentaires 2 et 1, respectivement). Au total, 112 phages, soit 71% de tous les génomes étudiés, ont été classés en 18 groupes, qui ont bénéficié d'un soutien statistique modéré à fort, 53% en moyenne. En revanche, l'analyse des arbres obtenus à partir des matrices de données brouillées n'a révélé aucun clades fortement soutenu (soutien moyen de 12,8%, s.d. = 0,23 voir le fichier supplémentaire 3 pour les détails statistiques).

Phylogénie des bactériophages déduite du contenu génétique. L'arbre a été construit en utilisant la distance moyenne généralisée et l'algorithme de jointure des voisins (voir Méthodes). Les gros points indiquent les clades déduits dans la majorité des ensembles de données rééchantillonnés. Les branches menant aux phages individuels sont colorées selon leur classification ICTV : famille Siphoviridae est en magenta, Podoviridés est en orange, Myoviridae est en vert, Fuselloviridae est en jaune, et Tectiviridae est en bleu. L'arbre bayésien affichant essentiellement la même phylogénie est présenté sur la figure S1, disponible en tant que fichier supplémentaire 1. Dans le cercle intérieur, les numéros de couleur soulignés en italique indiquent 18 groupes de phages bien pris en charge (voir le texte supplémentaire pour la description des groupes). Ils sont suivis d'informations récapitulatives sur les événements de transfert horizontaux, où I représente le transfert dans le groupe, O pour le transfert de ce groupe à un autre groupe et W pour le transfert à l'intérieur du groupe. L'algorithme de reconstruction de ces événements est décrit dans Méthodes et illustré à la Figure 2.

Les groupes indiqués sur la figure 1 contiennent entre 3 et 15 phages, avec une taille moyenne de clade de 6 génomes. La plausibilité biologique de ces groupes est soulignée par le fait que chacun d'eux comprend au moins quelques phages qui sont reconnus comme les plus proches parents dans la taxonomie approuvée par ICTV ou sur "l'arbre protéomique" de Rohwer-Edwards [7]. Un examen plus approfondi, cependant, indique qu'il existe trois manières distinctes par lesquelles nos groupes de phages se rapportent aux taxons ICTV : je. des groupes comprenant des phages d'un seul genre approuvé par ICTV (6 de ces groupes avec 39 phages), ii. des groupes correspondant à un genre approuvé par ICTV mais contenant des espèces supplémentaires de la même famille (7 groupes, 36 phages), et iii. groupes contenant des espèces de différentes familles ICTV et parfois aussi de « bactériophages non classés » (5 groupes, 37 phages). Les trois catégories sont prises en charge par un nombre moyen comparable de POG partagés.

La première catégorie comprend des groupes qui ne comprennent que des phages d'un seul et même genre approuvé par ICTV. Il s'agit des groupes 7, 11, 12, 14, 15 et 18 (tableau S1 dans le fichier supplémentaire 1). Le groupe 7 se compose de Sulfolobe virus en forme de fuseau 1, 2, Kamchatka-1 et Ragged Hills, coïncidant avec la famille Fuselloviridae. Le coliphage lambda rejoint cinq phages de conversion de toxine Shiga dans le groupe 11. Le groupe 12 comprend trois phages de type P22 à queue courte Sf6, HK620 et ST64T, ainsi que le Entérobactéries le phage P22 lui-même. Le groupe 14 comprend les phages T-pairs RB69 et T4, les pseudo-phages T-pairs RB49 et 44RR2.8t, et les phages SchizT-pairs Aeh1 et KVP40, ainsi que le phage de type RM378 T4 qui infecte la bactérie thermophile Rhodothermus marinus. Les membres du groupe 15 sont inclus dans le genre de type T7 approuvé par ICTV, à l'exception d'une valeur aberrante, Synéchocoque le phage P60, qui est actuellement classé comme membre non attribué de Podoviridés par ICTV. Les phages du groupe 18 sont tous des virus de type P2, partageant une morphologie commune et plusieurs autres traits.

Chaque groupe de la deuxième catégorie correspond à un genre approuvé par ICTV mais contient plusieurs autres espèces de la même famille. Il s'agit des groupes 2, 3, 6, 5, 8, 10 et 16, provisoirement classés au niveau de la famille en siphovirus (groupes 2, 3, 6, 5), podovirus (groupe 8) ou myovirus (groupes 10 et 16) . Neuf phages sont inclus dans le groupe 2, tous étant des phages tempérés ou des prophages de Staphylococcus aureus. La proximité évolutive des phages de ce groupe se manifeste au niveau de la séquence nucléotidique, de la séquence protéique et de l'organisation génomique [13]. Les groupes 3 et 6 sont constitués de phages de bactéries laitières Gram-positives Lactococcus lactis et Streptocoque thermophilus, respectivement. Les deux groupes comprennent des phages partageant une similitude de séquence significative dans tout le génome [11]. Le groupe 5 comprend trois Lactococcus lactis des phages qui sont des siphovirus avec une identité de séquence élevée [11]. Le groupe 8 se compose de quatre podovirus – trois étroitement liés Bordetella phage et Salmonelle phage ε 15. Le groupe 10 comprend trois myovirus non classés infectant Burkholderia cenocepacia. Le groupe 16 est constitué du coliphage P27, Salmonelle le phage ST64B, et Shigella phage SfV, tous considérés comme les chimères lambdoïde/Mu [14].

La troisième catégorie, comprenant les groupes 1, 4, 9, 13 et 17, est peut-être la plus intéressante. Les phages du groupe 1 infectent Bacilles. Trois d'entre eux sont des siphovirus, le quatrième, le phage 315.4, n'est actuellement pas classé par le NCBI. De même, le groupe 4 contient trois siphovirus – deux infectants Lactocoque et un infectant Streptocoque – ainsi qu'un bactériophage non classé 315.3. Le groupe 9 contient huit podovirus et deux phages appartenant à la famille Tectiviridae – le phage entérique PRD1 et Bacillus thuringiensis le phage Bam35c. L'affiliation phylogénétique entre les deux groupes morphologiquement distincts de phages, les tectivirus et les podovirus de type PZA, a également été notée par Rohwer et Edwards [7]. Nous notons que ce groupe est défini par un seul caractère partagé, bien qu'important, une ADN polymérase amorcée par une protéine (POG52). Quinze phages isolés de Mycobactérie espèces forment un groupe 13 monophylétique : toutes ont une morphologie de type siphovirus, à l'exception des Mycobactérie le phage Bxz1 qui possède une queue contractile de type myovirus. Ce groupe est également défini par une seule protéine hypothétique partagée (POG921). Plutôt que de rejeter ces deux groupes comme faux, nous les considérons comme des hypothèses de travail plausibles, qui peuvent être évaluées davantage en incluant de nouveaux caractères dans l'analyse ou par une détection plus sensible des similitudes à distance entre les séquences de gènes. Le groupe 17 se compose de trois phages à queue infectant les hôtes archées dont deux, psiM2 et psiM100, ont une morphologie de type siphovirus, tandis que phiCh1 a une queue contractile de type myovirus.

Les phages de la plupart des groupes ont tendance à avoir des gammes d'hôtes qui se chevauchent, au moins jusqu'au niveau de la famille bactérienne. Cela peut indiquer à la fois l'hérédité verticale de l'ensemble de gènes de base dans ces groupes et le transfert horizontal de gènes entre les phages qui peuvent co-infecter les mêmes hôtes. Ces possibilités sont analysées plus en détail ci-dessous.

Quarante-six phages sont restés des singletons en raison d'un soutien statistique insuffisant pour leur inclusion dans un groupe. Près de la moitié de ces phages sont des siphovirus non classés, et le reste est presque également réparti entre les podovirus non classés, les myovirus et les « bactériophages non classés ». Ceci, ainsi que le fait qu'aucune des familles ICTV ne s'est résolue en un seul clade solidement soutenu, indique que les phages avec une morphologie de particules similaire ne partagent pas toujours un ensemble de gènes homologues reconnaissables suffisant pour un placement fiable de ces phages dans la phylogénie. Une analyse plus approfondie, y compris des recherches dans des bases de données mises à jour, une définition orthologue plus sensible et peut-être l'inclusion de caractères moléculaires et morphologiques supplémentaires, peut aider à placer plusieurs de ces singletons sur l'arbre, ainsi qu'à apporter un meilleur support statistique aux branches internes.

Au total, nos arbres ont récupéré un signal phylogénétique considérable, avec très peu de différences entre l'arbre voisin et l'arbre bayésien. Le cas de la mise en place du phage BcepNazgul est illustratif de ces différences occasionnelles. Les phages BcepNazgul et N15 partagent POG852, POG853, POG967, et les trois mêmes POG sont partagés par BcepNazgul et le phage lambda. Les deux approches rompent les liens différemment. Dans l'arbre bayésien, N15 et PY54 sont regroupés, mais ils sont également regroupés avec VHML, qui partage seulement 1 POG avec N15 et PY54. Dans l'arbre NJ, PY54 est regroupé avec phiE125 et phi1026b6, partageant 15 POG. Dans l'ensemble, l'arbre NJ semble donner une solution biologiquement plus plausible.

Il ne fait aucun doute que la représentation hiérarchique n'est pas suffisante pour fournir une image complète de l'évolution des phages, pour la raison déjà mentionnée de HGT que l'on pense être fréquente chez les phages. HGT a également été reconnu comme un facteur de confusion dans les tentatives de reconstruction de l'histoire évolutive des procaryotes cellulaires, et des représentations de l'histoire évolutive qui permettent des réticulations ont été préconisées pour les bactéries et les archées [15-18]. Plusieurs approches algorithmiques et statistiques pour résoudre ce problème ont été proposées (par exemple, références [16] et [19–22]), mais beaucoup reste à faire, d'autant plus qu'aucune des méthodes existantes n'est équipée pour répondre spécifiquement aux défis de génomique virale discutée ci-dessus. Pour résoudre ce problème d'une manière nouvelle, nous avons utilisé une nouvelle modification de l'algorithme T-REX (voir Méthodes) pour la détection automatisée des événements HGT.

L'essence de l'approche T-REX est la comparaison de deux arbres : un arbre de contenu génétique plus grand T, comme celui illustré à la figure 1, et un arbre plus petit construit sur la base des alignements de séquences protéiques de chaque POG individuel (un arbre généalogique de séquences T nf). Le nombre d'arbres généalogiques de séquence est en principe le même que le nombre de POG, bien que, pour des raisons algorithmiques, seuls les POG avec quatre membres ou plus soient utilisés. Chaque T nfcontient à ses extrémités seulement un sous-ensemble de phages qui sont inclus dans T, car la plupart des gènes se trouvent dans un petit nombre de phages. L'arbre du contenu génétique peut être élagué pour ne conserver que les pointes qui sont également présentes dans l'arbre généalogique de la séquence, et cet arbre élagué T gcexiste pour chaque T nf. La topologie de T nfest comparé à celui de T gc, et l'incongruence dans deux topologies arborescentes est interprétée comme la preuve d'événements de recombinaison/réticulation qui peuvent être déduits à l'aide des critères d'optimisation contraints spécifiques (voir Méthodes pour plus de détails et Fig. 2 pour un exemple).

Inférence du transfert horizontal de gènes entre les phages. L'arbre du génome du phage est déduit des données de contenu génétique (côté gauche du panneau supérieur) et les arbres généalogiques des séquences sont déduits des séquences alignées, séparément pour chaque POG (côté droit du panneau supérieur). L'algorithme T-REX est utilisé pour déduire les événements HGT en choisissant de tels réarrangements de l'arbre du contenu génétique qui rattachent les sous-arbres d'une manière qui minimise la distance topologique de Robinson et Foulds à l'arbre généalogique de séquence approprié. En haut à droite, un fragment d'alignement de séquences pour une classe de régulateurs de transcription cII (POG226) est montré. L'arbre généalogique des séquences construit sur la base d'un alignement complet est affiché dans le coin inférieur droit, et le sous-arbre de l'arbre du contenu génétique qui contient le même ensemble de phages que l'arbre généalogique des séquences est affiché dans le coin inférieur gauche. Deux paires de phages, à savoir 933W et Stx2I, ainsi que HK620 et P22, sont dans des positions discordantes dans le contenu génétique et les arbres généalogiques des protéines (indiqués par les bords bleus dans les deux arbres). Pour réconcilier le contenu génétique et les arbres généalogiques des protéines, T-REX suggère un transfert de 933W à Stx2I et de HK620 à P22 (flèches bleues).

L'analyse des incongruités entre l'arbre du contenu génétique et les arbres généalogiques de séquences à l'aide de l'algorithme T-REX a révélé 294 actes putatifs de transfert de gènes (tableau S2, disponible dans le fichier supplémentaire 1), qui impliquaient 114 des 158 génomes de phage et 229 POG. Malgré ces grands nombres absolus, les résultats signifient qu'une fraction significative des génomes de phage et, notamment, la majorité des POG n'ont pas été impliqués même dans un seul événement HGT phage-phage.

Les phages « promisqueux » sont relativement rares : seulement 11 % de tous les phages semblent avoir acquis cinq gènes ou plus dans le passé, et seulement 10 % ont fait don de cinq gènes ou plus (Fig. S2 et Tableau S3, disponibles sous forme de fichiers supplémentaires 4 et 1, respectivement). Les POG « vagabonds » sont encore plus rares : 42 POG semblent avoir été transférés deux fois, sept POG ont été transférés trois fois, et seulement trois POG ont été transférés quatre fois. Ces gènes transférés à plusieurs reprises codent pour des protéines structurelles, des enzymes, des facteurs de transcription et des protéines non caractérisées, dans presque la même proportion que dans les POG en général (tableau S4, disponible en tant que fichier supplémentaire 1). Ainsi, même si certains modules fonctionnels des génomes phagiques, tels que les cassettes de lyse, pourraient être considérés comme particulièrement autonomes et adaptés à la recombinaison avec différents ensembles de facteurs de réplication et de transcription, ou de protéines de capside, il apparaît que HGT ne favorise pas fortement les gènes avec une fonction moléculaire spécifique. De manière plus générale, les tendances de la distribution de HGT dans les génomes des phages et dans les POG que nous avons observées semblent être en accord avec nos résultats antérieurs sur le transfert de gènes phage-hôte [2] et avec la même tendance dans les familles de gènes et dans plusieurs groupes of Bacteria and Archaea [20, 23], en ce que ces distributions ont tendance à être à queue épaisse : c'est-à-dire que la plupart des gènes dans la plupart des génomes n'ont été que rarement transférés horizontalement, mais une plus petite proportion de gènes a été transférée plusieurs fois. Ces processus aboutissent à un grand nombre absolu de HGT et simultanément à une grande proportion de familles de gènes qui sont exemptes de HGT.

Le HGT entre les phages est plus fréquent au sein des groupes, avec seulement 4 groupes avec des transferts répétés entre les groupes détectés dans notre analyse (figure 1 et tableau S3). Fait intéressant, les phages les plus actifs en tant que donneurs de gènes et ceux les plus actifs en tant que receveurs de gènes ne sont pas toujours les mêmes, avec seulement 7 phages observés dans ces deux catégories. Les leaders dans un certain nombre de transferts dans les deux sens sont le groupe 14, qui se compose de myovirus de type T4 avec de grands génomes, et le groupe 12, constitué de podovirus de type P22.

L'observation du taux élevé de transfert de gènes au sein du groupe et du faible taux de transfert entre les groupes soulève la question de savoir si les groupes de phages dans les arbres à contenu génétique sont en premier lieu définis par l'hérédité verticale, ou sont les artefacts de HGT. Pour faire la distinction entre ces deux possibilités, nous avons exclu de notre ensemble de données tous les POG qui ont été transférés au moins une fois (229 POG) et avons utilisé les 594 POG restants pour déduire à nouveau l'arbre génomique. Cette étape n'a pas conduit à des changements radicaux dans les clades de l'arbre, mais deux types de différences ont été observées. Premièrement, une minorité des groupes de phages décrits précédemment (quatre groupes sur dix-huit) ont perdu un ou deux membres. Deuxièmement, le soutien statistique moyen pour 18 groupes a quelque peu diminué, passant de 73,5 % à 63,4 % encore considérable, les valeurs de bootstrap tombant en dessous de 30 % dans quatre groupes et augmentant en fait dans trois d'entre eux. Il n'y avait pas de forte corrélation entre le changement de soutien et la fréquence des événements HGT impliquant les membres du groupe ou le statut d'approbation ICTV du groupe (tableau S5, disponible en tant que fichier supplémentaire 1). Ces observations indiquent que les événements HGT inférés, aussi fréquents qu'ils puissent être dans l'absolu, ne sont néanmoins pas assez fréquents pour masquer le schéma d'évolution verticale et divergente des génomes phagiques, au moins parmi les groupes définis dans cette étude.

La plausibilité de la reconstruction de l'histoire de l'évolution et de la construction de la classification évolutive des bactériophages a été remise en question, et il a été proposé de conserver la structure hiérarchique aux niveaux supérieurs de la classification des phages, où les « domaines » correspondent à des lignées distinctes de phages avec différentes formes de le matériel génétique et les « divisions » regroupent les phages qui présentent peu ou pas de preuves d'échange génétique avec d'autres divisions. À un niveau plus superficiel, il a été proposé d'établir divers « modus », et un phage appartenant simultanément à plus d'un modus [26]. Ce cadre reconnaissait explicitement HGT et les relations réticulées qui s'ensuivaient entre les phages, mais il n'offrait pas le moyen cohérent de dériver les modi en premier lieu, et ne répondait pas à la question évolutive sur l'ensemble des événements passés expliquant la composition du phage observé. génomes. Dans la présente étude, nous avons proposé l'approche algorithmique qui convient pour répondre à ces questions. Dans le même temps, nous reportons les questions de nomenclature et de taxonomie des phages à une date ultérieure – si essentielles que soient ces questions, elles pourraient être mieux traitées après avoir défini les relations évolutives et les groupes naturels qui doivent être correctement nommés.

We used patterns of gene content conservation in phage genomes to investigate their evolutionary history, by first constraining the relationship graph to a tree-like topology and detecting well-supported groups of phages, which come close to the ICTV phage taxonomy at the genus level, and then augmenting this inference with analysis of several hundred of the sequence-based trees of individual gene families. In contrast to the study of Rohwer and Edwards, which used gene content to infer reticulation-free phylogeny [7], our approach is to exploit the discordance between the topologies of phage genome trees and protein family trees and to infer the recombination events between phage lineages on the basis of this discordance. The main shortcoming of our approach is that it does not resolve the deep clades of phage phylogeny – the problem that is also encountered in phylogenetic studies of the anciently divergent cellular organisms [5, 6].

A note of caution is also due with regards to the HGT rates determined by T-REX. Our attempt at quantification of the HGT events may suffer from several confounding problems, some of which lead to overestimation, and other to underestimation of the HGT rate. The former type of problems may have to do with statistical errors in tree inference, when difference between tree topologies is interpreted as HGT, even though one or both nodes in question have insufficient statistical support (note that, on the other hand, comparing only well-supported nodes may result in underestimated HGT rate). Overestimation of HGT is also likely to occur as the size of subtrees under comparison grows, as there may be more low-cost HGT scenarios in small trees than in large ones (see reference 27 for a recent discussion of related algorithmic issues). We feel, however, that these effects may be overwhelmed by the opposite trends that lead to underestimation of the number of HGT events. Indeed, an ORF has to be found in more than three genomes in order for our method to work in the first place, which removes from consideration small POGs. Moreover, the phylogenetic signal may be low in the gene-content subtrees because of insufficient number of characters and parallel loss of characters, and in sequence family trees because of rapid sequence evolution and/or mutational saturation. Finally, gene exchanges between two nearest neighbors in the tree are ignored by all existing methods of HGT inference [28].

The observation of the one-tailed distributions of HGT events in phage genomes and in POGs appears to agree with the data on genomes of cellular prokaryotes [20, 23, 24] as well as more qualitative observations for different subsets of bacteriophages [25, 29]. It means that most genes have been horizontally transferred either once or never, and only a relatively small proportion of genes have been transferred many times. Note that the latter small proportion nevertheless in itself may be a large number, if the total number of genes in the sample is itself large, as is the case here and everywhere in comparative genomics. Though different techniques of HGT detection may give different estimates of the absolute number of HGTs, we there have not been any evidence for other types of distribution for viral or bacterial HGTs in the literature (e.g., that it is uniform, or that it has a theoretical, as opposed to sample, mean). We believe that these observations can help us move away from the extreme views on HGT role in the evolution of life and to bring about a more balanced view, in which large absolute number of genes horizontally transferred at some point in their history may be high, and the proportion of gene families that show evidence of HGT may be relatively low at the same time, perhaps just enough to make phylogenetic inference worth the effort.


Single-molecule studies of viral DNA packaging

Many double-stranded DNA bacteriophages and viruses use specialized ATP-driven molecular machines to package their genomes into tightly confined procapsid shells. Over the last decade, single-molecule approaches - and in particular, optical tweezers - have made key contributions to our understanding of this remarkable process. In this chapter, we review these advances and the insights they have provided on the packaging mechanisms of three bacteriophages: φ 29, λ, and T4.

Les figures

Single-molecule viral DNA packaging assay.…

Single-molecule viral DNA packaging assay. A) Schematic of the experimental setup used in…

55 pN before the motor paused or stalled, and corresponding tether length vs. time (blue line). Inset is a zoomed view illustrating occasional slipping events where the DNA moved backwards out of the capsid. C) DNA tether length (i.e., unpackaged DNA length) vs. time during packaging with 5 pN force feedback (the four different colored lines indicate four different single packaging events, shifted arbitrarily along the time axis for clarity). D) Inset is a zoomed view of the regions marked with arrows, illustrating occasional pauses in translocation.

Measurements of the initiation of…

Measurements of the initiation of viral DNA packaging A) Schematic of the experimental…

Phage T4 DNA packaging dynamics.…

Phage T4 DNA packaging dynamics. A) Repeated measurements of DNA tether length vs.…

145–2000 bp/s, and showing occasional pauses in translocation (plateaus). B) Histogram of average packaging rates measured for individual T4 motors (top panel) same histogram but with rates calculated not including pauses (2nd panel) histogram of average φ29 packaging rates for comparison (3rd panel) histogram showing stochastic variation in T4 packaging rates predicted by a simple Poisson-stepper model if individual complexes are assumed to have uniform kinetics (4th panel). C) Examples of three packaging events where large variations in instantaneous motor velocity vs. time were observed. D) Dependence of motor velocity on applied load force for T4 (red squares), λ (green triangles), and φ29 (blue circles). Velocities are normalized to unity at zero load.

Mechanochemistry of φ29. A) Force-velocity…

Mechanochemistry of φ29. A) Force-velocity behavior. As ATP was decreased from 500 μM…

Effects on phage λ packaging…

Effects on phage λ packaging dynamics of mutations altering the gpA large terminase…

High-resolution measurement of φ29 step…

High-resolution measurement of φ29 step size. A) Burst-dwell behavior. At low tensions (

8 pN) packaging was observed to occur in large 10-bp “bursts” separated by flat “dwells”. The behavior was seen across the full range of ATP, from 10 μM (black data) to 500 μM (purple). B) Dwell time distributions. The duration of each dwell in the stepping traces was measured and used to compile a probability distribution at each ATP concentration (same color code as A). The distributions were peaked rather than exponential, indicating that multiple rate-limiting kinetic steps occurred during the dwells. C). Sub-step size. At higher tensions (

40 pN) and at 250 μM ATP, conditions under which DNA translocation is rate-limiting, the 10-bp bursts were observed to consist of four 2.5-bp substeps. D) Model of intersubunit coordination in φ29. Packaging occurs via a biphasic mechanism in which the gp16 ring loads multiple (most likely 4) ATPs during “dwells”, and translocates the DNA in 4 rapid and successive 2.5-bp sub-steps during the 10-bp “bursts”.

Motor-DNA interactions in φ29. A)…

Motor-DNA interactions in φ29. A) Motor behavior at the site of modified DNA.…

5 pN) and ATP (1 mM). Upon reaching the modified inserts in the course of normal packaging, motors were observed to pause and either traverse the insert (blue traces) or dissociate completely from the DNA (red). Pause durations and the probabilities of traversal were dependent on the insert type and on tension. B) High-resolution measurement of pause and dissociation. Pauses were composite events consisting of long “upstream” pauses, followed by either packaging attempts with short “downstream” pauses, small slips, or terminal dissociation. The two pause types are believed to occur during the dwell and burst phases of the motor, respectively. C) “Heat map” of motor-DNA interactions in φ29. The biphasic coordination mechanism of φ29 dictates that two different types of contacts are made to DNA. During packaging, the motor tracks the 5′-3′strand, making strong ionic contacts to adjacent phosphates (red) during the dwell phase, and making transient, promiscuous contacts along the backbone (cyan) during the translocation burst. (The color map indicates the “contact importance” scale with red highest, blue lowest).

Motor velocity and internal forces…

Motor velocity and internal forces resisting DNA packaging. A) φ29 motor velocity vs.…


The Double-Stranded DNA Virosphere as a Modular Hierarchical Network of Gene Sharing

Virus genomes are prone to extensive gene loss, gain, and exchange and share no universal genes. Therefore, in a broad-scale study of virus evolution, gene and genome network analyses can complement traditional phylogenetics. We performed an exhaustive comparative analysis of the genomes of double-stranded DNA (dsDNA) viruses by using the bipartite network approach and found a robust hierarchical modularity in the dsDNA virosphere. Bipartite networks consist of two classes of nodes, with nodes in one class, in this case genomes, being connected via nodes of the second class, in this case genes. Such a network can be partitioned into modules that combine nodes from both classes. The bipartite network of dsDNA viruses includes 19 modules that form 5 major and 3 minor supermodules. Of these modules, 11 include tailed bacteriophages, reflecting the diversity of this largest group of viruses. The module analysis quantitatively validates and refines previously proposed nontrivial evolutionary relationships. An expansive supermodule combines the large and giant viruses of the putative order "Megavirales" with diverse moderate-sized viruses and related mobile elements. All viruses in this supermodule share a distinct morphogenetic tool kit with a double jelly roll major capsid protein. Herpesviruses and tailed bacteriophages comprise another supermodule, held together by a distinct set of morphogenetic proteins centered on the HK97-like major capsid protein. Together, these two supermodules cover the great majority of currently known dsDNA viruses. We formally identify a set of 14 viral hallmark genes that comprise the hubs of the network and account for most of the intermodule connections.

Importance: Viruses and related mobile genetic elements are the dominant biological entities on earth, but their evolution is not sufficiently understood and their classification is not adequately developed. The key reason is the characteristic high rate of virus evolution that involves not only sequence change but also extensive gene loss, gain, and exchange. Therefore, in the study of virus evolution on a large scale, traditional phylogenetic approaches have limited applicability and have to be complemented by gene and genome network analyses. We applied state-of-the art methods of such analysis to reveal robust hierarchical modularity in the genomes of double-stranded DNA viruses. Some of the identified modules combine highly diverse viruses infecting bacteria, archaea, and eukaryotes, in support of previous hypotheses on direct evolutionary relationships between viruses from the three domains of cellular life. We formally identify a set of 14 viral hallmark genes that hold together the genomic network.

Copyright © 2016 Iranzo et al.

Les figures

The dsDNA virus world as a bipartite network. Nodes corresponding to genomes are…

Core-shell-cloud structure of viral gene…

Core-shell-cloud structure of viral gene families. For each bin, the bar indicates the…

Robustness and cross-similarity of modules…

Robustness and cross-similarity of modules in the virus bipartite network. (A and B)…

Higher-order structure of the virus…

Higher-order structure of the virus network. (A) Bipartite network defined by modules (numbered…

The internal structure of the…

The internal structure of the PL-“Megavirales” supermodule. A module is linked to a…

Internal structure of the Caudovirales…

Internal structure of the Caudovirales supermodule. A module is linked to a connector…

Characterization of viral hallmark genes…

Characterization of viral hallmark genes and module-specific signature genes. (A) All core gene…


Findings

Current data indicate that roughly 10 31 bacteriophages exist worldwide, including about 10 8 genotypes and possibly most of the earth's gene diversity [1–4]. These estimates are derived from either fluorescence or electron microscopy. Less than 1% of the observed bacteriophages have ever been grown in culture (sometimes called "the great plaque count anomaly" [1–4]). The great plaque count anomaly is especially dramatic in the case of soil-borne bacteriophages. Propagated bacteriophages are sometimes not obtained from soil samples in spite of concentrations in the 10 8 – 10 9 range per gram, when detected by microscopy [5]. As shown below, some bacteriophages, though viable, are probably not detected by any past procedures. Genomes of currently unpropagated bacteriophages are potentially a major source of unexplored environmental gene diversity.

Knowledge of environmental virus gene diversity recently has been most expanded by sequencing of large eukaryotic phycodnaviruses and related viruses. These viruses have double-stranded DNA genomes with a length between 200 and 1,200 Kb [6–9]. Large double-stranded DNA bacteriophages also exist, including Bacillus megaterium bacteriophage G (

670 Kb genome [10]), Pseudomonas aeruginosa bacteriophage φKZ (280 Kb genome [11]) and several bacteriophages that are relatives of bacteriophage T4 by the criteria of DNA replication/recombination strategy, structure and interface of DNA replication to DNA packaging [12, 13].

However, of the 5,400 or so bacteriophages that have been isolated [14] (96% have double-stranded DNA genomes) and of 405 deposited in databases [15], only 6 (4 T4-like) have genomes as long as 200 Kb. Two other T4-like bacteriophage genomes in draft status are also in this range [12]. Statistical analysis reveals a significant under-sampling of long-genome bacteriophages [6]. The strong possibility exists that long-genome bacteriophages (>200 Kb genome) are more frequent and are major contributors to microbial ecology, but are under-sampled because of the use of classical bacteriophage propagation procedures and possibly also classical processing of environmental samples for microscopy. For example, bacteriophage G was discovered by accident

40 years ago through electron microscopy of a preparation of another bacteriophage [16]. Thus, we raise the question of whether a major pool of environmental bacteriophages remains undetected.

To probe the pool of comparatively large environmental bacteriophages, in the present study, extraction and propagation were performed in comparatively dilute, 0.15% agarose gels. The gels contained 10 g Bacto tryptone, 5 g KCl in 1000 ml water with 0.002 M CaCl2 added post-autoclaving [17]. Numerous bacteriophages were screened during single plaque cloning by determining the change in plaque size with change in supporting agarose gel concentration. Bacillus thuringiensis bacteriophage 0305φ8-36 made small (<1 mm) plaques in a 0.4% agarose supporting gel (Figure 1a). Plaques became progressively larger as the agarose gel concentration decreased to 0.2% (Figure 1b) and 0.15% (Figure 1c plaques are seen at the left most of the plate is confluent). This dependence is comparatively steep, as confirmed in a side-by-side comparison with bacteriophages T4 and G (Figure 1d). Post-isolation, 0305φ8-36 grew only in gels of either 0.25% or more dilute agarose. Thus, 0305φ8-36 was assumed to be comparatively large and was selected for further study.

Screening and electron microscopy of bacteriophage 0305φ8-36. Bacteriophage 0305φ8-36 was initially propagated and isolated [17] from soil frequented by cattle at the King Ranch (Kingsville, Texas). The host was a locally isolated Bacille that was typed as B. thuringiensis by sequencing of the gene for 16s ribosomal DNA, as previously described [17]. During isolation, single-plaque cloning was performed [17] in gels of 0.40%, 0.20% and 0.15% agarose. The inocula for all three Petri plates were bacteriophages from a single plaque of the previous propagation, transferred by sterile needle and then non-uniformly spread [17]. The three Petri plates were at the same temperature (±0.2 C) during incubation. Photographic images are shown of Petri plates used for propagation in agarose gels of the following percentages: (a) 0.4, (b) 0.20, (c) 0.15. (d) In a more comprehensive experiment, plots of plaque diameter as a function of agarose gel percentage were made for bacteriophages G, T4 and 0305φ8-36 (0305φ8-36 is abbreviated by 36 in the figure). The molten agarose solution was the same among the different bacteriophages in (d). The host for bacteriophage G was Bacillus megaterium the host for T4 was Escherichia coli BB/1. All Petri plates for (d) were in contact with the same surface and the temperature did not vary among them by more than 0.2°C. (e) Electron microscopy was performed of bacteriophage 0305φ8-36 negatively stained with sodium phosphotungstate after purification from a plate stock by use of a cesium chloride step gradient [17]. The length of the bar is 0.1 μm magnification calibration was checked with a diffraction grating. The tails of all bacteriophage particles have partially contracted. By this criterion, 0305φ8-36 is a myovirus.

Bacteriophage 0305φ8-36 was, indeed, comparatively large. Electron microscopy of a negatively stained specimen of purified bacteriophage particles (Figure 1e) revealed a contractile-tail virus (myovirus)[18, 19] with a polyhedral DNA-containing capsid that had a diameter of 95 ± 4 nm. In addition, bacteriophage 0305φ8-36 had (a) a tail that was long, 486 ± 23 nm in length and 26 ± 3 nm in diameter, in comparison to those for other Myoviridae [20], and (b) tail fibers that were also comparatively large, 187 ± 13 nm in length and 10 ± 1 nm in diameter. Bacteriophage tail fiber diameter has been generally conserved at about 2 nm among other tailed bacteriophages [20]. In addition, the tail fibers had an unusual sine wave-like appearance in projection and are presumably corkscrew-like in three dimensions. The genome of 0305φ8-36 was correspondingly large (221 Kb) by pulsed field gel electrophoresis (PFGE) (not shown). Reports of bacteriophages with morphology of this general type have previously appeared [21]. But, to the authors' knowledge, further investigation was not performed.

The purified bacteriophage 0305φ8-36 particles in Figure 1e are in contact with each other, although most of the specimen is empty (not shown). This feature was reproducible and is explained by aggregation. This level of aggregation is not characteristic of either bacteriophage T4 or bacteriophage G (see ref. [22] for G). Analytical velocity centrifugation (B. Demeler, J. Thomas, S.C. Hardies and P. Serwer, unpublished observations) confirms aggregation via a sedimentation coefficient that varies continuously between 350 and 1,200. Fluorescence microscopy of material removed from plaques reveals that aggregation also occurs during growth (not shown).

Whatever the details of aggregation, aggregates were potential contributors to the steep dependence of plaque size on supporting agarose gel concentration (Figure 1d). Aggregates must, however, dissociate during dilution because plaque forming efficiency per DNA molecule was over 0.5 when the concentration of DNA molecules was determined from ethidium-stained DNA fluorescence after expulsion of DNA molecules from capsids and PFGE. Possibly, aggregation assists stabilization in harsh conditions. Before its extraction and isolation, bacteriophage 0305φ8-36 had been dry in the laboratory for 7 months.

The unusual biology of 0305φ8-36 is accompanied by an unusual genome, based on sequence determination. For example, the 0305φ8-36 DNA packaging ATPase was identified by use of the SAM HMM procedures previously described [17] with E = 5.17e-54. Motifs found and aligned include the following: (1) ATPase motif, including adenine-binding motif, P-loop motif, and DExx box [23] and (2) conserved aspartate residues of the endonuclease ruvC fold [24]. The aligned 0305φ8-36 DNA packaging ATPase intersects the homology tree for this protein [17] only at the center. That is to say, no other known DNA packaging ATPase is in the same class. Most other genes are too diverged from known genes to identify. A few 0305φ8-36 genes for myovirus structural components have been identified, but without any indication of membership in any previously known group (data not shown). Comprehensive analysis of the 0305φ8-36 genomic sequence is in progress.

Without the dilute gel propagation used here, bacteriophage 0305φ8-36 and its accompanying novelty would probably have been inaccessible to detection because the classical detection procedures, i.e., community sequencing [25], liquid enrichment culture and microscopy [26], are not expected to work for the following reasons:

(a) In addition to not growing in the 0.4 – 0.7% agarose gels classically used [26] for plaque formation, bacteriophage 0305φ8-36 does not produce visible lysis of liquid cultures. Thus, liquid enrichment cultures [26] would be ineffective at detection. Titers of 2–3 × 10 9 plaque-forming units per ml were achieved at 25°C during growth in an aerated liquid culture. The culture had been inoculated at a multiplicity of 0.01, based on observed bacteriophage titer. The bacteriophage growth proceeded with a lag of 100 min. and then a rapid growth phase of

260 min. (apparent burst size = 22–30 after 60 min.), followed by a period of slower growth that ended at

1,440 min. (24 hr.). Bacteria overgrew the culture without any visible lysis and these bacteria were 0305φ8-36-resistant (5 independent bacterial clones). The cause for growth limitation in liquid culture is not known, but a likely cause is aggregation that lowers the infection rate when the bacteriophage reaches 2–3 × 10 9 per ml.

(b) Community sequencing, fluorescence microscopy and electron microscopy are performed on preparations from which μm-sized particles like bacteria are usually removed by either centrifugation or filtration ([4] reviewed in ref. [26]). These procedures will also remove aggregates like those of bacteriophage 0305φ8-36 and thus are also expected to be ineffective.

The data presented here show that (a) some bacteriophages in the uncultivatable category can now be moved to the cultivatable category and (b) a new category must be added for aggregating viruses not yet detected by any procedure. Given the heterogeneity of the geology and bacterial microbiology of soil particles even within a single sample [27, 28], multiple niches can be envisaged for independent bacteriophage evolution even in a single sample. Thus, the various soil niches have the potential to produce genomic diversity significantly above current estimates. Access to at least some of this diversity is now expanded.


DNA Replication: Notes on DNA Replication in Organisms

A double-stranded DNA molecule is capable of producing two identical molecules from nucleotide monomers with the help of some proteins. This is known as DNA replication. DNA needs replication, because every cell produced by division of a pre-existing cell must be provided with an identical genetic material. This is achieved by the semi-conservative mechanism of DNA replication in which each of the two parental DNA strands is used as template for synthesizing two new complementary strands.

The complementarity is based on pairing between A and T, and between G and C. The nucleotides are added one by one from the precursors maintaining the complementarity, to the growing polynucleotide chain using the mother template strand which remains intact. The addition of every new nucleotide to the polynucleotide chain is a step in the process of polymerization. The rate of polymerization in DNA replication is very fast. For example in bacteria, it may be up to 500 nucleotides per second. In eukaryotes, it is nearly 10-fold slower.

The addition of a nucleotide monomer to an elongating polynucleotide chain is shown in Fig. 9.14:

Notes # The Replication Fork:

Experimental observations of replicating DNA suggested that replication involved a localized area of the DNA molecule which moved along the parental helix. The Y-shaped area is known as the replication fork. The two arms of the Y-shaped fork represent the separated strands of the parental helix and the complementary strands of the daughter helices, while the stem of Y represents the un-separated strands of the parental helix (Fig. 9.15).

Replication fork is an asymmetric structure, because the replication in the two arms of Y is not similar. The two strands of a DNA helix have opposite polarity (antiparallel) and DNA replication through polymerization can proceed only in one direction (5′ —> 3′), because the enzyme DNA polymerase can add the incoming nucleotide only to the 3′-OH group of the last nucleotide of the elongating polynucleotide chain.

Thus, DNA polymerization can proceed continuously along one of the two strands used as template. This is called the leading strand. When the other strand is used as template, DNA synthesis proceeds in short pieces also in 5′ —> 3′ direction.

These pieces are known as Okazaki fragments. The 3′ —> 5′ strand of the parental helix is called the lagging strand. The Okazaki fragments are later joined to make a continuous strand. This is diagrammatically represented in Fig. 9.16. The Okazaki fragments of eukaryotic organisms are about 100-200 base long and in prokaryotes about 1,000 to 2,000 base long.

Notes # DNA-Polymerases:

DNA replication is catalysed by the enzyme, DNA-polymerase. In bacteria, like E. coli, there are three different DNA-polymerases, — I, II and III. Of these, DNA polymerase III (pol III) catalyses addition of nucleotides at the 3′-OH end of the elongating polynucleotide chain. This enzyme (pol III) is specific for the precursors used in DNA replication which are 5′-nucleoside triphosphates. From these precursors, pyrophosphate is released after transfer of the nucleoside monophosphate to the acceptor (polynucleotide chain). Pyrophosphate is hydrolysed to release enough energy required for effecting the step of polymerization.

The mechanism involved in chain elongation catalysed by DNA-polymerase is shown in Fig. 9.17. catalyses the addition of mononucleotide units to the free 3′-OH end of a DNA chain. The 3′-OH group at the growing end of the chain attacks the a-phosphorus atom of the incoming nucleoside triphosphate displacing the pyrophosphate group and forming an inter-nucleotide linkage.

Although DNA polymerase catalyses chain elongation, the enzyme is unable to initiate DNA synthesis by linking two nucleoside phosphates together. The enzyme obligately requires a 3′-OH end of a base-paired primer strand to which it can add nucleotides and continue elongating it. Interestingly, such primers are invariably short segments of RNA which form a complementary strand to the template DNA strand.

For the leading strand such an RNA primer is required only at the initiation of the DNA strand synthesis. But for the lagging strand, the primer is required for initiation of each Okazaki fragment. Thus, initiation of DNA synthesis always requires an RNA primer and the first deoxynucleotide is added to the 3′-OH group of the primer. The 5′-end of the primer contains three phosphate groups.

RNA primers for DNA synthesis are synthesized not by RNA-polymerase, as most RNA’s are, but by a different enzyme, known as RNA-primase. When Okazaki fragments are joined to make a continuous strand, the RNA primers are removed by excision and the gaps are filled by new DNA synthesis at the 3′-OH groups of Okazaki fragments and joined by ligase.

DNA synthesis on leading and lagging template strands are diagrammatically shown in Fig. 9.18:

Notes # Other Enzymes and Proteins Required for DNA Replication:

Although DNA-polymerase is the main enzyme involved in DNA-replication, several other enzymes and proteins are also essential. These are necessary to unwind the double helix by disrupting the H-bonds and opening the single-strands, as well as to keep the single strands in proper condition by preventing intra-strand H-bond formation.

These enzymes and other proteins with their function in DNA replication are shown in Table 9.1:

To make the DNA polymerase accessible to the template strand — so that it may effectively bind to it, as well as to facilitate access of incoming precursor to base-pair with the template — it becomes essential to unwind and open the double-stranded DNA helix.

This is accomplished by the enzyme DNA-helicase. There are two different helicases, one for the leading strand and the other for the lagging strand. Both these helicases require ATP hydrolysis for their activity. These enzymes move along a DNA strand and they unwind and open the double helix ahead of the replication fork.

Another group of proteins, called single-strand binding proteins (SSB proteins), bind to the exposed single-strand DNA templates without covering the bases, so that they may be freely available for base pairing with the incoming precursors. These proteins serve to prevent formation of short hair­pin double helices by intra-strand H-bonding which might otherwise interfere with effective base- pairing between the template and the incoming precursors.

The functions of helicases and SSB-proteins are schematically represented in Fig. 9.19:

RNA primase which synthesizes RNA primer for initiation of DNA polynucleotide chain, remains associated with DNA helicase to form a composite unit known as primo-some. Still another class of enzymes, known as topoisomerases. Unwinding of the DNA double helix leads necessarily to over-winding of the un-replicated portion. Such over-winding could be relieved by rotation of the overwound portion in the opposite direction.

Due to the enormous length of the DNA molecule, such rotation is not practically feasible. An alternative is to cut open one or both strands of the helix to relieve the tension and rejoin them. These are achieved by topoisomerase I and II enzymes.

The DNA-polymerase has a natural tendency to synthesise short stretches of polynucleotide strand and then leave the template. Such behaviour is suitable for replication of the lagging strand, because after synthesis of one Okazaki fragment, the polymerase may leave the template and initiate synthesis of another fragment.

However, it is unsuitable for the leading strand. In the latter, a long stretch of DNA is required to be synthesized and, therefore, the tendency of the polymerase to fall off the template needs to be prevented. This is managed by the clamp-protein which is a ring-formed molecule. The clamp-protein is attached at the back of the DNA-polymerase and keeps it in place and helps it to slide along the template, so that a long stretch of DNA can be synthesized.

A schematic representation is shown in Fig. 9.20:

Notes # Origin of Replication:

Replication of ds-DNA of both prokaryotes and eukaryotes, as well as of some viruses, is initiated at a unique sequence, called the replication origin (ori). The sequence is different in different organisms and may be up to 300 nucleotide long. In E. coli, the replication origin is a 245 bp sequence.

A local melting of the double helix of this sequence leads to the formation of a replication bubble. The two separated strands then act as template for DNA synthesis proceeding in opposite directions as shown in Fig. 9.21.

The advancing forks move in opposite directions until the whole DNA molecule has been replicated to produce two identical daughter molecules. The initiation of DNA replication requires a complex of several proteins, called the initiation proteins. However, the interaction of the initiation proteins with the ds-DNA is more complex.

Notes # Replication of Circular DNA Molecules:

Circular DNA molecules occur in both prokaryotes and eukaryotes. In prokaryotic organisms, the genome is universally circular. Also, the extra-chromosomal genetic elements, called plasmids are circular DNA. In eukaryotic organisms, circular ds-DNA occurs in the mitochondria and chloroplasts with few exceptions, like Chlamydomonas and some protozoa.

Replication of E. coli chromosome may be treated as a model for replication of circular ds-DNA. E. coli chromosome is a huge double-stranded covalently closed circular DNA molecule which replicates as a circle i.e. its circularity is maintained throughout the replication process. Its replication, therefore, results in the formation of two separate circular chromosomes.

Replication of the circular molecule begins at the origin sequence which binds to the initiation proteins by wrapping the ds-DNA around them to form a protein-DNA complex. This complex then binds DNA-helicase and transfers it to an exposed single-strand of DNA. RNA-primase then binds to the helicase forming a primo some.

The primo some synthesizes the RNA primer. With movement of the primo some, DNA strands separate and opens the template for attachment of the DNA-polymerase. DNA synthesis starts by addition of nucleotides to the RNA-primer through the action of the polymerase.

Initiation of DNA synthesis starts at a bubble produced by disruption of H-bonds between the two strands of DNA. In the bubble, synthesis in the leading strand goes ahead in comparison to the lagging strand. Thus, at the beginning, the bubble consists of a single strand (lagging strand) and a double stranded branch.

These events are diagrammatically shown in Fig. 9.22:

The growing leading strand displaces the lagging strand of the parental template forming a loop which is generally called the D-loop (displacement loop). The synthesis against the lagging strand is also soon initiated. D-loop formation is shown in Fig. 9.23.

Except in some rare cases, e.g. some phages and plasmids, DNA replication in bacteria, plasmids and eukaryotic organisms is bidirectional which means that two replication forks are produced which move in opposite directions from the origin, one clockwise and the other anticlockwise (Fig. 9.24). The replicating circular DNA forms typically a θ (theta) configuration.

When a ds-circular DNA replicates, the two resulting circular ds-DNA molecules are often locked to each other like the links of a chain to form a catenane. The locked DNA molecules are separated by DNA-gyrase (topoisomerase II). The enzyme cuts both strands of one of the circles and passes the other through the opening.

The nicked ends are then resealed (Fig. 9.25):

Notes # Rolling Circle Replication:

In many bacteriophages and also in bacterial conjugation, a circular double-stranded DNA molecule gives rise to a linear DNA by rolling circle replication. In this type of DNA-replication, a break (nick) is produced in one strand to expose a 3′-OH end and a 5′-(P) end. A replication fork is produced by a helicase and associated SSB proteins.

The 5′-(P) end is displaced and it acts as the template for synthesis of the lagging strand in Okazaki fragments in the 5’—>3′ direction. The exposed 3′-OH end of the nicked strand can add nucleotides from precursors to elongate the polynucleotide chain using the intact DNA strand as template. Rolling circle implication results in a sigma (a) configuration consisting of a rolling circle and a linear branch (Fig. 9.26).

Rolling circle replication occurs in X-phage which has a linear ds-DNA genome in the virions. After the phage enters into the host E. coli the linear molecule circularizes with its cohesive ends (cos) to form a circular ds-DNA.

Towards the end of the infection cycle, this circular molecule replicates by rolling circle process to produce a long linear ds-DNA in which the phage genome is repeated several times. Ultimately, during packaging in the phage heads, the long DNA molecule is cleaved to form the genomic DNA.

Rolling circle replication also occurs in F-plasmids of conjugating bacteria, like E. coli. The F-plasmid which confers the ability to conjugate is a circular ds-DNA. During conjugation, the F- plasmid replicates by rolling circle process to yield a single-stranded copy which is passed into a recipient (F – ) cell.

The copy becomes double-stranded by synthesizing a complementary strand. The F- plasmid of the donor (F + ) also becomes double-stranded. Rolling circle replication occurs also in single-stranded DNA phages, like φX174 which reproduces through a double-stranded intermediate.


DNA packing in bacteriophages

Double stranded (Ds) DNA viruses such as bacteriophages, adenoviruses and herpesviruses keep their genome in a spherical protein container called a capsid. The radius of the capsid is at least two orders of magnitude smaller than the length of the viral genome. This implies that once the DNA is packed inside the capsid it is subjected to strong bending and repulsive interactions (due to its rigidity and negative charge). Little is currently understood about the biophysical properties of the DNA molecule under these extreme conditions. In our group we use bacteriophage P4 to investigate such properties.

Bacteriophages, viruses that propagate in bacteria, are commonly used to study DNA packing and folding in other dsDNA viruses because they have similar morphology and share similar assembly pathways. A number of models have been proposed to explain the folding of the DNA molecule inside the bacteriophage capsid. However these models provide only a very general description of the trajectory of the DNA. This lack of understanding is reflected in the inability of current DNA folding models to predict the finding that DNA molecules abruptly extracted from bacteriophage P4 are knotted (i.e. are circles which cannot be laid flat on a plane without self-intersecting).

In our work, we have experimentally shown that P4 knots preserve information about the folding of the DNA inside the capsid and about the physical properties of the DNA itself. We are currently developing a model of DNA folding which improves on the models now available by incorporating biophysical properties that account for and allow for the reproduction of the knotted structures observed in P4. The long-term goal of this work is to provide a novel quantitative description of the process of DNA packing and folding inside dsDNA viruses that is consistent with the topological information observed in P4 and with other published data.


Bacteriophage P22 portal protein is part of the gauge that regulates packing density of intravirion DNA

The complex double-stranded DNA bacteriophages assemble DNA-free protein shells (procapsids) that subsequently package DNA. In the case of several double-stranded DNA bacteriophages, including P22, packaging is associated with cutting of DNA from the concatemeric molecule that results from replication. The mature intravirion P22 DNA has both non-unique (circularly permuted) ends and a length that is determined by the procapsid. In all known cases, procapsids consist of an outer coat protein, an interior scaffolding protein that assists in the assembly of the coat protein shell, and a ring of 12 identical portal protein subunits through which the DNA is presumed to enter the procapsid. To investigate the role of the portal protein in cutting permuted DNA from concatemers, we have characterized P22 portal protein mutants. The effects of several single amino acid changes in the P22 portal protein on the length of the DNA packaged, the density to which DNA is condensed within the virion, and the outer radius of the capsid have been determined. The results obtained with one mutant (NT5/1a) indicate no change (+/- 0.5%) in the radius of the capsid, but mature DNA that is 4.7% longer and a packing density that is commensurately higher than those of wild-type P22. Thus, the portal protein is part of the gauge that regulates the length and packaging density of DNA in bacteriophage P22. We argue that these findings make models for DNA packaging less likely in which the packing density is a property solely of the coat protein shell or of the DNA itself.