Informations

Logiciel pour calculer Fst à partir des données de séquence

Logiciel pour calculer Fst à partir des données de séquence


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche un logiciel pour calculer Fst à partir de 3 loci de données ADN d'individus d'une métapopulation. Je n'ai pas d'antériorité sur la structure de la population (je n'ai aucune idée du nombre de sous-populations par exemple)

J'ai regardé FSTAT mais il ne fonctionne pas sur MAC.

Avez-vous une alternative facile?


Si vous connaissez R, essayez le package adegenet. Il contient de très bons tutoriels expliquant son utilisation, y compris les bases très R. Si vous avez besoin d'une interface graphique, installez RStudio - un très bon front-end pour R. Il y a plus de possibilités pour calculer Fst dans R, mais adegenet est l'un des packages génétiques les plus puissants.


StAMPP : un package R pour le calcul de la différenciation génétique et de la structure des populations de niveau de ploïdie mixte

L'analyse statistique des populations à ploïdie mixte (StAMPP) est un package R disponible gratuitement pour le calcul de la structure et de la différenciation de la population sur la base des données de génotype du polymorphisme nucléotidique unique (SNP) provenant de populations de tout niveau de ploïdie et/ou de niveaux de ploïdie mixte. StAMPP offre une avancée par rapport aux précédents progiciels similaires, grâce à la capacité de calculer les valeurs FST par paires ainsi que les intervalles de confiance, la distance génétique de Nei et les matrices de relations génomiques à partir d'ensembles de données de niveau de ploïdie mixte. Le code du logiciel est conçu pour gérer efficacement l'analyse de grands ensembles de données génotypiques qui sont généralement générés par des plates-formes de génotypage à haut débit. Les études de différenciation des populations à l'aide de StAMPP sont largement applicables aux études d'écologie moléculaire et de génétique de la conservation, ainsi qu'à la sélection animale et végétale.

Mots clés: F ST distance génétique relation génomique matrice polyploïdie.


Concernant le calcul de Fst

J'ai une question concernant la différence de fréquence allélique et le calcul Fst. En fait, j'ai trouvé que ma question est très similaire à ce post (https://www.biostars.org/p/345692/) chez Biostar donc je ne réplique pas ici, cependant, personne ne répond à la question. Pourriez-vous s'il vous plaît me faire part de vos commentaires et suggestions sur cette question.

De plus, j'ai un fichier texte contenant le MAF et le nombre de différents génotypes (homozygote de référence, hétérozygote, homozygote alternatif et génotype manquant) pour des milliers de variantes dérivées du séquençage du génome entier d'une population humaine. Pourriez-vous s'il vous plaît me dire comment je peux calculer Fst pour les variantes dans ce format ? comme je le vois, la plupart des outils acceptent le format VCF.

Quelle est votre question précise ? Ce que mesurent les dérivés de Wright's Fst, c'est un écart par rapport à la distribution aléatoire des allèles parmi la population comparée, les valeurs croissantes étant interprétées comme une différenciation génétique due à un effet Wahlund. S'il est utilisé dans des comparaisons de populations par paires, il peut vous dire quelles populations ont un taux de flux de gènes plus élevé, relativement parlant. Si vous avez des données de séquence, vous devriez utiliser phi.st plutôt que f.st. Si vous n'avez que des appels d'allèles qui suivent un modèle d'allèle infini de mutation, vous devriez utiliser Nei's Gst. Si vous êtes intéressé par la diversité génétique, aucune des métriques de type Fst ne sera utile. Vous aurez besoin soit de He (2pq), soit probablement de pi (diversité nucléotidique). La richesse allélique (une forme corrigée de la taille de l'échantillon du nombre effectif d'allèles) pourrait également être appropriée.

Merci beaucoup mon ami pour votre explication agréable et complète! Ce serait bien si nous pouvions avoir plus de discussions. En fait, j'ai un ensemble de variantes liées à une maladie complexe (donc ne suivez aucun modèle de mutation) de la population A. J'aimerais connaître la différenciation génétique de la population A et d'autres populations (disons à partir de 1KG) lorsque l'on considère cet ensemble de variantes, donc je vais mesurer Fst par paire, n'est-ce pas? Je suis également intéressé par les valeurs aberrantes Fst car elles sont en cours de sélection, j'ai trouvé des outils pour trouver les valeurs aberrantes statistiquement significatives, mais comme je ne travaille jamais dans ce domaine, je suis toujours aveugle pour choisir l'outil le plus approprié. Pourriez-vous s'il vous plaît aussi bien vouloir m'aider à ce sujet?

De plus, vous avez mentionné la richesse allélique, c'est bien. Par exemple, je peux déterminer si le nombre d'allèles effectif est enrichi ou appauvri par rapport à la population d'intérêt par rapport à d'autres populations, est-ce que je comprends correctement votre point de vue ? Désolé pour cette question, la richesse allélique et Fst sont deux concepts différents, non ?


Estimation des distances évolutives

Dans ce tutoriel , nous allons estimer les distances évolutives des séquences de 11 espèces de drosophiles à l' aide de divers modèles . Les fichiers de données utilisés dans ce didacticiel se trouvent dans le dossier MEGA/Examples ( L'emplacement par défaut pour les utilisateurs Windows est C:Program FilesMEGAExamples. L'emplacement par défaut pour les utilisateurs Mac est $HOME/MEGA/Examples, où $HOME est le répertoire personnel de l'utilisateur).

Estimation des distances évolutives à l'aide de la distance par paires

Dans MEGA, vous pouvez estimer les distances évolutives entre les séquences en calculant la proportion de différences de nucléotides entre chaque paire de séquences.

Ouvrez le fichier de données "Drosophila_Adh.meg". Si besoin, reportez-vous au didacticiel « MEGA Basics ».

Dans la barre de lancement principale de M EGA , sélectionnez Distance | Calculer la distance par paire.

Dans la fenêtre Préférences d'analyse, cliquez sur le menu déroulant Type de substitution, puis sélectionnez l'option Nucleotide.

Cliquez sur le menu déroulant pour Modèle/Méthode et sélectionnez le modèle p-distance . Pour cet exemple, nous utiliserons les valeurs par défaut pour les options restantes. Cliquez sur Calculer pour commencer le calcul.

Un indicateur de progression apparaît brièvement puis les résultats du calcul de distance s'affichent sous forme de grille dans une nouvelle fenêtre. Laissez cette fenêtre ouverte afin que nous puissions comparer les résultats des prochaines étapes .

Calculer et comparer des distances à l'aide d'autres modèles/méthodes

MEGA prend en charge une large collection de modèles pour estimer les distances évolutives. Ici, nous comparons les distances évolutives calculées en utilisant différents modèles.

Répétez l'exemple 3.1 ci-dessus, mais sélectionnez le modèle Jukes/Cantor sous le menu déroulant Model/Method au lieu du modèle p-distance, en laissant toutes les autres options identiques. Encore une fois, laissez la fenêtre des résultats ouverte pour comparaison.

Répétez l'analyse, cette fois en sélectionnant le modèle Tamura-Nei sous le menu déroulant Modèle/Méthode, en laissant toutes les autres options identiques. Encore une fois, laissez la fenêtre des résultats ouverte pour comparaison.

Vous pouvez maintenant comparer les trois fenêtres de résultats ouvertes qui contiennent les distances estimées par les différentes méthodes.

Après avoir comparé les résultats, sélectionnez Fichier | Quitter l'option Viewer pour chaque fenêtre de résultats.  Ne fermez pas le fichier de données "Drosophila_Adh.meg".

Calculer la proportion des différences d'acides aminés

Vous pouvez également calculer les distances évolutives en fonction de la proportion de différences d'acides aminés.

Remarque : MEGA traduira automatiquement les séquences de nucléotides en séquences d'acides aminés en utilisant la table de code génétique sélectionnée. Le tableau du code génétique peut être modifié par Data | Sélectionnez Genetic Code Table dans la barre de lancement principale de MEGA .

Dans la fenêtre principale de MEGA, sélectionnez Distance | Calculez les distances par paires à partir du menu principal. Cela affichera la fenêtre Préférences d'analyse.

Cliquez sur le menu déroulant Substitutions Type, sélectionnez Amino Acid, puis sélectionnez p-distance sous Model/Method .

Cliquez sur le bouton Calculer pour accepter les valeurs par défaut pour le reste des options et commencer le calcul. Une boîte de dialogue de progression apparaît brièvement. Comme pour l'estimation des nucléotides, une fenêtre de visualisation des résultats s'affichera, montrant les distances sous forme de grille.

Après avoir inspecté les résultats, utilisez le fichier | Commande Quitter la visionneuse pour fermer la visionneuse de résultats.

Fermez les données en sélectionnant le bouton Fermer les données dans la barre des tâches principale de MEGA.


Sequenza : nombre de copies spécifiques à l'allèle et profils de mutation à partir des données de séquençage tumoral

Fond: Le séquençage en profondeur de l'exome ou du génome entier de l'ADN tumoral avec l'ADN normal apparié peut potentiellement fournir une image détaillée des mutations somatiques qui caractérisent la tumeur. Cependant, l'analyse de ces données de séquence peut être compliquée par la présence de cellules normales dans l'échantillon tumoral, par l'hétérogénéité intratumorale et par la taille des données brutes. En particulier, la détermination des variations du nombre de copies à partir des seules données de séquençage de l'exome s'est avérée difficile, ainsi, des puces à polymorphisme à nucléotide unique (SNP) ont souvent été utilisées pour cette tâche. Récemment, des algorithmes pour estimer des profils de nombre de copies absolus, mais non spécifiques à un allèle, à partir de données de séquençage tumoral ont été décrits.

Matériaux et méthodes: Nous avons développé Sequenza, un progiciel qui utilise des données de séquençage d'ADN tumoral normal pour estimer la cellularité et la ploïdie tumorales, et pour calculer les profils de nombre de copies et de mutations spécifiques à l'allèle. Nous avons appliqué Sequenza, ainsi que deux algorithmes publiés précédemment, aux données de séquence d'exome de 30 tumeurs de The Cancer Genome Atlas. Nous avons évalué les performances de ces algorithmes en comparant leurs résultats avec ceux générés à l'aide de matrices SNP appariées et traités par l'algorithme d'analyse du nombre de copies spécifiques à l'allèle des tumeurs (ASCAT).

Résultats: La comparaison entre Sequenza/exome et SNP/ASCAT a révélé une forte corrélation entre la cellularité (r de Pearson = 0,90) et les estimations de ploïdie (r = 0,42, ou r = 0,94 après inspection manuelle des solutions alternatives). Cette performance était nettement supérieure aux algorithmes précédemment publiés. De plus, dans des données artificielles simulant des mélanges de tumeurs normales, Sequenza a détecté la ploïdie correcte dans des échantillons avec une teneur en tumeur aussi faible que 30 %.

Conclusion : L'accord entre les profils de nombre de copies basés sur les puces Sequenza et SNP suggère que le séquençage de l'exome à lui seul est suffisant non seulement pour identifier les mutations à petite échelle, mais également pour estimer la cellularité et déduire les aberrations du nombre de copies d'ADN.

Mots clés: cancer génomique nombre de copies altérations mutations logiciel de séquençage de nouvelle génération.

© The Author 2014. Publié par Oxford University Press au nom de la Société européenne d'oncologie médicale.


L'épine dorsale de votre recherche scientifique

Augmentez l'efficacité des processus et améliorez la collaboration avec une organisation intuitive basée sur des dossiers et une base de données partagée parfaitement intégrée. Glisser-déposer simple pour importer et exporter un grand nombre de formats de fichiers courants, notamment GenBank, SnapGene et FASTQ.

Personnalisation

Étendez les fonctionnalités de Geneious Prime avec notre collection de plugins disponibles pour l'assemblage, l'alignement, la phylogénétique et plus encore. Intégrez-vous aux systèmes existants et ajoutez vos propres algorithmes personnalisés à l'aide d'une API hautement interopérable.

Automatisation

Créez vos propres workflows automatisés ou utilisez des workflows intégrés pour augmenter l'efficacité et réduire les erreurs humaines. Automatisez les recherches dans les bases de données externes pour recevoir en permanence les dernières informations sur les génomes, les séquences et les structures des protéines.

Innovation

Nous nous soucions beaucoup de trouver de nouvelles façons de faire avancer la science plus rapidement et plus efficacement. Notre équipe de développement travaille constamment tout au long de l'année pour s'assurer que Geneious Prime fonctionne parfaitement et qu'il y a toujours une nouvelle version au coin de la rue.


Enquêter sur le virus de la grippe aviaire

Calculez les rapports Ka/Ks pour huit gènes dans les génomes des virus H5N1 et H2N3, et effectuez une analyse phylogénétique sur le gène HA du virus H5N1 isolé chez des poulets en Afrique et en Asie. Pour l'analyse phylogénétique, vous allez reconstruire un arbre voisin-jointure et créer un tracé 3D des distances de séquence à l'aide d'une mise à l'échelle multidimensionnelle. Enfin, vous cartographierez les emplacements géographiques où chaque séquence HA a été trouvée sur une carte régionale. Les séquences utilisées dans cet exemple ont été sélectionnées à partir de l'étude de cas sur la grippe aviaire sur le site Web Computational Genomics [1]. Remarque : La dernière section de cet exemple nécessite la Mapping Toolbox™.


Logiciel pour calculer Fst à partir de données de séquences - Biologie

Nous sommes heureux d'offrir une série de didacticiels à votre rythme sur l'analyse génétique des populations qui utilisent des calculs manuels et des exercices dans GenAlEx. Ceux-ci sont tirés en partie des ateliers de troisième cycle que nous avons offerts (conjointement et indépendamment), dans le monde entier. Cliquez sur les liens ci-dessous pour télécharger les didacticiels qui vous intéressent. En 2012, les Tutoriels 1 à 6 ont été révisés pour les mettre à jour avec les nouvelles fonctionnalités de GenAlEx 6.5. Le nouveau didacticiel de dépannage est fortement recommandé pour tous les utilisateurs. Il fournit des conseils utiles pour résoudre certains des problèmes susceptibles d'empêcher l'exécution de certains ensembles de données.

Une introduction à l'analyse génétique des populations basée sur la fréquence : notation des marqueurs génétiques, fréquence des allèles, hétérozygotie, statistiques F, distance génétique Nei, indices de diversité de Shannon et tests du chi carré pour l'équilibre de Hardy-Weinberg

Distance génétique et AMOVA : Distance génétique haploïde, codominante et binaire, AMOVA et statistiques F

Analyse génétique spatiale : analyse des coordonnées principales (PCoA), tests de Mantel pour la correspondance matricielle et l'analyse d'autocorrélation spatiale

Analyse avancée basée sur la fréquence : probabilité de profil ADN, probabilité d'identité, probabilité d'exclusion, affectation de la population et parenté par paires

Fonctionnalités avancées, y compris l'importation et l'exportation de données : travailler avec des séquences d'ADN, importer et traiter des données génotypiques brutes, exporter des données de GenAlEx vers d'autres logiciels. Le menu Stats et comment personnaliser le menu GenAlEx sont également abordés brièvement.

TwoGener : Inférence gamétique masculine, distances gamétiques masculines, AMOVA gamétique

Analyse hiérarchique de la diversité de Shannon

Ce didacticiel fournit des conseils utiles pour le dépannage lorsque GenAlEx est initialement incapable d'exécuter certains ensembles de données.


Logiciel pour calculer Fst à partir de données de séquences - Biologie

RepeatMasker est un programme qui sélectionne les séquences d'ADN pour les répétitions intercalées et les séquences d'ADN de faible complexité. La sortie du programme est une annotation détaillée des répétitions présentes dans la séquence de requête ainsi qu'une version modifiée de la séquence de requête dans laquelle toutes les répétitions annotées ont été masquées (par défaut : remplacé par Ns). Actuellement, plus de 56 % de la séquence génomique humaine est identifiée et masquée par le programme. Les comparaisons de séquences dans RepeatMasker sont effectuées par l'un des nombreux moteurs de recherche populaires, notamment nhmmer, cross_match, ABBlast/WUBlast, RMBlast et Decypher. RepeatMasker utilise des bibliothèques de répétitions organisées et prend actuellement en charge Dfam (bibliothèque de profil HMM dérivée de séquences Repbase) et Repbase, un service du Genetic Information Research Institute.

Si vous souhaitez suivre les actualités et les annonces relatives à RepeatMasker, vous pouvez soit nous suivre sur Twitter : Suivez @RepeatMasker

RepeatModeler 2.0.2 Sortie
Lundi 3 mai 2021
Une nouvelle version de RepeatModeler est disponible. Cette version comprend un ensemble d'outils de curation manuels à utiliser avec les bibliothèques TE générées par de-novo, en plus de diverses corrections de bogues et améliorations.
RepeatMasker 4.1.2-p1 publié
Jeudi 1er avril 2021
Une nouvelle version de correctif de RepeatMasker est disponible en téléchargement. Cette version corrige un bug dans 4.1.1/4.1.2 avec le traitement des séquences Alu chez les primates. Dans ces versions précédentes, les séquences Alu étaient correctement masquées, mais elles n'étaient pas automatiquement comparées à la plus grande bibliothèque de sous-famille Alu et ne recevaient pas d'annotation détaillée de sous-famille. Voir la page RepeatMasker pour les détails d'installation.
RepeatMasker 4.1.2 publié
vendredi 19 mars 2021
Une nouvelle version de RepeatMasker est disponible en téléchargement. Cette version corrige quelques problèmes mineurs avec RepeatMasker et ses outils auxiliaires. Plus important encore, cette version résout un problème lié à son utilisation par RepeatModeler qui peut entraîner de mauvaises performances de classification dans les bibliothèques denovo de RepeatModeler. Voir la page RepeatMasker pour les détails d'installation.
RMBlast 2.11.0
Jeudi 11 mars 2021
RMBlast a été mis à jour vers la dernière version des outils NCBI BLAST+ (2.11.0), y compris les binaires pour Mac 64 bits et Linux. Cette version a introduit des rapports d'utilisation opt-out, que nous avons modifiés dans nos distributions RMBlast. Voir la page RMBlast pour plus de détails.
RepeatMasker 4.1.1 publié
Jeudi 3 septembre 2020
Une nouvelle version de RepeatMasker est disponible en téléchargement. Dans cette version, nous avons ajouté la prise en charge des fichiers de bibliothèque Dfam 3.2 et FamDB (https://github.com/Dfam-consortium/FamDB). FamDB est un format basé sur HDF5 qui stocke les modèles familiaux (séquences HMM et consensus), les métadonnées familiales et un sous-ensemble de la base de données taxonomique NCBI concernant les familles stockées. De plus, RepeatMasker inclut l'outil utilitaire famdb.py qui prend en charge un large éventail de capacités d'interrogation et d'exportation sur les données stockées dans ce format. Voir la page RepeatMasker pour les détails d'installation.
RMBlast 2.10.0
Mercredi 8 janvier 2020
RMBlast a été mis à jour vers la dernière version des outils NCBI Blast+ (2.10.0), y compris les binaires pour Mac et Linux 64 bits. Voir la page RMBlast pour les détails d'installation.
RepeatModeler 2.0 est sorti
Mercredi 27 novembre 2019
Une nouvelle version de RepeatModeler est disponible avec la prise en charge de la découverte LTR basée sur la structure à l'aide de LtrHarvest et Ltr_retriever. Le nouveau workflow développé en collaboration avec Jullien Flynn, Andrew Clark et Cedric Feschotte, améliore considérablement la qualité des familles LTR produites par RepeatModeler. En plus des corrections de bugs, nous avons amélioré la vitesse de la phase de masquage, remanié le système de configuration pour qu'il soit plus flexible pour les gestionnaires de packages et généré à la fois des conteneurs Docker et Singularity pour une installation simplifiée. Un manuscrit préliminaire a été soumis à bioRxiv [856591].
RepeatMasker 4.1.0 est sorti
Mercredi 30 octobre 2019
Une nouvelle version de RepeatMasker est disponible en téléchargement. Dans cette version, le système de configuration a été remanié pour faciliter la distribution de RepeatMasker via des gestionnaires de packages et/ou des bundles dans des conteneurs Docker/Singularity. De plus, nous avons inclus un outil python utile (RM2Bed.py) développé par le laboratoire de David Ray pour manipuler/filtrer les fichiers d'annotation RM ( *.out ) et enregistrer la sortie au format de fichier BED. Voir la page RepeatMasker pour les détails d'installation.
Correction de bogue RMBlast 2.9.0-p1
Mercredi 7 août 2019
Nous avons identifié un bogue dans NCBI BLAST+ qui peut occasionnellement provoquer un plantage ou des alignements brouillés lors de l'exécution de rmblastn. Nous avons publié un nouveau correctif et signalé nos résultats à NCBI afin qu'il puisse être corrigé en amont. Voir la page RMBlast pour les détails d'installation.
Modifications du service de masquage RepeatMasker
Lundi 20 mai 2019
En date du 20 mai 2019, GIRI a résilié notre accord de travail permettant au www.repeatmasker.org pour offrir un service de masquage de répétition utilisant la bibliothèque RepBase RepeatMasker Edition. À l'heure actuelle, nous ne pouvons proposer le masquage qu'à l'aide de la base de données ouverte Dfam, qui, à partir de la version 3.0, inclut des séquences consensus en plus des modèles de Markov cachés de profil pour de nombreuses familles d'éléments transposables.Les utilisateurs nécessitant RepBase devront acheter une licence commerciale ou académique auprès de GIRI et exécuter RepeatMasker localement. Nous travaillons à étendre la base de données Dfam et vous invitons à visiter Dfam ( http://www.dfam.org ) pour plus d'informations.
RepeatMasker 4.0.9
Mardi 9 avril 2019
Une nouvelle version du package RepeatMasker est maintenant disponible. RepeatMasker fonctionnera désormais avec la nouvelle base de données combinée consensus/HMM Dfam ( Dfam 3.0 ) et/ou les bibliothèques personnalisées fournies par l'utilisateur prêtes à l'emploi. Dfam est une base de données ouverte de modèles HMM de profil d'élément transposable (TE) et de séquences consensus. La version actuelle (Dfam 3.0) contient 6 235 familles TE couvrant cinq organismes : humain, souris, poisson zèbre, mouche des fruits, nématode et un nombre croissant de nouvelles espèces. Voir la page RepeatMasker pour les détails d'installation.
RMBlast 2.9.0
Vendredi 5 avril 2019
RMBlast a été mis à jour vers la dernière version des outils NCBI Blast+ (2.9.0). Cette version est publiée à la fois en tant que correctif pour la source NCBI Blast + et en tant que binaires compilés pour Mac et Linux 64 bits. Merci encore à NCBI pour leur aide dans ces efforts. Voir la page RMBlast pour les détails d'installation.
Présentation de Dfam 3.0
Mercredi 6 mars 2019
Le consortium Dfam est ravi d'annoncer la sortie de Dfam 3.0. Cette version représente une transition majeure pour Dfam d'une base de données de validation de principe à une ressource communautaire ouverte financée. Au cœur de cette transition se trouve une mise à jour majeure de l'infrastructure et de la technologie, permettant à Dfam de gérer le rythme croissant du séquençage du génome et de la génération de bibliothèques TE. Tout aussi important, nous avons fusionné Dfam_consensus avec Dfam pour produire une ressource unique pour la modélisation et l'annotation de familles d'éléments transposables. Ce faisant, Dfam répond aux besoins d'une communauté de recherche plus large tout en maintenant une norme élevée pour la caractérisation des familles (basée sur les alignements de graines) et la sensibilité des annotations TE. Enfin, et c'est le plus important, nous travaillons à faire de Dfam une ressource communautaire grâce au développement d'outils de curation en ligne et à l'engagement direct des utilisateurs. [ Lire la suite ].
Pour accéder à la base de données, rendez-vous sur https://dfam.org.
RepeatMasker 4.0.8 et les bibliothèques publiées
mercredi 21 novembre 2018
Un nouveau package RepeatMasker, une base de données de protéines répétées et une édition RepBase RepeatMasker ont été publiés. La base de données de protéines répétées a augmenté de plus de 7 400 entrées et comprend 16,1 millions d'acides aminés couvrant 133 sous-classes d'éléments transposables. Pour plus d'informations sur cette bibliothèque, consultez la documentation qui accompagne la bibliothèque. De plus, nous avons mis à jour les bibliothèques RepeatMasker pour RepBase (Repbase RepeatMasker-edition version 20180826, RepBase version 23.08). La mise à jour inclut plus de 4 500 nouvelles familles parmi : le riz (1652), la tortue peinte de l'ouest (472), la grenouille à griffes africaines (215), le tabac de bois (210) et l'aleurode de la patate douce (182), entre autres. Le nouveau package RepeatMasker peut être téléchargé à partir d'ici. La nouvelle édition RepBase RepeatMasker est disponible en téléchargement sur : http://www.girinst.org.
  • Dfam_consensus - Aujourd'hui, nous avons publié une nouvelle version de la base de données contenant plusieurs nouvelles familles pour la taupe dorée africaine et une bibliothèque pour le moucherolle à collier fournie par Alexander Suh.
  • Les référentiels de développement de logiciels RepeatMasker, RepeatModeler et Coseg sont désormais disponibles sur GitHub. Les demandes d'aide peuvent désormais être soumises via le site GitHub en plus du site Web repeatmasker.org.
  • RepeatModeler - Nous avons travaillé dur pour éliminer plusieurs bogues et améliorer l'outil d'importation Dfam_consensus en fonction des commentaires que nous avons reçus. La dernière version est la 10.0.11 et peut être téléchargée depuis : GitHub ou repeatmasker.org
- RepeatMasker utilise la base de données Dfam des modèles de markov cachés à profil répété et des séquences de consensus pour effectuer des recherches.
- RepeatMasker peut également utiliser Repbase qui est un service du Genetic Information Research Institute. Repbase est une base de données de séquences consensus d'éléments répétitifs.
- Les données et les ressources informatiques pour la page des génomes pré-masqués sont fournies avec l'aimable autorisation du groupe UCSC Genome Bioinformatics.

Qualité de séquence d'ADN - Phred - fournit l'appel de base, l'affichage du chromatogramme et l'évaluation et la présentation de la région de séquence de haute qualité pour jusqu'à cinq séquences simultanément.

Assemblage de séquences - vous n'avez pas besoin de votre propre programme d'assemblage contig lorsque vous pouvez utiliser :

EGassember - aligne et fusionne des fragments de séquence résultant d'un séquençage shotgun ou de fragments de transcrits géniques (EST) afin de reconstruire le segment ou le gène d'origine (Référence : A. Masoudi-Nejad et al. 2006. Nucl. Acids Res. 34: W459-462).

CGE Assembler 1.2 - assemble les données Illumina, 454, SOLid et Ion Torrent (Référence : Larsen MV, et al. J. Clin. Micobiol. 2012. 50(4): 1355-1361).
CGE SPAdes 3.9 - assemble les données Illumina et Ion Torrent (Référence : S. Nurk et al. Research in Computational Molecular Biology : pp 158-170).

CAP3 (PBIL, La France ), (Référence : Huang, X. & amp Madan A. 1999. Genome Res. 9: 868-877), et ici.
Assembleur CAP EST (Istituto FIRC di Oncologia Molecolare, Italie) - La longueur de séquence maximale pour chaque séquence est de 30 ko - Le nombre maximal de séquences de 10 ko

Le site Web MicroScope (hébergé au Genoscope) fournit un environnement pour l'annotation d'experts et la génomique comparative. Projet Génome : Annotation et analyses comparatives de séquences génomiques terminées ou en projet. Pour les séquences pré-annotées, elles n'intègrent que les annotations de la section complète du génome NCBI RefSeq. Projet métagénome : Annotation et analyses comparatives de séquences métagénomiques assemblées. Actuellement, ils sont capables d'intégrer des ensembles de données inférieurs à 20 Mb de contigs par bac.

NanoPipe - a été développé en tenant compte des spécificités des technologies de séquençage MinION, fournissant des paramètres d'alignement ajustés en conséquence. La gamme des espèces/séquences cibles pour l'alignement n'est pas limitée, et la page d'utilisation descriptive de NanoPipe aide un utilisateur à réussir l'analyse de NanoPipe. Les résultats contiennent des statistiques d'alignement, une séquence consensus, des données de polymorphismes et une visualisation de l'alignement. (Référence : Shabardina V et al. (2019) Gigascience 8(2). pii : giy169).


COV2HTML : un outil de visualisation et d'analyse des données de séquençage bactérien de nouvelle génération (NGS) pour les scientifiques de la vie postgénomique - permet d'effectuer à la fois la visualisation de la couverture et l'analyse des alignements NGS effectués sur des organismes procaryotes (bactéries et phages). Il combine deux processus : un outil qui convertit les énormes fichiers de cartographie ou de couverture NGS en fichiers de couverture spécifiques légers contenant des informations sur les éléments génétiques et une interface de visualisation permettant une analyse en temps réel des données avec intégration optionnelle des résultats statistiques. (Référence : Monot M. et al. 2014. OMICS 18(3): 184-95).

Alignement de séquences multiples DCA Diviser pour régner ( Universitat Bielefeld, Allemagne) - est un programme permettant de produire des alignements simultanés de séquences multiples rapides et de haute qualité de séquences d'acides aminés, d'ARN ou d'ADN. ( Référence : Brinkmann, G. et al. Programmation mathématique 79: 71-97, 1997).

PhageTerm - est un progiciel rapide et convivial qui peut être utilisé pour déterminer les terminaisons et le mode d'emballage des bactériophages à partir de données NGS fragmentées de manière aléatoire. Il fait partie du package Galaxy et se trouve dans le répertoire "NGS: Mapping". L'idéal est que vous vouliez une réponse automatisée. (Référence : Garneau JR, et al. 2017. Sci Rep. 7(1):8292).

QUAST - un outil d'évaluation de la qualité pour évaluer et comparer les assemblages de génomes. Cet outil améliore les principaux logiciels de comparaison d'assemblage avec de nouvelles idées et des mesures de qualité. QUAST peut évaluer des assemblages aussi bien avec un génome de référence que sans référence. QUAST produit de nombreux rapports, tableaux de synthèse et graphiques pour aider les scientifiques dans leurs recherches et dans leurs publications. (Référence : A. Gurevich et al. 2013. Bioinformatique, 29(8): 1072&ndash1075). N.B. Ce serveur est en date d'avril 2020, mais on espère qu'il sera de nouveau en ligne (voir ici pour les téléchargements de logiciels).

Erreurs de séquençage : - si votre séquence d'ADN ne correspond pas à la séquence de protéines attendue, vous pouvez vérifier les erreurs chez GeneWise (EMBL-EBI) qui compare une séquence de protéines à une séquence d'ADN génomique, en tenant compte des introns et des erreurs de décalage de cadre. Les autres programmes incluent :

FrameD (Référence : T. Schliex et al. 2003. Nucl. Acids Res. 31: 3738-3741)
AMIGene - annotation de gènes microbiens ( Référence : Bocs S et al. (2003) Acides nucléiques Res. 13(31): 3723-3726).
path :: protein back-traduction and alignement - aborde le problème de trouver des homologies de protéines distantes où la divergence est le résultat de mutations et de substitutions de décalage du cadre de lecture. Étant donné deux séquences de protéines d'entrée, la méthode aligne implicitement toutes les paires possibles de séquences d'ADN qui les codent, en manipulant des représentations graphiques efficaces en mémoire de l'ensemble complet de séquences d'ADN putatives pour chaque protéine. (Référence : G&icirdea M et al. 2010. Algorithms for Molecular Biology 5:)

In-silico.com (Dr Joseba Bikandi & collaborateurs, Faculté de Pharmacie, Université du Pays Basque) - permet in silico des expériences comprenant l'amplification PCR théorique, l'AFLP-PCR, l'analyse de restriction et l'électrophorèse sur gel en champ pulsé [PFGE] avec des génomes bactériens et archaïques trouvés dans la base de données publique.

Pipeline d'annotation automatique des génomes procaryotes NCBI. Cela annotera complètement votre génome bactérien et vous fournira un fichier de soumission Sequin. N.B. un pipeline d'annotation automatique NCBI Phage est en cours de développement.

RAST (Rapid Annotation using Subsystem Technology) est un service entièrement automatisé d'annotation des génomes bactériens et archéens. Il fournit des annotations génomiques de haute qualité pour ces génomes dans l'ensemble de l'arbre phylogénétique. Nécessite une inscription. (Référence : Aziz, RK et al. 2008. BMC Genomics 9:75.).

Outil d'annotation bactérienne BASys - cet outil incroyable prend en charge l'annotation automatisée et approfondie des séquences génomiques bactériennes. Il accepte les données de séquences d'ADN brutes et une liste facultative d'informations d'identification des gènes (Glimmer) et fournit des annotations textuelles complètes et une sortie d'images avec liens hypertexte. BASys utilise des programmes >30 pour déterminer 60 sous-champs d'annotation pour chaque gène, y compris le nom du gène/protéine, la fonction GO, la fonction COG, les paralogues et orthologues possibles, le poids moléculaire, le point isoélectrique, la structure de l'opéron, la localisation subcellulaire, les peptides signal, les régions transmembranaires, la structure secondaire , structure 3D, réactions et voies. (Référence : G.H. Van Domselaar et al. 2005. Nucl. Acids Res. 33(problème de serveur Web): W455-W459).

MicroScope - (CEA, Institut de Génomique - Genoscope, France) est une plate-forme d'annotation et d'analyse du génome microbien qui donne accès à un large éventail d'outils, notamment l'analyse COG, la génomique comparative. (Référence : Vallenet D et al. (2017) Nucleic Acids Res. 45(D1) : D517-D528). Nécessite une inscription.

MAKER Web Annotation Service (MWAS) est un pipeline d'annotation du génome facilement configurable et accessible sur le Web. Son objectif est de permettre aux groupes de recherche avec des quantités petites à intermédiaires de séquences de génomes eucaryotes et procaryotes (c'est-à-dire des clones BAC, de petits génomes entiers, des données de séquençage préliminaires, etc.) dans une base de données du génome. (Référence : Holt, C. & Yandell, M. 2011. BMC Bioinformatics 12:491).

MITOS - un pipeline est conçu pour fournir une annotation de novo cohérente et de haute qualité des séquences du génome mitochondrial des métazoaires. Nous montrons que les résultats de MITOS correspondent à RefSeq et MitoZoa en termes de couverture et de qualité des annotations. Dans le même temps, nous évitons les biais, les incohérences de nomenclature et les fautes de frappe provenant des stratégies de curation manuelle. (Référence : M. Bernt et al. 2013. Phylogénétique moléculaire & amp Evolution 69:313-319).

GenSAS - Générateurome Sséquence UNEnotation Server - fournit un site Web unique avec une interface graphique unique pour exécuter plusieurs outils d'annotation structurelles et fonctionnelles, permettant la visualisation et la curation manuelle des séquences du génome. Les utilisateurs peuvent télécharger des séquences sur leur compte et exécuter des programmes de prédiction de gènes, des recherches d'homologie de protéines, cartographier les EST, identifier les répétitions, les ORF et les SSR avec des paramètres personnalisés. Chaque analyse est affichée sur des pistes distinctes de l'interface graphique avec des pistes modifiables personnalisées pour sélectionner l'annotation finale des caractéristiques et créer des fichiers gff3 à télécharger sur des navigateurs génomiques tels que GBrowse. Des programmes supplémentaires peuvent être facilement ajoutés à l'aide de ce logiciel basé sur Drupal.

Viral genome ORF Reader (VIGOR) - prend en charge la prédiction et l'annotation d'entités à haut débit. VIGOR utilise une stratégie extrinsèque et affiche une sensibilité et une spécificité supérieures à 98% pour les génomes viraux à ARN que nous avons testés. Les caractéristiques spécifiques du génome identifiées par VIGOR incluent les décalages de trame, le glissement ribosomique, l'édition d'ARN, la lecture des codons d'arrêt, les gènes qui se chevauchent, les gènes intégrés et les sites de clivage de peptides matures. La capacité de génotypage pour la grippe et le rotavirus est intégrée au programme.
(Référence : S. Wang et al. 2011. BMC Bioinformatics 2010, 11:451)

FLAN (Floridevous UNnotation) est un serveur Web NCBI pour l'annotation du génome du virus de la grippe est un outil pour les séquences du virus de la grippe A ou du virus de la grippe B fournies par l'utilisateur. Il peut valider et prédire des séquences protéiques codées par une séquence grippale d'entrée. (Référence : Y. Bao et al. 2007. Nucleic Acids Res. Web Server issue) 35: W280-W284.)

CpGAVAS ( Csalutpdernier genome UNEnotation, Vactualisation, UNEanalyse et GenBank Submission Tool) - permet une annotation précise du génome chloroplastique, la génération de cartes circulaires, la fourniture de résultats d'analyse utiles du génome annoté, la création de fichiers pouvant être soumis directement à GenBank. (Référence : C. Liu et al. 2012. BMC Genomics 13: 715)

genome UNEnotation Ttransférer Utility (GATU) annote un génome basé sur un génome de référence très proche. Les protéines/peptides matures du génome de référence sont BLASTés contre le génome à annoter afin de trouver les gènes/peptides matures dans le génome à annoter (Référence : T. Tcherepano v et al. 2006. BMC Genomics 7:150.)

BioGPS (The Scripps Research Institute, États-Unis) - est un portail d'annotation de gènes à guichet unique qui met l'accent sur la personnalisation par l'utilisateur et l'extensibilité communautaire. Il s'agit d'un portail d'annotation de gènes personnalisable et d'une ressource complète pour en savoir plus sur la fonction des gènes et des protéines.

BEIGNET (Institut des sciences biomoléculaires et de la biotechnologie de Groningen, Haren, Pays-Bas) - déterminera à partir d'un fichier GenBank existant ou non soumis la présence de bactériocines sur la base d'une base de données contenant des informations sur les bactériocines connues et les gènes adjacents impliqués dans l'activité des bactériocines. Un site alternatif pour les bactériocines est BACTIBASE qui est un référentiel de données de peptides antimicrobiens naturels de bactériocines. Voir . LABioicin si vous êtes intéressé par le thème des bactéries lactiques (LAB) et ses bactériocines.

MICheck (MIgénome crobie Vérifiereuh) - permet une vérification rapide des ensembles de gènes annotés et des décalages de cadre dans des génomes bactériens précédemment publiés, ou des génomes pour lesquels l'utilisateur dispose d'un fichier *.gbk. Cet outil peut être vu comme une étape préliminaire avant l'étape de ré-annotation fonctionnelle pour vérifier rapidement les gènes manquants ou mal annotés. Cela a bien fonctionné avec les génomes de phages de 43 à 135 Ko. (Référence : S. Cruveiller et al. 2005. Nucl. Acids Res. 33: W471-W479).

WebGeSTer - nome Sconserveur pour Terminators - mon programme de recherche de terminateur préféré est enfin activé sur le Web. Veuillez noter que si vous souhaitez analyser les données d'un fichier *.gbk, vous devez d'abord utiliser leur programme de conversion "GenBank2GeSTer". Une description complète de chaque terminateur comprenant un diagramme est produite par ce programme. Ce site est lié à une vaste base de données de terminateurs transcriptionnels dans le génome bactérien (WebGeSTer DB) (Référence : Mitra A. et al. 2011. Nucl. Acids Res. 39 (Database issue):D129-35).

RibEx : Nervureinterrupteur Explorer - scanne <40kb l'ADN pour les gènes potentiels (qui sont liés à BLASTP) et plusieurs centaines d'éléments régulateurs, y compris les riboswitches. Si vous cliquez sur le "chercher des atténuateurs", il trouve les terminateurs et les antiterminators. Il présente les gènes encapsulés et l'analyse BLAST au NCBI (Référence : C. Abreu-Goodger & E. Merino. 2005. Nucl. Acids Res. 33: W690-W692).

ARNt : tRNAscan-SE - est incroyablement sensible et fournit également des diagrammes de structure secondaire des molécules d'ARNt (Référence : Schattner, P. et al. 2005. Nucleic Acids Res. 33: W686-689). Vous pouvez également utiliser ARAGORN (Référence : Laslett, D. & Canback. 2004. Nucleic Acids Research 32:11-16).
Séquences de tests.

LTR_Finder - est un programme efficace pour trouver des rétrotranspsons LTR de pleine longueur dans les séquences du génome. La taille du fichier d'entrée est désormais limitée à 50 Mo (Référence : Z. Xu & H. Wang. 2007. Nucl. Acids Res.35(Problème de serveur Web) : W265-W268).
RTAnalyzer - trouve les rétrotransposons et détecte les signatures de rétrotransposition L1 (Référence : J-F. Lucier et al. 2007. Nucl. Acids Res. 35(Problème de serveur Web) : W269-W274

MG-RAST (Métagénome Rapide UNEnotation à l'aide Ssous-système Technology) est un service entièrement automatisé d'annotation d'échantillons de métagénome. Il fournit une annotation des fragments de séquences, leur classification phylogénétique et une première reconstruction métabolique. Le service fournit également des moyens de comparer les classifications phylogénétiques et les reconstructions métaboliques des métagénomes ( Référence : F. Meyer et al. 2008. BMC Bioinformatics 9: 386).

Les quatre programmes suivants peuvent être utilisés pour prédire les protéines phagiques :

PVPred (Référence : Ding H et al (2014) Mol Biosyst 10(8): 2229-2235).
PHPred ( Référence : Ding H (2016) Ordinateurs Biol Med 71: 156&ndash161).
PVP-SVM ( Référence : Manavalan B et al. (2018) Front Microbiol 9: 476).
PVPred-SCM ( Référence : Charoenkwan P et al. (2020) Cellules 9(2) pii : E353.

Origine de réplication chromosomique :

Ori-Finder et Ori-Finder 2 - sont des plates-formes utiles pour l'identification et l'analyse des origines de réplication (oriCs) dans les génomes bactériens et archéens, respectivement. (Référence : Luo H et al. (2019) Brief Bioinform 20(4): 1114-1124). Veuillez noter que ces outils ont été utilisés pour créer DoriC - une base de données des origines de réplication dans les génomes procaryotes, y compris les chromosomes et les plasmides. (Référence : Luo H & Gao F (2019) Nucleic Acids Res. 47(D1) : D74-D77).

L'un des problèmes avec GenBank est que les scientifiques ne mettent pas à jour leurs données de soumission ni ne corrigent les erreurs. Cela est dû en partie à la paresse, mais aussi au fait que GenBank, dans la plupart des cas, refuse d'accepter une nouvelle version du fichier Sequin. Tbl2asn est un programme en ligne de commande qui automatise la création d'enregistrements de séquences à soumettre à GenBank mais, de mon point de vue, il n'est pas facile à utiliser. Le seul programme en ligne est GenBank 2 Sequin qui génère non seulement un fichier Sequin (*.sqn), mais aussi un "Table d'annotation" (*.tbl) à cinq colonnes.Ceci ainsi que la séquence d'ADN au format fasta peuvent être soumis à GenBank par courrier électronique ( [email protected] ). En son absence je recommande le script perl gbf2tbl.pl disponible en téléchargement ici.


PlasmidFinder 1.3 - identifie les plasmides dans des isolats séquencés totaux ou partiels de bactéries. La méthode utilise BLAST pour l'identification de réplicons de plasmides appartenant aux groupes d'incompatibilité majeure (Inc) de Entérobactéries. En entrée, la méthode peut utiliser à la fois des génomes pré-assemblés, complets ou partiels, et des lectures de séquences courtes à partir de quatre plates-formes de séquençage différentes. Voir également pMLST (Référence : Carattoli A et al. 2014. Antimicrob. Agents Chemother. 58: 3895-903)

PHACTS peut être utilisé pour classer rapidement le mode de vie d'un phage (tempéré ou lytique). Tout ce qui est nécessaire est le protéome du phage à classer et PHACTS prédira le mode de vie de ce phage et renverra une valeur de confiance pour cette prédiction. (Référence : K. McNair et al. 2012. Bioinformatique 28: 614-618).

Recherche d'espèces 1.0 (Université technique danoise) - prédit les espèces de bactéries à partir de génomes pré-assemblés, complets ou partiels, et lectures de séquences courtes. La prédiction est basée sur le gène de l'ARNr 16S.

CSI Phylogeny 1.1 (Call SNPs & Infer Phylogeny) - appelle les SNP, filtre les SNP, effectue la validation du site et déduit une phylogénie basée sur l'alignement concaténé des SNP de haute qualité*. (Référence : Kaas, R.S. et al. PLoS ONE 2014 9: e104984.)

KmerFinder 2.0 &ndash prédit les espèces de bactéries à partir de génomes pré-assemblés, complets ou partiels, et de courtes lectures de séquences. La prédiction est basée sur le nombre de k-mers co-occurrents (sous-chaînes de k nucléotides dans les données de séquence d'ADN, dans ce cas 16-mers) entre les génomes de bactéries de référence dans une base de données et le génome fourni par l'utilisateur. (Référence : Hasman H et al. 2013. J Clin Microbiol. 52:139-146)

VIOLIN : Vaccine Investigation and Online Information Network - permet une curation, une comparaison et une analyse faciles des données de recherche liées aux vaccins sur divers agents pathogènes humains VIOLIN devrait devenir une source centralisée d'informations sur les vaccins et fournir aux chercheurs en sciences fondamentales et cliniques des données et des outils bioinformatiques pour la recherche et le développement de vaccins. VBLAST : la recherche BLAST personnalisée pour la recherche sur les vaccins permet diverses stratégies de recherche contre 77 génomes de 34 agents pathogènes. (Référence : He, Y. et al. 2014. Nucleic Acids Res. 42 (Problème de base de données) : D1124-32).

MLST 1.8 (MultiLocus Sequence Typing) - ne fonctionne actuellement qu'avec des génomes et des contigs assemblés (Référence : Larsen MV et al. 2012. J. Clin. Micobiol. 50: 1355-1361).

ECFfinder - les facteurs sigma de la fonction extracytoplasmique (ECF) - le plus grand groupe de facteurs sigma alternatifs - représentent le troisième mécanisme fondamental de la transduction du signal bactérien, avec environ six régulateurs de ce type en moyenne par génome bactérien. Avec leurs facteurs anti-sigma apparentés, ils représentent une conception hautement modulaire qui facilite principalement la transduction du signal transmembranaire. ( Référence : Staron A et al. (2009) Mol Microbiol 74(3): 557-581).

BacWGSTdb - est conçu pour surveiller l'émergence et l'apparition d'agents pathogènes bactériens importants. En détail, il sert à deux fins particulières : la saisie et le suivi. Le premier fait référence à un génotypage intégré à la fois au niveau traditionnel du typage de séquences multi-locus (MLST) et du typage du séquençage du génome entier (WGST). Ce dernier fait référence au suivi de la source (c'est-à-dire à la recherche d'isolats très similaires) en fonction du résultat du typage et isole les informations stockées dans BacWGSTdb. (Référence : Z. Ruan 7 Y. Feng, Nucleic Acids Research. 2016 44(D1) : D682-D687).

SISTR : Salmonelle jem Silico Typing Rressource - (Agence de la santé publique du Canada, Laboratoire des zoonoses d'origine alimentaire) est une ressource bioinformatique permettant d'interpréter rapidement les données in silico pour plusieurs méthodes de sous-typage de Salmonella à partir d'assemblages de génomes bactériens provisoires. En plus d'effectuer la prédiction des sérotypes par génosérotypage, cette ressource intègre des analyses de typage basées sur les séquences pour : le typage de séquences multi-locus (MLST), le MLST ribosomique (rMLST) et le génome central MLST (cgMLST). Google Chrome est recommandé Firefox est également pris en charge, mais les visualisations SVG dans cette application peuvent ne pas être aussi réactives. Internet Explorer n'est pas pris en charge.

FSFinder2 (Fchangement de vitesse Sallumer Finder) - Le déphasage ribosomique programmé est impliqué dans l'expression de certains gènes d'un large éventail d'organismes tels que les virus, les bactéries et les eucaryotes, y compris l'homme. Dans le décalage de cadre programmé, le ribosome passe à un cadre alternatif à un site spécifique en réponse à un signal spécial dans un ARN messager. Le décalage de cadre programmé joue un rôle dans la morphogenèse des particules virales, le contrôle autogène et les activités enzymatiques alternatives. Le décalage de trame commun est un décalage de trame de -1, dans lequel le ribosome décale un seul nucléotide dans la direction amont. Les principaux éléments du décalage du cadre de lecture -1 consistent en un site glissant, où le ribosome modifie les cadres de lecture, et une structure d'ARN stimulatrice telle qu'un pseudo-nœud ou une tige-boucle située quelques nucléotides en aval. Les décalages de trame +1 sont beaucoup moins fréquents que les décalages de trame -1 mais sont observés dans divers organismes.

InBase, The Intein Database and Registry - L'épissage des protéines est défini comme l'excision d'une séquence protéique intermédiaire (l'INTEIN) à partir d'un précurseur protéique et la ligature concomitante des fragments de protéines flanquantes (les EXTEINS) pour former une protéine hôte d'exteine ​​mature et la intéine libre (Perler 1994). L'épissage des protéines entraîne une liaison peptidique native entre les extéines ligaturées. Il s'agit d'un site de base de données qui permet l'analyse BLAST. (Référence : Perler, F.B. 2002. Nucleic Acids Res. 30: 383-384).

P2RP (protéines régulatrices procaryotes prédites) - les utilisateurs peuvent saisir des séquences d'acides aminés ou d'ADN génomique, et les protéines prédites qu'elles contiennent sont analysées pour la possession de domaines de liaison à l'ADN et/ou de domaines de système à deux composants. Les PR identifiés de cette manière sont classés en familles, annotés sans ambiguïté. (Référence : Barakat M, et al. 2013. BMC Genomics 14:269).

P2CS (Prokaryotic 2-Component Systems) est une ressource complète pour l'analyse des systèmes procaryotes à deux composants (TCS). Les TCS sont composés d'un récepteur histidine kinase (HK) et d'un régulateur de réponse du partenaire (RR) et contrôlent d'importants comportements procaryotes. Il peut être recherché en utilisant BLASTP. (Référence : P. Ortet et al. 2015. Nucl. Acids Res. 43 (D1) : D536-D541).

Analyse COG - Clustres de Orthologue groups - La base de données des protéines COG a été générée en comparant les protéines prédites et connues dans tous les génomes microbiens complètement séquencés pour déduire des ensembles d'orthologues. Chaque COG se compose d'un groupe de protéines qui s'avèrent orthologues dans au moins trois lignées et correspond probablement à un ancien domaine conservé (CloVR) . Les sites qui proposent cette analyse incluent :

WebMGA (Référence : S. Wu et al. 2011. BMC Genomics 12:444), RAST (Référence : Aziz RK et al. 2008. BMC Genomics 9:75) et BASys (Bacteur UNEnotation Ssystème Référence : Van Domselaar GH et al. 2005. Nucleic Acids Res. 33(problème de serveur Web) : W455-459.) et JGI IMG (jeintégré Microbienne genomes Référence : Markowitz VM et al. 2014. Nucl. Acides Rés. 42: D560-D567. )

Autres sites :

EggNOG - Une base de données de groupes orthologues et d'annotations fonctionnelles qui en dérivent Nsous surveillance Orthologue g(NOG) à partir de génomes complets, puis applique un pipeline complet de caractérisation et d'analyse aux familles de gènes résultantes. (Référence : Powell S et al. 2014. Nucleic Acids Res. 42 (D1) : D231-D239

OrthoMCL - est un autre algorithme pour regrouper les protéines en groupes orthologues en fonction de leur similarité de séquence. Le processus prend généralement entre 6 et 72 heures. (Référence : Fischer S et al. 2011. Curr Protoc Bioinformatics Chapter 6:Unit 6.12.1-19).

KAAS (KOEUF UNEautomatique UNEnotation Server) fournit une annotation fonctionnelle des gènes par des comparaisons BLAST ou GHOST par rapport à la base de données KEGG GENES gérée manuellement. Le résultat contient des affectations KO (KEGG Orthology) et des chemins KEGG générés automatiquement. (Référence : Moriya Y et al. 2007. Nucleic Acids Res. 35(Problème de serveur Web) : W182-185).

ResFinder (Détecteur de gènes de résistance aux antimicrobiens acquis) - utilise BLAST pour l'identification des gènes de résistance aux antimicrobiens acquis dans les données du génome entier. En entrée, la méthode peut utiliser à la fois des génomes pré-assemblés, complets ou partiels, et des lectures de séquences courtes à partir de quatre plates-formes de séquençage différentes. Testé avec 1411 gènes de résistance différents avec 100 % d'identité. (Référence : Zankari E et al. 2012. J Antimicrob Chemother. 67:2640-2644)

ARG-ANNOT (UNEantibiotique Rrésistance gene-ANNOTation) est un nouvel outil qui a été créé pour détecter les nouveaux gènes de résistance aux antibiotiques (AR) existants et putatifs dans les génomes bactériens. ARG-ANNOT utilise un programme d'explosion local dans le logiciel Bio-Edit qui permet à l'utilisateur d'analyser des séquences sans interface Web (Référence : Gupta, S.K. et al. 2014. Antimicrob Agents Chemother. 58: 212&ndash220).

CARTE (La Comniprésent UNEantibiotique Rrésistance atabase) - une collection rigoureusement organisée de déterminants de résistance connus et d'antibiotiques associés, organisée par les modèles de détection des gènes de l'ontologie de la résistance aux antibiotiques (ARO) et de l'AMR (Référence : Jia, B. et al. 2017. Nucleic Acids Research, 45: D566-573).

MEGARes - est une base de données sur la résistance aux antimicrobiens organisée à la main et une structure d'annotation qui fournit une base pour le développement de classificateurs acycliques à haut débit et une analyse statistique hiérarchique des mégadonnées (Référence : Lakin, S.N.. et al. 2017. Nucleic Acids Research, 45: D574-D580).

BacMet (Antibacbiocide & Rencontréal Resistance Genes Database) - une base de données de gènes de résistance aux biocides et aux métaux avec un contenu très fiable. Dans BacMet version 1.1, la base de données confirmée expérimentalement contient 704 gènes de résistance, tandis que la base de données prédite contient 40 556 gènes de résistance (Référence : Pal, C. et al. 2014. Nucleic Acids Research, 42: D737-743).

Annotation spécialisée - CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) :

CRISPRfinder - permet la détection facile des CRISPR dans les données produites localement et la consultation des CRISPR présents dans la base de données. Il renseigne également sur la présence de gènes associés à CRISPR (cas) lorsqu'ils ont été annotés comme tels. . (Référence : I. Grissa et al. 2007. Nucl. Acids Res. 35 (Problème de serveur Web) : W52-W57).

CRISPRmap - fournit un aperçu rapide et détaillé de la conservation répétée et de la diversité des systèmes bactériens et archéens. Il comprend le plus grand ensemble de données de CRISPR à ce jour et permet des analyses de clustering indépendantes complètes pour déterminer les familles de séquences conservées, les motifs de structure potentiels pour les endoribonucléases et les relations évolutives. (Référence : S.J. Lange et al. 2013. Nucleic Acids Research, 41: 8034-8044).

CRISPI : une base de données interactive CRISPR - comprend un répertoire complet des gènes associés à CRISPR (CAS). Une interface Web conviviale avec de nombreux outils et fonctions graphiques permet aux utilisateurs d'extraire des résultats, de trouver CRISPR dans des séquences personnelles ou de calculer une similarité de séquence avec des espaceurs. (Référence : Rousseau C et al. 2009. Bioinformatique. 25: 3317&ndash3318).

CRISPRtarget - qui prédit les cibles les plus probables des ARN CRISPR. Cela peut être utilisé pour découvrir des cibles dans des données génomiques ou métagénomiques nouvellement séquencées. (Référence : Biswas A et al. 2013. RNA Biol. 10:817-827).

CRISPy-web - est un outil Web facile à utiliser basé sur CRISPy pour concevoir des sgRNA pour tout génome microbien fourni par l'utilisateur. CRISPy-web permet aux chercheurs de sélectionner de manière interactive une région de leur génome d'intérêt pour rechercher d'éventuels sgRNA. Après avoir vérifié les correspondances potentielles hors cible, les séquences sgRNA résultantes sont affichées graphiquement et peuvent être exportées vers des fichiers texte. (Référence : K. Blin et al. 2016. Synthetic and Systems Biotechnology 1(2) : 118-121).

Annotation spécialisée - déterminants de virulence : Ceci est particulièrement intéressant pour ceux qui travaillent sur les bactériophages pour la thérapie

Recherche de virulence (Université technique danoise) &ndash identification des gènes de virulence. La méthode utilise BLAST pour l'identification de gènes de virulence connus dans Escherichia coli. La méthode est étendue pour inclure également des gènes de virulence pour Entérocoque et Staphylococcus aureus. En entrée, la méthode peut utiliser à la fois des génomes pré-assemblés, complets ou partiels, et des lectures de séquences courtes à partir de quatre plates-formes de séquençage différentes.

ClanTox : un classificateur de toxines animales courtes - prédit si chaque séquence ressemble à une toxine et fournit une liste classée de candidats prédits positivement en fonction de la confiance statistique. Pour chaque protéine, des informations supplémentaires sont présentées, notamment la présence d'un peptide signal, le nombre de résidus cystéine et les annotations fonctionnelles associées. (Référence : G. Naamati et al. 2009. Nucleic Acids Res. 37 (problème de serveur Web) : W363&ndashW368).

t3db la base de données sur les toxines et les cibles de toxines - combine des données détaillées sur les toxines avec des informations complètes sur les cibles de toxines. La base de données contient actuellement 3 053 toxines qui sont liées à 1 670 enregistrements de cibles de toxines correspondantes. Chaque enregistrement de toxine (ToxCard) contient plus de 50 champs de données et contient des informations telles que les propriétés chimiques et les descripteurs, les valeurs de toxicité, les interactions moléculaires et cellulaires et les informations médicales. (Référence : Lim E et al. 2010. Nucleic Acids Res. 38 (problème de base de données) : D781-786).

TAfinder 2.0 - est un outil Web permettant d'identifier les loci de toxine-antitoxine de type II dans le génome bactérien (Référence : Xie Y et al. (2018) Nucleic Acids Res. 46(D1) : D749-D753 ).

La base de données DBETH des exotoxines bactériennes pour les humains est une base de données de séquences, de structures, de réseaux d'interaction et de résultats analytiques pour 229 exotoxines, provenant de 26 genres bactériens pathogènes humains différents. Toutes les toxines sont classées en 24 classes de toxines différentes. L'objectif de DBETH est de fournir une base de données complète pour les exotoxines bactériennes pathogènes humaines. (Référence : Chakraborty A et al. 2012. Nucleic Acids Res. 40 (problème de base de données) : D615-620).

VFDB - est une base de données intégrée et complète de facteurs de virulence pour les agents pathogènes bactériens (incluant également Chlamydia et Mycoplasma). (Référence : L.H. Chen et al. 2012. Nucleic Acids Res. 40 (problème de base de données) : D641-D645).

PAIDB (Pennsylvaniethogénicité jeîle àbase) - Les îlots de pathogénicité (IPA) et les îlots de résistance (REI) sont essentiels à l'évolution des agents pathogènes et semblent jouer des rôles complémentaires dans le processus d'infection bactérienne. Alors que les PAI favorisent le développement de la maladie, les REI donnent un avantage de fitness à l'hôte contre plusieurs agents antimicrobiens. Un programme auxiliaire, PAI Finder, identifie les régions de type PAI ou les régions de type REI dans une requête multi-séquence. ( Référence : S.H Yoon et al. 2015. Nucl. Acids Res. 43 (D1) : D624-D630).

IslandViewer - comprend un nouvel outil interactif de visualisation du génome, IslandPlot, et un facteur de virulence étendu, un gène de résistance aux antimicrobiens et des annotations de gènes associés aux agents pathogènes, ainsi que des homologues de ces gènes dans des génomes étroitement liés. Notamment, les génomes incomplets sont acceptés comme entrée dans IslandViewer 3, bien qu'ils exhortent fortement les utilisateurs à utiliser des génomes complets dans la mesure du possible. ( Référence : B.K. Dhillon et al. 2015. Nucl. Acids Res. 43 (W1) : W104-W108).

Gypsy Database - une base de données modifiable ouverte sur la relation évolutive des virus, des éléments génétiques mobiles (les rétroéléments MGE Ty3/Gypsy, Retroviridae, Ty1/Copia et Bel/Pao LTR et le Caulimoviridés pararétrovirus de plantes) et d'autres répétitions génomiques. Équipé pour les recherches BLAST et HMM. ( Référence : Llorens, C et al. 2011. Nucl. Acids Res. 39(suppl 1) : D70-D74).

PanDaTox (La poêle Génomique Database pour les éléments génomiques Toxic to Bacteria) - est une base de données de gènes et de régions intergéniques non clonables dans E. coli, pour aider à la découverte de nouveaux antibiotiques et de gènes fonctionnels biotechnologiquement bénéfiques. Il est également conçu pour améliorer l'efficacité de l'ingénierie métabolique. Fonction de recherche BLAST incluse. ( Référence : Mitai G & Sorek R. 2012. Bio-ingénierie, 3: 218-221.)

PathogenFinder (prédit le potentiel pathogène) &ndash Sur la base des génomes complets de 513 bactéries annotées comme non-pathogènes humains et de 372 bactéries annotées comme pathogènes humains, une base de données de familles de protéines, qui sont soit principalement associées à des non-pathogènes, soit à des pathogènes a été créée. Cette base de données est ensuite utilisée pour prédire le potentiel pathogène des bactéries. En entrée, la méthode peut utiliser à la fois des génomes pré-assemblés, complets ou partiels, et des lectures de séquences courtes à partir de quatre plates-formes de séquençage différentes. (Référence : Cosentino S et al. 2013. PLoS ONE 8: e77302)

VirulentPred - est une méthode basée sur SVM pour prédire les séquences de protéines virulentes bactériennes, qui peuvent être utilisées pour cribler les protéines virulentes dans les protéomes. Avec des protéines virulentes vérifiées expérimentalement, plusieurs séquences protéiques putatives, non annotées et hypothétiques ont été prédites comme étant des protéines virulentes à score élevé par la méthode de prédiction. (Référence : Garg A & Gupta G. 2008. BMC Bioinformatics 9: 62).

Le système de sécrétion de type III (T3SS) est un mécanisme essentiel pour l'interaction hôte-pathogène dans le processus d'infection. Les protéines sécrétées par la machinerie T3SS de nombreuses bactéries Gram-négatives sont appelées effecteurs T3SS (T3SE). Ceux-ci peuvent être localisés de manière subcellulaire dans l'hôte ou faire partie de la pointe de l'aiguille du T3SS qui interagit directement avec la membrane de l'hôte pour amener d'autres effecteurs dans la cellule cible. T3SEdb représente un tel effort pour assembler une base de données complète de tous les T3SE déterminés expérimentalement et putatifs dans un site accessible sur le Web. La recherche BLAST est disponible. (Référence : Tay DM et al. 2010. BMC Bioinformatics. 11 Suppl 7:S4).

Efficace (Université de Vienne, Autriche et Université technique de Munich, Allemagne) - La sécrétion de protéines bactériennes est le mécanisme de virulence clé des bactéries symbiotiques et pathogènes. Ainsi, les protéines effectrices sont transportées du cytosol bactérien dans le milieu extracellulaire ou directement dans la cellule hôte eucaryote. Le portail Effective fournit des prédictions précalculées sur les effecteurs bactériens dans tous les génomes pathogènes et symbiotiques accessibles au public, ainsi que la possibilité pour l'utilisateur de prédire les effecteurs dans ses propres données de séquences protéiques.

SIEVE Server est un outil Web public pour la prédiction des effecteurs sécrétés de type III. Le serveur SIEVE évalue les effecteurs potentiels sécrétés à partir de génomes d'agents pathogènes bactériens avec des systèmes de sécrétion de type III en utilisant un modèle appris à partir de protéines sécrétées connues. Le serveur SIEVE ne nécessite que des séquences protéiques de protéines à cribler et renvoie une probabilité prudente que chaque protéine d'entrée soit un effecteur sécrété de type III. (Référence : McDermott JE et al. 2011. Infect Immun. 79:23-32).

T3SE - Prédiction d'effecteur du système de sécrétion de type III (Référence : Löwer M, & Schneider G. 2009. PLoS One. 4:e5917. Erratum dans : PLoS One. 20094(7).

Phage_Finder - a été créé pour identifier les régions de prophage dans les génomes bactériens terminés. À l'aide d'un ensemble de données de test de 42 génomes bactériens dont les prophages ont été identifiés manuellement, Recherche_Phage trouvé 91% des régions, résultant en 7% de faux positifs et 9% de faux négatifs. Une recherche de 302 génomes bactériens complets a prédit 403 régions prophages putatives, représentant 2,7% de l'ADN bactérien total. L'analyse des 285 sites d'attachement putatifs a révélé que les ARNt sont des cibles d'intégration légèrement plus fréquentes (33 %) que les régions intergéniques (31 %) ou intragéniques (28 %), tandis que les ARNt ont été ciblés dans 8 % des régions. (Référence : D.E. Fouts. 2006. Nucleic Acids Res. 34 : 5839&ndash5851).

Prophinder - est l'outil utilisé pour détecter les prophages dans les génomes bactériens. Sélectionnez un fichier au format GenBank.

PHAST (PVVIHge Schercher Tool) - est conçu pour identifier rapidement et avec précision, annoter et afficher graphiquement les séquences de prophages dans les génomes bactériens ou les plasmides. Il accepte soit des données de séquences d'ADN brutes, soit des données au format GenBank partiellement annotées et effectue rapidement un certain nombre de comparaisons de bases de données ainsi que des étapes d'identification des caractéristiques des phages & ldquocornerstone & rdquo pour localiser, annoter et afficher les séquences et les caractéristiques des prophages. Par rapport à d'autres outils d'identification de prophages, PHAST est jusqu'à 40 fois plus rapide et jusqu'à 15 % plus sensible. Il est également capable de traiter et d'annoter à la fois les données de séquences d'ADN brutes et les fichiers Genbank, de fournir des tableaux richement annotés sur les caractéristiques du prophage et la &ldquoquality&rdquo et de faire la distinction entre le prophage intact et incomplet. PHAST génère également des graphiques interactifs téléchargeables de haute qualité qui affichent tous les composants de prophage identifiés dans des vues génomiques circulaires et linéaires. De plus, les tests indiquent que PHAST est aussi précis ou légèrement plus précis que tous les outils de recherche de phages disponibles, avec une sensibilité de 85,4 % et valeur prédictive positive de 94,2 %. (Référence : Zhou, Y. et al. 2011. Nucl. Acids Res. 39(suppl 2) : W347-W352).

PHASTER PVVIHge Schercher Tool Eamélioré Release - est une mise à niveau significative de PHAST pour l'identification et l'annotation rapides des séquences de prophage dans les génomes bactériens et les plasmides. De nombreuses améliorations logicielles et des améliorations matérielles significatives ont maintenant rendu PHASTER plus rapide, plus efficace, plus attrayant visuellement et beaucoup plus convivial. En particulier, PHASTER est désormais 4,3 fois plus rapide que PHAST. (Référence : D. Arndt et al. Nucleic Acids Res. 2016 44(W1) :W16-21).

Prophage Hunter - fournit un service Web à guichet unique pour extraire les génomes des prophages des génomes bactériens, évaluer l'activité des prophages, identifier les phages liés phylogénétiquement et annoter la fonction des protéines des phages. (Référence : Song W et al. (2019) Nucleic Acids Res 47(W1) : W74&ndashW80).

IslandViewer - intègre deux méthodes de prédiction GI de composition de séquence SIGI-HMM et IslandPath-DIMOB, et une seule méthode de prédiction GI comparative IslandPick ( Référence : Langille et al. 2008. BMC Bioinformatics 9: 329).

PAIDB (Pennsylvaniethogénicité jeîle àBase) s'est efforcé de collecter les PAI connus et de détecter les régions potentielles de PAI dans les génomes complets procaryotes. Les îlots de pathogénicité (IPA) sont des éléments génétiques distincts d'agents pathogènes codant pour divers facteurs de virulence. (Référence : Yoon SH et al. 2007. Nucleic Acids Res. 35 (Problème de base de données) : D395-D400).

MTGIpick peut identifier des îlots génomiques à partir d'un seul génome, sans informations annotées sur les génomes ni connaissances préalables provenant d'autres ensembles de données. Dans des simulations avec des fragments extraterrestres de génomes artificiels et réels, MTGIpick a rapporté des résultats robustes dans différentes expériences (Référence : Dai Q et al. (2018) Brief Bioinform 19(3): 361-373).


SyntTax - est un serveur Web reliant la synténie à la taxonomie procaryote. SyntTax intègre un arbre taxonomique hiérarchique complet permettant un accès intuitif à tous les procaryotes complètement séquencés (archées et bactéries). Des organismes uniques ou multiples peuvent être choisis sur la base de leur lignée en sélectionnant les nœuds de rang correspondants dans l'arbre. C'est mon préféré parmi les programmes synteny (Référence : Oberto J. 2013. BMC Bioinformatics. 14:4). Les résultats ci-dessous ont été générés en utilisant le facteur sigma de choc thermique (RpoH) de Salmonelle Typhimurium contre la Pseudomonadales.

Serveur Citeny pour l'identification et l'analyse de Synteny du réarrangement du génome (A. U. Sinha & J. Meller, Université de Cincinnati, États-Unis) - ce serveur peut être utilisé pour trouver des régions synténiques sur plusieurs génomes et mesurer l'étendue du réarrangement du génome en utilisant la distance d'inversion comme mesure. Vous pouvez créer un projet et télécharger vos propres données ou travailler avec des données procaryotes ou eucaryotes préchargées.

SimpleSynteny - fournit un pipeline pour évaluer la synténie d'un ensemble présélectionné de cibles génétiques sur plusieurs génomes d'organismes. L'accent a été mis sur la facilité d'utilisation, et les utilisateurs ne sont tenus de soumettre des fichiers FASTA que pour leurs génomes et gènes d'intérêt. SimpleSynteny guide ensuite l'utilisateur à travers un processus itératif d'exploration et de personnalisation des génomes individuellement avant de les combiner en une figure finale haute résolution. (Référence : Veltri D et al. 2016. Nucleic Acids Res. 44 (problème de serveur Web) : W41&ndashW45).

Portail Synteny - les utilisateurs du génome eucaryote peuvent facilement (i) construire des blocs de synténie parmi plusieurs espèces en utilisant des alignements prédéfinis dans la base de données du navigateur génomique de l'UCSC, (ii) visualiser et télécharger les relations synténiques sous forme d'images de haute qualité, (iii) parcourir les blocs de synténie avec des données génétiques. informations et (iv) télécharger les détails des blocs de synténie à utiliser comme entrée pour les analyses basées sur la synténie en aval, le tout dans une interface Web intuitive et facile à utiliser. (Référence : Lee J et al. 2016. Nucleic Acids Res 44(W1) : W35&ndashW40).

AutoGRAPH est un serveur Web intégré pour l'analyse génomique comparative multi-espèces. Il est conçu pour construire et visualiser des cartes de synténie entre deux ou trois espèces, déterminer et afficher les relations de macrosynténie et de microsynténie entre les espèces, et pour mettre en évidence les points de rupture évolutifs.
Le serveur Web construit des cartes de synténie par comparaison par paires d'ordres marqueur/ancre entre un chromosome de référence et un ou deux génomes testés. Il permet aux utilisateurs de visualiser et de caractériser plusieurs caractéristiques : les segments conservés (CS), les segments conservés ordonnés (CSO) et les points d'arrêt. ( Référence : Derrien T et al. 2007. Bioinformatique 23:498-499).

Sibélie (Université de Californie à San Diego, États-Unis) - est un outil pour trouver des blocs de synténie dans plusieurs génomes microbiens étroitement liés à l'aide de graphes itératifs de Bruijn. Contrairement à la plupart des autres outils, Sibelia peut trouver des blocs de synténie qui sont répétés dans les génomes ainsi que des blocs partagés par plusieurs génomes. Il représente des blocs de synténie dans une structure hiérarchique à plusieurs couches, chacune représentant un niveau de granularité différent.

Kablammo vous aide à créer des visualisations interactives des résultats BLAST à partir de votre navigateur Web. Trouvez vos alignements les plus intéressants, répertoriez les paramètres détaillés pour chacun et exportez une image vectorielle prête pour la publication. Incroyablement facile à utiliser - voici les résultats d'une comparaison BLASTN avec Escherichia phages T1 (requête) et ADB-2. ( Référence : Wintersinger JA et al. Bioinformatique 31:1305-1306).


M1CR0B1AL1Z3R - est un « guichet unique » pour effectuer des analyses de données de génomique microbienne via une interface utilisateur graphique simple. Certaines des fonctionnalités mises en œuvre dans M1CR0B1AL1Z3R sont : (i) l'extraction de cadres de lecture ouverts putatifs et l'analyse génomique comparative du contenu génétique (ii) l'extraction d'ensembles orthologues et l'analyse de leur distribution de taille (iii) l'analyse des modèles de présence-absence de gènes (iv) la reconstruction d'un arbre basé sur l'ensemble orthologue extrait (v) inférant la variation du contenu en GC entre les lignées. M1CR0B1AL1Z3R facilite l'extraction et l'analyse de dizaines de génomes bactériens à l'aide de techniques avancées. (Référence : Avram O et al. (2019) Nucleic Acids Res. 47(W1) : W88-W92).

GeneOrder 4.0 (D. Seto, Bioinformatique et biologie computationnelle, George Mason Univ., États-Unis) est conçu pour pouvoir être utilisé pour comparer l'ordre des gènes entre deux génomes bactériens (Référence : Mahadevan P. & Seto D. 2010. Notes de recherche BMC 3:41).
CoreGenes (D. Seto et P. Mahadevan, Bioinformatique et biologie computationnelle, George Mason Univ., États-Unis) - totalise le nombre total de gènes en commun entre les deux génomes comparés affiche la valeur en pourcentage des gènes en commun avec un génome spécifique détermine les gènes uniques contenus dans une paire de protéomes. CoreGenes 3.5 est le serveur par lots CoreGenes. J'ai largement utilisé cet ensemble de ressources dans la classification des virus bactériens.

Si vous avez un fichier gbk pour un phage qui n'a pas encore été déposé dans GenBank, vous pouvez utiliser ces instructions pour convertir vos données au format CoreGenes à utiliser ici.

WebACT - il s'agit de la version Web d'ACT (Artemis Comparison Tool), une visionneuse de comparaison de séquences d'ADN basée sur Artemis (Référence : 21: 3422 - 3423 Visitez la page de la base de données d'EMBL-EBI et sélectionnez EMBL et "Standard Query Form" pour déterminer le numéro d'accession EMBL pour la séquence qui vous intéresse.

Panseq (Chad Laing, Agence de la santé publique du Canada) - un ensemble d'outils pour l'analyse du 'pan génome' d'un groupe de séquences génomiques. Le pan-génome d'une espèce bactérienne se compose d'un génome central et d'un pool génétique accessoire, ce dernier permettant aux sous-populations de l'organisme de s'adapter à des environnements spécifiques. Ceux-ci incluent Novel Region Finder, qui trouvera des séquences uniques à une souche ou à un groupe de souches par rapport à une autre souche ou à un autre groupe de souches. L'analyse pan-génomique identifie le pan-génome parmi vos séquences et trouve les SNP dans le génome central et détermine la distribution des régions génomiques accessoires. Le sélecteur de loci identifie les loci qui offrent la meilleure discrimination parmi votre ensemble de données. (Référence : Laing, C. et al. 2010. BMC Bioinformatics. 11: 461).

PARIGA - permet aux utilisateurs d'effectuer des recherches BLAST tous contre tous sur deux ensembles de séquences sélectionnées par l'utilisateur. De plus, comme il stocke les deux sorties BLAST dans une base de données d'objets sérialisés en python, les résultats peuvent être filtrés selon plusieurs paramètres en temps réel, sans réexécuter le processus et éviter des efforts de programmation supplémentaires. (Référence : Orsini M. et al. 2013. PLoS One 8(5):e62224).

EDGAR (Eefficace cadre de base de données pour comparaison genome UNEanalyse à l'aide du score BLAST Ratios) - EDGAR est conçu pour effectuer automatiquement des comparaisons de génomes dans une approche à haut débit et peut être utilisé pour l'analyse du génome central, pangénomique et singleton, et la construction du diagramme de Venn. (Référence : Blom J. et al. 2009. BMC Bioinformatics 10: 154).

OrthoVenn - est un serveur Web pour la comparaison à l'échelle du génome et l'annotation de grappes orthologues à travers plusieurs espèces. Il fournit une couverture des vertébrés, des métazoaires, des protistes, des champignons, des plantes et des bactéries pour la comparaison des grappes orthologues et prend également en charge le téléchargement de séquences de protéines personnalisées à partir d'espèces définies par l'utilisateur. Un diagramme de Venn interactif, des comptes récapitulatifs et des résumés fonctionnels de la disjonction et de l'intersection des groupes partagés entre les espèces sont affichés dans le cadre du résultat OrthoVenn. OrthoVenn inclut également des vues approfondies des clusters à l'aide de divers outils d'analyse de séquence. De plus, il identifie des grappes orthologues de gènes à copie unique et permet une recherche personnalisée de grappes de gènes spécifiques à l'aide de mots clés ou BLAST. (Référence : Y. Yang et al. 2015. Nucl. Acids Res. 43 (W1) : W78-W84). Trouvé aussi ici.

BEACON est un outil logiciel qui compare les annotations d'un génome particulier à partir de différentes méthodes d'annotation (MA). Il utilise le format GenBank comme entrée et dérive une annotation étendue (EA) à côté de la liste des annotations originales des AM individuels. (Référence : Kalkatawi M, BMC Genomics. 201516(1): 1-8).

ANI (UNEmoyenne Nnucléotide jedentity) - estime l'identité moyenne des nucléotides en utilisant à la fois les meilleurs résultats (ANI unidirectionnel) et les meilleurs résultats réciproques (ANI bidirectionnel) entre deux ensembles de données génomiques. Typiquement, les valeurs ANI entre les génomes de la même espèce sont supérieures à 95 % (par exemple, Escherichia coli). Les valeurs inférieures à 75 % ne sont pas fiables et l'AAI doit être utilisé à la place. Cet outil prend en charge les génomes complets et provisoires (multi-fasta). (Référence : Goris J et al. 2007. Int J Syst Evol Microbiol. 57 (partie 1) : 81-91).

Calculatrice d'identité nucléotidique moyenne (ANI) - leur calculatrice ANI utilise l'algorithme OrthoANIu, une itération améliorée de l'algorithme OrthoANI original, qui utilise USEARCH au lieu de BLAST (Référence : Yoon, S. H. et al. (2017). Antonie van Leeuwenhoek. 110:1281&ndash1286).

VIRIDIQUE (Virnous jeintergénomique Diposition Ccalculateur C. Moraru, Institut de chimie et de biologie de l'environnement marin, Allemagne) - le premier niveau de classification des bactériophages par ICTV consiste à calculer l'identité globale des séquences d'ADN entre deux virus. Ce nouvel outil calcule par paires les distances/similitudes intergénomiques entre les génomes des phages. Pour l'exécuter, téléchargez un seul fichier fasta avec tous les génomes de phage d'intérêt, créez un projet et appuyez sur Exécuter. Enregistrez l'ID du projet qui sera affiché lors de la création du projet. Vous en aurez besoin pour accéder aux données si les calculs prennent du temps.

GGDC (genome-À-genome distance Calculator) - fournit des méthodes pour déduire les distances du génome entier qui sont bien capables d'imiter l'hybridation ADN-ADN (DDH). Les valeurs calculées avec GGDC donnent une corrélation un peu meilleure avec les valeurs DDH en laboratoire humide que des approches alternatives telles que "ANI". Ces fonctions de distance peuvent également faire face à des génomes fortement réduits et à des régions de séquences répétitives. Certains d'entre eux sont également très robustes contre les fractions manquantes d'informations génomiques (en raison d'un séquençage incomplet du génome). Ainsi, ce service Web peut être utilisé pour la délimitation d'espèces basée sur le génome. (Référence : Meier-Kolthoff JP et al. 2013. BMC Bioinformatics 14: 60).

POGO-DB - Basé sur des BLASTs du génome entier à calcul intensif, POGO-DB fournit plusieurs métriques sur le génome par paires : (a) Identité moyenne des acides aminés de tous les meilleurs coups de souffle bidirectionnels qui couvraient au moins 70 % d'identité de séquence (b) Fluidité génomique qui estime la similarité du contenu génétique entre deux génomes (c) Nombre d'orthologues partagés entre deux génomes (tel que défini par deux critères) (d) Identité par paire des gènes d'ARNr 16S les plus similaires (e) Identité par paire de 73 gènes marqueurs supplémentaires conservés dans le monde (dont nous avons déterminé qu'ils existaient dans au moins 90 % de tous les génomes). (Référence : Lan Y et al. 2014. Nucl. Acids Res. 42 (D1) : D625-D632).

VICTOR (Virus Clasification et TBâtiment de ree Onligne Rressource Leibniz-Institut DSMZ-Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH). Ce service Web compare les virus bactériens et archéens (« "phages") à l'aide de leurs séquences génomiques ou protéomiques. Les résultats incluent des arbres phylogénomiques inférés à l'aide de la méthode Genome-BLAST Distance Phyogeny (GBDP), avec support de branche, ainsi que des suggestions pour la classification au niveau de l'espèce, du genre et de la famille. (Le service peut également être appliqué à d'autres types de virus, mais n'a pas encore été testé à cet égard.) Téléchargez vos fichiers FASTA, fichiers GenBank et/ou ID d'adhésion GenBank. (Référence : JP Meier-Kolthoff & M Göker. 2017. Bioinformatique 33(21): 3396&ndash3404).

VIRFAM est dédié à la reconnaissance des modules tête-cou-queue et des gènes de recombinase dans les génomes des phages. Vous pouvez utiliser ce serveur pour rechercher des homologues distants de familles de protéines spécifiques dans des séquences de protéines de bactériophages. Entrée : les séquences protéiques que vous avez produites par vos phages incluent un arbre phylogénétique avec le placement de votre virus. (Référence : Lopes A et al. Nucleic Acids Res. (2010) 38(12): 3952-62).

Seeker - est un outil d'apprentissage en profondeur pour l'identification sans référence de séquences de phages. Seeker permet une détection rapide des phages dans les ensembles de données de séquences et une différenciation nette des séquences de phages des séquences bactériennes, même pour les phages avec peu de similarité de séquence avec les familles de phages établies. Nous validons de manière exhaustive la capacité de Seeker à identifier des phages inconnus et employons Seeker pour détecter des phages inconnus, dont certains sont très différents des familles de phages connues. (Référence : Auslander N et al. (2020) doi.org/10.1101/2020.04.04.025783)

VipTree - génère un "arbre protéomique" des séquences du génome viral basé sur les similitudes de séquences à l'échelle du génome calculées par tBLASTx. Le concept original d'arbre protéomique (c'est-à-dire « l'arbre protéomique des phages ») a été développé par Rohwer et Edwards, 2002. Un arbre protéomique est un dendrogramme qui révèle les relations de similarité génomique globale entre des dizaines, des centaines et des milliers de virus. Il a été montré que les groupes viraux identifiés dans un arbre protéomique correspondent bien aux taxonomies virales établies. (Référence : Nishimura Y et al. (2017) Bioinformatique 33: 2379&ndash2380).

MiGA (Microbie genomes UNEtlas) - un serveur Web qui permet la classification d'une séquence génomique de requête inconnue, complète ou partielle, par rapport à tous les taxons classés taxonomiquement avec des séquences génomiques disponibles, ainsi que des comparaisons avec d'autres génomes apparentés, y compris ceux non cultivés, sur la base de l'agrégat génomique de nucléotide moyen et les concepts d'identité des acides aminés (ANI/AAI). (Référence : Rodriguez-R et al (2018) Nucleic Acids Research 46(W1) : W282-W288).

CGView Server - est un outil de génomique comparatif pour les génomes circulaires qui permet de visualiser les informations sur les caractéristiques des séquences dans le contexte des résultats de l'analyse des séquences. Une séquence du génome est fournie au programme au format FASTA, GenBank, EMBL ou brut. Jusqu'à trois séquences de comparaison (ou ensembles de séquences) au format FASTA peuvent également être soumises. Le serveur CGView utilise BLAST pour comparer la séquence du génome aux séquences de comparaison, puis convertit les résultats et toutes les informations disponibles sur les fonctionnalités (à partir du fichier GenBank, EMBL ou GFF en option) ou les informations d'analyse (à partir d'un fichier GFF en option) en un carte graphique de qualité montrant la séquence entière du génome, ou une vue agrandie d'une région d'intérêt. Plusieurs options sont disponibles pour spécifier la manière dont les comparaisons BLAST sont effectuées et pour contrôler la manière dont les résultats sont affichés. (Référence : Grant JR & Stothard P. 2008. Nucleic Acids Res. 36 (problème de serveur Web) : W181-184)

Jena Procaryote genome Viewer (JPGV) - à partir d'un fichier plat GenBank (*.gbk) génère des tracés linéaires ou circulaires, y compris si vous le souhaitez, le contenu GC, l'asymétrie GC, l'excès de purine et l'excès de céto peuvent être affichés. Permet également l'analyse BLAST contre les génomes apparentés. Nécessite une inscription gratuite.

GenomeVx - crée des cartes modifiables, de qualité publication, des génomes mitochondriaux et chloroplastiques et des grands plasmides. Ces cartes montrent l'emplacement des gènes et des caractéristiques chromosomiques ainsi qu'une échelle de position. Le programme prend en entrée soit des positions d'entités brutes, soit des enregistrements GenBank.Dans ce dernier cas, les caractéristiques sont automatiquement extraites et colorées, dont un exemple est donné. La sortie est au format Adobe Portable Document Format (PDF) et peut être modifiée par des programmes tels qu'Adobe Illustrator. (Référence : G. Conant & K. Woolfe. 2008. Bioinformatics 24:861-862).

myGenomeBrowser - est un environnement Web qui offre aux biologistes un moyen de créer, d'interroger et de partager leurs navigateurs génomiques. Cet outil, qui s'appuie sur JBrowse, est conçu pour donner plus d'autonomie aux utilisateurs tout en simplifiant et en minimisant l'intervention des administrateurs système. Ils ont étendu les fonctionnalités de base du navigateur génomique pour permettre aux utilisateurs d'interroger, d'analyser et de partager leurs données. ( Référence : S. Carrere & J. Gouzy. Bioinformatique (2017) 33 (8): 1255-1257).

DNAPlotter - est une application Java interactive pour générer des représentations circulaires et linéaires des génomes. Utilisant les bibliothèques Artemis pour fournir une méthode conviviale de chargement dans des fichiers de séquence (EMBL, GenBank, GFF) ainsi que des données de bases de données relationnelles, il filtre les caractéristiques d'intérêt à afficher sur des pistes distinctes définissables par l'utilisateur. Il peut être utilisé pour produire des images de qualité de publication pour des articles ou des pages Web. (Référence : Carver, T. et al. 2008. Bioinformatics 25:119-120)

GeneWiz (Centre d'analyse des séquences biologiques, Université technique danoise) produit des altases génomiques linéaires ou circulaires comme celle ci-dessous. Ils ont des noms prêts pour la plupart des bactéries, mais en téléchargeant des données personnalisées au format GenBank (.gbk), on peut créer son propre diagramme montrant les propriétés génétiques et physiques de votre génome.

OrganellarGenomeDRAW - est une suite d'outils logiciels qui permet aux utilisateurs de créer des représentations visuelles de haute qualité des séquences génomiques annotées circulaires et linéaires fournies sous forme de fichiers GenBank ou de numéros d'accession. Bien que tous les types de séquences d'ADN soient acceptés comme entrée, le logiciel a été spécifiquement optimisé pour représenter correctement les caractéristiques des génomes organellaires. Une extension récente facilite le tracé des données quantitatives d'expression génique, telles que les données de transcription ou d'abondance de protéines, directement sur la carte du génome (Référence : Lohse M, et al. 2013. Nucleic Acids Res. 41(Problème de serveur Web) : W575-81) .

PlasmaDNA - En commençant par une séquence d'ADN primaire, PlasmaDNA recherche des sites de restriction, des cadres de lecture ouverts, des séquences d'hybridation d'amorces et divers domaines communs. Les bases de données sont facilement extensibles par l'utilisateur pour répondre à ses besoins de clonage les plus courants. PlasmaDNA peut gérer et représenter graphiquement plusieurs séquences en même temps, et garde en mémoire les surplombs à la fin des séquences s'il y en a. Cela signifie qu'il est possible de digérer virtuellement des fragments, d'ajouter les produits de digestion au projet et de ligaturer des fragments avec des extrémités compatibles pour générer les nouvelles séquences. Excellent package pour les plasmides. (Référence : Angers-Loustau A et al. 2007. BMC Mol Biol. 2007 8:77).

GSDraw (Gene Structure Draw Server) est un serveur Web pour la famille de gènes permettant de dessiner des diagrammes schématiques de structure de gènes. Les utilisateurs peuvent soumettre des séquences génomiques, CDS et de transcription. GSDraw utilise ces informations pour obtenir la structure du gène, le motif protéique et l'arbre phylogénétique, puis dessine le diagramme correspondant. (Référence : Wang Y, et al. 2013. Nucleic Acids Res. 41 (issue de la base de données) : D1159-66).

GECA est un outil convivial permettant de représenter l'organisation des exons/introns des gènes et de mettre en évidence les changements dans la structure des gènes parmi les membres d'une famille de gènes. Il repose sur l'alignement des protéines, complété par l'identification d'introns communs dans les gènes correspondants à l'aide du CIWOG. GECA produit une représentation graphique principale montrant l'ensemble aligné résultant de structures de gènes, où les exons sont à l'échelle. La caractéristique importante et originale de GECA est qu'il combine ces structures de gènes avec un affichage symbolique mettant en évidence la similarité de séquence entre les gènes suivants. Il convient de noter que cette combinaison de la structure des gènes avec les indications de similitudes entre les gènes apparentés permet une identification rapide d'événements possibles de gain ou de perte d'introns, ou indique des annotations structurelles erronées. L'image de sortie est générée dans un format graphique réseau portable qui peut être utilisé pour des publications scientifiques. (Référence : Fawal N, et al. 2012. Bioinformatique 28:1398-9).

GeneDesign - est une excellente ressource pour la conception de gènes synthétiques. Il comprend des outils pour l'optimisation des codons et la suppression des sites de restriction (Référence : Richarson, S.M. et al. 2006. Genome Research 16:550-556)

Orphelia - Orphelia est un outil de recherche d'ORF métagénomique pour la prédiction de gènes codant des protéines dans de courtes séquences d'ADN environnementales d'origine phylogénétique inconnue. Orphelia est basé sur une approche d'apprentissage automatique en deux étapes qui a été récemment introduite par notre groupe. Après l'extraction initiale des ORF, des discriminants linéaires sont utilisés pour extraire les caractéristiques de ces ORF. Par la suite, un réseau de neurones artificiels combine les caractéristiques et calcule une probabilité de gène pour chaque ORF dans un fragment. Une stratégie gloutonne calcule une combinaison probable d'ORF à score élevé avec une contrainte de chevauchement. (Référence : K.J. Hoff et al. 2009. Nucl. Acids Res. 37(Problème de serveur Web : W101-W105).

WebMGA est un serveur Web personnalisable pour une analyse métagénomique rapide qui comprend plus de 20 outils couramment utilisés pour les analyses telles que l'appel ORF, le regroupement de séquences, le contrôle qualité des lectures brutes, la suppression des artefacts de séquençage et des contaminations, l'analyse taxonomique, l'annotation fonctionnelle, etc. Tous les outils derrière WebMGA ont été implémentés pour fonctionner en parallèle sur notre cluster d'ordinateurs local. (Référence : Wu S, et al. 2011. BMC Genomics. 12:444).

Le serveur MG-RAST (le Metagenomics RAST) est une plate-forme d'analyse automatisée pour les métagénomes fournissant des informations quantitatives sur les populations microbiennes basées sur des données de séquence. Le serveur fournit principalement le téléchargement, le contrôle de la qualité, l'annotation automatisée et l'analyse des échantillons de fusil de chasse métagénomique procaryote. (Référence : Wilke A, et al. 2016. Nucleic Acids Res. 44(D1) :D590-4).

Le serveur Web et le programme autonome d'attribution taxonomique complète de MetaBin de séquences métagénomiques (Laboratoire de bioinformatique intégrée, RIKEN, Japon) permettent une attribution taxonomique plus rapide et plus précise de lectures de séquences simples et appariées de longueurs variables (&ge45 pb) obtenues à la fois de Sanger et de next -les plateformes de séquençage de génération. A un tutoriel.

AmphoraNet - utilise 31 gènes marqueurs bactériens et 104 gènes marqueurs de protéines archéennes pour le phylotypage métagénomique et génomique. La plupart d'entre eux sont des gènes à copie unique, par conséquent AmphoraNet est adapté pour estimer la composition taxonomique des communautés bactériennes et archéennes à partir de données de séquençage métagénomiques. (Référence : Kerepesi C, et al. 2014. Gene. 533:538-40).

METAGENassist - permet aux utilisateurs de prendre des données de recensement bactérien à partir de différents sites environnementaux ou de différents hôtes biologiques, et d'effectuer des analyses statistiques multivariées complètes sur les données. Ces analyses multivariées peuvent être effectuées à l'aide d'étiquettes phénotypiques taxonomiques ou générées automatiquement et visualisées à l'aide d'une variété d'outils graphiques de haute qualité. Les données de recensement bactérien peuvent être dérivées de données d'ARNr 16S, de séquençage NextGen ou même de techniques de culture microbienne classiques. Comprend un tutoriel. (Référence : Arndt D, et al. 2012. Nucleic Acids Res. 40(Problème de serveur Web) : W88-95).

Métagénomique en temps réel (Dr Robert Edwards, Université d'État de San Diego, États-Unis) - est la prochaine révolution dans l'annotation du métagénome : le traitement et l'analyse des données en temps réel. Vous pouvez enfin annoter un métagénome en temps réel, sans attente. Vous pouvez télécharger vos propres données pour analyse. Ils acceptent les fichiers fasta ou fastq, et vous pouvez fournir des données compressées zip ou gzip.

EBI Métagénomique (EMBL-EBI) - est un pipeline automatisé pour l'analyse et l'archivage de données métagénomiques qui vise à fournir des informations sur la diversité phylogénétique ainsi que le potentiel fonctionnel et métabolique d'un échantillon. Vous pouvez parcourir librement toutes les données publiques du référentiel. Le service identifie les séquences d'ARNr à l'aide de rRNASelector et effectue une analyse taxonomique des ARNr 16S à l'aide de Qiime. Les lectures restantes sont soumises à une analyse fonctionnelle des séquences de codage de protéines prédites à l'aide de la ressource d'analyse de séquences InterPro. InterPro utilise des modèles de diagnostic pour classer les séquences en familles et pour prédire la présence de domaines et de sites fonctionnellement importants. En utilisant cette ressource, le service offre une alternative puissante et sophistiquée aux analyses métagénomiques fonctionnelles basées sur BLAST. Les données soumises au service EBI Metagenomics sont automatiquement archivées dans l'European Nucleotide Archive (ENA). Les numéros d'accès sont fournis pour les données de séquence.

Kaiju - est une classification taxonomique rapide et sensible pour la métagénomique qui prend des séquences de nucléotides au format compressé FASTA ou FASTQ. Les lectures sont directement attribuées aux taxons à l'aide de la taxonomie NCBI et d'une base de données de référence de séquences protéiques de génomes bactériens, archéens et viraux. Par défaut, Kaiju utilise soit les génomes complets disponibles de NCBI RefSeq, soit le sous-ensemble microbien de la base de données de protéines non redondante nr utilisée par NCBI BLAST. Kaiju traduit les lectures en séquences d'acides aminés, qui sont ensuite recherchées dans la base de données à l'aide d'une recherche en arrière modifiée sur une implémentation efficace en mémoire de la transformation de Burrows-Wheeler, qui trouve les correspondances exactes maximales (MEM), permettant éventuellement des discordances dans l'alignement des protéines. (Référence : Menzel P et al. 2016. (Nat. Commun. 7:11257)

PhyloPythiaS - est un classificateur rapide et précis basé sur la composition de séquences qui utilise les relations hiérarchiques entre les clades. Les affectations taxonomiques avec le serveur Web peuvent être effectuées avec un modèle générique ou avec des modèles spécifiques à des échantillons que les utilisateurs peuvent spécifier et créer. Plusieurs modes de visualisation interactifs et plusieurs formats de téléchargement permettent une analyse rapide et pratique et un traitement en aval des affectations taxonomiques. (Référence : Patil KR, et al. 2012. PLoS One. 7:e38581).

Métagénome virtuel - Un serveur Web pour reconstruire des métagénomes à partir de séquences d'ARNr 16S. une nouvelle méthode pour la reconstruction rapide et efficace d'un métagénome virtuel dans les communautés microbiennes environnementales sans utiliser le séquençage génomique à grande échelle. Nous démontrons cette approche en utilisant des séquences de gènes d'ARNr 16S obtenues à partir d'une analyse d'électrophorèse sur gel en gradient dénaturant, mappées sur des génomes entièrement séquencés, pour reconstruire des organisations virtuelles de type métagénome. (Référence : Okuda S, et al. 2012. Nat Commun. 3:1203.)

MetaPhlAn2 (version 2.0.0) - est un outil informatique permettant de profiler la composition des communautés microbiennes (bactéries, archées, eucaryotes et virus) à partir de données de séquençage métagénomique avec une résolution au niveau de l'espèce. Il est également capable d'identifier des souches spécifiques et de suivre les souches à travers des échantillons pour toutes les espèces. Il permet des affectations taxonomiques sans ambiguïté, une estimation précise de l'abondance relative des organismes et une résolution au niveau des espèces pour les bactéries, les archées, les eucaryotes et les virus. (Référence : Segata N, et al. 2012. Méthodes Nature 8: 811&ndash814).

CoMet-Universe &mdash un serveur Web pour l'analyse comparative des métagénomes basée sur les signatures de domaines protéiques. En commençant par le téléchargement de vos séquences d'ADN, le pipeline CoMet effectue toutes les étapes nécessaires pour une analyse complète du métagénome, y compris la prédiction des gènes, la détection des domaines protéiques à l'aide de Pfam 27, le profilage métabolique basé sur les voies KEGG et l'estimation de l'abondance des taxons dans tous les domaines de la vie et des virus. (Référence : Aßhauer KP et al. Int J Mol Sci. 2014 15(7):12364-78).

16S Classifier - est un outil de classification taxonomique rapide et précise des régions hypervariables de l'ARNr 16S dans les ensembles de données métagénomiques. Sur de vrais ensembles de données métagénomiques, il a montré jusqu'à 99,7 % de précision au niveau du phylum et jusqu'à 99,0 % de précision au niveau du genre. (Référence : N. Chaudhary et al. 2015. PLoS One 10(2): e0116106). Il est également accessible ici

ADNATLAS (DNA2.0 Inc., États-Unis) - Une place pour toutes vos séquences. Importez facilement toutes vos constructions, y compris Genbank, Gene Designer, Excel, Word et presque tous les formats textuels. DNA Atlas analyse immédiatement vos fichiers de téléchargement et en déduit si chaque séquence est une caractéristique, une construction, une amorce, un ADN ou un acide aminé. Téléchargez des fonctionnalités et des amorces pour les voir annotées dans vos séquences. Affichez instantanément les constructions annotées avec notre liste organisée de plus de 1000 fonctionnalités, ou ajoutez les vôtres. Utilisez la recherche de séquences basée sur BLAST pour aligner et comparer rapidement vos séquences. Gardez une trace de vos séquences, caractéristiques et amorces. Catégorisez-les à l'aide d'étiquettes - des emplacements de congélation aux données de caractérisation. (nécessite une inscription).

SuperPhy (Chad Laing & Vic Gannon, Agence de la santé publique du Canada) est un outil en ligne pour la génomique prédictive des Escherichia coli. La plateforme intègre les outils d'analyses et les données de séquençage du génome pour tous accessibles au public E. coli génomes et facilite le téléchargement de nouvelles séquences génomiques des utilisateurs dans des paramètres publics ou privés. SuperPhy fournit des analyses en temps réel de milliers de séquences génomiques basées sur les métadonnées de la souche, y compris le contexte géospatial et phylogénétique.

Nommer votre bactériophage : Ceci est d'une importance primordiale pour les membres de la communauté des virus bactériens pour nommer de manière appropriée leurs phages nouvellement isolés. Un bon point de départ est « Comment nommer et classer votre phage : un guide informel. » ( Référence : Adriaenssens E & Brister JR. 2017. Virus. 9(4). pii: E70) auquel j'ajouterai les points suivants (a) veuillez vérifier que le nom que vous proposez n'a pas déjà été utilisé et, (b) ne nommez pas votre phage Enterobacter ia phage ø1234 ou Enterobacteria phage 2017/ABC_567 puisque ces noms sont incompatibles avec la création de nouveaux taxons d'espèces et de genres par le Comité international de taxonomie des virus (ICTV). Pour savoir si votre nom proposé est unique, consultez :

Vérification du nom du phage (Stephen T. Abedon, Ohio State University, États-Unis) - pour voir si 'votre' nom de phage se trouve actuellement sur Google Scholar, Google Books, PubMed, ou même Bacteriophage Names 2000.

Recherche de nom de phage CPT (Center for Phage Technology de l'Université Texas A&M)


Voir la vidéo: الفرق بين FSTmip و FSsmia (Octobre 2022).