Simple Science

La science de pointe expliquée simplement

# Biologie# Microbiologie

Cartographie de la variabilité dans les génomes microbiens avec iLund4u

Un nouvel outil analyse les génomes microbiens pour trouver et catégoriser des points chauds génétiques.

― 10 min lire


Points chauds génétiquesPoints chauds génétiquesdécouverts chez lesmicrobescruciaux pour l'évolution microbienne.iLund4u révèle des points chauds
Table des matières

Les génomes microbiaux sont pleins de variété. Ils changent à cause de différents processus qui créent des variations génétiques. Un des principaux processus s'appelle le Transfert Horizontal de Gènes, ou HGT. C'est quand des gènes se déplacent entre des organismes au lieu d'être transmis d'un parent à un enfant. Ce mouvement peut créer des sections de gènes connues sous le nom d'îles génomiques, qui peuvent être présentes ou absentes chez des organismes étroitement liés. Ces îles ne sont pas réparties de manière uniforme ; elles se trouvent souvent dans des zones spécifiques du génome appelées hotspots. Les hotspots sont des régions avec des changements rapides de gènes et sont entourées de sections plus stables.

Les éléments génétiques mobiles, qui incluent les plasmides et les virus, ont aussi leurs propres hotspots où des changements se produisent, influencés par des mécanismes comme l'échange de gènes. Certains de ces hotspots peuvent inclure des régions "moron", qui sont des parties du génome avec des gènes supplémentaires qui peuvent agir de manière indépendante. Un autre type de variation est introduit par des rétroéléments générateurs de diversité, qui créent des changements sans besoin de transférer des gènes d'autres organismes. En gros, ces processus créent des régions des génomes microbiaux qui sont variables, avec des gènes de base plus stables à proximité.

Dans ce contexte, on peut décrire un endroit dans un génome avec beaucoup de variabilité comme une "île variable". Une collection de ces îles variables partageant des quartiers de gènes stables peut être appelée un "hotspot".

Flux de travail et fonctions d'iLund4u

iLund4u est un outil conçu pour analyser les génomes microbiaux et trouver ces hotspots. Il a trois fonctions principales : annotation des hotspots, recherche de protéines et annotation du protéome. Le mode d'annotation des hotspots est utilisé pour trouver des zones de variabilité dans les génomes, tandis que les modes de recherche de protéines et d'annotation du protéome permettent l'exploration et l'analyse des fonctions des protéines dans ces hotspots.

Différentes îles peuvent être catégorisées en fonction des types de gènes qu'elles portent, comme ceux liés à des maladies, à la résistance aux antibiotiques ou à la défense contre les éléments génétiques. Cette catégorisation peut mener à la découverte de nouvelles fonctions biologiques. Par exemple, les systèmes qui défendent contre les virus ont souvent tendance à se regrouper à certains endroits, permettant aux chercheurs de trouver de nouveaux mécanismes de défense à travers des motifs dans leur emplacement.

Le processus d'identification des hotspots implique généralement trois approches principales : reconnaître des régions avec des gènes conservés connus, les associer à des cargaisons connues, et analyser le pool génétique plus large à travers plusieurs génomes. Par exemple, les chercheurs peuvent trouver de nouveaux Systèmes de défense en cherchant des gènes conservés autour de hotspots connus.

Cependant, les méthodes existantes ont leurs limites. Elles peuvent avoir du mal à analyser efficacement de grands ensembles de données ou ne peuvent pas bien s'étendre à d'autres éléments génétiques comme les plasmides. Pour remédier à cela, iLund4u a été développé comme une méthode évolutive pour identifier et annoter des hotspots à travers des millions de séquences de génomes.

iLund4u construit un réseau basé sur la similarité du contenu protéique de différents génomes. Cela signifie qu'il peut analyser des séquences de différentes espèces, ainsi que de plasmides et de virus. Après avoir trouvé des groupes de séquences similaires, il identifie les îles variables et les hotspots basés sur ces groupes.

Identification et analyse des hotspots

L’algorithme d’iLund4u a été appliqué à des centaines de milliers de séquences de phages et de plasmides. Grâce à ces analyses, les chercheurs ont trouvé de nombreux hotspots avec une large variété de fonctions protéiques, dont beaucoup sont encore non caractérisées. En moyenne, neuf pour cent d'un génome de phage est constitué de ces îles hotspot. Plus les protéines dans un hotspot ont de fonctions, plus l'île variable a tendance à être grande.

iLund4u permet aux utilisateurs de rechercher des protéines dans les hotspots et fournit des annotations basées sur des bases de données existantes. Cela élargit la compréhension de la façon dont différents gènes pourraient fonctionner ensemble. Dans le mode de recherche de protéines, les utilisateurs peuvent identifier des protéines similaires au sein des hotspots, tandis que le mode d'annotation du protéome aide à étiqueter les hotspots en fonction de la similarité communautaire.

Identification des hotspots à travers les phages et les plasmides

iLund4u a été utilisé pour analyser un grand nombre de séquences de phages d'une base de données spécifique. L'équipe a réannoté les séquences de phages pour identifier des communautés de protéines similaires. Les résultats ont montré que la plupart des protéines dans ces communautés étaient conservées ou variables, avec une plus petite portion étant intermédiaire.

Ils ont trouvé un grand nombre d'îles variables et les ont connectées pour créer de nombreux hotspots. Chaque hotspot contenait typiquement de nombreux groupes de protéines, certains avec plus d'une centaine. Globalement, beaucoup de ces protéines n'ont toujours pas de fonctions connues.

Les plasmides, qui sont de petites molécules d'ADN pouvant fournir aux bactéries des traits supplémentaires, ont aussi leurs propres hotspots. Lorsque les chercheurs ont cherché des hotspots dans les plasmides, ils ont découvert que bien que la composition des plasmides diffère de celle des phages, il y avait quand même beaucoup de similarités. Cela suggère que les deux types d'éléments génétiques peuvent transporter des gènes accessoires importants.

Diversité fonctionnelle dans les hotspots

Pour comprendre quels types de fonctions sont associés aux îles variables, les chercheurs se sont penchés de près sur les protéines trouvées dans ces hotspots. La plupart des protéines codées par les hotspots restent non annotées, ce qui indique un trésor de fonctions inconnues. En utilisant certaines règles pour la classification fonctionnelle, ils ont identifié un certain nombre de hotspots associés à la défense contre les virus et d'autres facteurs.

En comparant les hotspots des phages et des plasmides, les chercheurs ont noté des différences dans les types de gènes présents, suggérant que les plasmides et les phages ont des chemins et des fonctions évolutifs différents. En particulier, certains gènes uniques aux plasmides, comme ceux impliqués dans la conjugaison, ont montré des motifs de hotspot différents.

Une découverte intéressante impliquait la capacité des plasmides à transporter des gènes capables de protéger contre les défenses des bactéries tout en contenant des hotspots codant pour la résistance aux antibiotiques.

La structure des îles variables dans les phages

Les chercheurs ont cherché à comprendre la structure et le contenu global des îles variables. Ils ont calculé combien d'un génome de phage est constitué de gènes conservés et variables. En moyenne, les îles variables représentaient environ neuf pour cent des génomes de phages, avec une valeur médiane indiquant qu'il y a une quantité constante d'espace génomique dédiée à ces régions diverses.

En analysant les fonctions diverses au sein de ces îles, les chercheurs ont trouvé une corrélation entre la taille des hotspots et la variété de fonctions qu'ils contiennent. Les îles plus grandes avaient généralement plus de diversité fonctionnelle par rapport aux plus petites. De plus, ils ont exploré comment les gènes de ces îles s'alignent et interagissent, ce qui a conduit à des idées sur la façon dont ces gènes pourraient être organisés pour plus d'efficacité.

Hotspots de phages de type P2 et systèmes de défense connus

Certains phages bien étudiés, en particulier ceux de type P2, ont des hotspots bien établis. L'équipe de recherche a utilisé iLund4u pour identifier et annoter ces hotspots dans des génomes de phages P2 connus. Ils ont réussi à redécouvrir des mécanismes de défense précédemment identifiés, confirmant l'efficacité d'iLund4u à localiser ces régions vitales.

Les hotspots trouvés portaient un mélange de gènes associés à diverses fonctions, y compris des systèmes de défense connus et des facteurs de virulence. Dans cette analyse, les chercheurs ont observé à la fois de la consistance et de la variabilité dans les emplacements des gènes, indiquant que bien que certaines fonctions soient conservées, il y a encore de la place pour la diversité et l'évolution.

Dévoiler des hotspots divers dans les phages intestinaux

Les chercheurs ont également utilisé iLund4u pour examiner des phages trouvés dans l'intestin humain. Ils ont identifié un hotspot complexe riche en gènes divers liés à des fonctions comme la résistance aux antibiotiques et la virulence. Ce hotspot avait de nombreux groupes de protéines, indiquant qu'il joue un rôle potentiellement crucial dans la façon dont ces phages interagissent avec leurs hôtes bactériens.

Dans leur analyse détaillée, ils ont découvert que certains gènes liés à la liaison des récepteurs étaient présents, suggérant que les phages pourraient avoir évolué des stratégies pour une meilleure interaction avec l'hôte. De plus, l'étude a révélé que certains gènes pouvaient changer de fonction selon la présence ou l'absence d'autres gènes, ajoutant une couche de complexité à la façon dont ces génomes de phages fonctionnent.

L'importance d'iLund4u

iLund4u représente une méthode révolutionnaire pour identifier systématiquement des hotspots et des îles variables dans les génomes microbiaux. Les découvertes soulignent l'importance de ces régions dans le monde microbien, notamment dans la découverte de nouveaux systèmes immunitaires et d'autres traits génétiques importants.

En combinant différentes approches analytiques, les chercheurs peuvent améliorer leur capacité à prédire les fonctions des gènes en fonction de leur emplacement et de leurs relations au sein des génomes. iLund4u permet aux chercheurs d'explorer les relations entre différents gènes et aide à découvrir de nouvelles fonctions et interactions dans les populations microbiennes.

Les chercheurs estiment que les outils et bases de données construits à partir d'iLund4u bénéficieront grandement à l'étude des génomes microbiaux, en particulier dans les annotations fonctionnelles et la découverte de nouveaux mécanismes de défense.

Conclusion

La diversité des génomes microbiaux, façonnée par divers mécanismes, ouvre un monde de possibilités pour comprendre comment ces organismes évoluent et interagissent. Avec des outils comme iLund4u, les scientifiques peuvent identifier des hotspots et des îles variables qui portent des informations génétiques significatives, ouvrant la voie à de futures recherches et explorations en microbiologie. Les découvertes faites jusqu'à présent mettent en lumière le vaste potentiel d'identification de nouvelles fonctions et d'amélioration de notre compréhension de la vie microbienne.

Source originale

Titre: Systematic annotation of hyper-variability hotspots in phage genomes and plasmids

Résumé: Bacterial and bacteriophage genomes contain genomic regions of hyper-variability (diversity hotspots) caused by insertions of mobile genetic elements (MGEs), non-homologous recombination events and non-horizontal hypermutation. Accessory genes encoded in the diversity hotspots are involved in anti-MGE defence and counter-defence, virulence and antimicrobial resistance (AMR), thus playing key roles in interactions amongst phages, MGEs, bacteria and eukaryotic hosts. To date the majority of research has been focused on either individual hotspots or on relatively limited sets of hotspots in a small set of genomes, typically from a single species. A global understanding of hotspot diversity and dynamics still lacking. To address this gap, we developed iLund4u, an algorithm for the systematic annotation of hotspots across millions of sequences. Using a proteome composition approach, iLund4u detects proteome communities, annotates accessory proteins and identifies hotspots. By analysing 873K phage genomes and 696K plasmid sequences we identified 13.7K hotspots and 171K diverse protein families encoded there as cargo. Furthermore, iLund4u allows for protein search and proteome annotation functions versus a precomputed iLund4u database. In the protein search mode iLund4u identifies all hotspots that encode homologues of a query protein. In the proteome annotation mode iLund4u annotates hotspots by searching for communities of similar proteomes. Detailed documentation, user guide and the source code are available at the iLund4u home page: art-egorov.github.io/ilund4u.

Auteurs: Artyom A. Egorov, V. Hauryliuk, G. C. Atkinson

Dernière mise à jour: 2024-10-16 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.10.15.618418

Source PDF: https://www.biorxiv.org/content/10.1101/2024.10.15.618418.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires