Présentation de VEHoP : Un nouvel outil pour l'analyse phylogénomique
VEHoP simplifie les études phylogénomiques en utilisant différentes sources de données génomiques.
― 8 min lire
Table des matières
La phylogénétique étudie comment les êtres vivants sont liés entre eux. C'est super important pour les chercheurs qui veulent en savoir plus sur l'évolution et les connexions entre les différentes espèces. Les scientifiques utilisent plein d'infos, comme les traits physiques et les données génétiques, pour déterminer comment les organismes sont liés. Parmi tout ça, des molécules biologiques comme l'ADN et les protéines sont souvent utilisées pour créer des diagrammes appelés Arbres phylogénétiques, qui montrent visuellement ces relations.
Méthodes anciennes de phylogénétique
Avant, les chercheurs utilisaient surtout un ou deux gènes pour faire ces arbres. Certains des gènes choisis à l'époque étaient la sous-unité I de la cytochrome c oxydase mitochondriale, la sous-unité 4 de la déshydrogénase NADH et des gènes d'ARN ribosomique nucléaire. Au fil du temps, avec les avancées technologiques, les scientifiques ont commencé à utiliser l'ensemble des Génomes mitochondriaux pour créer leurs arbres. Mais il y avait encore des défis. Parfois, les arbres ne représentaient pas fidèlement les vraies relations entre les espèces. Ça pouvait arriver à cause de divers facteurs, comme le mélange de gènes entre différentes espèces, des différences dans l'évolution des gènes ou des erreurs dans l'arbre lui-même. À cause de ça, il fallait de meilleures méthodes pour surmonter ces défis.
Séquençage de nouvelle génération et phylogénomique
Avec les progrès du séquençage, les chercheurs se sont mis à se concentrer sur l'utilisation d'infos génétiques plus complètes provenant de génomes entiers, un domaine qu'on appelle la phylogénomique. Cette approche a attiré l'attention dans divers domaines d'étude. Avoir plus de données de différentes espèces aide à réduire les erreurs lorsqu'il s'agit de déterminer comment les espèces sont liées. Cependant, rassembler assez de données sur toutes les espèces ciblées peut être irréaliste. Certaines espèces vivent dans des endroits difficiles d'accès, comme les profondeurs marines, et d'autres sont si rares que les scientifiques n'ont peut-être que quelques échantillons préservés.
En plus, certains groupes d'espèces peuvent ne pas être bien représentés dans les données disponibles, ce qui entraîne un échantillonnage biaisé. Quand les chercheurs essaient de construire un arbre sans données complètes, des lacunes significatives peuvent changer l'apparence de l'arbre. De plus, c'est impossible d'inclure des espèces éteintes dans ces études génétiques, car leur ADN ne peut pas être séquencé.
L'importance d'utiliser les données génomiques
Utiliser des données au niveau génomique offre bien plus d'infos que d'analyser juste un ou deux gènes. Au fur et à mesure que la technologie de séquençage s'est améliorée, un nombre énorme de génomes et de transcriptomes (l'ensemble complet des ARN transcrits) sont devenus disponibles publiquement. Cependant, beaucoup de ces ensembles de données ont été initialement collectés pour d'autres raisons, comme l'assemblage des génomes d'organelles ou l'analyse de l'expression des gènes. À cause de ça, beaucoup d'infos précieuses restent sous-utilisées dans les études phylogénétiques.
Défis de l'analyse phylogénomique
Pour une analyse phylogénomique réussie, des données de génomes entiers provenant de diverses espèces sont idéales. Mais en réalité, beaucoup de chercheurs n'ont accès qu'à quelques génomes bien étudiés, tandis que d'autres n'ont que des données partielles provenant de transcriptomes ou de lectures d'ADN brutes. Utiliser ces types de données mixtes nécessite plusieurs étapes pour préparer les données pour l'analyse. Ces étapes peuvent inclure la vérification de la qualité des données, l'assemblage du génome et son annotation correcte. Identifier les Orthologues, qui sont des gènes dans différentes espèces issus d'un ancêtre commun, est aussi crucial pour une analyse précise. Tout ce processus peut prendre beaucoup de temps et peut ne pas être simple pour ceux qui n'ont pas de formation en bioinformatique.
Outils existants et leurs limites
Il existe des outils pour aider les chercheurs à analyser les données phylogénétiques, comme Read2Tree. Cependant, les bases de données existantes utilisées dans ces outils ne sont pas toujours entièrement personnalisées et exigent souvent de nombreux ajustements manuels. Un autre outil, GeneMiner, est conçu pour extraire des marqueurs génétiques mais peut être inefficace pour une analyse phylogénomique plus large à cause d'instructions peu claires et d'un faible nombre d'orthologues utilisables.
Introduction de VEHoP
Pour surmonter ces défis, une nouvelle technique appelée VEHoP a été développée. VEHoP signifie phylogénomique basée sur l'homologie, polyvalente et facile à utiliser. Elle permet aux chercheurs d'utiliser différents types d'entrées de données, y compris des génomes, des transcriptomes et des génomes brouillons, dans n'importe quelle combinaison. Les utilisateurs doivent simplement fournir les fichiers de données et spécifier quelques réglages avant de commencer l'analyse.
Une fois les fichiers d'entrée prêts, VEHoP les traite et génère plusieurs fichiers de sortie, y compris des alignements de gènes uniques et un arbre phylogénétique final. Ce processus simplifié facilite énormément la tâche des chercheurs pour mener des études Phylogénomiques sans se perdre dans des étapes complexes.
Tester VEHoP
Pour évaluer la performance de VEHoP, les chercheurs l'ont testé à l'aide de deux études de cas. La première concernait un groupe d'huîtres. Les chercheurs ont rassemblé des données de dix espèces d'huîtres, en utilisant des génomes bien annotés, des génomes brouillons créés à partir de lectures de séquençage et de nouveaux transcriptomes. Ils ont ensuite comparé différents ensembles de données pour voir à quelle point VEHoP pouvait déterminer de manière cohérente les relations entre les espèces. Les résultats ont montré que VEHoP produisait efficacement des arbres fiables qui correspondaient à ceux obtenus à partir de génomes de haute qualité.
La deuxième étude de cas portait sur un groupe d'escargots des profondeurs marines avec des relations évolutives peu claires. En utilisant VEHoP, les chercheurs ont pu analyser avec succès un ensemble de données de génomes mitochondriaux, révélant un ordre de ramification cohérent parmi les espèces examinées. En revanche, d'autres outils existants avaient du mal à fournir la même clarté.
Recommandations des études de cas
Les chercheurs ont remarqué que VEHoP fonctionnait bien même avec des données fragmentées de génomes mal annotés, fournissant des résultats comparables à ceux provenant d'ensembles de données de haute qualité. La flexibilité de VEHoP permet aux chercheurs d'utiliser diverses sources de données, améliorant considérablement le potentiel d'études phylogénétiques plus complètes.
Utiliser des données sous-utilisées
Les énormes quantités de données génomiques disponibles sur des plateformes publiques, y compris des génomes non annotés et des séquences brutes, peuvent être difficiles à exploiter en raison d'incohérences de qualité et de couverture. VEHoP vise à mieux utiliser ces données, en extrayant des homologues pertinents plus facilement. Cette approche peut grandement améliorer l'échantillonnage des taxons, conduisant à des arbres phylogénétiques plus fiables et clairs.
Les avantages de VEHoP
Un gros avantage de VEHoP est sa capacité à analyser différents types de données dans un seul flux de travail. Les chercheurs peuvent définir des ensembles de données personnalisés pour référence, combinant des génomes de haute qualité d'espèces étroitement liées sans être limités aux bases de données en ligne existantes. VEHoP conserve chaque orthologue qui répond aux critères établis tout en permettant aux utilisateurs de filtrer ces résultats davantage si besoin.
Limites de VEHoP
Bien que VEHoP montre des promesses, certaines limites existent encore. Par exemple, le processus peut se bloquer lors de l'alignement de certaines séquences, entraînant des temps d'analyse plus longs dans certains cas. De plus, si les données de lecture brute ne sont pas suffisantes, l'analyse résultante pourrait donner des ordres de ramification incohérents. Actuellement, VEHoP est uniquement disponible pour les systèmes Linux, mais des efforts sont en cours pour le rendre accessible sur d'autres plateformes également.
Conclusion
VEHoP représente une avancée significative dans l'analyse phylogénomique. Son design convivial permet aux chercheurs d'analyser rapidement et efficacement divers types de données, facilitant leur exploration des relations évolutives entre les organismes vivants. En exploitant les vastes quantités de données génomiques disponibles, VEHoP a le potentiel d'améliorer l'échantillonnage des taxons dans les études phylogénétiques, menant à des conclusions plus solides sur l'histoire évolutive. Son développement pourrait avoir un grand impact sur la façon dont les chercheurs étudient et comprennent l'interconnexion de la vie sur Terre.
Titre: VEHoP: A Versatile, Easy-to-use, and Homology-based Phylogenomic pipeline accommodating diverse sequences
Résumé: Phylogenomics has become a prominent method in systematics, conservation biology, and biomedicine, as it can leverage hundreds to thousands of genes derived from genomic or transcriptomic data to infer evolutionary relationships. However, obtaining high-quality genomes and transcriptomes requires samples preserved with high-quality DNA and RNA and demands considerable sequencing costs and lofty bioinformatic efforts (e.g., genome/transcriptome assembly and annotation). Notably, only fragmented DNA reads are accessible in some rare species due to the difficulty in sample collection and preservation, such as those inhabiting the deep sea. To address this issue, we here introduce the VEHoP (Versatile, Easy-to-use Homology-based Phylogenomic) pipeline, designed to infer protein-coding regions from DNA assemblies and generate alignments of orthologous sequences, concatenated matrices, and phylogenetic trees. This pipeline aims to 1) expand taxonomic sampling by accommodating a wide range of input files, including draft genomes, transcriptomes, and well-annotated genomes, and 2) simplify the process of conducting phylogenomic analyses and thus make it more accessible to researchers from diverse backgrounds. We first evaluated the performance of VEHoP using datasets of Ostreida, yielding robust phylogenetic trees with strong bootstrap support. We then applied VEHoP to reconstruct the phylogenetic relationship in the enigmatic deep-sea gastropod order Neomphalida, obtaining a robust phylogenetic backbone for this group. The VEHoP is freely available on GitHub (https://github.com/ylify/VEHoP), whose dependencies can be easily installed using Bioconda.
Auteurs: Jin Sun, Y. Li, X. Liu, C. Chen, J.-W. Qiu, K. Kocot
Dernière mise à jour: 2024-07-24 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604968
Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604968.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.