Un nouvel algorithme améliore la réconciliation des arbres génétiques
L'algorithme ReconcILS améliore la précision en comparant les arbres génétiques et les arbres des espèces.
― 10 min lire
Table des matières
- Arbres Génétiques et Arbres des Espèces
- Triade de Lignée Incomplète (ILS)
- Introduction d'un Nouvel Algorithme
- Simulateur de Coalescence Multispecies Mulitlocuus (dupcoal)
- Processus de Simulation d'Arbre Génétique
- Entrées et Sorties
- Détails Principaux de l'Algorithme
- Parcours dans les Arbres
- Choix des Événements
- Étiquetage des Arbres Génétiques Réconciliés
- Évaluation de la Précision par Simulations
- Précision des Méthodes Standards
- Précision de ReconcILS et d'Autres Méthodes
- Analyse des Génomes de Primates
- Résultats des Orthologues à Copie Unique
- Ensemble Complet de Données d'Arbres Génétiques
- Avantages par rapport aux Méthodes Traditionnelles
- Directions Futures
- Conclusion
- Source originale
- Liens de référence
L'étude des gènes chez plein d'espèces a montré que les gènes peuvent beaucoup changer avec le temps. Ils peuvent être copiés, perdus ou déplacés. Ça arrive à cause de deux processus principaux : l'introgression (où les gènes sont déplacés sans avoir une copie en plus) et le transfert horizontal de gènes (où une copie en plus est créée). Les scientifiques veulent comprendre à quelle fréquence ces changements arrivent et quand. Une façon courante de faire ça, c'est de comparer les arbres génétiques avec les arbres des espèces.
Arbres Génétiques et Arbres des Espèces
Un arbre génétique montre comment différentes versions d'un gène sont reliées, tandis qu'un Arbre des espèces montre comment différentes espèces sont liées. En comparant ces deux types d'arbres, les scientifiques cherchent des différences ou des "discordances". En utilisant des algorithmes, ils peuvent comprendre quels événements ont eu lieu pour créer ces différences.
Il y a plusieurs algorithmes pour comparer ces arbres. Certains regardent seulement la duplication et la perte de gènes, tandis que d'autres incluent aussi le transfert de gènes. Les méthodes courantes fonctionnent bien, mais elles oublient souvent les discordances causées par des processus naturels appelés coalescence. La coalescence examine comment les gènes au sein d'une population se relient au fil du temps. Quand les scientifiques étudient des groupes d'individus, ils doivent tenir compte du fait que les gènes ont des ancêtres communs.
ILS)
Triade de Lignée Incomplète (Parfois, les arbres génétiques et les arbres des espèces ne s'alignent pas juste à cause de la coalescence. On appelle ça le triade de lignée incomplète (ILS). Les algorithmes standards qui se concentrent sur les Duplications et les Pertes interprètent souvent à tort les discordances causées par l'ILS comme des duplications et pertes supplémentaires. Ça peut mener à de fausses conclusions durant l'analyse des arbres avec ILS, compliquant ainsi la compréhension de l'évolution des gènes.
Pour résoudre les problèmes causés par l'ILS, plusieurs approches différentes ont été développées. Certaines méthodes permettent de combiner certaines branches dans les arbres des espèces. D'autres tentent d'inclure des événements de perte avec des duplications et ILS. Bien que certaines méthodes soient plus efficaces que d'autres, trouver un moyen de réconcilier ces arbres génétiques et arbres des espèces avec précision reste un défi.
Introduction d'un Nouvel Algorithme
Ici, un nouvel algorithme appelé reconcILS est introduit. Cet algorithme vise à fournir une meilleure façon de réconcilier les arbres génétiques et les arbres des espèces tout en tenant compte des duplications, des pertes et de l'ILS. L'objectif est d'améliorer à la fois la rapidité et la précision dans l'identification de ces événements évolutifs. L'algorithme reconcILS a aussi été testé sur un ensemble de génomes de primates pour montrer son efficacité.
Simulateur de Coalescence Multispecies Mulitlocuus (dupcoal)
Un nouveau programme de simulation nommé dupcoal a été développé pour aider à expliquer le modèle biologique utilisé pour les simulations et les comparaisons. Ce modèle considère chaque site génétique comme évoluant sous le modèle de coalescence multispecies (MSC), où les différences entre les arbres génétiques individuels et l'arbre des espèces proviennent seulement de l'ILS.
Le programme dupcoal génère un arbre génétique à partir du MSC et crée ensuite des duplications et des pertes à des moments spécifiques sur certaines branches de l’arbre des espèces. Quand une duplication se produit, un nouvel arbre génétique pour le locus fille est créé. Cet arbre montre l'historique de l'endroit où l'ADN dupliqué sera placé. En plaçant ces événements soigneusement durant les simulations, dupcoal permet aux chercheurs de suivre comment les gènes évoluent à travers les espèces.
Processus de Simulation d'Arbre Génétique
Pour résumer simplement, le processus fonctionne comme suit :
- Un arbre génétique est d'abord créé pour le locus parent.
- Les duplications et les pertes sont simulées sur l'arbre des espèces comme des événements qui se produisent à certains moments.
- Pour chaque duplication, un arbre génétique est créé pour le locus fille.
- Le modèle attribue ensuite des mutations aux branches de l'arbre génétique fille et suit comment elles se relient à l'arbre parent.
En suivant ces étapes, les chercheurs peuvent générer des arbres génétiques qui reflètent les complexités de l'évolution, y compris comment les duplications et pertes interagissent avec l'ILS.
Entrées et Sorties
L'algorithme reconcILS prend un arbre des espèces et un arbre génétique en entrée et produit une sortie détaillée. Cette sortie comprend le nombre de duplications, de pertes et de réarrangements nécessaires pour réconcilier les deux arbres. Elle identifie aussi où ces événements se sont produits dans l'arbre génétique, offrant un aperçu complet de l'histoire évolutive.
Détails Principaux de l'Algorithme
Le processus reconcILS commence par faire correspondre les nœuds dans l'arbre génétique avec les nœuds dans l'arbre des espèces. Si plusieurs nœuds d'arbre génétique correspondent à un seul nœud d'arbre des espèces, cela indique une branche discordante qui doit être résolue. L'algorithme décide comment aborder cette discordance en choisissant entre des réarrangements et des duplications en fonction de leurs coûts.
Le coût est un facteur clé dans l'algorithme ; différents événements comme les duplications, les pertes et les réarrangements ont des coûts associés différents. En évaluant soigneusement ces coûts pour chaque branche discordante, reconcILS s'efforce de trouver le moyen le plus efficace de réconcilier les arbres génétiques et des espèces.
Parcours dans les Arbres
Une fois que l'algorithme a mappé les nœuds, il vérifie chaque nœud de l'arbre des espèces pour voir combien de nœuds de l'arbre génétique y sont liés. S'il n'y en a aucun, une perte est inférée. S'il y en a un, cela représente un événement de spéciation et ça n'a pas de coût. Pour les nœuds avec deux mappages ou plus, une réconciliation locale est effectuée pour déterminer les événements causant les mappages multiples.
Quand on résout plusieurs branches, l'ordre dans lequel elles sont réconciliées peut influencer les résultats. Cet algorithme calcule le coût pour chaque option de réconciliation possible et sélectionne celle qui mène au résultat le plus efficace.
Choix des Événements
L'algorithme utilise aussi une technique appelée réconciliation locale, qui vise à réduire le nombre de mappages par nœud de l'arbre des espèces. En déterminant la manière la plus efficace de réconcilier les nœuds, reconcILS augmente sa précision et son efficacité.
L'algorithme se termine en additionnant les coûts de tous les événements qui se sont produits durant le processus de réconciliation et détermine la réconciliation locale optimale.
Étiquetage des Arbres Génétiques Réconciliés
Après la réconciliation, l'algorithme reconcILS étiquette l'arbre génétique avec des événements comme des duplications, des pertes et de l'ILS. Cet étiquetage aide à identifier l'histoire évolutive des gènes concernés. Les méthodes traditionnelles étiquettent les nœuds en fonction des duplications et de la spéciation, mais reconcILS prend également en compte l'ILS, résultant en des étiquettes plus informatives.
Évaluation de la Précision par Simulations
Pour évaluer la performance de reconcILS, les chercheurs ont réalisé des simulations en utilisant dupcoal pour créer des arbres génétiques qui évoluent sous l'ILS, la duplication et la perte. Ces simulations aident à comparer l'efficacité de reconcILS par rapport à d'autres méthodes de réconciliation.
Précision des Méthodes Standards
En évaluant les méthodes standards qui ne prennent pas en compte l'ILS, un problème commun surgit. Ces méthodes ont tendance à inférer inexactement des duplications et pertes supplémentaires. De telles erreurs proviennent souvent de ne pas tenir compte des processus naturels qui affectent les arbres génétiques.
Précision de ReconcILS et d'Autres Méthodes
Dans les tests comparant reconcILS à d'autres méthodes qui considèrent l'ILS, les deux approches ont bien fonctionné. Cependant, reconcILS a montré une précision légèrement meilleure dans l'inférence d'événements comme l'ILS et les duplications. L'algorithme a constamment fourni des résultats fiables, faisant de lui un outil précieux pour les chercheurs qui étudient l'évolution des gènes.
Analyse des Génomes de Primates
Pour démontrer l'application pratique de reconcILS, il a été appliqué à un ensemble de données d'arbres génétiques provenant de divers génomes de primates. L'objectif était d'examiner les duplications, pertes et l'ILS parmi ces espèces.
Résultats des Orthologues à Copie Unique
Pour un ensemble de gènes à copie unique, les résultats ont indiqué que ETE3, une méthode standard, avait surestimé le nombre de duplications et de pertes. En revanche, reconcILS a réussi à inférer les événements avec précision, montrant sa capacité à gérer la discordance due à l'ILS.
Ensemble Complet de Données d'Arbres Génétiques
En regardant l'ensemble complet des arbres génétiques, les résultats étaient cohérents avec ceux trouvés dans l'analyse des gènes à copie unique. Bien qu'il y ait plus de vraies duplications présentes, la capacité de reconcILS à rendre compte de l'ILS est restée évidente.
Avantages par rapport aux Méthodes Traditionnelles
Un des grands avantages de l'algorithme reconcILS est sa capacité à gérer la discordance due à l'ILS, ce qui est crucial pour inférer avec précision l'histoire évolutive des gènes. Les méthodes traditionnelles qui ne peuvent pas tenir compte de cela mènent souvent à des conclusions incorrectes.
Directions Futures
Bien que reconcILS montre des promesses, il reste encore des améliorations à faire. Les efforts futurs pourraient se concentrer sur le raffinement des coûts associés aux événements évolutifs et l'amélioration des capacités de simulation. La façon dont les données sont analysées peut être ajustée pour mieux refléter les complexités de l'évolution des gènes.
Conclusion
Pour résumer, reconcILS est un outil avancé qui traite les défis de la réconciliation des arbres génétiques et des arbres des espèces tout en tenant compte des complexités de la duplication, de la perte et de la coalescence. En utilisant cette nouvelle approche, les chercheurs peuvent obtenir une image plus claire de l'évolution des gènes et approfondir leur compréhension des relations entre les espèces.
Titre: reconcILS: A gene tree-species tree reconciliation algorithm that allows for incomplete lineage sorting
Résumé: Reconciliation algorithms provide an accounting of the evolutionary history of individual gene trees given a species tree. Many reconciliation algorithms consider only duplication and loss events (and sometimes horizontal transfer), ignoring effects of the coalescent process, including incomplete lineage sorting (ILS). Here, we present a new heuristic algorithm for carrying out reconciliation that accurately accounts for ILS by treating it as a series of nearest neighbor interchange (NNI) events. For discordant branches of the gene tree identified by last common ancestor (LCA) mapping, our algorithm recursively chooses the optimal history by comparing the cost of duplication and loss to the cost of NNI and loss. We demonstrate the accuracy of our new method, which we call reconcILS, using a new simulation engine (dupcoal) that can accurately generate gene trees produced by the interaction of duplication, loss, and ILS. Despite being a heuristic method, we show that reconcILS is much more accurate than models that ignore ILS, and at least as accurate or better than leading methods that can model ILS, while also being able to handle much larger datasets. We demonstrate the use of reconcILS by applying it to a dataset of 23 primate genomes, highlighting its accuracy compared to standard methods in the presence of large amounts of ILS.
Auteurs: Sarthak Mishra, M. L. Smith, M. W. Hahn
Dernière mise à jour: 2024-10-13 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.11.03.565544
Source PDF: https://www.biorxiv.org/content/10.1101/2023.11.03.565544.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.