Nouvelle méthode pour comparer les arbres génétiques
Une nouvelle approche améliore la façon dont les scientifiques réconcilient les arbres génétiques et les arbres des espèces.
― 8 min lire
Table des matières
- C'est quoi la réconciliation ?
- Défis dans l'évaluation des Réconciliations
- La distance de Robinson-Foulds étiquetée
- Incertitude topologique dans les arbres génétiques
- Une nouvelle approche pour comparer les arbres génétiques
- Concepts initiaux
- Arbres des espèces et arbres génétiques réconciliés
- Isomorphisme entre les arbres génétiques réconciliés
- La mesure de dissimilarité
- Validation de l'approche
- Quelques points clés à retenir
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Pendant l'évolution, les gènes peuvent changer de plusieurs façons-certains peuvent être dupliqués, perdus ou transférés entre espèces. Ces changements peuvent entraîner des différences entre les arbres génétiques (qui montrent comment les gènes sont liés) et les arbres des espèces (qui montrent comment les espèces sont liées). Quand ça arrive, les scientifiques essaient de comprendre quels événements ont conduit à ces différences. Ce processus s'appelle la réconciliation.
C'est quoi la réconciliation ?
La réconciliation cherche les événements dans l'évolution qui peuvent expliquer pourquoi un arbre génétique et un Arbre des espèces ne correspondent pas parfaitement. Les scientifiques ont créé différents modèles pour faire ça. Certains modèles permettent des changements comme des duplications, des pertes, et même des transferts entre espèces, tandis que d'autres prennent une approche plus simple.
Il y a plein d'outils disponibles pour aider les chercheurs à réconcilier les arbres génétiques avec les arbres des espèces. Certains d'entre eux incluent NOTUNG, DLCoal, RANGER-DTL, ecceTERA et Jane. La plupart de ces outils montrent, pour chaque nœud ancestral de l'arbre génétique, les espèces ancestrales liées et les événements qui ont affecté le gène.
Réconciliations
Défis dans l'évaluation desMalgré tous ces outils, c'est souvent difficile de juger de la qualité des réconciliations. Un logiciel de haute qualité peut simuler comment les arbres génétiques évoluent, mais comparer les arbres génétiques réconciliés simulés avec ceux réels, c'est pas évident. Il y a beaucoup d'infos dans les arbres génétiques réconciliés, y compris leur forme, comment les gènes correspondent aux espèces, et des étiquettes pour différents événements. Bien qu'il existe des moyens de mesurer les différences dans chacun de ces domaines séparément, il n'y a pas de méthode établie pour mesurer les différences dans les trois à la fois.
Les chercheurs ont développé divers moyens de mesurer les différences dans les formes d'arbres (topologies). Pour les différences de correspondance gène-espèce, une méthode appelée la métrique de distance de chemin peut être utilisée pour des arbres génétiques qui ont la même forme mais peuvent avoir des correspondances différentes aux espèces. Cependant, cette méthode ne fonctionne pas bien si les arbres génétiques ont des formes différentes.
La distance de Robinson-Foulds étiquetée
Un des moyens les plus pertinents pour comparer les arbres génétiques réconciliés est une métrique appelée la distance de Robinson-Foulds étiquetée (RF), qu'on appelle ELRF. Cette distance mesure combien d'actions-comme changer les arêtes ou les étiquettes-sont nécessaires pour transformer un arbre génétique en un autre. Le problème, c'est que c'est flou si cette distance peut être calculée rapidement, ce qui devient compliqué quand les arêtes ont des étiquettes différentes.
Les auteurs de l'ELRF ont proposé une variante appelée LRF, qui remplace certaines opérations par une autre approche qui peut être calculée plus rapidement. Cependant, bien que ces méthodes soient spécialisées pour comparer des arbres génétiques, elles ne prennent pas en compte comment les gènes correspondent aux espèces, et elles viennent avec des problèmes connus.
Incertitude topologique dans les arbres génétiques
Un autre facteur important à considérer est l'incertitude dans les formes des arbres génétiques. Quand les espèces passent par des duplications, les arbres génétiques résultants peuvent avoir de grandes sections qui sont incertaines. Dans ces cas, il est souvent difficile de déterminer avec précision la forme de ces parties. Beaucoup de méthodes de réconciliation traitent les divergences dans ces parties incertaines de la même manière qu'elles traitent les divergences ailleurs, même si les divergences dues à la duplication génétique devraient être considérées différemment.
Une nouvelle approche pour comparer les arbres génétiques
Dans ce travail, une nouvelle méthode de comparaison des arbres génétiques est introduite, prenant en compte l'arbre des espèces, l'arbre génétique, l'étiquetage des événements, et les clusters de duplication. Cette nouvelle mesure évite beaucoup de problèmes de la distance RF. Pour deux arbres génétiques réconciliés impliquant les mêmes gènes, la mesure trouve la correspondance entre leurs nœuds et applique des pénalités si les nœuds diffèrent soit en espèces soit en étiquette d'événement. La méthode capture aussi efficacement les petites, moyennes et grandes différences.
Concepts initiaux
Un arbre représente un graphe connecté qui ne fait pas de boucle. Dans ce contexte, tous les arbres discutés sont enracinés, ce qui signifie qu'ils ont un point de départ. Les arbres ont des nœuds internes et des feuilles. Un nœud interne n'est pas une feuille, et un descendant est un nœud qui peut être atteint en descendant à partir d'un autre nœud.
Arbres des espèces et arbres génétiques réconciliés
On suppose qu'un arbre des espèces est binaire, ce qui signifie que chaque nœud interne a deux enfants. Un arbre génétique réconcilié inclut un arbre génétique, un arbre des espèces, une correspondance des nœuds aux espèces, et un étiquetage des événements. Il y a plusieurs conditions pour les arbres génétiques réconciliés, incluant :
- Les feuilles appartiennent à des espèces existantes.
- La cohérence temporelle entre les nœuds.
- Les spéciations maintiennent les espèces séparées.
Si un arbre génétique réconcilié suit toutes ces règles, il est appelé mappage du plus bas ancêtre commun (mappage lca). Cela signifie que les gènes correspondent aux espèces les plus basses possibles selon les règles de réconciliation.
Isomorphisme entre les arbres génétiques réconciliés
Deux arbres génétiques réconciliés sont isomorphes s'ils partagent les mêmes feuilles, arbre des espèces, et topologie, tandis que leurs nœuds correspondants correspondent à des espèces et étiquettes identiques.
La mesure de dissimilarité
La nouvelle mesure évalue les écarts dans les correspondances d'espèces et les étiquettes de nœuds. Elle est définie de manière à ce que chaque terme pénalise les écarts en mesurant à quel point les espèces sont éloignées de leurs homologues et en comptant le nombre de nœuds qui diffèrent en étiquetage.
Validation de l'approche
La mesure a été testée avec des réconciliations simulées, et elle montre que les distances précédentes surestiment souvent les différences entre les arbres. La nouvelle mesure capture mieux une gamme de différences, montrant une sensibilité aux variations dans la réconciliation.
Quelques points clés à retenir
- Un arbre est un graphe sans boucles qui représente des relations entre des choses.
- La nouvelle méthode pour comparer les arbres génétiques prend en compte plusieurs composants de la réconciliation.
- Elle fonctionne efficacement en temps linéaire, ce qui la rend pratique pour de grands ensembles de données.
Directions futures
À l'avenir, les chercheurs vont affiner les paramètres théoriques de la mesure et explorer son application dans différents contextes. Une grande question ouverte est de savoir si les arbres génétiques binaires satisfont à l'inégalité triangulaire, qui est une propriété mathématique spécifique.
Conclusion
La nouvelle mesure de dissimilarité représente un progrès dans la façon dont les scientifiques peuvent comparer des arbres génétiques réconciliés dans des cadres d'arbres d'espèces spécifiés. Elle permet une compréhension plus complète de la complexité de l'évolution, offrant un outil flexible et efficace pour la recherche en biologie évolutive.
Avec cette méthode, les chercheurs sont mieux équipés pour analyser les relations entre les gènes et les espèces, ouvrant la voie à des aperçus plus profonds sur l'évolution biologique.
Titre: The Path-Label Reconciliation (PLR) Dissimilarity Measure for Gene Trees
Résumé: In this study, we investigate the problem of comparing gene trees reconciled with the same species tree using a novel semi-metric, called the Path-Label Reconciliation (PLR) dissimilarity measure. This approach not only quantifies differences in the topology of reconciled gene trees, but also considers discrepancies in predicted ancestral gene-species maps and speciation/duplication events, offering a refinement of existing metrics such as Robinson-Foulds (RF) and their labeled extensions LRF and ELRF. A tunable parameter {\alpha} also allows users to adjust the balance between its species map and event labeling components. We show that PLR can be computed in linear time and that it is a semi-metric. We also discuss the diameters of reconciled gene tree measures, which are important in practice for normalization, and provide initial bounds on PLR, LRF, and ELRF. To validate PLR, we simulate reconciliations and perform comparisons with LRF and ELRF. The results show that PLR provides a more evenly distributed range of distances, making it less susceptible to overestimating differences in the presence of small topological changes, while at the same time being computationally efficient. Our findings suggest that the theoretical diameter is rarely reached in practice. The PLR measure advances phylogenetic reconciliation by combining theoretical rigor with practical applicability. Future research will refine its mathematical properties, explore its performance on different tree types, and integrate it with existing bioinformatics tools for large-scale evolutionary analyses. The open source code is available at: https://pypi.org/project/parle/.
Auteurs: Alitzel López Sánchez, José Antonio Ramírez-Rafael, Alejandro Flores-Lamas, Maribel Hernández-Rosales, Manuel Lafond
Dernière mise à jour: 2024-07-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.06367
Source PDF: https://arxiv.org/pdf/2407.06367
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.