Simple Science

La science de pointe expliquée simplement

# Biologie# Biologie de l'évolution

L'influence de la dépendance des arbres génétiques sur la précision d'ASTRAL

Examiner comment la dépendance des arbres génétiques affecte la précision d'ASTRAL dans l'inférence des arbres des espèces.

― 11 min lire


Dépendance de l'arbreDépendance de l'arbregénéalogique et ASTRALd'ASTRAL.arbres génétiques sur la précisionÉtudier les effets de la dépendance des
Table des matières

La spéciation, c'est un processus où différentes populations d'une espèce évoluent jusqu'à devenir des espèces séparées. Les chercheurs utilisent des outils comme les arbres phylogénétiques et les arbres génétiques pour suivre et comprendre ce processus. Un arbre phylogénétique montre comment les espèces ont évolué et se sont séparées au fil du temps. Chaque espèce est représentée par une feuille, tandis que les points où elles se séparent, ou les événements de spéciation, sont montrés par des branches. Les arbres génétiques, eux, montrent comment les gènes ont évolué au sein de ces espèces. En étudiant les deux types d'arbres, les scientifiques peuvent en apprendre davantage sur l'histoire de la vie sur Terre.

Qu'est-ce que les arbres phylogénétiques et les arbres génétiques ?

Les arbres phylogénétiques montrent les relations entre différentes espèces, tandis que les arbres génétiques se concentrent sur l'histoire de gènes spécifiques. Quand une espèce se divise en deux, les gènes de ces espèces changent aussi. Donc, les arbres génétiques sont souvent liés aux arbres phylogénétiques. Cependant, les arbres génétiques peuvent différer des arbres phylogénétiques pour plusieurs raisons, comme la duplication ou la perte de gènes, le transfert horizontal de gènes, et le tri inachevé des lignées. Le tri inachevé des lignées se produit quand différentes lignées de gènes ne se rejoignent pas comme prévu au fil de nombreux événements de spéciation, et ça peut créer de la confusion sur l'arbre qui est précis.

Importance des arbres génétiques et phylogénétiques

Pour mieux comprendre l'histoire des espèces et des gènes, les chercheurs doivent considérer plusieurs familles de gènes. Il y a deux méthodes principales pour créer un arbre phylogénétique : la concaténation et les méthodes de résumé. La concaténation combine les séquences de gènes en une grande séquence, qui est ensuite utilisée pour créer un arbre phylogénétique. Cependant, cette méthode suppose que tous les gènes suivent le même arbre, ce qui n'est souvent pas le cas.

Les méthodes de résumé fonctionnent différemment. Elles analysent les arbres génétiques séparés puis résument les résultats pour construire un arbre phylogénétique. Certaines de ces méthodes utilisent seulement les formes des arbres génétiques, tandis que d'autres prennent en compte à la fois les formes et les longueurs des branches. Ces méthodes peuvent traiter des arbres génétiques enracinés ou non enracinés comme entrées. Il existe de nombreuses méthodes de résumé différentes, et elles varient dans leur approche.

Comment fonctionne ASTRAL

ASTRAL est l'une des méthodes de résumé et est connue pour sa précision et son adaptabilité. Elle peut produire une bonne estimation de l'arbre phylogénétique tant que les arbres génétiques sont créés en utilisant le modèle de coalescence multispecifique. ASTRAL a été testé en profondeur avec des simulations, montrant sa précision dans diverses conditions. Cependant, sa précision peut aussi être influencée par des erreurs dans les estimations des arbres génétiques.

La plupart des études passées sur ASTRAL ont examiné des arbres génétiques créés de manière indépendante. Cela suppose que les gènes n'ont aucune connexion entre eux, ce qui n'est pas toujours vrai dans la réalité. En fait, les gènes qui sont proches les uns des autres sur un chromosome tendent à partager une histoire évolutive plus connectée. Des événements de Recombinaison peuvent séparer ces histoires, mais ils ne se produisent pas au hasard et peuvent créer des liens entre les arbres génétiques.

Le besoin de clarté sur la dépendance des arbres génétiques

La dépendance des arbres génétiques est essentielle à considérer car elle peut avoir un impact significatif sur les performances d'ASTRAL. Les recherches précédentes ont examiné cette question, mais les méthodes utilisées pour identifier les limites des gènes peuvent avoir influencé les résultats de manière excessive. Dans certains cas, ces méthodes créent une forte dépendance entre les arbres génétiques voisins, ce qui peut ne pas refléter leurs véritables relations.

La recombinaison au sein des gènes ajoute une autre couche de complexité. On sait que la recombinaison peut affecter l'histoire évolutive, et les chercheurs ont beaucoup travaillé pour comprendre ces processus. Les méthodes plus anciennes pour analyser la recombinaison produisaient de meilleurs résultats en utilisant des approximations de la coalescence avec recombinaison.

Évaluation de la précision d'ASTRAL

Le but des études récentes a été de réévaluer la précision d'ASTRAL lorsque les arbres génétiques sont connectés. Cela implique de créer un nouveau modèle qui génère des arbres génétiques dépendants. En utilisant ces arbres génétiques comme entrée pour ASTRAL, les chercheurs peuvent ensuite estimer des arbres phylogénétiques. Il s'avère que la précision d'ASTRAL a peut-être été surestimée lorsque l'on prend en compte des taux de recombinaison réalistes. Les résultats suggèrent que la dépendance des arbres génétiques pourrait être un facteur significatif affectant les performances d'ASTRAL.

La précision d'ASTRAL peut être évaluée en comparant le vrai arbre phylogénétique à l'arbre inféré par ASTRAL. Par exemple, les chercheurs ont travaillé avec des ensembles de données provenant de mammifères et de champignons pour voir à quel point ASTRAL performe bien avec des arbres génétiques dépendants.

Simuler des arbres génétiques

Pour créer des arbres génétiques réalistes au sein d'un arbre phylogénétique, les chercheurs peuvent générer un ensemble d'arbres génétiques basé sur l'histoire évolutive des espèces. Une fois l'arbre phylogénétique établi, différents arbres génétiques sont créés et considérés comme dépendants les uns des autres. Cela signifie que la généalogie d'un arbre influence l'autre, donnant une image plus claire de la façon dont les gènes ont évolué par rapport à l'espèce.

Le processus de génération d'arbres génétiques dépendants

Dans la génération d'arbres génétiques dépendants, les chercheurs peuvent commencer avec deux loci, qui sont des sections du génome. La généalogie du deuxième locus est conditionnée par la généalogie du premier locus. En termes plus simples, cela signifie que l'évolution d'un gène à un endroit influence comment un gène à proximité pourrait évoluer au fil du temps.

Les événements de recombinaison séparent les généalogies entre les deux loci, ce qui entraîne des différences dans les arbres génétiques. Plus précisément, quand les chercheurs analysent la généalogie du deuxième locus, ils peuvent voir à quelle fréquence elle correspond ou diverge du premier locus en fonction des événements de recombinaison.

Résultats clés sur la performance d'ASTRAL

Les chercheurs ont trouvé que la précision d'ASTRAL augmente à mesure que le degré d'indépendance entre les arbres génétiques augmente. À l'inverse, lorsque les arbres génétiques sont dépendants, la performance d'ASTRAL diminue. La relation entre l'indépendance des arbres génétiques et leur précision a été testée dans diverses situations, y compris des ensembles de données avec différents nombres de taxa.

Des investigations supplémentaires sur la performance d'ASTRAL ont montré que lorsque la dépendance des arbres génétiques est significative, ASTRAL a plus de difficultés que lorsque les erreurs proviennent de l'estimation des arbres génétiques. Cela souligne l'importance des deux facteurs dans la détermination de la précision d'ASTRAL pour inférer des arbres phylogénétiques.

Effets du tri inachevé des lignées

Le tri inachevé des lignées joue également un rôle dans la précision d'ASTRAL. Les chercheurs ont examiné comment ASTRAL performe sous des conditions d'ILS accru en ajustant les longueurs des branches dans l'arbre phylogénétique. Les résultats indiquent que la précision d'ASTRAL diminue avec un ILS plus important, reflétant ce qui a été observé avec des arbres génétiques indépendants.

Lorsque les chercheurs ont effectué des simulations avec sept différents niveaux d'ILS, ils ont noté qu'ASTRAL continuait d'avoir des difficultés lorsque la dépendance entre les arbres était élevée. Cette tendance s'est maintenue dans différentes simulations, soulignant la nécessité d'une considérations prudente des données utilisées avec ASTRAL.

L'importance des données réelles

Pour ancrer leurs recherches dans la réalité, les scientifiques ont également effectué des analyses sur des données biologiques réelles. En regardant de véritables arbres génétiques provenant d'ensembles de données mammifères, ils pouvaient évaluer comment ASTRAL gère les arbres dépendants dans des scénarios pratiques.

Estimer le taux de recombinaison à partir de jeux de données biologiques est une étape cruciale. En calculant les distances moyennes entre les arbres génétiques et en les faisant correspondre avec des données simulées, les chercheurs peuvent trouver une mesure plus réaliste pour le taux de recombinaison. Pour leurs ensembles de données, ils ont trouvé des preuves indiquant que les arbres génétiques n'étaient pas indépendants, entraînant une réévaluation de la précision d'ASTRAL.

Taille d'échantillon efficace et dépendance des arbres génétiques

Quand on regarde la taille d'échantillon efficace d'ASTRAL, il est essentiel de déterminer combien d'informations sont disponibles dans l'échantillon compte tenu de la dépendance des arbres génétiques. Cela signifie calculer combien d'arbres indépendants seraient nécessaires pour obtenir une précision similaire à celle obtenue avec des arbres dépendants.

La taille d'échantillon efficace dans des ensembles de données pratiques tend à être significativement inférieure à la taille d'échantillon réelle. Par exemple, les chercheurs ont trouvé que la taille d'échantillon efficace dans leur ensemble de données mammifères était d'environ un tiers de la taille réelle. Cette découverte souligne que l'utilisation d'arbres génétiques indépendants dans des simulations pourrait conduire à une compréhension biaisée de la performance d'ASTRAL.

Conclusion : Aller de l'avant

Dans l'ensemble, les résultats des études récentes indiquent que la dépendance des arbres génétiques peut avoir un impact significatif sur la précision de la méthode ASTRAL. La performance d'ASTRAL est nettement moins bonne lorsque les arbres génétiques sont dépendants. De plus, la précision peut être influencée négativement par des erreurs dans l'estimation des arbres génétiques lorsque la dépendance est également prise en compte.

À mesure que la collecte de données génomiques continue d'augmenter, il devient crucial de considérer les impacts de la dépendance des arbres génétiques, surtout lorsque l'on tente de reconstruire des arbres phylogénétiques. Bien qu'ASTRAL reste une méthode populaire pour l'inférence des arbres phylogénétiques, ses résultats pourraient être mieux compris avec de nouveaux modèles qui prennent en compte avec précision la dépendance des arbres génétiques. À l'avenir, les chercheurs pourraient explorer de nouvelles méthodes qui pèsent les quartets en fonction de leurs modèles génomiques pour améliorer les inférences des arbres phylogénétiques à la lumière de la dépendance des arbres génétiques.

Source originale

Titre: The accuracy of species tree inference under gene tree dependence

Résumé: When inferring the evolutionary history of species and the genes they contain, the phylogenetic trees of the genes can be different to that of the species and to each other, due to a variety of causes including incomplete lineage sorting. We often wish to infer the species tree, but only reconstruct the gene trees from sequences. We then combine the gene trees to produce a species tree; methods to do this are known as summary methods, of which ASTRAL is the currently among the most popular. ASTRAL has been shown to be practically accurate in many scenarios through extensive simulations. However, these simulations generally assume that the input gene trees are independent of each other. This is known to be unrealistic, as genes that are close to each other on the chromosome (or are related by function) have dependent phylogenies, due to the absence of unlimited recombination between the genes. In this paper, we develop a model for generating dependent gene trees within a species tree, based on the coalescent with recombination. We then use these trees as input to ASTRAL to reassess its accuracy for dependent gene trees. Our results show that ASTRAL performs more poorly with greater dependence, both when gene trees are known and estimated from sequences. Indeed, the effect of dependence between gene trees is comparable to (if not larger than) the effect of gene tree estimation error. We then re-analyse a 37-taxon mammalian data set; under a realistic recombination rate, the estimated accuracy of ASTRAL decreases substantially (the Robinson-Foulds distance increases by a factor of 4.7) relative to the accuracy previously estimated with independent gene trees, and the effective sample size for this dataset is about one-third of the actual sample size. This shows that the impact of gene tree dependence on the accuracy of ASTRAL (and other summary methods) can be extensive. Author summaryThe study of the evolutionary history of species is important for understanding and reconstructing the history of life on Earth. These evolutionary histories are represented in the form of species trees, which can be reconstructed from the evolutionary histories of the genes contained in the species using so-called species tree inference methods. This is complicated by the fact that the histories of the genes (gene trees) can be related to each other, depending on their placement in the genome or their functions. Gene tree dependence is not taken into account in almost all studies of the accuracy of species tree inference. In this paper, we develop a statistical model to include gene tree dependence, and show that it can significantly affect the accuracy of species tree inference. This effect is at least as large as the impact of incorrect reconstruction of the gene trees themselves, a well-known issue in species tree inference.

Auteurs: Yao-ban Chan, W. He, C. Scornavacca

Dernière mise à jour: 2024-06-09 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.06.06.597697

Source PDF: https://www.biorxiv.org/content/10.1101/2024.06.06.597697.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires