Avancées dans la génomique des plantes polyploïdes
Un nouvel outil bioinformatique améliore l'analyse des plantes polyploïdes et de leur lignée.
― 8 min lire
Table des matières
- Les défis de l'analyse des espèces polyploïdes
- L'importance de la phase des données génétiques
- Présentation d'un nouveau pipeline bioinformatique : PATÉ
- Importance de l'enrichissement ciblé dans le Phasage
- Comment les données phasées améliorent l'analyse des polyploïdes
- Le rôle du phasage dans l'estimation du temps de divergence
- Tester le nouveau pipeline avec le complexe de fougères Dryopteris
- Quatre tests : explorer les relations entre les espèces Dryopteris
- Les avantages de l'utilisation de données phasées
- Les limites du phasage dans les estimations de réseaux complexes
- Conclusion : l'avenir du phasage dans les études sur l'évolution des plantes
- Source originale
- Liens de référence
La Polyploïdie, c'est quand un organisme a plus de deux jeux de chromosomes. C'est un phénomène assez fréquent chez les plantes et ça joue un rôle important dans leur évolution. Des recherches récentes montrent qu'environ 35 % des plantes vasculaires viennent d'événements de polyploïdie. Malheureusement, même si on comprend de mieux en mieux la génétique et l'évolution, l'étude de la polyploïdie n'est pas simple, surtout en phylogénétique, qui s'intéresse aux relations évolutives.
Les défis de l'analyse des espèces polyploïdes
Quand les chercheurs analysent les données génétiques des plantes polyploïdes, ils rencontrent souvent des difficultés, surtout avec les allopolyploïdes, qui résultent de l'hybridation de deux espèces différentes. Un des gros défis, c'est d'identifier les différentes versions des gènes, appelées allèles, qui viennent des espèces parentes. La plupart des outils de bioinformatique utilisés pour analyser les données génétiques ont été initialement conçus pour des organismes diploïdes, comme les humains. Ces outils traitent souvent les infos génétiques des polyploïdes d'une manière simplifiée, ce qui peut mener à des résultats inexactes et cacher la vraie nature de la polyploïdie et ses origines.
Pour mieux comprendre les espèces de plantes polyploïdes, les scientifiques doivent travailler avec des données qui reflètent les histoires complexes et les variations présentes chez ces organismes. Ça aiderait à identifier correctement les relations entre les différentes espèces et à comprendre comment elles ont évolué.
L'importance de la phase des données génétiques
La phase, c'est le processus qui consiste à déterminer quels allèles viennent de quelles espèces parentes chez les organismes polyploïdes. C'est super important pour reconstruire avec précision leur histoire évolutive, surtout quand on regarde un petit nombre de marqueurs génétiques. Des études précédentes montrent que la phase est importante, mais les chercheurs n'ont pas encore vraiment exploré les effets de l'utilisation de données phasées par rapport à des données non phasées pour étudier les histoires polyploïdes.
Présentation d'un nouveau pipeline bioinformatique : PATÉ
Pour relever les défis de l'analyse des données génétiques polyploïdes, un nouveau pipeline appelé PATÉ a été développé. Cet outil peut phaser les données génétiques des organismes polyploïdes sans avoir besoin de prélever leurs lignées parentales. Il a été conçu pour travailler avec des données d'enrichissement ciblé, une technique où des régions spécifiques du génome sont isolées et séquencées.
Le nouveau pipeline est évolutif, ce qui signifie qu'il peut gérer des projets impliquant de nombreux individus et de grands ensembles de données. En utilisant des algorithmes de phase avancés, PATÉ peut fournir aux chercheurs des séquences génétiques plus précises en récupérant des séquences haplotypiques phasées des polyploïdes.
Importance de l'enrichissement ciblé dans le Phasage
L'enrichissement ciblé est une méthode populaire pour collecter d'importants ensembles de données phylogénomiques. Cette technique consiste à se concentrer sur des gènes et des régions spécifiques, ce qui peut donner des aperçus de l'histoire évolutive de groupes de plantes complexes. De nombreux kits de sondes pour l'enrichissement ciblé ont été développés, permettant aux chercheurs d'isoler et de séquencer des parties spécifiques du génome.
Cependant, de nombreuses méthodes existantes pour générer ces ensembles de données ont été conçues pour des organismes diploïdes et ne fonctionnent pas bien pour les espèces polyploïdes. Cela soulève des inquiétudes sur l'exactitude des analyses qui suivent.
Comment les données phasées améliorent l'analyse des polyploïdes
Les données phasées peuvent améliorer l'analyse des espèces polyploïdes en fournissant des infos plus claires sur les relations entre différentes espèces. En utilisant des données phasées, les chercheurs peuvent mieux distinguer les différents types de polyploïdie, comme l'allopolyploïdie et l'autopolyploïdie. Ça aide aussi à identifier les taxons parentaux impliqués dans la formation de nouvelles espèces.
De plus, utiliser des données phasées permet d'estimer plus précisément les temps de divergence et de mieux reconstruire les réseaux phylogénétiques - des diagrammes qui montrent les relations entre les espèces. Ces infos sont essentielles pour comprendre les complexités de l'évolution des plantes.
Le rôle du phasage dans l'estimation du temps de divergence
L'estimation du temps de divergence est un aspect essentiel pour comprendre comment les espèces ont évolué au fil du temps. Utiliser des données phasées peut mener à des estimations plus précises du moment où les événements d'hybridation ont eu lieu. Par exemple, les données phasées peuvent fournir des estimations plus récentes des temps de divergence pour certaines espèces, permettant aux chercheurs de mieux comprendre leur histoire évolutive.
En revanche, les données non phasées ont tendance à donner des estimations plus anciennes ou moins précises. Cet écart souligne la nécessité d'utiliser des données phasées chaque fois que c'est possible, surtout quand on étudie des plantes polyploïdes.
Tester le nouveau pipeline avec le complexe de fougères Dryopteris
Pour tester l'efficacité du pipeline PATÉ, les chercheurs l'ont appliqué à un groupe bien étudié de fougères américaines appelé Dryopteris. Ce groupe comprend plusieurs espèces, dont certaines sont connues pour s'être formées à travers des événements d'hybridation.
En utilisant de nouvelles données d'enrichissement ciblé, les chercheurs ont généré des séquences génétiques phasées pour les espèces Dryopteris. Les tests ont montré que le pipeline pouvait récupérer des données phasées de haute qualité, permettant d'analyser des relations évolutives complexes au sein du groupe.
Quatre tests : explorer les relations entre les espèces Dryopteris
Les chercheurs ont effectué quatre tests pour évaluer à quel point les données phasées pouvaient résoudre les relations entre les différentes espèces au sein du complexe Dryopteris.
Tests à trois espèces
Le premier test s'est concentré sur les relations entre trois espèces : deux parents diploïdes et leur progéniture hybride supposée. Les résultats ont soutenu l'hypothèse qu'une hybridation avait eu lieu, renforçant l'idée que le phasage peut clarifier les relations dans les systèmes polyploïdes.
Tests à neuf espèces
Le deuxième test a examiné les relations entre neuf espèces de Dryopteris. Cette analyse a révélé plusieurs événements de réticulation, indiquant des cas d'hybridation et de flux génétique entre les espèces. Les résultats ont montré que les données phasées offraient des aperçus plus clairs des relations entre les espèces par rapport aux données non phasées.
Les avantages de l'utilisation de données phasées
Les chercheurs ont constaté que l'utilisation de données phasées dans leurs analyses améliorait l'exactitude des relations estimées entre les espèces, offrait des aperçus plus clairs des événements d'hybridation et permettait de mieux estimer les temps de divergence.
Les limites du phasage dans les estimations de réseaux complexes
Bien que le phasage ait des avantages clairs, il présente aussi des défis. Des lignées parentales profondément divergées peuvent compliquer le processus de phasage et entraîner des erreurs. En outre, certains réseaux peuvent rester difficiles à estimer avec précision en raison des complexités inhérentes à l'évolution réticulaire.
Conclusion : l'avenir du phasage dans les études sur l'évolution des plantes
Le phasage est une approche précieuse pour étudier les histoires évolutives complexes des plantes polyploïdes. Le développement d'outils comme PATÉ offre des opportunités prometteuses aux chercheurs pour approfondir leur compréhension des relations, des événements d'hybridation et des temps de divergence au sein des lignées de plantes. À mesure que de plus en plus de données génomiques phasées de haute qualité deviennent disponibles, la compréhension du rôle de la polyploïdie dans l'évolution des plantes continuera de croître, améliorant finalement notre connaissance de la diversité et de l'histoire des plantes.
Il sera crucial de continuer à améliorer les méthodes d'analyse des données polyploïdes et d'aborder les défis associés aux divergences profondes et à l'évolution réticulaire pour faire avancer les études évolutives sur les plantes. Ce travail en cours souligne la nécessité d'outils et de stratégies robustes pour reconstruire avec précision les histoires complexes des espèces de plantes polyploïdes pour les recherches futures dans ce domaine en pleine évolution.
Titre: Benefits and Limits of Phasing Alleles for Network Inference of Allopolyploid Complexes
Résumé: Accurately reconstructing the reticulate histories of polyploids remains a central challenge for understanding plant evolution. Although phylogenetic networks can provide insights into relationships among polyploid lineages, inferring networks may be hindered by the complexities of homology determination in polyploid taxa. We use simulations to show that phasing alleles from allopolyploid individuals can improve phylogenetic network inference under the multispecies coalescent by obtaining the true network with fewer loci compared to haplotype consensus sequences or sequences with heterozygous bases represented as ambiguity codes. Phased allelic data can also improve divergence time estimates for networks, which is helpful for evaluating allopolyploid speciation hypotheses and proposing mechanisms of speciation. To achieve these outcomes in empirical data, we present a novel pipeline that leverages a recently developed phasing algorithm to reliably phase alleles from polyploids. This pipeline is especially appropriate for target enrichment data, where depth of coverage is typically high enough to phase entire loci. We provide an empirical example in the North American Dryopteris fern complex that demonstrates insights from phased data as well as the challenges of network inference. We establish that our pipeline (PATE: Phased Alleles from Target Enrichment data) is capable of recovering a high proportion of phased loci from both diploids and polyploids. These data may improve network estimates compared to using haplotype consensus assemblies by accurately inferring the direction of gene flow, but statistical non-identifiability of phylogenetic networks poses a barrier to inferring the evolutionary history of reticulate complexes.
Auteurs: George P. Tiley, A. A. Crowl, P. S. Manos, E. B. Sessa, C. Solis-Lemus, A. D. Yoder, J. G. Burleigh
Dernière mise à jour: 2024-04-28 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2021.05.04.442457
Source PDF: https://www.biorxiv.org/content/10.1101/2021.05.04.442457.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.