Des avancées en recherche génomique révèlent de nouvelles infos génétiques
Des études récentes sur les génomes d'A. thaliana améliorent notre compréhension de la variation génétique.
― 10 min lire
Table des matières
Au cours des deux dernières décennies et demie, on a appris plein de trucs sur les différences génétiques chez les gens et d'autres organismes, surtout après l'achèvement du Projet Génome Humain. Ça a été facilité par de nouvelles technologies qui peuvent lire et analyser l'ADN rapidement. Grâce à ça, on peut étudier comment les populations vivantes ont évolué, comment les traits sont sélectionnés et comment les génomes changent. Cependant, une grande partie de ce qu'on sait actuellement sur les différences génétiques repose sur une méthode qui compare de petits morceaux d'ADN à un génome de référence. Ça peut limiter nos connaissances car souvent ça ne se concentre que sur des changements simples dans de petites régions facilement comparables, laissant de côté beaucoup de variations génétiques présentes chez différentes espèces.
Récemment, des avancées technologiques ont permis aux scientifiques de reconstituer des génomes plus complets de diverses espèces. Ça veut dire qu'on peut maintenant voir presque l'intégralité des génomes de nombreux organismes, comme la levure, les plantes et les animaux, y compris les humains. Ces nouvelles études ont montré que comprendre les variations des génomes entiers est encore compliqué à cause des incohérences dans l'alignement des séquences d'ADN. Des outils comme les graphes de Pan-génome peuvent aider à visualiser les données génétiques plus efficacement, mais ils ne résolvent pas les problèmes d'interprétation et de comparaison.
Pour illustrer ces défis, les chercheurs ont étudié les génomes de diverses accessions d'une plante modèle connue sous le nom d'Arabidopsis thaliana. Cette espèce est bien connue et présente beaucoup de variétés génétiques dans le monde entier. En examinant de nombreuses versions de son génome, les chercheurs visent à créer un tableau clair et complet des différences génétiques. Ils espèrent aussi construire des ressources qui incluront des informations sur les génomes complets et relieront les données génétiques à d'autres caractéristiques de la plante, comme sa croissance et son développement.
Tailles et Variations des Génomes
Les scientifiques ont analysé les tailles des génomes d'A. Thaliana pour comprendre les différences entre les accessions. En examinant ces génomes, ils ont trouvé qu'ils faisaient tous environ 120 mégabases. Cependant, les génomes réels pourraient être plus grands, allant de 135 à 155 mégabases. Une grande partie de cette différence est due à des régions non assemblées dans les génomes, certaines régions contribuant significativement à la variation de taille.
Les chercheurs ont également examiné la distribution et la variation de certaines séquences répétées dans les génomes. Ils ont constaté que ces répétitions avaient une forte corrélation avec la taille globale du génome. En étudiant ces relations, ils peuvent obtenir des informations sur la façon dont les différents génomes sont construits et comment ils ont changé au fil du temps.
Organisation du Génome d'A. thaliana
Pour créer des assemblages complets pour A. thaliana, les chercheurs ont sélectionné diverses accessions du monde entier, en se concentrant sur la diversité génétique. Ils ont séquencé les génomes en utilisant des technologies avancées de lecture longue, ce qui les a aidés à assembler les génomes en morceaux contigus. Cela a inclus la création de cartes pour chaque accession afin d'aider à reconstruire les chromosomes tout en étant conscient des biais possibles introduits par l'utilisation d'un génome de référence.
Le génome d'A. thaliana a montré une histoire d'activité récente d'Éléments transposables (TEs), qui sont des segments d'ADN pouvant se déplacer au sein du génome. Bien que ce mouvement puisse compliquer l'assemblage de petits fragments, la technologie de lecture longue a permis aux scientifiques de lier ces séquences ensemble. Cependant, la présence de longues séquences répétées peut encore perturber les assemblages.
Variations structurelles
Détection desEn examinant les génomes, les scientifiques ont découvert que les bras des chromosomes sont non seulement similaires en longueur, mais qu'ils sont aussi largement conservés, ce qui signifie qu'ils maintiennent leur structure à travers différentes accessions. Néanmoins, ils ont remarqué quelques grandes réorganisations au sein des génomes, comme des inversions et des translocations, ce qui peut impacter l'hérédité génétique et la fertilité des plantes concernées.
Pour mieux comprendre les variations structurelles (SVs), les chercheurs ont développé deux approches différentes. Une méthode a créé une représentation visuelle pour les navigateurs de génomes, permettant de faire des comparaisons faciles entre plusieurs génomes sans se baser sur un seul référentiel. L'autre méthode a construit une structure graphique qui a regroupé les séquences identiques en nœuds uniques, mettant en évidence les zones où les génomes diffèrent.
La comparaison des résultats des deux méthodes a révélé des défis pour identifier les variations structurelles. Les deux méthodes ont capturé différents aspects des données, mais cela a mis en évidence comment certaines régions dans les génomes peuvent être hautement variables.
Caractérisation des Variants Structurels
Les variantes structurelles peuvent varier considérablement en taille et en type. Les chercheurs se sont principalement concentrés sur un type de variation structurelle : les polymorphismes de présence/absence, qui impliquent de courtes insertions ou suppressions dans l'ADN. Dans l’ensemble, ils ont identifié des centaines de milliers de ces variations, avec une prédominance de changements plus courts.
Ils ont trouvé que ces variations étaient plus fréquentes dans certaines régions du génome et avaient tendance à se produire plus souvent dans des zones qui ne sont pas directement impliquées dans la codification des protéines, ce qui suggère que la sélection naturelle a influencé leur occurrence.
En examinant ces variations, les chercheurs ont noté que les éléments transposables jouaient un rôle crucial dans la génération de variations structurelles. En regardant les chevauchements entre ces éléments et les variations, ils ont confirmé une forte connexion entre les deux.
Le Mobile-ome
En utilisant leur vaste ensemble de données, les chercheurs ont également cherché à identifier les éléments génétiques en mouvement actif, appelés le mobile-ome. Cela implique de regrouper des séquences génétiques pour voir quels éléments ont récemment bougé ou causé des changements dans différentes localisations du génome.
La plupart des variations structurelles identifiées liées aux éléments mobiles étaient associées à des éléments transposables, qui sont connus pour se déplacer au sein du génome. Les résultats ont également fourni des informations sur la façon dont certains éléments transposables sont liés entre eux et comment ils contribuent à la diversité génétique.
Le Gene-ome
Dans le cadre de cette étude, les chercheurs ont également exploré les gènes codant des protéines présents dans les génomes. Ils ont utilisé des annotations indépendantes pour tenir compte des variations entre les différentes accessions. En utilisant un système qui permettait de meilleures comparaisons des modèles de gènes, ils ont cherché à réduire les erreurs qui pourraient résulter de la seule utilisation d'un génome de référence.
Leur analyse a révélé qu'environ 13 % des gènes identifiés n'étaient pas présents dans chaque accession, suggérant la présence de suppressions ou d'insertion uniques parmi les différents génomes. Il est important de noter que de nombreux gènes nouvellement identifiés n'avaient pas de homologues ancestraux directs, soulevant des questions sur leur évolution.
En examinant l'expression des gènes, ils ont découvert que les gènes absents dans quelques accessions avaient tendance à être silencieux dans d'autres, indiquant une relation complexe entre variation génétique, expression et environnement génomique environnant.
Le Pan-génome
Le concept de pan-génome découle de l'idée que les génomes de différents individus de la même espèce peuvent montrer une variation considérable. Au fur et à mesure que les chercheurs ont étudié A. thaliana et des espèces connexes, ils ont observé que le pan-génome s'élargissait à mesure que davantage d'accessions étaient analysées.
Cette croissance n'est pas uniforme ; par exemple, plus de variations se trouvent dans les régions centromériques du génome. Les chercheurs ont trouvé que la taille du pan-génome s'est considérablement agrandie avec leurs analyses récentes, mettant en avant les nombreuses couches de diversité génétique au sein de l'espèce.
Polymorphismes Manquants
Avec la richesse des informations collectées à partir des génomes complets, les chercheurs peuvent aussi évaluer quelles variations génétiques avaient été auparavant manquées dans les anciennes études. Leurs analyses actuelles montrent que beaucoup de différences, auparavant jugées inférieures à un certain nombre, sont en fait plus étendues que notées.
Les résultats indiquent que se baser sur des lectures plus courtes peut amener à manquer des quantités significatives d'informations génétiques. Ça renforce l'importance d'utiliser des génomes complets dans les futures analyses pour obtenir une compréhension plus précise de la variation génétique présente dans différentes accessions.
Biais de Référence
Utiliser un seul génome de référence peut fausser les résultats, surtout quand on étudie des données génomiques provenant d'individus divers. Les chercheurs ont découvert que les taux d'erreur dans l'appel des différences génétiques dépendent du génome de référence utilisé et de la proximité de ce dernier avec le génome examiné. Ces biais peuvent affecter les analyses, rendant clair que les chercheurs doivent envisager d'utiliser plusieurs génomes pour une meilleure précision.
En ce qui concerne les techniques de profilage moléculaire qui s'appuient sur des génomes de référence, comme celles utilisées pour cartographier l'expression des gènes et la méthylation, les résultats peuvent varier considérablement en fonction de la référence choisie. Cela peut mener à des conclusions erronées si les chercheurs ne prennent pas en compte la variabilité.
Conclusion
L'avènement du séquençage de génome complet a ouvert une nouvelle frontière dans la compréhension de la variation génétique et de ses implications dans l'évolution, la sélection et la dynamique du génome. La capacité d'analyser directement plusieurs génomes a permis aux chercheurs d'identifier des variations auparavant manquées, de comprendre le rôle des éléments transposables dans la formation du génome et d'apprécier l'interaction complexe entre les variations structurelles et l'expression des gènes.
En fin de compte, le passage à l'utilisation de données génomiques complètes et de haute qualité améliorera notre compréhension des traits et de l'histoire évolutive. En intégrant ces données avec des modèles qui considèrent les mécanismes moléculaires, les chercheurs peuvent se rapprocher d'une image complète de la façon dont les génomes évoluent et fonctionnent à travers des populations diverses d'une espèce.
De futures études et le développement de meilleurs outils d'analyse seront essentiels pour continuer à dévoiler les complexités du mobile-ome, du gene-ome et du pan-génome dans son ensemble-une aventure passionnante qui invite à l'exploration et à la découverte.
Titre: Towards an unbiased characterization of genetic polymorphism
Résumé: Our view of genetic polymorphism is shaped by methods that provide a limited and reference-biased picture. Long-read sequencing technologies, which are starting to provide nearly complete genome sequences for population samples, should solve the problem--except that characterizing and making sense of non-SNP variation is difficult even with perfect sequence data. Here, we analyze 27 genomes of Arabidopsis thaliana in an attempt to address these issues, and illustrate what can be learned by analyzing whole-genome polymorphism data in an unbiased manner. Estimated genome sizes range from 135 to 155 Mb, with differences almost entirely due to centromeric and rDNA repeats. The completely assembled chromosome arms comprise roughly 120 Mb in all accessions, but are full of structural variants, many of which are caused by insertions of transposable elements (TEs) and subsequent partial deletions of such insertions. Even with only 27 accessions, a pan-genome coordinate system that includes the resulting variation ends up being 40% larger than the size of any one genome. Our analysis reveals an incompletely annotated mobile-ome: our ability to predict what is actually moving is poor, and we detect several novel TE families. In contrast to this, the genic portion, or "gene-ome", is highly conserved. By annotating each genome using accession-specific transcriptome data, we find that 13% of all genes are segregating in our 27 accessions, but that most of these are transcriptionally silenced. Finally, we show that with short-read data we previously massively underestimated genetic variation of all kinds, including SNPs--mostly in regions where short reads could not be mapped reliably, but also where reads were mapped incorrectly. We demonstrate that SNP-calling errors can be biased by the choice of reference genome, and that RNA-seq and BS-seq results can be strongly affected by mapping reads to a reference genome rather than to the genome of the assayed individual. In conclusion, while whole-genome polymorphism data pose tremendous analytical challenges, they will ultimately revolutionize our understanding of genome evolution.
Auteurs: Magnus Nordborg, A. Igolkina, S. Vorbrugg, F. Rabanal, H.-J. Liu, H. Ashkenazy, A. Kornienko, J. Fitz, M. Collenberg, C. Kubica, A. M. Morales, B. Jaegle, T. Wrightsman, V. Voloshin, V. Llaca, V. Nizhynska, I. Reichardt, C. Lanz, F. Bemm, P. J. Flood, S. Nemomissa, A. Hancock, Y.-L. Guo, P. Kersey, D. Weigel
Dernière mise à jour: 2024-05-30 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.05.30.596703
Source PDF: https://www.biorxiv.org/content/10.1101/2024.05.30.596703.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.