Avancées dans la modélisation génétique des populations
De nouvelles méthodes améliorent la compréhension de la diversité génétique et de l'histoire des populations.
― 11 min lire
Table des matières
Ces dernières années, les scientifiques ont eu accès à des données génétiques de meilleure qualité provenant de différentes espèces. Ça a permis de développer des modèles et méthodes en génétique des populations, qui étudient comment les fréquences des gènes dans les populations changent avec le temps. Un des objectifs de ces études est de comprendre les schémas historiques des populations d'une espèce, qu'elle ait augmenté, diminué ou même fait face à l'extinction. Connaître cette histoire est important pour identifier les gènes qui pourraient subir une sélection naturelle.
Un élément clé de ces études est l'utilisation d'une méthode connue sous le nom de processus de coalescence de Kingman. Ce modèle mathématique aide à décrire comment la lignée génétique des individus dans une population peut être retracée dans le temps. En gros, ça nous aide à comprendre comment tous les individus d'un échantillon peuvent être liés à leurs ancêtres communs. Le modèle suppose que les descendants sont produits par des parents choisis au hasard de la génération précédente, ce qui facilite la prédiction de la diversité génétique au sein d'une population.
Le Modèle Wright-Fisher
La coalescence de Kingman est basée sur un autre modèle appelé Modèle de Wright-Fisher, qui décrit comment les gènes sont transmis d'une génération à l'autre. Ce modèle suppose que les générations ne se chevauchent pas et que les parents choisissent au hasard des gènes de la génération précédente. Un aspect important de ce modèle est le nombre de descendants que chaque parent a. Dans une situation où le nombre de descendants est faible (généralement environ zéro à deux par parent), ce modèle fonctionne bien. C’est souvent le cas chez les espèces avec une faible mortalité juvénile, comme beaucoup de mammifères.
Cependant, alors que les données de séquence génomique deviennent plus largement disponibles pour une variété d'espèces avec différents traits, la fiabilité du modèle de coalescence de Kingman peut être remise en question. Certaines espèces, comme certains poissons qui ont un grand nombre de descendants et des taux de mortalité élevés parmi les jeunes, ne peuvent pas bien s'insérer dans ce modèle. C'est dû à un phénomène appelé "reproduction par loterie", où seuls quelques individus produisent un grand nombre de descendants.
Défis en Génétique des Populations
Divers facteurs peuvent perturber le modèle traditionnel de Wright-Fisher. Cela inclut des processus comme le fort stockage de graines, un nombre élevé de descendants avec une distribution inégale, des goulets d'étranglement de population répétés et une forte sélection. Quand ces facteurs sont présents, les schémas généalogiques ne peuvent pas être décrits avec précision par le modèle de coalescence de Kingman. Dans ces cas, un autre modèle, connu sous le nom de Coalescence à Fusion Multiple (MMC), est généralement plus approprié. Ce modèle permet à plusieurs individus de fusionner en une seule lignée en même temps, reflétant les schémas reproductifs complexes observés chez certaines espèces.
Les chercheurs ont reconnu que beaucoup d'espèces, surtout les poissons et autres organismes avec des histoires de vie uniques, pourraient mieux être étudiées avec ces modèles alternatifs. Cependant, les expériences sur le terrain pour comprendre les mécanismes de reproduction de chaque espèce peuvent être à la fois coûteuses et longues. Du coup, les scientifiques se tournent souvent vers les données génétiques pour aider à déterminer quels modèles sont les plus appropriés pour différentes espèces ou populations.
La Méthode β-Coalescente
Dans cette étude, on se concentre sur un type spécifique de modèle MMC connu sous le nom de β-coalescent. Contrairement au modèle Wright-Fisher, le β-coalescent prend en compte comment le nombre de copies de gènes change en fonction du nombre de descendants qu'un individu a. Le β-coalescent indique aussi à quel point les individus sont liés les uns aux autres dans le temps.
Dans cette recherche, on se concentre sur des organismes haploïdes (ceux avec un seul jeu de chromosomes), ce qui simplifie le modélisation mathématique. Dans le cas d'organismes avec plus d'un jeu de chromosomes (polyploïdes), on devrait ajuster nos méthodes pour tenir compte de la complexité introduite par l'augmentation de l'information génétique.
Une caractéristique intéressante du β-coalescent est que si la probabilité qu'un parent ait un certain nombre de descendants suit une règle mathématique précise, les schémas généalogiques peuvent être représentés en utilisant un autre modèle appelé le Λ-coalescent. Quand des mesures de probabilité spécifiques sont appliquées, on peut dériver des taux de transition qui mènent au β-coalescent, aidant à mieux expliquer les relations génétiques entre les individus.
Méthodes d'Inférence
Pour générer des inférences précises et comprendre les schémas génétiques, les scientifiques s'appuient sur des données extraites de séquences génétiques. Une approche courante est d'examiner le Spectre de Fréquence des Sites (SFS), qui montre à quelle fréquence différentes variations génétiques apparaissent dans une population. Bien que le SFS puisse fournir des informations utiles, il a ses limites. Par exemple, dans des populations complexes, le SFS pourrait ne pas indiquer clairement l'histoire démographique sous-jacente.
Notre but est de résoudre certaines de ces limitations en développant deux méthodes qui intègrent des informations issues des événements de recombinaison à travers le génome. La recombinaison fait référence au mélange de matériel génétique pendant la reproduction, ce qui peut affecter considérablement l'apparence des généalogies dans le génome. Cela mène à la création de ce qu'on appelle le Graphique de Recombinaison Ancestale (ARG), qui représente visuellement l'histoire généalogique d'un échantillon sur différents segments d'ADN.
La première méthode combine le β-coalescent avec une approche Markovienne Séquentielle (SMC), permettant de prendre en compte les influences des événements de recombinaison sur les schémas généalogiques. Cela s'appelle la Coalescence β-Markovienne Séquentielle (SMβC). La deuxième méthode utilise des techniques d'apprentissage profond, spécifiquement un Réseau de Neurones Graphiques (GNN), pour analyser les ARGs et extraire des informations pertinentes pour estimer les paramètres démographiques.
Évaluation des Méthodes
Pour évaluer la performance de nos méthodes, on commence par analyser les performances des SMC existants (comme MSMC et MSMC2) lors de l'inférence de la taille historique de la population sous le modèle de β-coalescent. On décrit aussi comment nos deux nouvelles approches-SMβC et GNNcoal-peuvent aider à retrouver la variation passée de la taille de la population et les paramètres liés aux événements de fusion multiples.
On effectue une série de simulations pour tester les méthodes, en se concentrant sur leur capacité à récupérer des informations sur la diversité génétique passée. En particulier, on évalue combien les deux méthodes peuvent identifier le paramètre α, qui indique la fréquence des événements de fusion multiples dans la population.
Résultats
Les résultats montrent que les approches SMβC et GNNcoal sont efficaces pour récupérer la variation passée de la taille de la population et le paramètre α, surtout quand les conditions sont favorables (c’est-à-dire, des valeurs α plus élevées où les fusions multiples sont moins fréquentes). GNNcoal performe généralement mieux dans divers scénarios, notamment en gérant des structures généalogiques complexes.
En analysant les séquences d'arbres et les données génétiques, on observe que GNNcoal peut tirer parti de la structure topologique des généalogies, lui permettant d'extraire des informations utiles même en présence d'une grande variabilité dans les données génétiques. Ça donne à GNNcoal un avantage, car il peut simultanément traiter une taille d'échantillon plus grande sans perdre les subtilités des relations génétiques sous-jacentes.
En comparant les deux méthodes, on constate que GNNcoal est capable de tirer parti de l'ensemble de l'ARG, tandis que SMβC se concentre surtout sur un aspect plus étroit. Cette différence fait de GNNcoal un outil plus puissant, surtout dans le contexte de processus évolutifs complexes et dynamiques.
Résoudre les Biais
Nos découvertes révèlent certains biais présents dans les anciennes méthodes SMC lorsqu'elles tentent de modéliser des scénarios en utilisant des hypothèses de coalescence de Kingman tout en appliquant des modèles incorrects. Ces biais entraînent des écarts significatifs dans les tailles de population inférées, particulièrement dans des situations où les schémas sous-jacents réels s'écartent de ceux prédits par le modèle de Kingman.
Comme solution, on implémente des corrections d'échelle pour les méthodes SMC afin d'aider à aligner leurs résultats avec les dynamiques de population réalistes observées dans nos simulations. Ça aide à améliorer encore l'exactitude des inférences démographiques historiques.
Implications pour la Sélection
Étant donné que des mécanismes reproductifs spécifiques et l'influence de la sélection naturelle peuvent mener à des événements de fusion multiples, on explore aussi comment nos modèles peuvent tenir compte de la sélection. En permettant des variations dans le paramètre α à travers différentes zones du génome, on peut mieux comprendre l'impact des forces sélectives sur la diversité génétique.
À partir de nos simulations, on observe que la forte sélection tend à abaisser la valeur α dans les régions sous sélection, tandis que les zones neutres conservent des valeurs α plus élevées. Cela démontre que la sélection peut influencer les relations génétiques de manière tangible, nous permettant de tirer des conclusions plus nuancées sur les effets de la sélection naturelle.
Améliorer les Méthodes d'Inférence
Étant donné que l'inférence ARG est encore un domaine nécessitant des améliorations, les méthodes que nous développons pourraient donner des résultats plus précis lors de l'analyse des données génétiques. Notre approche GNNcoal est particulièrement prometteuse et pourrait potentiellement être étendue pour modéliser d'autres processus de coalescence à mesure que d'autres recherches sont menées dans ce domaine.
De plus, on prévoit des opportunités pour reformer les modèles sous-jacents pour mieux refléter la réalité, y compris permettre l'ajustement du paramètre α dans le temps et tenir compte de la sélection et d'autres forces évolutives. En intégrant ces fonctionnalités, on peut créer des modèles plus robustes qui fournissent des aperçus sur les dynamiques de population et les schémas d'évolution génétique.
Conclusion
En résumé, notre recherche souligne l'importance de dépasser les modèles traditionnels comme la coalescence de Kingman au profit d'approches qui embrassent les complexités des processus évolutifs. Le développement de nouvelles méthodes, comme le SMβC et GNNcoal, ouvre la voie à une compréhension plus profonde de la génétique des populations et des influences historiques qui façonnent la diversité génétique chez diverses espèces.
Alors qu'on continue à affiner nos techniques et à explorer les impacts de la sélection, on peut construire une image plus complète et précise des facteurs qui entraînent le changement évolutif. Ça va non seulement enrichir notre connaissance en génétique des populations mais aussi avoir des applications pratiques dans la conservation, l'agriculture et la médecine. Les connaissances acquises de nos résultats contribueront de manière significative à relever les défis actuels dans le domaine de la génétique et de la biologie évolutive.
Titre: Simultaneous Inference of Past Demography and Selection from the Ancestral Recombination Graph under the Beta Coalescent
Résumé: The reproductive mechanism of a species is a key driver of genome evolution. The standard Wright-Fisher model for the reproduction of individuals in a population assumes that each individual produces a number of offspring negligible compared to the total population size. Yet many species of plants, invertebrates, prokaryotes or fish exhibit neutrally skewed offspring distribution or strong selection events yielding few individuals to produce a number of offspring of up to the same magnitude as the population size. As a result, the genealogy of a sample is characterized by multiple individuals (more than two) coalescing simultaneously to the same common ancestor. The current methods developed to detect such multiple merger events do not account for complex demographic scenarios or recombination, and require large sample sizes. We tackle these limitations by developing two novel and different approaches to infer multiple merger events from sequence data or the ancestral recombination graph (ARG): a sequentially Markovian coalescent (SM{beta}C) and a graph neural network (GNNcoal). We first give proof of the accuracy of our methods to estimate the multiple merger parameter and past demographic history using simulated data under the {beta}-coalescent model. Secondly, we show that our approaches can also recover the effect of positive selective sweeps along the genome. Finally, we are able to distinguish skewed offspring distribution from selection while simultaneously inferring the past variation of population size. Our findings stress the aptitude of neural networks to leverage information from the ARG for inference but also the urgent need for more accurate ARG inference approaches.
Auteurs: Kevin Korfmann, T. P. P. Sellinger, F. Freund, M. Fumagalli, A. Tellier
Dernière mise à jour: 2024-03-07 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2022.09.28.508873
Source PDF: https://www.biorxiv.org/content/10.1101/2022.09.28.508873.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.