Delphi : Une nouvelle façon d'estimer les scores de risque génétique
Delphi utilise l'apprentissage profond pour améliorer les prédictions de score de risque génétique dans des populations variées.
― 9 min lire
Table des matières
- Méthodes pour Estimer les Scores de Risque Polygénique
- Défis avec le PRS Actuel
- Le Potentiel de l'Apprentissage Profond
- Tentatives Précédentes avec l'Apprentissage Profond
- Présentation de Delphi
- Le Cadre Delphi
- GWAS et Gestion des Données
- Apprendre à Modifier les Effets
- Comparaison de Performance
- Performance sur des Ethnies Diverses
- Observation des Tendances dans la Modulation des Effets
- Limites et Directions Futures
- Conclusion
- Source originale
De nombreux traits et maladies courants viennent d'un mélange de petites modifications dans notre ADN. Les scientifiques étudient ces changements pour comprendre comment ils influencent la santé. Une façon de faire ça, c'est à travers des études d'association à l'échelle du génome, ou GWAS. Les GWAS aident les chercheurs à trouver des liens entre des modifications spécifiques de l'ADN et certains traits.
Quand un GWAS est effectué, il fournit deux infos clés pour chaque changement d'ADN testé : la taille de l'effet estimée, qui indique combien ce changement peut avoir d'impact, et une valeur P, qui montre la force du lien entre le changement et le trait.
Les chercheurs peuvent utiliser ces infos pour créer un score appelé score de risque polygénique (PRS). Ce score résume les risques de plusieurs changements d'ADN pour donner une idée de la probabilité qu'une personne ait un certain trait ou une maladie. Le PRS peut être utile pour la Prévention, le diagnostic et le traitement en santé.
Scores de Risque Polygénique
Méthodes pour Estimer lesAu cours de la dernière décennie, les méthodes d'estimation du PRS ont beaucoup évolué. Au début, il a été constaté que même des changements d'ADN qui ne semblaient pas significatifs sur le plan statistique pouvaient quand même apporter des infos précieuses pour prédire des traits. Les chercheurs ont aussi découvert que prendre en compte comment certains changements d'ADN sont liés entre eux peut améliorer la précision de ces scores.
Les avancées récentes en méthodes statistiques et en biologie ont encore amélioré le PRS. Par exemple, certaines méthodes plus récentes peuvent incorporer des infos sur la fréquence d'apparition de différentes variantes d'ADN dans la population ou tenir compte des fonctions biologiques de ces changements.
Cependant, ces méthodes ont souvent des limites similaires. Un problème majeur est que l'effet d'un changement d'ADN est généralement traité comme constant, ce qui peut ne pas refléter la réalité.
Défis avec le PRS Actuel
Le PRS fonctionne souvent mal quand il est appliqué à des gens de différentes origines ethniques. Cela est en partie dû aux différentes fréquences de changements d'ADN dans divers groupes. De plus, des facteurs Génétiques et environnementaux peuvent compliquer encore plus ces prévisions. À cause de ces problèmes, utiliser le PRS en médecine peut être difficile, et il faut plus de données provenant de populations diverses pour améliorer la précision.
Pour relever ces défis, les chercheurs ont proposé plusieurs stratégies. Cela inclut la combinaison des résultats de différentes études GWAS et la concentration sur des changements d'ADN importants qui ont des effets significatifs. Récemment, certaines études ont aussi montré que l'utilisation de modèles plus avancés pourrait améliorer la performance de prédiction.
Le Potentiel de l'Apprentissage Profond
L'apprentissage profond est une technique qui peut identifier des motifs complexes dans de grands ensembles de données. En génétique, il a été utilisé pour diverses tâches, comme identifier des variants génétiques et examiner des images liées à la génétique. Certaines méthodes d'apprentissage profond explicables visent à offrir plus de clarté sur les facteurs génétiques derrière les maladies.
Une approche récente a impliqué la création d'un graphe de connaissances pour fournir des explications sur des changements d'ADN individuels. Utiliser l'apprentissage profond pour prédire les risques génétiques pourrait offrir des avantages uniques, surtout puisque des modèles plus complexes ont montré qu'ils pouvaient améliorer la généralisation. C'est important pour appliquer le PRS dans des populations sous-représentées.
Tentatives Précédentes avec l'Apprentissage Profond
Bien qu'il y ait eu des tentatives d'utiliser l'apprentissage profond pour estimer le PRS, les approches jusqu'à présent ont surtout utilisé des réseaux peu profonds. Ces modèles fonctionnaient souvent avec un petit nombre de changements d'ADN et ne montraient pas d'améliorations significatives en précision de prédiction. Par exemple, une étude a réussi à améliorer légèrement les prédictions de risque de cancer du sein en utilisant un réseau de neurones, mais a découvert que l'ajout de plus de changements d'ADN n'aidait pas.
Une autre étude a utilisé un petit réseau de neurones pour améliorer les prédictions de risque de la maladie d'Alzheimer dans un petit échantillon.
Présentation de Delphi
Cet article présente Delphi, une nouvelle méthode qui utilise l'apprentissage profond pour améliorer l'estimation des scores de risque génétique. Delphi s'attaque à certains des défis auxquels les méthodes PRS traditionnelles font face. Cela se fait en utilisant un modèle transformateur moderne pour capturer des relations plus complexes entre les changements d'ADN.
Contrairement aux méthodes précédentes, Delphi ajuste l'impact des changements d'ADN en fonction de divers facteurs, y compris le sexe, l'ethnicité et d'autres mutations. Cette flexibilité permet à la méthode de peaufiner les effets des méthodes PRS établies.
Les résultats initiaux utilisant Delphi sur des données du UK Biobank ont montré des résultats prometteurs. Le modèle augmente les effets prédits des mutations significatives et démontre une meilleure généralisation aux populations diverses que d'autres approches testées.
Le Cadre Delphi
Delphi a un cadre simple qui implique deux étapes principales. Dans la première étape, les données sont divisées en ensembles d'entraînement, de validation et de test. Les chercheurs utilisent des techniques PRS standard pour estimer les effets des mutations, préparant les données pour un accès rapide pendant l'entraînement.
La seconde étape consiste à former un modèle basé sur des données génétiques et Démographiques. Ce modèle prédit le phénotype (caractéristique) à partir de divers facteurs, tandis qu'un autre réseau de neurones apprend à ajuster les tailles d'effet individuelles des mutations. En fin de compte, ces effets ajustés sont combinés pour produire un PRS personnalisé.
GWAS et Gestion des Données
La recherche a impliqué l'analyse de plus de 485 000 sujets, en les divisant en groupes d'entraînement, de validation et de test. L'ensemble d'entraînement a été utilisé pour diverses analyses, tandis que l'ensemble de validation a aidé à affiner les modèles. L'ensemble de test est resté intact jusqu'à ce que les évaluations finales soient faites.
Dans l'étude, seuls certains changements d'ADN ont été pris en compte sur la base de critères de qualité spécifiques. Diverses méthodes statistiques ont aidé à identifier les meilleurs modèles pour prédire les traits sur la base des données génétiques.
Apprendre à Modifier les Effets
La phase suivante se concentre sur l'individualisation des changements d'effet. Comme dans le processus GWAS, des caractéristiques comme l'âge, le sexe et d'autres facteurs génétiques ont été considérés. Un modèle distinct a été construit pour analyser ces variables et poser les bases pour le réseau de neurones.
Le réseau de neurones a créé des variations uniques des tailles d'effet. Ces ajustements ont ensuite été additionnés avec d'autres résultats pour créer une prédiction finale.
Comparaison de Performance
Les chercheurs ont évalué Delphi par rapport à trois méthodes PRS établies pour vérifier son efficacité. Ils ont examiné combien de variance chaque méthode expliquait pour plusieurs traits, avec Delphi se révélant généralement plus performant que les autres méthodes.
En comparant les résultats des différentes techniques, Delphi a montré moins d'erreurs de prédiction importantes dans l'ensemble. Cette tendance était particulièrement notable pour certains traits, comme la taille, où Delphi produisait des résultats plus cohérents.
Performance sur des Ethnies Diverses
Un focus particulier a été mis sur la performance de Delphi sur des sujets d'origines non-blanches britanniques. Malgré une taille d'échantillon plus petite, Delphi a maintenu son avantage sur d'autres méthodes en termes de variance partielle expliquée pour divers traits.
Les résultats étaient encourageants, indiquant que Delphi pourrait bien généraliser, même dans des populations qui étaient auparavant sous-représentées dans les études génétiques.
Observation des Tendances dans la Modulation des Effets
Les chercheurs ont noté des tendances intéressantes dans comment Delphi a ajusté les effets des changements d'ADN. Il avait tendance à réduire l'impact des changements ayant des effets minimes tout en maximisant l'impact des effets plus importants. Cela pourrait informer de futurs développements de modèles.
Il a également été observé que les tailles d'effet pouvaient varier considérablement en fonction des données utilisées, ajoutant de la complexité à l'interprétation de ces résultats.
Limites et Directions Futures
La recherche reconnait certaines limitations, y compris les défis posés par la haute dimensionnalité des données et le bruit potentiel provenant de l'inclusion de trop de SNPs à effet mineur. Ces facteurs peuvent compliquer le processus d'entraînement et entraîner des incohérences dans les prédictions.
De plus, bien que Delphi montre des promesses pour améliorer les prédictions de divers traits, le besoin de jeux de données plus larges et d'un raffinement continu reste crucial. Il est urgent de s'assurer que les méthodes PRS puissent bien fonctionner dans des populations diverses pour améliorer leur utilité dans les soins de santé.
Conclusion
Delphi représente une avancée dans l'estimation des scores de risque génétique, utilisant des techniques d'apprentissage profond pour relever les défis auxquels les méthodes traditionnelles ont fait face. En se concentrant sur les interactions nuancées entre les variantes génétiques et les facteurs démographiques, elle propose une approche plus personnalisée à l'estimation des risques génétiques.
Les études réalisées avec Delphi soulignent son potentiel à améliorer significativement la prévisibilité pour des populations diverses, en faisant un outil précieux dans la recherche génétique et les applications cliniques. La poursuite de l'exploration de ses capacités sera essentielle pour aborder les limitations existantes et améliorer l'efficacité globale de la prédiction des risques génétiques.
Titre: Deep Learning for Polygenic Risk Prediction
Résumé: Polygenic risk scores (PRS) are relative measures of an individuals genetic propensity to a particular trait or disease. Most PRS methods assume that mutation effects scale linearly with the number of alleles and are constant across individuals. While these assumptions simplify computation, they increase error, particularly for less-represented racial groups. We developed and provide Delphi (deep learning for phenotype inference), a deep-learning method that relaxes these assumptions to produce more predictive PRS. In contrast to other methods, Delphi can integrate up to hundreds of thousands of SNPs as input. We compare our results to a standard, linear PRS model, lasso regression, and a gradient-boosted trees-based method. We show that deep learning can be an effective approach to genetic risk prediction. We report a relative increase in the percentage variance explained compared to the state-of-the-art by 11.4% for body mass index, 18.9% for systolic blood pressure, 7.5% for LDL, 35% for C-reactive protein, 16.2% for height, 29.6 % for pulse rate; in addition, Delphi provides 2% absolute explained variance for blood glucose while other tested methods were non-predictive. Furthermore, we show that Delphi tends to increase the weight of high-effect mutations. This work demonstrates an effective deep learning method for modeling genetic risk that also showed to generalize well when evaluated on individuals from non-European ancestries.
Auteurs: Costa Georgantas, Z. Kutalik, J. Richiardi
Dernière mise à jour: 2024-07-16 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.04.19.24306079
Source PDF: https://www.medrxiv.org/content/10.1101/2024.04.19.24306079.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.