Avancer les scores polygéniques pour des prédictions de santé
Les scientists améliorent les scores poly génétiques pour prédire les risques de santé au sein de populations diverses.
― 8 min lire
Table des matières
- Qu'est-ce que les Scores Polygénétiques ?
- Défis de l'Utilisation de Grandes Bases de Données
- Le Rôle des Algorithmes Scelettés
- Comparaison des Prédicteurs Scelettés
- Différences Entre les Groupes d'Ascendance
- Facteurs Environnementaux et Leur Impact
- L'Importance des Rapports de Cotes
- Projection de la Performance Future
- Conclusion
- Source originale
Le génome humain est composé d'ADN qui porte les infos génétiques d'une personne. Comprendre comment les changements dans cet ADN peuvent affecter les traits physiques ou les maladies, c'est assez compliqué. Pour faire ces connexions, les scientifiques doivent regarder plein de données. C'est parce qu'il y a des millions de petites variations dans notre ADN qui peuvent influencer qui on est, de notre santé à notre apparence.
Avec le développement de grandes Biobanques, les chercheurs peuvent maintenant rassembler et analyser des millions d'échantillons d'ADN de personnes. Ça les aide à étudier comment certaines variations génétiques sont liées à divers risques pour la santé et autres traits. Ces grandes bases de données fournissent la puissance nécessaire pour différencier les vrais signaux des changements aléatoires dans les données.
Qu'est-ce que les Scores Polygénétiques ?
Un des outils principaux issus de l'analyse de ces données s'appelle le score polygénétique (SPG). Un SPG est un nombre qui représente la composition génétique d'une personne, basé sur des variations génétiques spécifiques connues sous le nom de polymorphismes nucléotidiques simples (SNP). Ces scores sont créés en analysant l'ADN de la personne et en attribuant des poids à différentes variations génétiques selon combien elles contribuent à certains traits ou maladies.
La plupart des recherches sur les SPG se sont concentrées sur des individus d'ascendance européenne. Par exemple, une biobanque bien connue au Royaume-Uni a plus de 90% de participants qui s'identifient comme blancs. Ça veut dire que le SPG actuel est le plus efficace pour les gens d'ascendance européenne.
Il y a plusieurs nouveaux projets qui visent à inclure des populations plus diverses. Par exemple, des efforts sont en cours dans des régions comme Taïwan et aux États-Unis pour créer des biobanques qui incluront des échantillons de populations non européennes. Mais jusqu'à ce que ces ensembles de données diversifiés soient plus disponibles, les chercheurs doivent ajuster les découvertes européennes pour les appliquer à d'autres groupes d'ascendance.
Défis de l'Utilisation de Grandes Bases de Données
Au fur et à mesure que les ensembles de données grandissent et que la technologie avance, de nouveaux défis apparaissent pour construire des SPG efficaces. Des ensembles de données plus grands nécessitent plus de puissance de calcul pour être analysés. De plus, les méthodes actuelles s'adressent principalement à ceux d'ascendance européenne. Les scientifiques ont proposé plusieurs techniques pour adapter les SPG à d'autres groupes en se concentrant sur les variations qui sont les plus pertinentes pour différentes populations.
Une autre préoccupation est que les futurs SPG dépendront de la collecte d'échantillons d'ADN chez de nouveaux participants. Si la collecte peut se concentrer sur moins de variations génétiques, ça pourrait être plus abordable et plus facile à mettre en œuvre.
Bien qu'il existe des méthodes traditionnelles pour développer ces scores, beaucoup reposent sur des modèles linéaires. Alors que les scientifiques creusent plus profondément dans les données, ils font face à des difficultés dues à des interactions génétiques complexes, comme la façon dont les gènes s'influencent mutuellement et comment l'environnement peut altérer les effets génétiques.
Le Rôle des Algorithmes Scelettés
Cet article souligne les avantages de l'utilisation d'algorithmes scelettés. Ces algorithmes aident à identifier seulement les variations génétiques les plus importantes nécessaires pour les prédictions. Ce faisant, ils réduisent la complexité et améliorent l'exactitude des résultats. Des études précédentes ont montré que les méthodes scelettées fonctionnent aussi bien que des techniques plus compliquées.
Cette recherche se concentre sur la performance et les applications pratiques de ces algorithmes scelettés pour onze traits de santé, comme l'asthme, le diabète et les maladies cardiaques. En sélectionnant seulement les caractéristiques génétiques essentielles, les algorithmes peuvent améliorer la précision des prédictions tout en minimisant le calcul.
Comparaison des Prédicteurs Scelettés
Pour comprendre comment différentes méthodes performent, une comparaison de plusieurs algorithmes scelettés, y compris LASSO et Elastic Net, est réalisée. L'objectif est de voir à quel point ces algorithmes peuvent générer efficacement des SPG pour divers traits.
Les résultats de performance montrent que certains algorithmes obtiennent constamment de meilleurs résultats. Par exemple, LASSO, une méthode couramment utilisée, tend à obtenir de bons scores pour prédire correctement les conditions de santé.
Différences Entre les Groupes d'Ascendance
Des recherches montrent que quand un prédicteur conçu pour un groupe d'ascendance est appliqué à un autre groupe, les résultats souffrent souvent. Cette réduction d'efficacité varie d'un trait de santé à l'autre. Certains traits peuvent perdre une grande partie de leur pouvoir prédictif, tandis que d'autres maintiennent mieux leur efficacité.
Pour développer des SPG fiables pour différents groupes d'ascendance, comprendre les différences génétiques et leurs implications est crucial. Les études sur les frères et sœurs peuvent aider, car les frères et sœurs partagent généralement plus de leur patrimoine génétique et de leur environnement par rapport à des individus non apparentés.
Facteurs Environnementaux et Leur Impact
Prédire des conditions de santé en se basant sur des infos génétiques, c'est pas simple. Les facteurs environnementaux peuvent influencer les résultats, rendant plus difficile l'isolement de l'impact génétique. C'est là que les comparaisons entre frères et sœurs peuvent aussi jouer un rôle, car ils ont tendance à partager des conditions de vie communes pendant leur enfance.
Dans ces analyses, les chercheurs cherchent des paires de frères et sœurs affectés, consistant en un frère ou une sœur ayant une condition et un autre sans. En comparant leurs scores polygéniques, les scientifiques peuvent déterminer à quelle fréquence le frère ou la sœur avec un score plus élevé a aussi la condition.
L'Importance des Rapports de Cotes
Pour les conditions de santé impliquant des cas et des témoins, les scientifiques peuvent dériver des rapports de cotes (RC) pour donner un sens aux résultats. Un Rapport de cotes compare la probabilité d'avoir une condition basée sur les valeurs de SPG. Ça donne un aperçu de la façon dont la prédisposition génétique peut influencer le risque de développer des problèmes de santé particuliers.
Bien que les résultats puissent sembler prometteurs, il est important de rester prudent. Les extrêmes des distributions de SPG sont là où les modèles peuvent devenir moins fiables, et les tailles d'échantillons tendent à être plus petites, rendant les interprétations difficiles.
Projection de la Performance Future
L'article discute aussi de comment s'entraîner sur de grandes bases de données de biobanques peut aider à modéliser la croissance potentielle de la performance prédictive. En analysant les données actuelles, les chercheurs peuvent prévoir comment les améliorations de la taille des échantillons mèneront à de meilleures prédictions à l'avenir.
En utilisant diverses méthodes statistiques, les métriques de performance anticipées peuvent généralement être modélisées, aidant à guider de futures études et à bâtir des biobanques efficaces.
Conclusion
En résumé, comprendre comment la génétique influence la santé et les traits est un domaine complexe qui repose sur l'analyse de grandes bases de données. Les scores polygéniques sont des outils puissants qui aident à prédire les risques de santé basés sur la composition génétique. Cependant, des défis subsistent, particulièrement concernant la représentation de groupes d'ascendance diversifiés.
Utiliser des algorithmes scelettés présente une direction prometteuse, car ils peuvent améliorer la précision des prédictions tout en minimisant les besoins computationnels. Continuer les efforts pour créer des ensembles de données plus inclusifs sera essentiel pour améliorer la fiabilité des SPG à travers différentes populations.
Alors que les chercheurs continuent d'explorer ce domaine, l'espoir est que des insights génétiques mèneront à de meilleurs résultats de santé pour tout le monde, peu importe l'ascendance. L'avenir de la prédiction polygénique a un grand potentiel, mais il est clair qu'il reste encore beaucoup de travail à faire pour combler les lacunes et assurer des outils de santé équitables pour toutes les communautés.
Titre: Biobank-scale methods and projections for sparse polygenic prediction from machine learning
Résumé: In this paper we characterize the performance of linear models trained via widely-used sparse machine learning algorithms. We build polygenic scores and examine performance as a function of training set size, genetic ancestral background, and training method. We show that predictor performance is most strongly dependent on size of training data, with smaller gains from algorithmic improvements. We find that LASSO generally performs as well as the best methods, judged by a variety of metrics. We also investigate performance characteristics of predictors trained on one genetic ancestry group when applied to another. Using LASSO, we develop a novel method for projecting AUC and Correlation as a function of data size (i.e., for new biobanks) and characterize the asymptotic limit of performance. Additionally, for LASSO (compressed sensing) we show that performance metrics and predictor sparsity are in agreement with theoretical predictions from the Donoho-Tanner phase transition. Specifically, a predictor trained in the Taiwan Precision Medicine Initiative for asthma can achieve an AUC of 0.63(0.02) and for height a correlation of 0.648(0.009) for a Taiwanese population. This is above the measured values of 0.61(0.01) and 0.631(0.008), respectively, for UK Biobank trained predictors applied to a European population.
Auteurs: Timothy G Raben, L. Lello, E. Widen, S. D. H. Hsu
Dernière mise à jour: 2023-03-08 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870
Source PDF: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.