Die Rolle von polygenen Scores bei der Vorhersage von Gesundheitsrisiken
Polygenetische Scores helfen, das Krankheitsrisiko mit genetischen Infos abzuschätzen.
― 7 min Lesedauer
Inhaltsverzeichnis
- Der Prozess zur Erstellung von PGS
- Die wachsende Bedeutung von PGS
- Verschiedene Methoden zur Berechnung von PGS
- Ein neuer Workflow: Prspipe
- Bewertung von PGS-Methoden
- Die Ergebnisse aus PGS-Bewertungen
- Die Bedeutung der Ahnensangpassung
- Die Rolle der Kreuzvalidierung in der PGS-Entwicklung
- Herausforderungen in der PGS-Forschung
- Zukünftige Richtungen für PGS-Forschung
- Fazit
- Originalquelle
- Referenz Links
Polygenetische Scores (PGS) sind Werkzeuge, die dazu verwendet werden, das Risiko einer Person für bestimmte Krankheiten basierend auf ihrem genetischen Makeup abzuschätzen. Diese Scores werden berechnet, indem viele kleine genetische Variationen im gesamten Genom betrachtet und deren Effekte kombiniert werden. Studien, die viele genetische Varianten gleichzeitig bewerten, bekannt als genomsweite Assoziationsstudien (GWAS), haben es ermöglicht, diese Scores zu erstellen. Mit PGS können Forscher traditionelle Modelle, die das Krankheitsrisiko vorhersagen und normalerweise auf Familiengeschichte und bekannten Biomarkern basieren, verbessern.
Der Prozess zur Erstellung von PGS
Der Prozess zur Erstellung von PGS umfasst zwei Hauptschritte. Im ersten Schritt werden öffentlich zugängliche Daten verwendet, um die Scores zu berechnen. In dieser Phase sammeln Forscher Informationen über genetische Varianten, die mit bestimmten Eigenschaften oder Krankheiten in Verbindung stehen. Sie passen die Scores an, basierend darauf, wie diese Varianten miteinander korrelieren. Diese Anpassung ist wichtig, weil einige Varianten miteinander verwandt sein können und ihre kombinierten Effekte berücksichtigt werden müssen. Es gibt verschiedene Methoden für diese Anpassung, einschliesslich statistischer Techniken, die helfen, die Schätzungen des Beitrags jeder Variante zum Krankheitsrisiko zu verfeinern.
Der zweite Schritt erfordert den Zugang zu individuellen Daten, wie spezifischen genetischen Informationen und Gesundheitsakten, um Personen mit diesen abgeleiteten Gewichten zu bewerten. Dieser Ansatz ermöglicht es den Forschern, das Risiko für Einzelpersonen basierend auf ihren einzigartigen genetischen Makeup zu berechnen.
Die wachsende Bedeutung von PGS
In den letzten Jahren hat PGS an Popularität gewonnen wegen seiner potenziellen Anwendungen in der personalisierten Medizin. Diese Scores können Strategien zur Krankheitsprävention informieren, bei klinischen Studien helfen und Behandlungsentscheidungen leiten. Forscher sind daran interessiert, PGS mit anderen gesundheitsbezogenen Informationen zu integrieren, um genauere Risikoabschätzungen zu erstellen.
Trotz des Potenzials von PGS gibt es Einschränkungen. Viele Studien, die verschiedene PGS-Methoden vergleichen, verwenden oft nur wenige Merkmale oder Datensätze. Das könnte kein vollständiges Bild davon geben, wie diese Methoden in realen Szenarien funktionieren, wo Daten chaotisch und weniger organisiert sein können.
Verschiedene Methoden zur Berechnung von PGS
Zahlreiche Methoden wurden entwickelt, um PGS-Gewichte aus GWAS-Daten zu berechnen. Diese Methoden erfordern keinen direkten Zugang zu individuellen Daten, die oft aufgrund von Datenschutzbedenken eingeschränkt sind. Stattdessen verwenden sie Zusammenfassungsstatistiken, die Ergebnisse aus grösseren Studien aggregieren.
Bei der Erstellung von PGS müssen Forscher geeignete Parameter oder Einstellungen für ihre Modelle wählen. Einige Methoden erlauben automatische Einstellungen, die keine Teilnehmerdaten benötigen, während andere bestehende Daten nutzen können, um die besten Parameter für die Bewertung festzulegen.
Ein neuer Workflow: Prspipe
Um den Prozess der Berechnung von PGS zu vereinfachen, wurde ein Workflow namens prspipe entwickelt. Dieser Workflow kann automatisch mehrere PGS-Methoden basierend auf GWAS-Zusammenfassungsstatistiken ausführen. Er integriert verschiedene Techniken in ein einzelnes Framework, das Forscher einfach nutzen können.
Der Workflow erleichtert die Analyse, indem er Zusammenfassungsstatistiken verarbeitet, PGS-Berechnungen durchführt und genetische Daten aus verschiedenen Quellen harmonisiert. Das bedeutet, dass Forscher diesen Workflow nutzen können, um konsistentere und zuverlässigere Ergebnisse zu produzieren, was hilft, verschiedene PGS-Methoden zu bewerten und zu vergleichen.
Bewertung von PGS-Methoden
Ein wichtiger Aspekt der Nutzung von PGS ist zu verstehen, wie gut verschiedene Methoden funktionieren. Bewertungen haben gezeigt, dass verschiedene Bewertungstechniken unterschiedliche Ergebnisse liefern können und einige Scores für bestimmte Merkmale besser abschneiden als andere. Durch die Durchführung von Bewertungen über mehrere Datensätze und Biobanken können Forscher Einblicke in die Stärken und Schwächen jeder PGS-Methode gewinnen.
In einer grossen Bewertung verglichen Forscher die Leistung mehrerer PGS-Methoden über verschiedene Merkmale hinweg. Sie konzentrierten sich auf zwei Hauptahnen-Gruppen: Europäer und Südasianer. Indem sie die PGS-Leistung über mehrere Biobanken hinweg betrachteten, konnten die Forscher analysieren, wie gut die Scores innerhalb und zwischen verschiedenen Gruppen variierten.
Die Ergebnisse aus PGS-Bewertungen
Die Ergebnisse der Bewertungen zeigten, dass es erhebliche Unterschiede in der PGS-Leistung zwischen verschiedenen Methoden gibt. Während einige Methoden durchweg starke Ergebnisse lieferten, hatten andere begrenzten Erfolg, insbesondere bei bestimmten Merkmalen oder Datensätzen. Die Bewertung betonte die Notwendigkeit, mehrere Methoden zur Abschätzung der PGS-Zuverlässigkeit zu verwenden, bevor sie in der realen Welt angewendet werden.
Interessanterweise schnitt die Ensemble-PGS-Methode, die Scores aus verschiedenen Methoden kombiniert, insgesamt besser ab als individuelle Methoden. Das deutet darauf hin, dass die Verwendung einer Kombination von Scores eine robustere Schätzung des Krankheitsrisikos liefern könnte, anstatt sich auf eine einzelne Methode zu verlassen.
Die Bedeutung der Ahnensangpassung
Ein wesentlicher Faktor für den Erfolg von PGS ist, dass die verwendeten genetischen Daten mit der untersuchten Population übereinstimmen. Die Ahnensangpassung ist entscheidend, weil genetische Variation innerhalb von Populationen erheblich variieren kann. Wenn die genetischen Referenzdaten, die zur Erstellung von PGS verwendet werden, nicht mit der Ahnenschaft der zu bewertenden Individuen übereinstimmen, können die Ergebnisse weniger genau sein.
In den Bewertungen sorgten die Forscher dafür, dass die genetischen Daten auf Basis der Ahnenschaft angepasst wurden. Diese Praxis verbesserte die Zuverlässigkeit der Analyse und führte zu besseren Schätzungen des Krankheitsrisikos. Sie verdeutlichte auch, dass die PGS-Leistung je nach genetischem Hintergrund der betroffenen Individuen variieren kann.
Kreuzvalidierung in der PGS-Entwicklung
Die Rolle derKreuzvalidierung ist eine Technik, die verwendet wird, um zu bewerten, wie gut ein Modell funktioniert, indem Daten in Untergruppen aufgeteilt werden. Forscher können einen Teil des Datensatzes verwenden, um das Modell zu trainieren und den anderen Teil, um seine Leistung zu bewerten. Dieser Prozess ist besonders wichtig bei der Entwicklung von PGS, da er hilft, die besten Parameter für die Bewertung zu identifizieren und das Risiko zu verringern, das Modell auf spezifische Daten zu überanpassen.
Die Bewertungen zeigten, dass die Verwendung von Kreuzvalidierung oft zu einer besseren Leistung bei PGS führte im Vergleich zur Verwendung automatischer Tuning-Methoden. Es erlaubte den Forschern, ihre Modelle basierend auf den spezifischen Datenfeinheiten zu optimieren, was zu genaueren Risikovorhersagen führte.
Herausforderungen in der PGS-Forschung
Trotz des Fortschritts in den PGS-Methoden sehen sich Forscher weiterhin mehreren Herausforderungen gegenüber. Ein bedeutendes Problem ist die Variabilität in der Leistung zwischen Biobanken und Methoden. Unterschiede darin, wie Krankheiten diagnostiziert werden, Variationen in den Populationsstrukturen und Inkonsistenzen in der Erhebung genetischer Daten können alle die PGS-Genauigkeit beeinflussen.
Darüber hinaus verändert sich die Landschaft der genetischen Forschung ständig, mit neuen Methoden und Tools, die regelmässig entwickelt werden. Daher kann es eine Herausforderung sein, mit den neuesten Fortschritten Schritt zu halten und sie in bestehende Frameworks zu integrieren.
Zukünftige Richtungen für PGS-Forschung
Während PGS weiterhin in der personalisierten Medizin an Bedeutung gewinnt, suchen Forscher aktiv nach Wegen, ihre Zuverlässigkeit und Anwendbarkeit zu verbessern. Es besteht ein wachsender Bedarf an standardisierten Methoden und Datenformaten, um Vergleiche zwischen verschiedenen PGS-Ansätzen zu erleichtern.
Ausserdem möchten Forscher die PGS-Berechnungen verbessern, indem sie vielfältigere Populationen in ihren Studien einbeziehen. Das kann helfen, sicherzustellen, dass PGS-Methoden über verschiedene genetische Hintergründe hinweg anwendbar sind und Unterschiede in den Gesundheitsergebnissen verringert werden.
Fazit
Polygenetische Scores stellen einen bedeutenden Schritt zum Verständnis genetischer Einflüsse auf Gesundheit und Krankheit dar. Durch die Kombination genetischer Informationen mit Gesundheitsdaten können Forscher individuelle Risiken besser vorhersagen und Präventionsstrategien entsprechend anpassen. Allerdings erfordert die Komplexität genetischer Daten und die Variabilität zwischen verschiedenen Bewertungsmethoden strenge Tests und Bewertungen.
Während sich das Gebiet der Genetik weiterentwickelt, verspricht die Integration von PGS in die klinische Praxis, unser Verständnis der Krankheitsrisiken zu verbessern, was zu persönlicheren und effektiveren Gesundheitslösungen führt. Mit fortgesetzter Forschung und Zusammenarbeit können die potenziellen Vorteile von PGS voll ausgeschöpft werden, was den Weg für eine neue Ära in der Medizin ebnet.
Titel: Evaluation of polygenic scoring methods in five biobanks reveals greater variability between biobanks than between methods and highlights benefits of ensemble learning
Zusammenfassung: Methods to estimate polygenic scores (PGS) from genome-wide association studies are increasingly utilized. However, independent method evaluation is lacking, and method comparisons are often limited. Here, we evaluate polygenic scores derived using seven methods in five biobank studies (totaling about 1.2 million participants) across 16 diseases and quantitative traits, building on a reference-standardized framework. We conducted meta-analyses to quantify the effects of method choice, hyperparameter tuning, method ensembling and target biobank on PGS performance. We found that no single method consistently outperformed all others. PGS effect sizes were more variable between biobanks than between methods within biobanks when methods were well-tuned. Differences between methods were largest for the two investigated autoimmune diseases, seropositive rheumatoid arthritis and type 1 diabetes. For most methods, cross-validation was more reliable for tuning hyperparameters than automatic tuning (without the use of target data). For a given target phenotype, elastic net models combining PGS across methods (ensemble PGS) tuned in the UK Biobank provided consistent, high, and cross-biobank transferable performance, increasing PGS effect sizes ({beta}-coefficients) by a median of 5.0% relative to LDpred2 and MegaPRS (the two best performing single methods when tuned with cross-validation). Our interactively browsable online-results (https://methodscomparison.intervenegeneticscores.org/) and open-source workflow prspipe (https://github.com/intervene-EU-H2020/prspipe) provide a rich resource and reference for the analysis of polygenic scoring methods across biobanks.
Autoren: Remo Monti, L. Eick, G. Hudjashov, K. Läll, S. Kanoni, B. N. Wolford, B. Wingfield, O. Pain, S. Wharrie, B. Jermy, A. McMahon, T. Hartonen, H. O. Heyne, N. Mars, Genes & Health Research Team, K. Hveem, M. Inouye, D. A. van Heel, R. Mägi, P. Marttinen, S. Ripatti, A. Ganna, C. Lippert
Letzte Aktualisierung: 2023-11-20 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.11.20.23298215
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.11.20.23298215.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://methodscomparison.intervenegeneticscores.org/
- https://github.com/intervene-EU-H2020/GenoPred
- https://methodscomparison.intervenegeneticscores.org
- https://github.com/intervene-EU-H2020/prspipe/blob/main/resources/1kg/1KGPhase3_hm3_hg19_hg38_mapping_cached.tsv.gz
- https://github.com/intervene-EU-H2020/prspipe/blob/main/workflow/rules/1kg_hm3_processing.smk
- https://github.com/intervene-EU-H2020/prspipe/blob/main/workflow/rules/genotype_harmonization.smk
- https://hunt-db.medisin.ntnu.no/hunt-db/variablelist
- https://github.com/MathiasHarrer/dmetar/blob/master/R/mlm.variance.distribution.R
- https://github.com/intervene-EU-H2020/prspipe
- https://zenodo.org/doi/10.5281/zenodo.10012995
- https://github.com/intervene-EU-H2020/pgsCompaR
- https://github.com/intervene-EU-H2020/pgs-method-compare
- https://www.ebi.ac.uk/gwas/