Fortschritte bei polygenen Scores für Gesundheitsvorhersagen
Wissenschaftler verbessern polygenetische Scores, um Gesundheitsrisiken in verschiedenen Bevölkerungsgruppen vorherzusagen.
― 6 min Lesedauer
Inhaltsverzeichnis
Das menschliche Genom besteht aus DNA, die die genetischen Informationen für eine Person trägt. Zu verstehen, wie Veränderungen in dieser DNA physische Merkmale oder Krankheiten beeinflussen können, ist ganz schön kompliziert. Um diese Zusammenhänge zu erkennen, müssen Wissenschaftler eine Menge Daten analysieren. Das liegt daran, dass es Millionen von kleinen Variationen in unserer DNA gibt, die beeinflussen können, wie wir sind, von unserer Gesundheit bis zu unserem Aussehen.
Mit der Entwicklung grosser Biobanken können Forscher jetzt Millionen von DNA-Proben von Menschen sammeln und analysieren. Das hilft ihnen zu studieren, wie bestimmte genetische Variationen mit verschiedenen Gesundheitsrisiken und anderen Eigenschaften zusammenhängen. Diese grossen Datensätze bieten die notwendige Power, um echte Signale von zufälligen Veränderungen in den Daten zu unterscheiden.
Was sind polygenen Scores?
Eines der wichtigsten Werkzeuge, das aus der Analyse dieser Datensätze hervorgeht, nennt sich polygener Score (PGS). Ein PGS ist eine Zahl, die die genetische Zusammensetzung einer Person darstellt, basierend auf spezifischen genetischen Variationen, die als Einzel-Nukleotid-Polymorphismen (SNPs) bekannt sind. Diese Scores werden erstellt, indem die DNA einer Person analysiert und unterschiedlichen genetischen Variationen Gewichte zugewiesen werden, je nachdem, wie stark sie zu bestimmten Merkmalen oder Krankheiten beitragen.
Die meisten Forschungen zu PGS konzentrieren sich auf Personen europäischer Abstammung. Zum Beispiel hat eine bekannte Biobank im Vereinigten Königreich über 90 % der Teilnehmer, die sich als weiss identifizieren. Das bedeutet, dass der aktuelle PGS am effektivsten für Menschen europäischer Abstammung ist.
Es gibt mehrere neue Projekte, die darauf abzielen, vielfältigere Populationen einzubeziehen. Beispielsweise sind Bemühungen in Regionen wie Taiwan und in den USA im Gange, um Biobanken zu schaffen, die Proben von nicht-europäischen Populationen enthalten werden. Bis diese vielfältigen Datensätze jedoch besser verfügbar sind, müssen Forscher die europäischen Ergebnisse anpassen, um sie auf andere Abstammungsgruppen anzuwenden.
Herausforderungen bei der Verwendung grosser Datensätze
Mit dem Wachstum der Datensätze und dem Fortschritt der Technologie ergeben sich neue Herausforderungen beim Aufbau effektiver PGS. Grössere Datensätze benötigen mehr Rechenleistung zur Analyse. Ausserdem richten sich die aktuellen Methoden hauptsächlich an Menschen europäischer Abstammung. Wissenschaftler haben viele Techniken vorgeschlagen, um PGS an andere Gruppen anzupassen, indem sie sich auf Variationen konzentrieren, die für verschiedene Populationen am relevantesten sind.
Ein weiteres Problem ist, dass zukünftige PGS von der Sammlung von DNA-Proben neuer Teilnehmer abhängen werden. Wenn die Probenahme sich auf weniger genetische Variationen konzentrieren kann, könnte das kostengünstiger und einfacher umzusetzen sein.
Obwohl es traditionelle Methoden zur Entwicklung dieser Scores gibt, basieren viele von ihnen auf linearen Modellen. Wenn Wissenschaftler tiefer in die Daten eintauchen, stossen sie auf Schwierigkeiten, die aus komplexen genetischen Wechselwirkungen entstehen, wie zum Beispiel wie Gene einander beeinflussen und wie die Umwelt genetische Effekte verändern kann.
Die Rolle sparsamer Algorithmen
Dieser Artikel hebt die Vorteile sparsamer Algorithmen hervor. Diese Algorithmen helfen dabei, nur die wichtigsten genetischen Variationen zu identifizieren, die für Vorhersagen benötigt werden. Dadurch reduzieren sie die Komplexität und verbessern die Genauigkeit der Ergebnisse. Früheren Studien zufolge schneiden sparse Methoden ebenso gut ab wie kompliziertere Techniken.
Diese Forschung konzentriert sich auf die Leistung und praktischen Anwendungen dieser sparsamen Algorithmen für elf Gesundheitsmerkmale, wie Asthma, Diabetes und Herzkrankheiten. Durch die Auswahl nur der wesentlichen genetischen Merkmale können die Algorithmen die Vorhersagegenauigkeit verbessern und gleichzeitig die Berechnungen minimieren.
Vergleich sparsamer Prädiktoren
Um zu verstehen, wie gut verschiedene Methoden abschneiden, wird ein Vergleich mehrerer sparsamer Algorithmen, einschliesslich LASSO und Elastic Net, durchgeführt. Das Ziel ist zu sehen, wie effektiv diese Algorithmen PGS für verschiedene Merkmale erstellen können.
Die Ergebnisse zeigen, dass bestimmte Algorithmen konsequent bessere Ergebnisse erzielen. Zum Beispiel schneidet LASSO, eine häufig verwendete Methode, beim genauen Vorhersagen von Gesundheitszuständen gut ab.
Unterschiede zwischen Abstammungsgruppen
Forschungen zeigen, dass, wenn ein Prädiktor, der für eine Abstammungsgruppe entwickelt wurde, auf eine andere Gruppe angewendet wird, die Ergebnisse oft leiden. Diese Verringerung der Effektivität variiert von einem Gesundheitsmerkmal zum anderen. Einige Merkmale verlieren viel von ihrer Vorhersagekraft, während andere besser erhalten bleibt.
Um zuverlässige PGS für verschiedene Abstammungsgruppen zu entwickeln, ist es entscheidend, die genetischen Unterschiede und ihre Auswirkungen zu verstehen. Geschwisterstudien können dabei helfen, da Geschwister normalerweise mehr von ihrem genetischen Hintergrund und ihrer Umwelt teilen als nicht verwandte Personen.
Umweltfaktoren und ihre Auswirkungen
Gesundheitszustände basierend auf genetischen Informationen vorherzusagen, ist nicht einfach. Umweltfaktoren können die Ergebnisse beeinflussen und es schwieriger machen, den genetischen Einfluss zu isolieren. Hier können Geschwistervergleiche ebenfalls eine Rolle spielen, da sie in der Regel gemeinsame Lebensbedingungen während ihrer Kindheit teilen.
In diesen Analysen suchen die Forscher nach betroffenen Geschwisterpaaren, die aus einem Geschwister mit einer Erkrankung und einem ohne bestehen. Durch den Vergleich ihrer polygenen Scores können Wissenschaftler feststellen, wie häufig das Geschwister mit dem höheren Score auch die Erkrankung hat.
Die Bedeutung von Odds Ratios
Für Gesundheitszustände, die Fälle und Kontrollen umfassen, können Wissenschaftler Odds Ratios (OR) ableiten, um die Ergebnisse zu verstehen. Eine Odds Ratio vergleicht die Wahrscheinlichkeit, eine Erkrankung basierend auf PGS-Werten zu haben. Dies gibt Aufschluss darüber, wie genetische Prädisposition das Risiko für bestimmte Gesundheitsprobleme beeinflussen kann.
Während die Ergebnisse vielversprechend aussehen können, ist es wichtig, vorsichtig zu sein. Die Extreme der PGS-Verteilungen sind Bereiche, in denen Modelle weniger zuverlässig werden können, und die Stichprobengrössen tendieren dazu, kleiner zu sein, was die Interpretationen schwierig macht.
Prognose zukünftiger Leistungen
Der Artikel diskutiert auch, wie das Training mit grossen Biobank-Datensätzen helfen kann, das potenzielle Wachstum der prädiktiven Leistung zu modellieren. Durch die Analyse der aktuellen Daten können Forscher vorhersagen, wie Verbesserungen in der Stichprobengrösse zu besseren Vorhersagen in der Zukunft führen werden.
Mit verschiedenen statistischen Methoden können die erwarteten Leistungskennzahlen typischerweise modelliert werden, was hilft, zukünftige Studien zu leiten und effektive Biobanken aufzubauen.
Fazit
Zusammenfassend lässt sich sagen, dass das Verständnis, wie Genetik Gesundheit und Merkmale beeinflusst, ein komplexes Feld ist, das auf der Analyse grosser Datensätze basiert. Polygenen Scores sind mächtige Werkzeuge, die helfen, Gesundheitsrisiken basierend auf der genetischen Zusammensetzung vorherzusagen. Allerdings bleiben Herausforderungen bestehen, insbesondere in Bezug auf die Repräsentation vielfältiger Abstammungsgruppen.
Der Einsatz sparsamer Algorithmen bietet eine vielversprechende Richtung, da sie die Vorhersagegenauigkeit verbessern und gleichzeitig den Rechenbedarf minimieren können. Fortgesetzte Anstrengungen zur Schaffung inklusiverer Datensätze werden entscheidend sein, um die Zuverlässigkeit von PGS über verschiedene Populationen hinweg zu verbessern.
Während Forscher weiterhin auf diesem Gebiet arbeiten, besteht die Hoffnung, dass genetische Erkenntnisse zu besseren Gesundheitsresultaten für alle führen, unabhängig von der Abstammung. Die Zukunft der polygenen Vorhersage birgt grosses Potenzial, aber es ist klar, dass noch mehr Arbeit nötig ist, um die Lücken zu schliessen und gerechte Gesundheitswerkzeuge für alle Gemeinschaften bereitzustellen.
Titel: Biobank-scale methods and projections for sparse polygenic prediction from machine learning
Zusammenfassung: In this paper we characterize the performance of linear models trained via widely-used sparse machine learning algorithms. We build polygenic scores and examine performance as a function of training set size, genetic ancestral background, and training method. We show that predictor performance is most strongly dependent on size of training data, with smaller gains from algorithmic improvements. We find that LASSO generally performs as well as the best methods, judged by a variety of metrics. We also investigate performance characteristics of predictors trained on one genetic ancestry group when applied to another. Using LASSO, we develop a novel method for projecting AUC and Correlation as a function of data size (i.e., for new biobanks) and characterize the asymptotic limit of performance. Additionally, for LASSO (compressed sensing) we show that performance metrics and predictor sparsity are in agreement with theoretical predictions from the Donoho-Tanner phase transition. Specifically, a predictor trained in the Taiwan Precision Medicine Initiative for asthma can achieve an AUC of 0.63(0.02) and for height a correlation of 0.648(0.009) for a Taiwanese population. This is above the measured values of 0.61(0.01) and 0.631(0.008), respectively, for UK Biobank trained predictors applied to a European population.
Autoren: Timothy G Raben, L. Lello, E. Widen, S. D. H. Hsu
Letzte Aktualisierung: 2023-03-08 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.