Neue Methode verbessert die Risikovorhersage für Krankheiten mithilfe von DNA-Daten
Ein neuer Ansatz verbessert die Auswahl von DNA-Stellen zur Vorhersage von Gesundheitsrisiken.
― 6 min Lesedauer
Inhaltsverzeichnis
Forschung hat gezeigt, dass Veränderungen in der DNA-Methylierung (DNAm) an bestimmten Stellen mit verschiedenen Gesundheitsmerkmalen verbunden sind, wie zum Beispiel dem Body-Mass-Index (BMI), Rauchgewohnheiten und der Entwicklung bestimmter Krankheiten. DNAm ist eine Möglichkeit, wie der Körper im Laufe der Zeit beeinflussen kann, wie Gene exprimiert werden. Dieser Prozess umfasst das Hinzufügen oder Entfernen kleiner chemischer Gruppen, die Methylgruppen genannt werden, zur DNA. Da Blutuntersuchungen DNAm leicht messen können, ist es zu einem Schwerpunkt für Studien geworden, die darauf abzielen, Gesundheitsrisiken vorherzusagen, einschliesslich des Risikos, Krankheiten zu entwickeln.
Eine der Hauptschwierigkeiten beim Erstellen von Modellen zur Vorhersage von Krankheitsrisiken mithilfe von DNAm ist herauszufinden, auf welche spezifischen DNA-Stellen man sich konzentrieren sollte. Grosse Studien können die Methylierung an Hunderttausenden von Stellen messen, beinhalten jedoch oft nur eine begrenzte Anzahl von Teilnehmern, was zu einer Situation führt, in der die Anzahl der Variablen viel grösser ist als die Anzahl der untersuchten Personen.
Um mit diesen Arten von Daten zu arbeiten, verwenden Forscher oft spezielle statistische Techniken, die dabei helfen, die wichtigsten Merkmale auszuwählen und Vorhersagen zu treffen. In Situationen, in denen es viel mehr Merkmale als Beobachtungen gibt, funktionieren diese Methoden jedoch möglicherweise nicht so gut. Ein gängiger Ansatz ist, zunächst die Merkmale in einem zweistufigen Prozess einzugrenzen, bevor komplexere Modelle angewendet werden. Dieser erste Schritt filtert die weniger relevanten Merkmale heraus und lässt idealerweise eine überschaubare Anzahl übrig, die dann für Vorhersagen verwendet werden kann.
Merkmalsauswahlmethoden
Eine gängige Methode zum Filtern von DNA-Stellen ist das variantenbasierte Filtern, bei dem Forscher eine bestimmte Anzahl von Stellen mit der höchsten Variabilität beibehalten. Während dieser Prozess einfach und effektiv ist, um Stellen zu entfernen, die nicht viel Variation zeigen, kann er Probleme haben, wenn es um kleine Effekte oder eine geringe Stichprobengrösse geht. Es gibt andere Methoden, die untersuchen, wie jedes Merkmal mit dem interessierenden Ergebnis zusammenhängt, das entweder ein kontinuierliches Ergebnis oder eines ist, das die Zeit bis zu einem Ereignis verfolgt, wie z.B. die Entwicklung einer Krankheit.
Eine weitere Strategie ist die Nutzung vorhandenen Wissens, wie zum Beispiel Ergebnisse aus früheren Studien, um die Merkmalsauswahl zu leiten. Zum Beispiel können Forscher sich auf DNA-Stellen konzentrieren, die bereits in Studien, die als Epigenome-Wide Association Studies (EWAS) bezeichnet werden, mit bestimmten Ergebnissen in Verbindung gebracht wurden. Allerdings setzt dies voraus, dass Daten aus diesen Studien verfügbar sind, die möglicherweise nicht für alle Bedingungen existieren.
Eine zusätzliche Technik ist die Verwendung von Hauptkomponentenanalyse (PCA) oder anderen Methoden, die die Daten durch Dimensionenreduktion vereinfachen. Dies führt zu weniger Merkmalen, kann jedoch die wesentlichen Informationen für Vorhersagen erhalten. In einigen Fällen hat die Anwendung von PCA vielversprechende Verbesserungen bei den Vorhersageergebnissen gezeigt.
Vorgeschlagene Methode: Merkmalsauswahl basierend auf verwandten Eigenschaften
Wir schlagen eine neue Methode zur Merkmalsauswahl vor, die als Merkmalsauswahl basierend auf verwandten Eigenschaften (RTFS) bezeichnet wird. Dieser Ansatz nutzt Daten über verschiedene gesundheitsbezogene Merkmale, um die Auswahl von DNA-Stellen für eine weitere Analyse zu leiten. Zum Beispiel, wenn Forscher versuchen, das Auftreten einer Krankheit vorherzusagen, können sie Messungen wie BMI, Rauchstatus und Alkoholkonsum heranziehen, die alle miteinander verbunden sind.
Der Vorselektion-Schritt kann unter Verwendung von penalisierten Regressionsmodellen durchgeführt werden, die auch mit kleineren Stichprobengrössen arbeiten können im Vergleich zu Methoden, die die Zeit bis zum Eintreten eines Ereignisses untersuchen. Dadurch können Forscher unnötige Merkmale herausfiltern und diejenigen beibehalten, die zur Vorhersage des Risikos beitragen können, Krankheiten zu entwickeln.
Studiendesign und Daten
In unserer Studie haben wir die RTFS-Methode zusammen mit anderen gängigen Vorselektionstechniken an einer grossen Kohorte namens Generation Scotland angewendet, die detaillierte DNA-Methylierungsdaten, die mit Gesundheitsakten verknüpft sind, enthält. Die Kohorte besteht aus über 18.000 Personen. Wir haben verglichen, wie gut verschiedene Vorselektionstechniken bei der Erstellung von Modellen zur Vorhersage des Risikos für Typ-2-Diabetes (T2D) abgeschnitten haben.
Die Analyse konzentrierte sich darauf, Epigenetische Scores (EpiScores) zu erstellen, die Summen von Methylierungswerten an ausgewählten DNA-Stellen sind. Diese Scores zielen darauf ab, die Zeit vorherzusagen, bis jemand mit T2D diagnostiziert wird. Unsere Ergebnisse zeigen, dass RTFS fast ebenso gut abschneiden kann wie die besten bestehenden Filtermethoden basierend auf früheren Studien, was zu einer verbesserten Vorhersagegenauigkeit im Vergleich zu den Standardrisikofaktoren führt.
Ergebnisse: EpiScores und Vorhersageleistung
Unsere Ergebnisse zeigen, dass die RTFS-Methode effektiv relevante DNA-Stellen zur Vorhersage des Krankheitsrisikos auswählen kann. Als wir die Vorhersagegenauigkeit der verschiedenen Methoden verglichen, stellten wir fest, dass die Verwendung von RTFS Ergebnisse lieferte, die mit der besten Filtermethode auf Basis von EWAS-Befunden vergleichbar waren. Das deutet darauf hin, dass RTFS ein wertvolles Werkzeug zur Identifizierung signifikanter DNA-Stellen ist, ohne dass vorher grosse Studien für jede Krankheit notwendig sind.
Darüber hinaus erzielten die mit der RTFS-Methode erstellten EpiScores bessere Ergebnisse als die blosse Berücksichtigung genetischer Risikofaktoren. Das bedeutet, dass die Einbeziehung von DNAm-Daten die Informationen verbessern kann, die wir verwenden, um das Krankheitsrisiko vorherzusagen.
Validierung der Ergebnisse
Um die Effektivität der RTFS-Methode und der generierten EpiScores zu bestätigen, haben wir die Ergebnisse mit einer weiteren Kohorte namens KORA S4 validiert. Obwohl wir in dieser Validierung nur binäre Ergebnisse bewerten konnten, zeigten die Modelle, die RTFS und EPIC-450k EpiScores einbegriffen, dennoch eine verbesserte Vorhersageleistung im Vergleich zu Basismodellen, die nur Risikofaktoren verwendeten.
Überlappende Merkmale und Generalisierbarkeit
Als wir uns ansahen, wie verschiedene Merkmale hinsichtlich der ausgewählten DNA-Stellen überlappten, stellten wir fest, dass viele der ausgewählten Stellen spezifisch für einzelne Merkmale waren. Dennoch gab es einige Überlappungen bei Messungen wie BMI, Taillen-Hüft-Verhältnis und Körperfett. Das könnte darauf hindeuten, dass bestimmte DNA-Stellen für mehrere Gesundheitsmerkmale relevant sind, was das Potenzial für breitere Anwendungen über nur T2D hinaus nahelegt.
Obwohl unsere Studie starke Ergebnisse und Validierungen zeigte, ist es wichtig zu beachten, dass die Generation Scotland-Kohorte hauptsächlich aus Individuen aus spezifischen Demografien besteht, was die Generalisierbarkeit unserer Ergebnisse auf andere Populationen einschränken könnte. Zukünftige Studien könnten untersuchen, wie RTFS auf verschiedene Gruppen und Krankheitsarten anwendbar ist.
Fazit
Unsere Arbeit hebt die Bedeutung der Vorselektion von Merkmalen bei der Entwicklung prädiktiver Modelle auf Basis von DNA-Methylierungsdaten hervor. Die RTFS-Methode, die verwandte Gesundheitsmerkmale nutzt, bietet einen praktischen Ansatz, um relevante Merkmale zur Modellierung des Krankheitsrisikos auszuwählen. Mit vielversprechenden Ergebnissen bei der Vorhersage von T2D zeigt RTFS Potenzial für breitere Anwendungen zur Vorhersage von Risiken für verschiedene Gesundheitsausgänge.
Zusammenfassend ermöglicht die RTFS-Methode Forschern, die Fülle von Informationen in DNA-Methylierungsdaten effektiv zu nutzen, um die Vorhersage von Krankheitsrisiken zu verbessern. Sie bietet eine Grundlage für zukünftige Studien, die ihre Wirksamkeit bei anderen Gesundheitsausgängen und in unterschiedlichen Populationen untersuchen könnten.
Titel: Feature pre-selection for the development of epigenetic biomarkers
Zusammenfassung: Over the last decade, a plethora of blood-based DNA methylation biomarkers have been developed to track differences in ageing, lifestyle, health, and biological outcomes. Typically, penalised regression models are used to generate these predictors, with hundreds or thousands of CpGs included as potential features. However, in such ultra high-dimensional settings, the effectiveness of these methods may be reduced. Here, we introduce Related Trait-based Feature Screening (RTFS), a method for performing CpG pre-selection for incident disease prediction models by utilising associations between CpGs and health-related continuous traits. In a comparison with commonly used CpG pre-selection methods, we evaluate resulting downstream Cox proportional-hazards prediction models for 10-year type 2 diabetes (T2D) onset risk in Generation Scotland (n=18,414). The top performing models utilised incident T2D EWAS (AUC=0.881, PRAUC=0.279) and RTFS (AUC=0.877, PRAUC=0.277). The resulting models also improve prediction over a model using standard risk factors only (AUC=0.841, PRAUC=0.194) and replication was observed in the German-based KORA study (n=4,261) RTFS is a flexible and generalisable framework that can help to refine biomarker development for incident disease outcomes.
Autoren: Catalina A Vallejos, Y. Cheng, C. Gieger, A. Campbell, A. M. McIntosh, M. Waldenberger, D. L. McCartney, R. E. Marioni
Letzte Aktualisierung: 2024-02-15 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2024.02.14.24302694
Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.02.14.24302694.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.