Neue Methode verbessert genetische Entdeckungen in der Lungenfunktionsforschung
Die REGLE-Methode verbessert die genetische Analyse der Lungenfunktion durch bessere Datenrepräsentation.
― 6 min Lesedauer
Inhaltsverzeichnis
Hochdimensionale klinische Daten (HDCD) können uns helfen, die genetischen Bausteine von Krankheiten und komplexen Merkmalen zu verstehen. Wenn wir HDCD mit grossen genetischen Datensätzen kombinieren, eröffnen sich neue Möglichkeiten. Allerdings brauchen wir immer noch bessere statistische Methoden, um HDCD in genomweiten Assoziationsstudien (GWAS) optimal zu nutzen. Traditionelle GWAS erfordern oft, dass die Informationen in eine einzelne Zahl vereinfacht werden, was nicht immer gut mit den reichhaltigen Daten in HDCD funktioniert.
Eine gängige Methode ist, GWAS für jedes einzelne Datenstück durchzuführen, wie zum Beispiel verschiedene Zeitpunkte in einem Elektrokardiogramm. Das kann zwar Einblicke geben, hat aber auch Nachteile. Zum Beispiel kann das Durchführen mehrerer GWAS viel Rechenleistung benötigen, und die Korrelationen zwischen den Datenpunkten können die Genauigkeit der Ergebnisse verringern.
Ein anderer Ansatz besteht darin, die Hauptkomponentenanalyse (PCA) zu verwenden, um die HDCD zusammenzufassen, bevor GWAS durchgeführt wird. Leider geht PCA von einer einfachen Beziehung zwischen den Daten und den zugrunde liegenden biologischen Faktoren aus, wodurch wichtige Details verloren gehen können.
Um diese Probleme anzugehen, wenden sich Wissenschaftler maschinellen Lerntechniken (ML) zu. ML-basierte Phänotypisierung nimmt rohe HDCD und verwendet Deep-Learning-Modelle, um Merkmale vorherzusagen, die dann mit GWAS analysiert werden können. Dieser Ansatz verbessert die traditionellen Methoden, basiert jedoch oft stark darauf, viele gelabelte Beispiele zu haben.
Experten-definierte Merkmale
GWAS-Forscher konzentrieren sich manchmal auf eine kleine Anzahl von experten-definierten Merkmalen (EDFs), wie spezifische Messungen aus klinischen Tests. Zum Beispiel schauen Ärzte bei Lungenfunktionstests oft auf Werte wie die forcierte Vitalkapazität (FVC) und das forcierte exspiratorische Volumen in einer Sekunde (FEV1). Obwohl die Verwendung dieser Merkmale in klinischen Settings hilft, fangen sie möglicherweise nicht alles ein, was Spirogramme (grafische Darstellungen der Lungenfunktion) zeigen können.
Die Einschränkungen der Verwendung nur von EDFs haben zur Entwicklung einer neuen Methode namens REpräsentationslernen für genetische Entdeckung auf nieder-dimensionalen Einbettungen (REGLE) geführt. Diese Methode soll die genetischen Grundlagen der Lungenfunktion anhand der Rohdaten aus Spirogrammen analysieren, anstatt nur die zusammenfassenden Merkmale zu verwenden.
Durch die Anwendung von REGLE konnten Forscher bekannte genetische Faktoren, die mit der Lungenfunktion assoziiert sind, wiederentdecken und auch neue finden. Ausserdem berechneten sie Polygenetische Risikoscores (PRS) aus ihren Analysen, die helfen, die Wahrscheinlichkeit von Krankheiten wie Asthma und chronisch obstruktiver Lungenerkrankung (COPD) in verschiedenen Bevölkerungsgruppen vorherzusagen.
Was ist REGLE?
REGLE besteht aus drei Hauptschritten:
- Lernen einer nieder-dimensionalen Darstellung der HDCD.
- Durchführung von GWAS auf dieser neuen Darstellung.
- Kombinieren von PRS aus der Darstellung in Scores für spezifische Krankheiten oder Merkmale.
Im ersten Schritt verwendet REGLE eine spezielle Art von Modell namens variational autoencoder (VAE). Dieses Modell komprimiert die HDCD in eine einfachere Form, während es versucht, wichtige Informationen zu bewahren. Im zweiten Schritt wird GWAS auf diesen vereinfachten Darstellungen durchgeführt. Schliesslich nimmt der dritte Schritt die Ergebnisse und erstellt einen genaueren Risikowert für Krankheiten.
Verwendung von Spirogrammen in REGLE
Spirogramme liefern detaillierte Informationen über die Lungenfunktion durch ihre Formen und Muster. Durch die Anwendung von REGLE auf Spirogramme erstellten Forscher zwei Arten von Kodierungen: eine, die die grundlegenden Lungenfunktionsdaten einfängt (SPINCs), und eine andere, die sowohl die Spirogrammdaten als auch die EDFs einbezieht (RSPINCs).
Mit diesen Kodierungen rekonstruierten die Forscher die ursprünglichen Spirogrammdaten mit bemerkenswerter Genauigkeit und zeigten, dass sie die Nuancen der Lungenfunktion effektiver erfassen konnten als einfachere Methoden wie PCA.
Interpretation der Kodierungen
Um zu verstehen, wie die RSPINC-Koordinaten die Lungenfunktionsmessungen beeinflussen, testeten die Forscher, wie die Veränderung eines Teils der Kodierung die resultierende Spirogrammform beeinflusste. Beispielsweise stellten sie fest, dass eine Koordinate bestimmte Teile des Spirogramms verbreitern oder verengen konnte, sodass die Forscher diese Änderungen mit realer biologischer Bedeutung verknüpfen konnten.
Interessanterweise lieferten die SPINCs und RSPINCs auch Informationen, die über das hinausgingen, was die EDFs erzählen konnten. Einige der gelernten Kodierungen korrelierten mit bekannten Lungenfunktionsmetriken, während andere neuartige Einblicke in zusätzliche Faktoren gaben, die die Lungen Gesundheit beeinflussen.
Entdeckung neuer genetischer Loci
Forscher verwendeten REGLE mit Daten von über 300.000 Personen, um GWAS sowohl auf den neuen Kodierungen als auch auf den etablierten EDFs durchzuführen. Dieser Ansatz enthüllte 575 signifikante genetische Loci, die mit der Lungenfunktion verknüpft sind, darunter viele, die zuvor unbekannt waren.
Diese neuen Loci waren mit Merkmalen wie der Lungenfunktion und Atemwegserkrankungen assoziiert. Die Ergebnisse zeigten, dass die REGLE-Methode nicht nur frühere Befunde replizierte, sondern auch neue genetische Signale entdeckte, die das Verständnis der Lungen Gesundheit unterstützen könnten.
Verbesserung der Risikovorhersage für Krankheiten
Mit den SPINCs und RSPINCs berechneten die Forscher PRS für Krankheiten wie Asthma und COPD und zeigten, dass diese neuen Scores besser abschnitten als traditionelle Masse, die nur auf EDFs basierten. Beispielsweise wiesen Personen, die aufgrund der SPINCs als hochrisikobehaftet eingestuft wurden, eine höhere Prävalenz von Asthma auf als jene, die basierend auf EDFs eingruppiert wurden.
Die Idee ist, dass sich mit REGLE differenziertere Risikowerte entwerfen lassen, die eine breitere Palette genetischer Faktoren berücksichtigen. Das bedeutet bessere Vorhersagen darüber, wer möglicherweise später Atemwegserkrankungen entwickeln könnte.
Generalisierbarkeit auf andere Datensätze
Um zu testen, ob die durch REGLE entwickelten Methoden auf andere Bevölkerungsgruppen anwendbar sind, übertrugen die Forscher ihre PRS von der UK Biobank auf andere Datensätze. Sie fanden heraus, dass die SPINCs und RSPINCs auch in unterschiedlichen Gruppen von Menschen, einschliesslich europäischer und afroamerikanischer Individuen, wirksam blieben.
Die konsistenten Ergebnisse in verschiedenen Datensätzen deuten darauf hin, dass REGLE ein mächtiges Werkzeug für genetische Entdeckungen in einem breiten Spektrum von Gesundheitszuständen, nicht nur bei Lungenerkrankungen, sein könnte.
Fazit
Zusammenfassend bietet REGLE einen neuen Ansatz zur Analyse komplexer klinischer Daten. Durch das Lernen nieder-dimensionaler Repräsentationen von HDCD können Forscher wichtige genetische Faktoren aufdecken, die traditionelle Methoden möglicherweise übersehen. Dieser Ansatz verbessert nicht nur unser Verständnis der genetischen Einflüsse auf Krankheiten, sondern auch die Vorhersagen für Krankheiten wie Asthma und COPD.
Da diese Methode weiter verfeinert wird, hat sie das Potenzial, unser Wissen über die menschliche Gesundheit voranzubringen und könnte in Zukunft zu besseren Strategien für Prävention und Behandlung führen. Mit dem kontinuierlichen Wachstum von Biobanken und Datensätzen ist zu erwarten, dass Methoden wie REGLE eine zunehmend wichtige Rolle in der medizinischen Forschung spielen werden.
Titel: Unsupervised representation learning improves genomic discovery and risk prediction for respiratory and circulatory functions and diseases
Zusammenfassung: High-dimensional clinical data are becoming more accessible in biobank-scale datasets. However, effectively utilizing high-dimensional clinical data for genetic discovery remains challenging. Here we introduce a general deep learning-based framework, REpresentation learning for Genetic discovery on Low-dimensional Embeddings (REGLE), for discovering associations between genetic variants and high-dimensional clinical data. REGLE uses convolutional variational autoencoders to compute a non-linear, low-dimensional, disentangled embedding of the data with highly heritable individual components. REGLE can incorporate expert-defined or clinical features and provides a framework to create accurate disease-specific polygenic risk scores (PRS) in datasets which have minimal expert phenotyping. We apply REGLE to both respiratory and circulatory systems: spirograms which measure lung function and photoplethysmograms (PPG) which measure blood volume changes. Genome-wide association studies on REGLE embeddings identify more genome-wide significant loci than existing methods and replicate known loci for both spirograms and PPG, demonstrating the generality of the framework. Furthermore, these embeddings are associated with overall survival. Finally, we construct a set of PRSs that improve predictive performance of asthma, chronic obstructive pulmonary disease, hypertension, and systolic blood pressure in multiple biobanks. Thus, REGLE embeddings can quantify clinically relevant features that are not currently captured in a standardized or automated way.
Autoren: Taedong Yun, J. Cosentino, B. Behsaz, Z. R. McCaw, D. Hill, R. Luben, D. Lai, J. Bates, H. Yang, T.-H. Schwantes-An, Y. Zhou, A. P. Khawaja, A. Carroll, B. D. Hobbs, M. H. Cho, C. Y. McLean, F. Hormozdiari
Letzte Aktualisierung: 2023-08-29 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.04.28.23289285
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.04.28.23289285.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://data.broadinstitute.org/alkesgroup/ldscore
- https://data.broadinstitute.org/alkesgroup/bolt-lmm
- https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000179.v6.p2
- https://github.com/jianyangqt/gcta
- https://great.stanford.edu
- https://www.ebi.ac.uk/gwas/
- https://indianabiobank.org/
- https://pan.ukbb.broadinstitute.org
- https://www.cog-genomics.org/plink1.9
- https://www.tensorflow.org
- https://genome.ucsc.edu/cgi-bin/hgLiftOver
- https://www.ukbiobank.ac.uk
- https://github.com/deepmind/xmanager
- https://imputationserver.sph.umich.edu/index.html#!pages/home
- https://github.com/Google-Health/