Forschung mit EHRs und Biobanken verbessern
Die Kombination von genetischen Daten und fortschrittlichen Methoden hilft, fehlende Daten in der Gesundheitsforschung zu beheben.
Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Herausforderung fehlender Daten
- Umgang mit fehlenden Daten
- Genetische Daten als Werkzeug
- Selektionsbias in Biobanken
- Forschungsziele
- Methodenkurzüberblick
- Fallstudie: Michigan Genomics Initiative
- Ergebnisse der Simulationen
- Ergebnisse der Fallstudie
- Implikationen und Empfehlungen
- Fazit
- Originalquelle
- Referenz Links
Elektronische Gesundheitsakten (EHRs) sind digitale Versionen der medizinischen Geschichte von Patienten. Diese Akten enthalten eine Menge Infos über die Gesundheit, Behandlungen und Ergebnisse von Leuten, die Forscher immer mehr nutzen, um Gesundheitstrends zu studieren und das Gesundheitswesen zu verbessern.
Ein spannender Aspekt von EHRs ist ihre Verbindung zu Biobanken, die Sammlungen von biologischen Proben und dazugehörigen Gesundheitsinformationen sind. Einige Biobanken beinhalten mittlerweile genetische Daten zusammen mit EHRs, was den Forschern ein breiteres Spektrum an Informationen bietet. Diese Kombination kann zu Erkenntnissen über die öffentliche Gesundheit und die individuelle Patientenversorgung führen.
Die Herausforderung fehlender Daten
Obwohl EHRs wertvolle Daten liefern, bringen sie auch Herausforderungen mit sich. Ein grosses Problem sind Fehlende Daten. Wenn bestimmte Gesundheitsinformationen nicht erfasst oder abwesend sind, kann das zu verzerrten Schlussfolgerungen führen. Fehlende Daten können aus verschiedenen Gründen auftreten, zum Beispiel wenn ein Patient nicht zu einem Folgetermin geht, bestimmte Tests nicht gemacht wurden oder wenn die Dateneingabe fehlerhaft war.
Forscher nutzen oft Analysen mit vollständigen Fällen, was bedeutet, dass sie nur Patienten mit allen notwendigen Daten einbeziehen. Allerdings kann dieser Ansatz ungenau sein, wenn die fehlenden Daten nicht zufällig sind. Wenn beispielsweise gesündere Patienten eher vollständige Akten haben, könnte das die Ergebnisse verzerren.
Fehlende Daten können in drei Kategorien fallen:
- Fehlend komplett zufällig (MCAR): Die fehlenden Daten sind völlig zufällig und stehen in keinem Zusammenhang mit Eigenschaften der Teilnehmer.
- Fehlend zufällig (MAR): Die Wahrscheinlichkeit fehlender Daten hängt mit beobachteten Daten zusammen, aber nicht mit den fehlenden Daten selbst.
- Fehlend nicht zufällig (MNAR): Die fehlenden Daten hängen mit dem Wert dessen zusammen, was fehlt, was die Handhabung komplizierter macht.
Umgang mit fehlenden Daten
Es gibt Methoden, um mit fehlenden Daten umzugehen, wobei die multiple Imputation eine beliebte Lösung ist. Diese Technik füllt fehlende Werte mehrfach aus, um mehrere vollständige Datensätze zu erstellen. Forscher analysieren dann jeden Datensatz und kombinieren die Ergebnisse, um eine genauere Schätzung zu erhalten.
Der Erfolg dieser Methoden kann je nach Art des Fehlens variieren. Wenn Daten zufällig fehlen, können die Analysen immer noch zuverlässige Ergebnisse liefern. Wenn Daten jedoch nicht zufällig fehlen, können diese Methoden Schwierigkeiten haben, genaue Schlussfolgerungen zu liefern.
Genetische Daten als Werkzeug
Biobanken beinhalten oft genetische Informationen. Das kann besonders hilfreich sein, um mit fehlenden Daten umzugehen. Forscher können "Polygenetische Risikoscores" (PRS) erstellen, die genetische Informationen zu spezifischen Eigenschaften oder Krankheiten zusammenfassen. Diese Scores können den Forschern helfen, die Beziehungen zwischen Gesundheitsdaten und genetischen Prädispositionen zu verstehen.
Durch die Anwendung von PRS in Analysen könnten Forscher in der Lage sein, fehlende Informationen effektiver anzupassen. Das könnte zu besseren Schätzungen führen, wie Faktoren wie der Body-Mass-Index (BMI) mit Gesundheitsauskommen, wie zum Beispiel Blutzuckerwerten, zusammenhängen.
Selektionsbias in Biobanken
Ein weiteres Problem mit Biobanken ist der Selektionsbias. Das passiert, wenn die Personen in der Studie die Allgemeinheit nicht richtig repräsentieren. Zum Beispiel, wenn Forscher nur Patienten rekrutieren, die sich einer Operation unterziehen, könnten sie wichtige Daten von ansonsten gesunden Personen verpassen.
Um Selektionsbias zu adressieren, können Forscher Gewichtungsmethoden verwenden. Diese Methoden passen die Über- oder Unterrepräsentation bestimmter Gruppen in der Studie an. Wenn eine Gruppe im Sample unterrepräsentiert ist, können Forscher ihren Beobachtungen in der Analyse höhere Gewichte zuweisen, um deren Bedeutung widerzuspiegeln.
Forschungsziele
In dieser Forschung möchten wir untersuchen, ob die Kombination von PRS-informierter multipler Imputation und Sample-Wichtung Bias durch fehlende Daten in Assoziationsstudien reduzieren kann. Unsere Ziele sind:
- Zu bewerten, ob PRS-informierte multiple Imputation den Bias in der Analyse signifikant reduziert.
- Den kombinierten Effekt von PRS-informierter Imputation und Sample-Wichtung auf die Schätzungen der Assoziationen zwischen BMI und Glukose zu bewerten.
Methodenkurzüberblick
Um unsere Studie durchzuführen, haben wir Simulationen gemacht, um verschiedene Szenarien mit fehlenden Daten zu testen. Wir haben Populationen mit verschiedenen Eigenschaften generiert, Datensätze erstellt und die fehlenden Daten manipuliert, um zu sehen, wie verschiedene Methoden unter diesen Bedingungen abgeschnitten haben.
Wir haben verschiedene Stichprobengrössen betrachtet, einschliesslich kleiner und grosser Populationen, und untersucht, wie sich Bias und Deckungsraten über verschiedene Ansätze veränderten. Das beinhaltete die Analyse von Daten sowohl mit als auch ohne PRS und die Anwendung von Gewichten basierend auf Selektionswahrscheinlichkeiten.
Fallstudie: Michigan Genomics Initiative
Wir haben unsere Methoden auf realweltliche Daten aus der Michigan Genomics Initiative (MGI) angewendet, einer Biobank, die Gesundheits- und genetische Daten von einer grossen Kohorte von Teilnehmern sammelt. Wir haben uns speziell auf Erwachsene ab 40 Jahren ohne Diabetesdiagnose konzentriert.
In unserer MGI-Analyse haben wir die Beziehung zwischen BMI und Glukosewerten bewertet. Wir haben Menschen, die sich als nicht-hispanische Weisse und nicht-hispanische Schwarze identifiziert haben, separat analysiert, um zu sehen, ob es Unterschiede in den Ergebnissen gab.
Ergebnisse der Simulationen
Unsere Simulationen haben gezeigt, dass die Verwendung von PRS-informierter multipler Imputation im Allgemeinen zu geringerem Bias führte, insbesondere wenn Daten zufällig fehlten (MAR). Sowohl naive Ansätze als auch die gewichteten Methoden zeigten, dass die multiple Imputation half, bessere Deckungsraten aufrechtzuerhalten und den Bias in den meisten Szenarien zu reduzieren. Allerdings litt die Leistung unter Bedingungen von nicht zufällig fehlenden Daten (MNAR).
In Fällen, in denen sowohl Expositions- als auch Ergebnisdaten fehlten, hatten alle Methoden Schwierigkeiten, die Validität aufrechtzuerhalten. Während die PRS-imputierten Analysen etwas besser abschnitten, hatten sie dennoch Schwierigkeiten, ideale Ergebnisse unter MNAR-Bedingungen zu erzielen.
Ergebnisse der Fallstudie
Als wir die MGI-Daten analysierten, verglichen wir die Schätzungen für den Effekt des BMI auf die Glukosewerte mit verschiedenen Methoden. Wir fanden heraus, dass sowohl die Analyse mit vollständigen Fällen als auch die multiple Imputation zu unterschiedlichen Schätzungen führten. Wichtigerweise brachte die Einbeziehung von Sample-Gewichten die Schätzungen näher an die Werte, die in einem nationalen Gesundheitsumfrage-Benchmark berichtet wurden.
Für nicht-hispanische Weisse war die ungewichtete Schätzung der vollständigen Fälle niedriger als erwartet, aber die Anwendung von Gewichten verbesserte die Schätzung erheblich. Für nicht-hispanische Schwarze fanden wir kleine Unterschiede, was darauf hindeutet, dass der Selektionsbias eine grössere Rolle als fehlende Daten spielte.
Implikationen und Empfehlungen
Unsere Ergebnisse machen deutlich, dass Forscher sowohl fehlende Daten als auch Selektionsbias berücksichtigen sollten, wenn sie mit EHR-verbundenen Biobankdaten analysieren. Während PRS-informierte multiple Imputation die Genauigkeit erhöhen kann, insbesondere in MAR-Szenarien, ist es kein Allheilmittel für MNAR-Bedingungen.
Forscher sollten weiterhin verschiedene Muster des Fehlens erkunden und zusätzliche Strategien, wie Sensitivitätsanalysen, in Betracht ziehen, um die Auswirkungen fehlender Daten besser zu verstehen. Zudem sollten Biobanken PRS und geeignete Gewichte zur besseren Repräsentation bereitstellen, um zuverlässigere Ergebnisse in zukünftigen Studien zu ermöglichen.
Fazit
Der Umgang mit fehlenden Daten und Selektionsbias ist entscheidend für die Zuverlässigkeit von Forschungen, die EHR-verbundene Biobanken nutzen. Durch die Kombination fortschrittlicher Imputationsmethoden mit genetischen Informationen und angemessenen Stichprobengewichten können Forscher die Genauigkeit ihrer Ergebnisse verbessern und zu besseren Gesundheitsresultaten beitragen. Weitere Erforschung dieser Methoden wird entscheidend sein, um die Qualität der Gesundheitsforschung zu erhöhen und öffentliche Gesundheitsstrategien zu informieren.
Titel: Reducing Information and Selection Bias in EHR-Linked Biobanks via Genetics-Informed Multiple Imputation and Sample Weighting
Zusammenfassung: Electronic health records (EHRs) are valuable for public health and clinical research but are prone to many sources of bias, including missing data and non-probability selection. Missing data in EHRs is complex due to potential non-recording, fragmentation, or clinically informative absences. This study explores whether polygenic risk score (PRS)-informed multiple imputation for missing traits, combined with sample weighting, can mitigate missing data and selection biases in estimating disease-exposure associations. Simulations were conducted for missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR) conditions under different sampling mechanisms. PRS-informed multiple imputation showed generally lower bias, particularly when combined with sample weighting. For example, in biased samples of 10,000 with exposure and outcome MAR data, PRS-informed imputation had lower percent bias (3.8%) and better coverage rate (0.883) compared to PRS-uninformed (4.5%; 0.877) and complete case analyses (10.3%; 0.784) in covariate-adjusted, weighted, multiple imputation scenarios. In a case study using Michigan Genomics Initiative (n=50,026) data, PRS-informed imputation aligned more closely with a sample-weighted All of Us-derived benchmark than analyses ignoring missing data and selection bias. Researchers should consider leveraging genetic data and sample weighting to address biases from missing data and non-probability sampling in biobanks.
Autoren: Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce
Letzte Aktualisierung: 2024-10-29 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286
Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.