Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Epidemiologi

Fehlende Daten in der Forschung angehen

Lerne, wie du fehlende Daten in Gesundheitsstudien effektiv managen kannst.

― 7 min Lesedauer


Herausforderungen beiHerausforderungen beifehlenden Daten angehenin Gesundheitsforschungsdaten.Strategien zur Bewältigung von Lücken
Inhaltsverzeichnis

In der Forschung können fehlende Daten eine grosse Herausforderung darstellen, besonders in Studien, die Gesundheit und Verhalten über die Zeit verfolgen. Um mit diesem Problem umzugehen, nutzen Forscher oft eine Methode namens multiple Imputation (MI). Diese Technik hilft, Lücken zu schliessen, wo Daten fehlen, sodass man unvollständige Datensätze analysieren kann, ohne die Ergebnisse zu verzerren. Allerdings hängt die Effektivität von MI davon ab, zu verstehen, wie und warum Daten fehlen.

Arten von fehlenden Daten

Es gibt verschiedene Gründe, warum Daten fehlen. Diese werden im Allgemeinen in drei Arten unterteilt:

  1. Fehlend völlig zufällig (MCAR): Der Grund für fehlende Daten hat nichts mit den beobachteten oder unbeobachteten Daten zu tun. Das Fehlen ist ganz zufällig.

  2. Fehlend zufällig (MAR): Das Fehlen hängt mit den beobachteten Daten zusammen, aber nicht mit den fehlenden Daten selbst. Mit anderen Worten, wenn du die beobachteten Daten kennst, kannst du die fehlenden Daten vorhersagen.

  3. Fehlend nicht zufällig (MNAR): Die fehlenden Daten sind direkt mit den fehlenden Werten verbunden. Das bedeutet, dass der Grund für das Fehlen der Daten direkt mit dem fehlenden Wert verknüpft ist.

Diese Kategorien zu verstehen, ist entscheidend, wenn man MI anwendet, weil es bestimmt, wie zuverlässig die Ergebnisse sein werden.

Der Einfluss fehlender Daten auf die Analyse

Nehmen wir ein Beispiel, wo Forscher untersuchen, wie Stillen den IQ eines Kindes beeinflusst. Angenommen, viele IQs von Kindern werden nicht gemeldet. Wenn die fehlenden IQ-Daten mit den tatsächlichen IQs der Kinder zusammenhängen – wie zum Beispiel, dass Kinder mit niedrigeren IQs weniger wahrscheinlich gemessen werden – dann ist das MNAR. In diesem Fall könnte einfaches MI oder sogar die Analyse der Daten nur mit den vollständigen Fällen zu irreführenden Ergebnissen führen.

Wenn man Daten mit fehlenden Teilen analysiert, wenn das Fehlen zufällig ist (MCAR), würden sowohl MI als auch traditionelle Methoden, die nur vollständige Fälle nutzen, ähnliche und genaue Schätzungen liefern. Wenn die Daten MAR sind, könnte MI immer noch funktionieren, vorausgesetzt, es wird korrekt angewandt. Aber wenn das Fehlen MNAR ist, könnten die Schätzungen von MI voreingenommen oder irreführend sein, es sei denn, es werden zusätzliche Faktoren berücksichtigt.

Strategien zum Umgang mit fehlenden Daten

Wenn Forscher vermuten, dass ihre Daten MNAR sein könnten, können einige Strategien angewendet werden:

  1. Sensitivitätsanalyse: Dabei wird überprüft, wie empfindlich die Ergebnisse auf Änderungen in den Annahmen über fehlende Daten reagieren. Durch die Verwendung verschiedener Szenarien können Forscher sehen, wie robust ihre Ergebnisse sind.

  2. Einbeziehung von Hilfsvariablen: Manchmal fügen Forscher andere Variablen hinzu, die helfen könnten, die fehlenden Daten in ihren Modellen vorherzusagen. Das kann aber nach hinten losgehen, besonders wenn diese Variablen tatsächlich nichts mit den fehlenden Werten zu tun haben. Wenn eine Hilfsvariable einbezogen wird, die das Fehlen beeinflusst, aber nicht die fehlenden Daten selbst, kann das die Verzerrung verschärfen.

  3. Modellierungstechniken: Einige fortgeschrittene Methoden und Modelle sind speziell dafür ausgelegt, mit MNAR-Daten umzugehen, erfordern jedoch oft ein tieferes Verständnis und sorgfältige Anwendung.

Beispiel-Szenario: Studie zu Kind-IQ und Stillen

Setzen wir das Beispiel mit dem Kind-IQ und Stillen fort und denken an eine Studie mit vielen Teilnehmern. Angenommen, ein erheblicher Prozentsatz der IQ-Werte von Kindern fehlt. Die Forscher haben Grund zu der Annahme, dass diese fehlenden Werte nicht zufällig sind; stattdessen könnten sie mit niedrigeren Bildungsständen der Eltern zusammenhängen. Das deutet darauf hin, dass die IQ-Daten MNAR sein könnten.

Wenn die Forscher sich entscheiden, MI zu verwenden, aber auch eine Variable einbeziehen, die angibt, ob die Mutter während der Schwangerschaft geraucht hat, könnten sie unbeabsichtigt die Verzerrung in ihren Schätzungen erhöhen, wenn diese Variable tatsächlich nichts mit dem IQ der Kinder zu tun hat.

In dieser Situation könnte das blosse Verlassen auf MI, ohne die Dynamik der fehlenden Daten zu verstehen, zu ungenauen Interpretationen führen, wie Stillen den IQ beeinflusst.

Anwendung in der realen Welt: Die Avon Longitudinal Study of Parents and Children (ALSPAC)

Eine Studie wie ALSPAC bietet eine reale Einsicht, wie sich diese Konzepte auswirken. Dieses laufende Projekt sammelt über viele Jahre Daten von Familien. Die Forscher stehen vor dem Problem fehlender Daten in Bezug auf verschiedene Faktoren, einschliesslich IQ-Werten von Kindern, die durch den Bildungsstand erklärt werden können – eine wichtige Variable, die sowohl mit dem Ergebnis als auch mit der Wahrscheinlichkeit des Fehlens von Werten zusammenhängt.

Angenommen, sie analysieren die Beziehung zwischen Stillen und dem IQ von Kindern. Wenn sie eine Variable einbeziehen, die die Wahrscheinlichkeit fehlender IQ-Werte vorhersagt, aber nicht tatsächlich den IQ selbst vorhersagt, könnten sie die bereits bestehenden Verzerrungen durch die fehlenden Daten verstärken.

Die Verwendung von Hilfsvariablen wie dem Rauchen der Mutter kann hilfreich erscheinen, aber wenn diese Variablen nicht wirklich den Grund für die fehlenden Daten erfassen, können sie die Sache weiter verkomplizieren.

Veranschaulichen der Auswirkungen von Hilfsvariablen

Wenn Forscher eine Variable einbeziehen, die das Fehlen vorhersagt, ohne mit den tatsächlich fehlenden Werten verknüpft zu sein, laufen sie Gefahr, ihre Ergebnisse einer grösseren Verzerrung auszusetzen. Beispielsweise, wenn das Imputationsmodell die Stilldauer und ob die Mutter während der Schwangerschaft geraucht hat, umfasst. Wenn das Erste mit dem IQ-Ergebnis zusammenhängt, das Letzte jedoch nicht, könnte die Einbeziehung von Rauchen die Verzerrung verstärken, die durch die fehlenden IQ-Daten eingeführt wird.

Forscher müssen vorsichtig sein, wenn sie Hilfsvariablen auswählen. Es ist oft am besten, solche einzubeziehen, die eine starke Verbindung zu den fehlenden Werten haben, anstatt solche, die nur mit dem Fehlen zusammenhängen.

Verständnis des Risikos der Verstärkungsbias

Das Problem der Verstärkungsbias tritt auf, wenn Forscher unbeabsichtigt die Verzerrung in ihren Schätzungen erhöhen, indem sie irrelevante Hilfsvariablen in ihre Imputationsmodelle einbeziehen. Diese Verzerrung kann auch auftreten, wenn die Forscher versuchen, gründlich und vernünftig mit fehlenden Daten umzugehen.

Das ist besonders der Fall, wenn die zusätzliche Variable nicht sowohl für das Ergebnis als auch für das Fehlen relevant ist. Daher kann die Einbeziehung vieler Variablen ohne ein Verständnis ihrer Beziehungen zu irreführenden Ergebnissen führen.

Fazit

Der Umgang mit fehlenden Daten ist ein komplexer, aber wichtiger Teil der Forschung, besonders in Studien, die Verhalten und Gesundheit über die Zeit verfolgen. Multiple Imputation kann eine mächtige Technik zum Umgang mit fehlenden Daten sein, erfordert aber sorgfältige Überlegung.

Forscher müssen darauf achten, die Mechanismen zu verstehen, warum Daten fehlen. Mit diesem Wissen können sie informiertere Entscheidungen darüber treffen, wie Hilfsvariablen in ihre Analysen einfliessen.

Diese Dynamik zu ignorieren, kann zu voreingenommenen Schätzungen führen, was letztendlich die wertvollen Einblicke, die aus der Forschung gewonnen werden können, untergräbt. Indem sie sich auf die Prädiktoren konzentrieren, die wirklich mit den fehlenden Daten selbst zusammenhängen, können Forscher die Genauigkeit und Zuverlässigkeit ihrer Ergebnisse verbessern.

Zusammenfassend lässt sich sagen, dass Hilfsvariablen das Potenzial haben, MI zu verbessern, aber Vorsicht geboten ist. Forscher sollten solche Variablen priorisieren, die am stärksten mit der teilweise beobachteten Variable verbunden sind, und solche vermeiden, die zur Verzerrung beitragen könnten. Durch aufmerksame Modellierung und Analyse können sie zuverlässigere Ergebnisse aus ihren Studien sicherstellen.

Originalquelle

Titel: Multiple imputation assuming missing at random: auxiliary imputation variables that only predict missingness can increase bias due to data missing not at random

Zusammenfassung: Epidemiological studies often have missing data, which are commonly handled by multiple imputation (MI). MI is valid (given correctly-specified models) if data are missing at random, conditional on the observed data, but not (unless additional information is available) if data are missing not at random (MNAR). In this paper we explore a previously-suggested strategy, namely, including an auxiliary variable predictive of missingness but not the missing data in the imputation model, when data are MNAR. We quantify, algebraically and by simulation, the magnitude of additional bias of the MI estimator, over and above any bias due to data MNAR, from including such an auxiliary variable. We demonstrate that where missingness is caused by the outcome, additional bias can be substantial when the outcome is partially observed. Furthermore, if missingness is caused by the outcome and the exposure, additional bias can be even larger, when either the outcome or exposure is partially observed. When using MI, it is important to identify, through a combination of data exploration and considering plausible casual diagrams and missingness mechanisms, the auxiliary variables most predictive of the missing data (in addition to all variables required for the analysis model and/or to minimise bias due to MNAR).

Autoren: Elinor Curnow, R. P. Cornish, J. Heron, J. R. Carpenter, K. Tilling

Letzte Aktualisierung: 2023-10-17 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2023.10.17.23297137

Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.10.17.23297137.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel