Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Épidémiologie

Traiter les données manquantes dans la recherche

Comprendre et gérer les données manquantes est super important pour des résultats de recherche précis.

― 7 min lire


Faire face aux problèmesFaire face aux problèmesde données manquantesdonnées manquantes dans la recherche.S'attaquer efficacement aux défis des
Table des matières

Les données manquantes, c'est un vrai casse-tête en recherche. Quand des infos importantes sont absentes, ça peut fausser les résultats des études et mener à des conclusions biaisées. Il y a plein de façons dont les données peuvent manquer. Parfois, c'est totalement par hasard, donc ça n'a rien à voir avec les autres infos qu'on a. D'autres fois, c'est lié à d'autres morceaux de données qu'on a déjà. Et parfois, les données manquantes sont connectées aux infos qu'on n'a pas.

Cet article va parler de ces notions, expliquer pourquoi c'est important, et donner des méthodes que les chercheurs peuvent utiliser pour gérer les données manquantes efficacement.

Types de Données Manquantes

  1. Complètement aléatoire (MCAR): Ce type de données manquantes apparaît sans raison particulière. Les chances qu'une donnée soit manquante sont les mêmes, peu importe les autres infos présentes.

  2. Aléatoirement manquantes (MAR): Ici, les données manquantes peuvent être expliquées par d'autres données disponibles. Par exemple, si un groupe de personnes a plus de chances d'avoir des données manquantes, mais qu'on connaît d'autres caractéristiques de ce groupe, on peut utiliser ces infos pour compenser les valeurs manquantes.

  3. Pas aléatoirement manquantes (MNAR): Dans ce cas, les données manquantes sont liées aux valeurs qui manquent. Par exemple, si les personnes ayant des scores plus bas sur un test sont moins susceptibles de communiquer leurs scores, alors les données manquantes ne sont pas aléatoires mais liées aux scores eux-mêmes.

Conséquences des Données Manquantes

Quand des données manquent, ça peut poser plusieurs problèmes en recherche :

  • Biais: Si les chercheurs n'analysent que les données complètes, ils risquent de ne pas avoir une image fidèle. Par exemple, si les personnes à revenus plus bas sont moins susceptibles de répondre à une enquête, les résultats peuvent indiquer que les revenus sont plus élevés qu'en réalité.

  • Efficacité réduite: Quand il manque des données, ça complique la recherche d'associations entre les variables, donc ça réduit l'efficacité de l'analyse.

Stratégies pour Gérer les Données Manquantes

Les chercheurs ont différentes méthodes pour gérer les données manquantes. Deux stratégies courantes incluent :

  1. Analyse des dossiers complets (CRA): Cette méthode utilise uniquement les données des personnes qui ont répondu à toutes les questions pertinentes. C'est simple, mais ça peut ignorer des infos précieuses de ceux qui ont des données manquantes, ce qui peut mener à du biais.

  2. Imputation multiple (MI): C'est une méthode plus avancée. Au lieu de juste ignorer les données manquantes, cette technique crée plusieurs ensembles de données en remplissant les valeurs manquantes sur la base de la prévisibilité. Ensuite, ces ensembles de données sont analysés séparément, et les résultats sont combinés pour donner une estimation plus précise.

Variables Auxiliaires

Les variables auxiliaires sont des infos supplémentaires qui ne font pas partie de l'analyse principale mais qui peuvent aider à comprendre ou combler les lacunes des données. Par exemple, si on étudie comment l'éducation d'un parent affecte l'intelligence d'un enfant, les dossiers éducatifs pourraient être une variable auxiliaire. Ça peut aider à améliorer la précision des prédictions quand les données sur le QI de l'enfant manquent.

Inclure des variables auxiliaires peut aider parce que :

  • Elles peuvent fournir un contexte aux données manquantes, rendant plus plausible de penser que ces données pourraient manquer aléatoirement.
  • Elles peuvent améliorer l'accuracy des estimations lors du remplissage des valeurs manquantes.

Mais utiliser des variables auxiliaires n'est pas sans défis. Si ces variables ont aussi des données manquantes, ça peut compliquer les choses encore plus.

L'Importance du Contexte de Recherche

Comprendre le contexte et l'historique de la recherche est essentiel quand on gère des données manquantes. Par exemple, si on étudie le tabagisme maternel et le QI des enfants, c'est important de reconnaître que les données manquantes peuvent être plus fréquentes dans certains groupes, comme ceux ayant un statut socio-économique plus bas.

Des changements dans la manière de collecter les données ou les caractéristiques des participants peuvent aussi influencer les données manquantes. C'est pour ça que les chercheurs doivent réfléchir attentivement aux variables auxiliaires qu'ils incluent et aux liens potentiels entre les variables.

Exemple de Cas : Tabagisme Maternel et QI des Enfants

Pour illustrer ces concepts, prenons une étude qui examine comment le tabagisme maternel pendant la grossesse affecte le QI d'un enfant à 15 ans. Dans cette étude, les chercheurs ont recueilli des données d'un grand groupe de mères exposées à différents niveaux de tabagisme pendant la grossesse et ont mesuré les scores de QI de leurs enfants.

Les chercheurs ont fait face à des défis parce qu'une quantité significative de données était manquante. Cela les a poussés à envisager d'utiliser des variables auxiliaires, comme des scores de QI antérieurs ou des résultats scolaires, pour aider à compléter le tableau.

En incluant ces variables auxiliaires, ils espéraient réduire le biais dans leurs estimations. Ils ont réalisé plusieurs analyses pour voir comment différents modèles affecteraient le résultat.

  1. Ils ont d'abord regardé les dossiers complets, puis ils ont inclus une variable auxiliaire à la fois.
  2. Ils ont vérifié comment l'inclusion de différentes variables auxiliaires affectait leurs estimations et la qualité globale des données qu'ils avaient.

L'analyse a montré qu'inclure des scores de QI d'âges antérieurs aidait à fournir des estimations plus précises comparé à ne pas inclure les variables auxiliaires du tout.

Étude de Simulation : Évaluation des Données Manquantes

Pour mieux comprendre l'impact des données manquantes, les chercheurs réalisent souvent des études de simulation. Ces études créent des ensembles de données imaginaires qui imitent des scénarios réels pour explorer comment différentes approches pour gérer les données manquantes pourraient fonctionner.

Dans une étude, les chercheurs ont généré des ensembles de données avec des caractéristiques connues. Ils ont intentionnellement rendu certains points de données manquants, puis ont testé les différentes méthodes dont ils avaient précédemment parlé.

L'objectif était de voir à quel point chaque méthode pouvait récupérer les infos manquantes et réduire le biais. L'étude a réalisé des simulations avec divers degrés de données manquantes et différents modèles de corrélation entre les variables.

Résultats de la Simulation

  1. Biais CRA: Les résultats ont montré que n'utiliser que les données complètes menait souvent à des résultats biaisés quand certains modèles de manque existaient, soulignant les limites du CRA.

  2. Performance de l'Imputation: Les méthodes qui incorporaient des variables auxiliaires ont généralement mieux performé pour réduire le biais, surtout lorsque la variable auxiliaire avait une forte relation avec l'issue des données manquantes.

  3. Impact des Données Auxiliaires Manquantes: À mesure que la quantité de données manquantes dans les variables auxiliaires augmentait, l'efficacité d'utilisation de ces variables pour réduire le biais diminuait.

Conclusion

En recherche, les données manquantes peuvent poser des défis significatifs. Comprendre les types de données manquantes et les stratégies disponibles pour les gérer, y compris l'utilisation de variables auxiliaires, est essentiel pour réduire le biais et améliorer la qualité de l'analyse.

Bien que des méthodes comme l'analyse des dossiers complets puissent sembler simples, elles négligent souvent des données précieuses et peuvent mener à des conclusions inexactes. Des méthodes comme l'imputation multiple, quand elles sont combinées avec une sélection réfléchie des variables auxiliaires, peuvent offrir une image plus complète et précise.

Les chercheurs doivent également tenir compte du contexte de leurs données, y compris les relations entre les variables et le potentiel de chevauchement des données manquantes. Grâce à une analyse attentive et à la prise en compte de ces facteurs, il est possible de relever les défis posés par les données manquantes et de tirer des conclusions plus fiables en recherche.

Source originale

Titre: Analyses using multiple imputation need to consider missing data in auxiliary variables.

Résumé: Auxiliary variables are used in multiple imputation (MI) to reduce bias and increase efficiency. These variables may often themselves be incomplete. We explored how missing data in auxiliary variables influenced estimates obtained from MI. We implemented a simulation study with three different missing data mechanisms for the outcome. We then examined the impact of increasing proportions of missing data and different missingness mechanisms for the auxiliary variable on bias of an unadjusted linear regression coefficient and the fraction of missing information. We illustrate our findings with an applied example in the Avon Longitudinal Study of Parents and Children. We found that where complete records analyses were biased, increasing proportions of missing data in auxiliary variables, under any missing data mechanism, reduced the ability of MI including the auxiliary variable to mitigate this bias. Where there was no bias in the complete records analysis, inclusion of a missing not at random auxiliary variable in MI introduced bias of potentially important magnitude (up to 17% of the effect size in our simulation). Careful consideration of the quantity and nature of missing data in auxiliary variables needs to be made when selecting them for use in MI models.

Auteurs: Paul Madley-Dowd, E. Curnow, R. A. Hughes, R. P. Cornish, K. Tilling, J. Heron

Dernière mise à jour: 2023-12-11 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.12.11.23299810

Source PDF: https://www.medrxiv.org/content/10.1101/2023.12.11.23299810.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires