Affrontare i Dati Mancanti nella Ricerca
Impara a gestire i dati mancanti in modo efficace negli studi sulla salute.
― 6 leggere min
Indice
- Tipi di Dati Mancanti
- L'Impatto dei Dati Mancanti sull'Analisi
- Strategie per Gestire i Dati Mancanti
- Scenario Esemplare: Studio sul QI dei Bambini e Allattamento al Seno
- Applicazione nel Mondo Reale: Studio Longitudinale di Avon sui Genitori e i Bambini (ALSPAC)
- Illustrare l'Impatto delle Variabili Ausiliarie
- Comprendere il Rischio di Bias di Amplificazione
- Conclusione
- Fonte originale
- Link di riferimento
Nella ricerca, i dati mancanti possono essere una grossa sfida, soprattutto negli studi che seguono la salute e il comportamento nel tempo. Per affrontare questo problema, i ricercatori usano spesso un metodo chiamato Imputazione Multipla (MI). Questa tecnica aiuta a riempire i vuoti dove i dati mancano, permettendo di analizzare dataset incompleti senza falsare i risultati. Tuttavia, l'efficacia della MI dipende dalla comprensione di come e perché i dati vanno persi.
Tipi di Dati Mancanti
Ci sono diverse ragioni per cui i dati possono essere mancanti. Questi sono generalmente suddivisi in tre tipi:
Mancanza Completamente Casuale (MCAR): La ragione dei dati mancanti non ha nulla a che vedere con i dati osservati o non osservati. La mancanza è completamente casuale.
Mancanza Casuale (MAR): La mancanza è legata ai dati osservati ma non ai dati mancanti stessi. In altre parole, se conoscessi i dati osservati, potresti prevedere i dati mancanti.
Mancanza Non Casuale (MNAR): I dati mancanti sono legati ai valori mancanti stessi. Questo significa che la ragione per cui i dati mancano è direttamente collegata al valore che è perso.
Capire queste categorie è fondamentale quando si utilizza la MI, perché determina quanto saranno affidabili i risultati.
L'Impatto dei Dati Mancanti sull'Analisi
Facciamo un esempio in cui i ricercatori stanno guardando come l'allattamento al seno influisce sul QI di un bambino. Supponiamo che scoprano che molti QI dei bambini non sono riportati. Se i dati mancanti sul QI sono legati ai veri QI dei bambini-come il fatto che i bambini con QI più bassi siano meno propensi ad avere il loro QI misurato-allora questo è MNAR. Se è così, utilizzare semplicemente la MI o anche analizzare i dati solo con i casi completi potrebbe produrre risultati fuorvianti.
Quando si analizzano dati con parti mancanti, se la mancanza è casuale (MCAR), sia la MI che i metodi tradizionali che usano solo casi completi darebbero stime simili e accurate. Tuttavia, se i dati sono MAR, la MI potrebbe ancora funzionare, a patto che venga eseguita correttamente. Ma quando la mancanza è MNAR, le stime della MI potrebbero essere distorte o fuorvianti a meno che non vengano considerati fattori aggiuntivi.
Strategie per Gestire i Dati Mancanti
Quando i ricercatori sospettano che i loro dati possano essere MNAR, possono impiegare alcune strategie:
Analisi di Sensibilità: Questo comporta il controllo di quanto siano sensibili i risultati ai cambiamenti nelle assunzioni sui dati mancanti. Utilizzando diversi scenari, i ricercatori possono vedere quanto siano robusti i loro risultati.
Inclusione di Variabili Ausiliarie: A volte i ricercatori includono altre variabili che potrebbero aiutare a prevedere i dati mancanti nei loro modelli. Tuttavia, questo può avere effetti negativi, soprattutto quando queste variabili non sono effettivamente collegate ai valori mancanti. Se viene inclusa una variabile ausiliaria che influisce sulla mancanza ma non sui dati mancanti stessi, potrebbe peggiorare il bias.
Tecniche di Modellazione: Alcuni metodi e modelli avanzati sono progettati specificamente per affrontare dati MNAR, ma spesso richiedono una comprensione più profonda e un'applicazione attenta.
Scenario Esemplare: Studio sul QI dei Bambini e Allattamento al Seno
Continuando con l'esempio del QI dei bambini e dell'allattamento, pensiamo a uno studio con un gran numero di partecipanti. Supponiamo che una percentuale significativa dei punteggi di QI dei bambini sia mancante. I ricercatori hanno motivo di credere che questi punteggi mancanti non siano casuali; invece, potrebbero essere legati a background educativi inferiori dei genitori. Questo suggerisce che i dati sul QI potrebbero essere MNAR.
Se i ricercatori decidono di usare la MI, ma includono anche una variabile che indica se la madre ha fumato durante la gravidanza, potrebbero involontariamente aumentare il bias nelle loro stime se quella variabile non è effettivamente collegata al QI dei bambini.
In questa situazione, basarsi semplicemente sulla MI senza capire le dinamiche dei dati mancanti potrebbe portare a interpretazioni inaccurate su come l'allattamento influisce sul QI.
Applicazione nel Mondo Reale: Studio Longitudinale di Avon sui Genitori e i Bambini (ALSPAC)
Uno studio come l'ALSPAC offre un'idea reale di come questi concetti si manifestano. Questo progetto in corso raccoglie dati da famiglie nel corso degli anni. I ricercatori affrontano dati mancanti riguardanti vari fattori, compresi i punteggi di QI dei bambini, che possono essere spiegati dal livello di istruzione-una variabile importante che si collega sia all'esito che alla probabilità di avere valori mancanti.
Supponiamo che analizzino la relazione tra l'allattamento e il QI dei bambini. Se includono una variabile che prevede la probabilità di punteggi mancanti di QI ma non prevede effettivamente il QI stesso, potrebbero amplificare eventuali bias che già affrontano a causa dei dati mancanti.
Usare variabili ausiliarie come il fumo materno può sembrare utile, ma se quelle variabili non catturano veramente la ragione dietro ai dati mancanti, possono complicare ulteriormente le cose.
Illustrare l'Impatto delle Variabili Ausiliarie
Quando i ricercatori includono una variabile che prevede la mancanza senza collegarla ai valori realmente mancanti, rischiano di mettere i loro risultati a maggior rischio di bias. Ad esempio, considera una situazione in cui il modello di imputazione include la durata dell'allattamento e se la madre ha fumato durante la gravidanza. Se il primo è legato all'esito del QI ma il secondo no, includere il fumo potrebbe amplificare il bias introdotto dai dati mancanti sul QI.
I ricercatori devono fare attenzione quando selezionano le variabili ausiliarie. È spesso meglio includere quelle che hanno un forte legame con i valori mancanti piuttosto che quelle che si collegano solo alla mancanza.
Comprendere il Rischio di Bias di Amplificazione
Il problema del bias di amplificazione si verifica quando i ricercatori aumentano involontariamente il bias nelle loro stime includendo variabili ausiliarie irrilevanti nei loro modelli di imputazione. Questo bias può verificarsi anche se i ricercatori cercano di essere accurati e ragionevoli nel loro approccio alla gestione dei dati mancanti.
Questo è particolarmente vero quando la variabile aggiuntiva non è pertinente sia all'esito che alla mancanza. Pertanto, includere molte variabili senza comprendere le loro relazioni può portare a risultati fuorvianti.
Conclusione
La gestione dei dati mancanti è una parte complessa ma vitale della ricerca, soprattutto negli studi che monitorano comportamenti e salute nel tempo. L'imputazione multipla può essere una tecnica potente per affrontare i dati mancanti, ma richiede una considerazione attenta.
I ricercatori devono essere diligenti nel comprendere i meccanismi dietro il perché i dati siano mancanti. Armati di questa conoscenza, possono prendere decisioni più informate su come includere variabili ausiliarie nelle loro analisi.
Ignorare queste dinamiche può portare a stime distorte, minando infine le preziose intuizioni che possono derivare dalla ricerca. Concentrandosi sui predittori che si collegano realmente ai dati mancanti, i ricercatori possono migliorare l'accuratezza e l'affidabilità delle loro scoperte.
In sintesi, mentre le variabili ausiliarie hanno il potenziale di migliorare la MI, è consigliabile procedere con cautela. I ricercatori dovrebbero dare priorità a quelle variabili più collegate alla variabile parzialmente osservata ed evitare quelle che potrebbero contribuire al bias. Attraverso una modellazione e analisi attente, possono garantire risultati più affidabili dai loro studi.
Titolo: Multiple imputation assuming missing at random: auxiliary imputation variables that only predict missingness can increase bias due to data missing not at random
Estratto: Epidemiological studies often have missing data, which are commonly handled by multiple imputation (MI). MI is valid (given correctly-specified models) if data are missing at random, conditional on the observed data, but not (unless additional information is available) if data are missing not at random (MNAR). In this paper we explore a previously-suggested strategy, namely, including an auxiliary variable predictive of missingness but not the missing data in the imputation model, when data are MNAR. We quantify, algebraically and by simulation, the magnitude of additional bias of the MI estimator, over and above any bias due to data MNAR, from including such an auxiliary variable. We demonstrate that where missingness is caused by the outcome, additional bias can be substantial when the outcome is partially observed. Furthermore, if missingness is caused by the outcome and the exposure, additional bias can be even larger, when either the outcome or exposure is partially observed. When using MI, it is important to identify, through a combination of data exploration and considering plausible casual diagrams and missingness mechanisms, the auxiliary variables most predictive of the missing data (in addition to all variables required for the analysis model and/or to minimise bias due to MNAR).
Autori: Elinor Curnow, R. P. Cornish, J. Heron, J. R. Carpenter, K. Tilling
Ultimo aggiornamento: 2023-10-17 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.10.17.23297137
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.17.23297137.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.