Affrontare i Dati Mancanti nella Ricerca
Capire e gestire i dati mancanti è fondamentale per risultati di ricerca precisi.
― 6 leggere min
Indice
I dati mancanti sono una sfida comune nella ricerca. Quando mancano informazioni importanti, possono influenzare i risultati degli studi, portando a conclusioni distorte. Ci sono diversi modi in cui i dati possono essere mancanti. A volte, i dati mancano completamente per caso, il che significa che i dati mancanti non sono collegati ad altre informazioni che abbiamo. Altre volte, i dati potrebbero essere mancanti, ma questa mancanza è collegata ad altri dati che abbiamo. Infine, a volte i dati mancanti sono legati alle informazioni che non abbiamo.
Questo articolo parlerà di questi concetti, spiegherà perché sono importanti e delineerà i metodi che i ricercatori possono usare per gestire i dati mancanti in modo efficace.
Tipi di Dati Mancanti
Mancanza Completa a Caso (MCAR): Questo tipo di dati mancanti si verifica senza alcun motivo specifico. Le possibilità che i dati siano mancanti sono le stesse indipendentemente dalle altre informazioni presenti.
Mancanza a Caso (MAR): In questo caso, i dati mancanti possono essere spiegati da altri dati disponibili. Ad esempio, se un particolare gruppo di persone ha una probabilità maggiore di avere dati mancanti, ma conosciamo altre caratteristiche di questo gruppo, possiamo usare quelle informazioni per tenere conto dei valori mancanti.
Mancanza Non a Caso (MNAR): Qui, i dati mancanti sono collegati ai valori che mancano. Ad esempio, se le persone con punteggi più bassi in un test sono meno propense a riportare i loro punteggi, allora i dati mancanti non sono casuali ma legati ai punteggi stessi.
Conseguenze dei Dati Mancanti
Quando i dati mancano, possono sorgere diversi problemi nella ricerca:
Bias: Se i ricercatori analizzano solo dati completi, potrebbero non avere un quadro accurato. Ad esempio, se le persone con redditi più bassi sono meno propense a rispondere a un sondaggio, i risultati potrebbero suggerire che il reddito è più alto di quanto non sia in realtà.
Efficienza Ridotta: Quando i dati sono mancanti, può essere più difficile trovare associazioni tra variabili, riducendo così l'efficienza dell'analisi.
Strategie per Gestire i Dati Mancanti
I ricercatori hanno diversi metodi per affrontare i dati mancanti. Due strategie comuni includono:
Analisi dei Record Completi (CRA): Questo metodo utilizza solo i dati da individui che hanno risposto a tutte le domande rilevanti. Anche se è semplice, può ignorare informazioni preziose da chi ha dati mancanti, portando a bias.
Imputazione Multipla (MI): Questo è un metodo più avanzato. Invece di ignorare semplicemente i dati mancanti, questa tecnica crea diversi dataset riempiendo i valori mancanti in base alla prevedibilità. Poi, questi dataset vengono analizzati separatamente e i risultati vengono combinati per fornire una stima più accurata.
Variabili Ausiliarie
Le variabili ausiliarie sono informazioni aggiuntive che non entrano nell'analisi principale ma possono aiutare a comprendere o colmare le lacune nei dati. Ad esempio, se stiamo studiando come l'istruzione di un genitore influisca sull'intelligenza di un bambino, i record educativi potrebbero essere una variabile ausiliaria. Queste possono migliorare l'accuratezza delle previsioni quando i dati sul QI del bambino mancano.
Includere variabili ausiliarie può aiutare perché:
- Possono fornire contesto per i dati mancanti, rendendo più plausibile assumere che i dati mancanti possano essere casuali.
- Possono migliorare l'accuratezza delle stime quando si riempiono i valori mancanti.
Tuttavia, usare variabili ausiliarie non è privo di sfide. Se anche queste variabili hanno dati mancanti, può complicare ulteriormente le cose.
L'Importanza del Contesto della Ricerca
Comprendere il background e il contesto della ricerca è cruciale quando si tratta di dati mancanti. Ad esempio, se stiamo studiando il fumo materno e il QI dei bambini, è essenziale riconoscere che i dati mancanti possono verificarsi più frequentemente in determinati gruppi, come quelli con un basso stato socioeconomico.
Cambiamenti nel modo in cui vengono raccolti i dati o nelle caratteristiche dei partecipanti possono anche influenzare i dati mancanti. Ecco perché i ricercatori devono riflettere attentamente su quali variabili ausiliarie includere e sulle potenziali relazioni tra le variabili.
Esempio di Caso: Fumo Materno e QI dei Bambini
Per illustrare questi concetti, consideriamo uno studio che analizza come il fumo materno durante la gravidanza influisca sul QI di un bambino a 15 anni. In questo studio, i ricercatori hanno raccolto dati da un ampio gruppo di madri esposte a diversi livelli di fumo durante la gravidanza e hanno misurato i punteggi di QI dei loro figli.
I ricercatori hanno affrontato sfide perché una significativa quantità di dati era mancante. Questo li ha spinti a considerare l'uso di variabili ausiliarie, come i punteggi di QI precedenti o i risultati educativi, per aiutare a completare il quadro.
Includendo queste variabili ausiliarie, speravano di ridurre il bias nelle loro stime. Hanno condotto diverse analisi per vedere come diversi modelli avrebbero influenzato il risultato.
- Hanno prima esaminato i record completi, poi hanno incluso una variabile ausiliaria alla volta.
- Hanno verificato come l'inclusione di diverse variabili ausiliarie influenzasse le loro stime e la qualità complessiva dei dati che avevano.
L'analisi ha mostrato che includere i punteggi di QI da età precedenti ha aiutato a fornire stime più accurate rispetto all'esclusione totale delle variabili ausiliarie.
Studio di Simulazione: Valutare i Dati Mancanti
Per comprendere meglio l'impatto dei dati mancanti, i ricercatori spesso eseguono studi di simulazione. Questi studi creano dataset immaginari che imitano scenari reali per esplorare come diversi approcci ai dati mancanti potrebbero funzionare.
In uno studio, i ricercatori hanno generato set di dati con caratteristiche note. Hanno intenzionalmente reso certi punti dati mancanti e poi hanno testato i diversi metodi di cui avevano precedentemente discusso.
L'obiettivo era vedere quanto bene ogni metodo potesse recuperare le informazioni mancanti e ridurre il bias. Lo studio ha eseguito simulazioni con vari gradi di dati mancanti e diversi schemi di correlazione tra le variabili.
Risultati della Simulazione
Bias CRA: I risultati hanno mostrato che utilizzare solo dati completi ha spesso portato a risultati distorti quando esistevano determinati schemi di mancanza, evidenziando i limiti del CRA.
Prestazione dell'Imputazione: I metodi che incorporavano variabili ausiliarie performavano generalmente meglio nella riduzione del bias, specialmente quando la variabile ausiliaria aveva una forte relazione con l'esito dei dati mancanti.
Impatto dei Dati Ausiliari Mancanti: Man mano che aumentava la quantità di dati mancanti nelle variabili ausiliarie, l'efficacia di utilizzare quelle variabili per ridurre il bias diminuiva.
Conclusione
Nella ricerca, i dati mancanti possono presentare sfide significative. Comprendere i tipi di dati mancanti e le strategie disponibili per gestirli, inclusa l'uso di variabili ausiliarie, è essenziale per ridurre il bias e migliorare la qualità dell'analisi.
Sebbene metodi come l'analisi dei record completi possano sembrare semplici, spesso trascurano dati preziosi e possono portare a conclusioni inaccurate. Metodi come l'imputazione multipla, se combinati con una selezione attenta delle variabili ausiliarie, possono fornire un quadro più completo e accurato.
I ricercatori devono anche considerare il contesto dei loro dati, comprese le relazioni tra le variabili e il potenziale sovrapporsi nei dati mancanti. Attraverso un'analisi attenta e la considerazione di questi fattori, è possibile affrontare le sfide poste dai dati mancanti e trarre conclusioni più affidabili nella ricerca.
Titolo: Analyses using multiple imputation need to consider missing data in auxiliary variables.
Estratto: Auxiliary variables are used in multiple imputation (MI) to reduce bias and increase efficiency. These variables may often themselves be incomplete. We explored how missing data in auxiliary variables influenced estimates obtained from MI. We implemented a simulation study with three different missing data mechanisms for the outcome. We then examined the impact of increasing proportions of missing data and different missingness mechanisms for the auxiliary variable on bias of an unadjusted linear regression coefficient and the fraction of missing information. We illustrate our findings with an applied example in the Avon Longitudinal Study of Parents and Children. We found that where complete records analyses were biased, increasing proportions of missing data in auxiliary variables, under any missing data mechanism, reduced the ability of MI including the auxiliary variable to mitigate this bias. Where there was no bias in the complete records analysis, inclusion of a missing not at random auxiliary variable in MI introduced bias of potentially important magnitude (up to 17% of the effect size in our simulation). Careful consideration of the quantity and nature of missing data in auxiliary variables needs to be made when selecting them for use in MI models.
Autori: Paul Madley-Dowd, E. Curnow, R. A. Hughes, R. P. Cornish, K. Tilling, J. Heron
Ultimo aggiornamento: 2023-12-11 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.12.11.23299810
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.12.11.23299810.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.