Simple Science

Scienza all'avanguardia spiegata semplicemente

# Statistica# Applicazioni# Apprendimento automatico

Confronto dei metodi di imputazione per i dati mancanti

Questo studio valuta i metodi tradizionali e quelli basati su alberi per gestire i dati mancanti.

― 9 leggere min


Metodi di imputazioneMetodi di imputazionesotto esametecniche di imputazione.Esaminare l'efficacia di diverse
Indice

I dati mancanti sono un problema comune in molti ambiti di ricerca, soprattutto nelle scienze sociali. Quando informazioni importanti non sono disponibili, possono portare a risultati distorti e influenzare la validità degli studi. Molti ricercatori utilizzano metodi per colmare queste lacune, chiamati metodi di imputazione. Un metodo ben conosciuto è l'Imputazione Multipla tramite Equazioni Insieme (MICE) con Matching della Media Predittiva (PMM). Tuttavia, con dataset più complessi, i ricercatori stanno cercando approcci più recenti, in particolare metodi di imputazione basati su alberi. Questi metodi usano alberi decisionali e possono gestire relazioni complicate tra le variabili.

In questo studio, confronteremo il tradizionale MICE PMM con metodi basati su alberi. Vogliamo vedere come influenzano i risultati statistici, come le stime dei coefficienti e l'accuratezza dei test che misurano le relazioni tra variabili. Il nostro obiettivo è aiutare i ricercatori a prendere decisioni migliori quando lavorano con dati mancanti nei loro studi.

Il Problema dei Dati Mancanti

Quando i ricercatori raccolgono dati, spesso si imbattono in valori mancanti per vari motivi, come partecipanti che non rispondono a certe domande o problemi tecnici. Questa situazione è particolarmente comune negli studi longitudinali, dove le stesse persone vengono interrogate più volte. Se non affrontati, i dati mancanti possono portare a risultati distorti, errori gonfiati e conclusioni errate.

Una strategia comune ma scadente è rimuovere i casi con valori mancanti, nota come cancellazione completa. Anche se può sembrare semplice, può portare a una significativa perdita di informazioni e a risultati potenzialmente distorti. Un approccio migliore è l'imputazione multipla, che sostituisce i valori mancanti con valori stimati basati sui dati disponibili. Questo metodo fornisce un'analisi più approfondita mantenendo la variabilità dei dati e consentendo ai ricercatori di quantificare l'incertezza.

Imputazione Multipla e MICE

L'imputazione multipla è un metodo in cui i valori mancanti vengono sostituiti con valori stimati basati su altre variabili nel dataset. Questo approccio crea più dataset completi utilizzando modelli statistici. Ogni dataset viene quindi analizzato separatamente, e i risultati vengono combinati per fornire una stima finale. Questo metodo aiuta a preservare la variabilità naturale dei dati e evita i problemi di semplicemente indovinare o rimuovere casi mancanti.

Uno dei metodi più popolari per l'imputazione multipla è MICE. MICE funziona trattando ogni variabile nel dataset come variabile target e modellandola in base alle altre variabili. Esegue questo processo iterativamente, affinando le stime fino a ottenere un risultato stabile. Questo significa che può gestire vari tipi di schemi di dati mancanti, rendendolo uno strumento flessibile per i ricercatori.

MICE con PMM è particolarmente apprezzato nelle scienze sociali perché conserva le caratteristiche dei dati originali. Crea un pool di valori osservati simili e seleziona casualmente da questo pool per riempire le lacune. Questo metodo aiuta a mantenere la distribuzione e le relazioni tra le variabili, rendendo i valori imputati più plausibili.

Limitazioni di MICE PMM

Nonostante i suoi vantaggi, MICE PMM non è privo di svantaggi. La flessibilità di MICE può portare a specifiche errate, risultando in stime distorte. Può anche avere difficoltà con dati ad alta dimensione, dove il numero di variabili supera il numero di osservazioni. In tali casi, le relazioni tra le variabili possono diventare complicate, rendendo MICE PMM meno efficace.

I metodi basati su alberi, come Random Forest e Extreme Gradient Boosting (XGBoost), sono emersi come potenziali alternative migliori. Questi metodi possono gestire tipi di dati misti e sono robusti contro i valori anomali. Dividono il dataset in regioni, permettendo loro di adattarsi bene a schemi complessi.

Metodi di Imputazione Basati su Alberi

I metodi basati su alberi usano alberi decisionali per prevedere i valori mancanti basandosi sui modelli osservati nei dati. Un Random Forest è un insieme di molti alberi decisionali che lavorano insieme per migliorare l'accuratezza e ridurre il rischio di overfitting. Mediando le previsioni di più alberi, questo metodo può catturare relazioni complesse minimizzando gli errori.

MICE con Random Forest (MICE RF) combina i punti di forza di MICE e Random Forest. Utilizza l'algoritmo Random Forest per imputare i valori mancanti, sfruttando la capacità del metodo di gestire interazioni complesse. Questo approccio ha mostrato promettenti risultati in vari studi, soprattutto quando si tratta di dataset che includono relazioni non lineari.

Un altro metodo basato su alberi, missRanger, utilizza Random Forest Insieme per l'imputazione. Questo metodo è più veloce rispetto ai Random Forest tradizionali e può incorporare PMM. Si adatta bene a dataset con tipi e strutture complesse, rendendolo un'opzione attraente per i ricercatori che affrontano dati mancanti.

XGBoost è un altro potente algoritmo basato su alberi noto per la sua efficienza e accuratezza. Combina più alberi di regressione usando una tecnica chiamata gradient boosting, che potenzia la sua capacità di fare previsioni accurate anche in dataset difficili. Il pacchetto mixgb utilizza XGBoost per l'imputazione dei valori mancanti, fornendo un metodo flessibile ed efficace per i ricercatori.

Obiettivi dello Studio

L'obiettivo principale di questo studio è valutare come diversi metodi di imputazione influenzano i risultati statistici, in particolare in termini di stima dei coefficienti e accuratezza dei test statistici. Confronteremo il tradizionale MICE PMM con vari metodi basati su alberi, tra cui MICE RF, missRanger e XGBoost.

Utilizzeremo dati di simulazione realistici dallo Studio Nazionale di Educazione Tedesca (NEPS) per valutare le performance di questi metodi. La nostra valutazione si concentrerà su diversi criteri, tra cui il bias nelle stime dei coefficienti, i tassi di errore di Tipo I e la potenza statistica. Comprendendo come si comportano questi metodi, speriamo di guidare i ricercatori nella scelta dell'approccio di imputazione più appropriato per i loro studi.

Design dello Studio di Simulazione

Per confrontare i metodi di imputazione, abbiamo condotto uno studio di simulazione basato sul dataset NEPS. Ci siamo concentrati su individui che hanno partecipato a più ondate di raccolta dati. Il nostro dataset includeva varie variabili, come età, reddito, istruzione e fattori demografici. Abbiamo generato dati sintetici per imitare la distribuzione e la struttura dei dati originali, assicurando che la nostra simulazione rappresentasse da vicino scenari reali.

Abbiamo introdotto l'assenza usando il framework Missing At Random (MAR), dove la probabilità che un valore sia mancante dipende dai dati osservati. Questo ci ha permesso di esaminare gli effetti di diverse percentuali di dati mancanti-10%, 30% e 50%-sulle performance dei metodi di imputazione.

Confronto dei Metodi di Imputazione

Per valutare le performance dei metodi di imputazione, ci siamo concentrati sul loro impatto sulla stima dei coefficienti e sulla validità dei test statistici. Abbiamo misurato il bias nelle stime dei coefficienti attraverso diversi metodi, analizzando come ciascun metodo si comportava sotto diverse percentuali di dati mancanti.

Inoltre, abbiamo valutato i tassi di errore di Tipo I, che indicano quanto spesso un metodo rifiuta erroneamente un vero ipotesi nulla. Infine, abbiamo esaminato la potenza statistica, che riflette la capacità di rilevare effetti veri quando esistono. Confrontando questi aspetti tra MICE PMM, MICE RF, missRanger e XGBoost, abbiamo cercato di fornire spunti preziosi per i ricercatori che trattano dati mancanti.

Risultati

Stima dei Coefficienti

Abbiamo trovato che il bias dei coefficienti variava tra i metodi di imputazione. Con una percentuale di dati mancanti del 10%, MICE PMM mostrava un bias più alto rispetto ai metodi basati su alberi, che in genere producevano bias più bassi e più costanti. Curiosamente, XGBoost ha dimostrato il bias più basso in assoluto.

Man mano che aumentavamo la percentuale di dati mancanti al 30% e 50%, i bias rimanevano bassi attraverso tutti i metodi, ma le prestazioni relative cambiavano. Per il 50% di dati mancanti, MICE PMM sorprendentemente mostrava un bias migliorato, mentre missRanger con PMM presentava il bias più alto.

Controllo dell'Errore di Tipo I

I tassi di errore di Tipo I dipingevano un quadro più complesso. MICE PMM era il metodo più conservativo, mantenendo bassi gli errori di Tipo I anche quando l'assenza aumentava. Al contrario, missRanger senza PMM e XGBoost mostravano tassi di errore di Tipo I eccessivamente alti a tassi di assenza più elevati, con valori superiori alla soglia accettabile.

MICE RF si è rivelato un'opzione equilibrata, rimanendo costantemente al di sotto della soglia di errore, rendendolo una scelta affidabile per l'inferenza.

Potenza Statistica

Guardando alla potenza statistica, MICE PMM faticava a fornire potenza adeguata, soprattutto con l'aumento dei dati mancanti. D'altra parte, sia i metodi missRanger che XGBoost dimostravano una potenza superiore, in particolare a tassi di assenza più bassi. Per una percentuale del 10% di dati mancanti, missRanger senza PMM otteneva la potenza più alta, seguita da vicino da XGBoost.

Man mano che l'assenza aumentava, MICE RF continuava a comportarsi bene, mantenendo livelli di potenza ragionevoli. Questo suggerisce che mentre MICE PMM è cauto nel rifiutare le ipotesi nulle, potrebbe non riuscire a rilevare effetti reali, ponendo una sfida per i ricercatori.

Discussione

I risultati del nostro studio evidenziano i punti di forza e di debolezza dei diversi metodi di imputazione. MICE PMM rimane una scelta popolare grazie alla sua solida gestione dei dati mancanti, ma la sua natura conservativa può ostacolare il rilevamento di effetti significativi. I metodi basati su alberi, in particolare MICE RF e missRanger, hanno mostrato prestazioni promettenti nella stima dei coefficienti e nei test statistici.

Mentre MICE RF si è distinto come un forte performer attraverso vari criteri, missRanger con PMM offre un buon equilibrio tra controllo degli errori di Tipo I e potenza. XGBoost ha dimostrato potenziale, soprattutto per dataset complessi, ma bisogna prestare attenzione a causa dei suoi alti tassi di errore di Tipo I.

Conclusione

Affrontare i dati mancanti è cruciale per risultati di ricerca accurati e validi. Il nostro studio ha confrontato il tradizionale MICE PMM con vari metodi di imputazione basati su alberi in un contesto di simulazione. Abbiamo scoperto che i metodi basati su alberi, in particolare MICE RF, superano MICE PMM in molti aspetti, in particolare in termini di stima dei coefficienti e controllo degli errori di Tipo I. I ricercatori dovrebbero considerare questi metodi quando affrontano sfide legate ai dati mancanti e scegliere quello più appropriato per la loro analisi specifica. Ricerche future dovrebbero esplorare contesti e caratteristiche dei dataset più sfumati per affinare ulteriormente la nostra comprensione dei metodi di imputazione nella pratica.

Fonte originale

Titolo: Evaluating tree-based imputation methods as an alternative to MICE PMM for drawing inference in empirical studies

Estratto: Dealing with missing data is an important problem in statistical analysis that is often addressed with imputation procedures. The performance and validity of such methods are of great importance for their application in empirical studies. While the prevailing method of Multiple Imputation by Chained Equations (MICE) with Predictive Mean Matching (PMM) is considered standard in the social science literature, the increase in complex datasets may require more advanced approaches based on machine learning. In particular, tree-based imputation methods have emerged as very competitive approaches. However, the performance and validity are not completely understood, particularly compared to the standard MICE PMM. This is especially true for inference in linear models. In this study, we investigate the impact of various imputation methods on coefficient estimation, Type I error, and power, to gain insights that can help empirical researchers deal with missingness more effectively. We explore MICE PMM alongside different tree-based methods, such as MICE with Random Forest (RF), Chained Random Forests with and without PMM (missRanger), and Extreme Gradient Boosting (MIXGBoost), conducting a realistic simulation study using the German National Educational Panel Study (NEPS) as the original data source. Our results reveal that Random Forest-based imputations, especially MICE RF and missRanger with PMM, consistently perform better in most scenarios. Standard MICE PMM shows partially increased bias and overly conservative test decisions, particularly with non-true zero coefficients. Our results thus underscore the potential advantages of tree-based imputation methods, albeit with a caveat that all methods perform worse with an increased missingness, particularly missRanger.

Autori: Jakob Schwerter, Ketevan Gurtskaia, Andrés Romero, Birgit Zeyer-Gliozzo, Markus Pauly

Ultimo aggiornamento: 2024-01-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.09602

Fonte PDF: https://arxiv.org/pdf/2401.09602

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili