Affrontare i Dati Mancanti nella Ricerca Medica
Uno studio sull'uso della imputazione multipla per analizzare dati incompleti dei pazienti negli esiti di salute.
― 7 leggere min
Indice
Nella ricerca medica, capire come le malattie progrediscono nel tempo è fondamentale. Un modo per farlo è analizzare la sequenza di eventi che ogni paziente attraversa. Questo approccio aiuta i ricercatori e i medici a comunicare i rischi ai pazienti in modo più efficace. I Modelli multi-stato (MSM) sono diventati popolari per questo tipo di analisi perché permettono ai ricercatori di guardare a più eventi contemporaneamente, prevedendo informazioni importanti come la probabilità di vivere eventi specifici in qualsiasi momento.
Tuttavia, in molti casi, i ricercatori non hanno informazioni complete su quando si verificano gli eventi. Per esempio, in alcuni contesti medici, il momento esatto di eventi come cambiamenti di salute o malattie può essere registrato solo durante alcune visite dal dottore. In queste situazioni, i ricercatori potrebbero sapere solo che un evento è accaduto entro un intervallo di tempo specifico, ma non il momento esatto. Questo è conosciuto come dati "censurati per intervallo".
Ci sono diversi metodi per affrontare i Dati mancanti. Alcuni ricercatori potrebbero usare metodi di Massima Verosimiglianza (ML), che aiutano a stimare le probabilità basate sui dati osservati, mentre altri potrebbero impiegare tecniche più semplici come l'analisi dei casi completi (CCA) o l'Imputazione Multipla (MI). Questi approcci mirano a riempire i vuoti per i dati incompleti, rendendo più facile analizzare le tendenze e i risultati complessivi.
Motivazione
Questo articolo si concentra su un dataset specifico di pazienti che hanno ricevuto trapianti di cellule staminali ematopoietiche usando sangue cordonale donato. In questo dataset, circa un quarto dei pazienti aveva registri mancanti riguardo a quando hanno sviluppato malattia acuta da trapianto contro ospite (aGvHD) o hanno avuto una ricaduta della loro malattia del sangue originale. Conoscere la tempistica di questi eventi è importante per capire i risultati del trattamento. Tuttavia, tutti i pazienti avevano registrato tempi di decesso o ultima visita, che forniscono alcuni confini per gli intervalli mancanti.
L'analisi di questo dataset è interessante perché i metodi tradizionali per gestire i dati mancanti potrebbero non applicarsi bene. Ad esempio, la CCA ignorerebbe i pazienti con informazioni incomplete, il che può portare a risultati distorti se la mancanza è legata agli eventi che si verificano. Allo stesso modo, i metodi ML possono avere difficoltà quando gli intervalli di dati mancanti sono ampi rispetto agli eventi osservati. Al contrario, la MI ha il potenziale di sfruttare tutti i dati disponibili, portando a stime migliori complessivamente.
Metodologia
Il focus principale di questa analisi è l'applicazione della MI nel contesto degli MSM. La MI è un metodo statistico che riempie i valori mancanti stimandoli più volte, permettendo ai ricercatori di considerare l'incertezza causata dai dati mancanti. I passaggi di solito coinvolgono l'adattamento di un modello di imputazione ai dati osservati, la creazione di dataset completati, l'analisi di ciascun dataset e poi la combinazione dei risultati.
Generazione dei dati
Per testare i nostri metodi, abbiamo prima creato dataset completi per i nostri eventi e stati. Abbiamo generato 1000 dataset, ciascuno contenente 500 pazienti. Questa configurazione imitava condizioni reali simili al nostro dataset originale.
Successivamente, abbiamo impostato una struttura per come i pazienti potrebbero passare da uno stato all'altro nel tempo, come passare dall'essere vivi e sani a sviluppare aGvHD, e possibilmente poi a ricaduta o morte. Nel nostro modello, le transizioni dei pazienti erano influenzate da fattori come se fossero in ricaduta quando hanno ricevuto il trapianto o se hanno ricevuto un trapianto di doppio cordone.
Dopo, abbiamo introdotto tempi di eventi mancanti basati su diversi meccanismi, che includono la mancanza completamente casuale e altre forme dove la mancanza dipende dai dati osservati o da se stessa. L'obiettivo era valutare come i nostri metodi di imputazione si comportassero sotto diverse condizioni di dati mancanti.
Modello di analisi
Nel nostro studio, miravamo a stimare i parametri del modello e la durata prevista di permanenza in ciascuno stato di salute dopo il trapianto. Ci siamo concentrati sul tempo che i pazienti trascorrono in diversi stati durante il primo anno, così come sui fattori che influenzano queste transizioni.
Metodi per i dati mancanti
Data la natura del nostro dataset, abbiamo condotto le nostre analisi assumendo che i dati mancanti fossero casuali, che è un punto di partenza comune in tale ricerca. Abbiamo impiegato l'imputazione multipla, riempiendo i valori mancanti basandoci su altri punti di dati osservati.
Per i nostri metodi di MI, abbiamo valutato diversi approcci, tra cui metodi standard e quelli che consideravano i percorsi specifici che i pazienti potrebbero seguire attraverso gli stati di salute. Questo significa che, quando imputavamo valori mancanti, prestavamo attenzione a se i pazienti avessero vissuto certi eventi prima di altri, adattando di conseguenza le nostre strategie di imputazione.
Risultati
I nostri risultati dallo studio di simulazione hanno indicato che usare metodi di MI forniva stime migliori con meno distorsioni quando i tempi degli eventi erano completamente mancanti in modo casuale o quando la mancanza dipendeva da altri dati osservati. In particolare, quando abbiamo applicato un metodo che teneva conto delle differenze di sottogruppo nei tempi degli eventi, abbiamo ridotto significativamente i bias.
Quando i tempi degli eventi erano mancanti non in modo casuale, le performance dei metodi di MI erano meno favorevoli, spesso producendo stime distorte. Questo ha evidenziato le sfide che emergono quando la mancanza è legata ai dati mancanti stessi piuttosto che ad altri punti di dati osservati.
Confronto dei metodi
Nelle nostre simulazioni, abbiamo confrontato diversi approcci di MI con metodi tradizionali come la CCA. Mentre la CCA può fornire stime non distorte in determinate situazioni, la MI ha costantemente offerto risultati più precisi. Il metodo che raggruppava i pazienti in base a se avevano sperimentato certi eventi prima ha fornito risultati particolarmente forti.
I risultati hanno sottolineato l'importanza di considerare il contesto specifico dell'esperienza di ciascun paziente. Questo significa che non solo i dati mancanti dovevano essere presi in considerazione, ma anche le sequenze di eventi che portano a quelle voci mancanti. Il nostro studio ha dimostrato che utilizzare correttamente la MI potrebbe portare a conclusioni più affidabili sui risultati dei pazienti.
Applicazione ai dati reali
Per applicare i nostri metodi al dataset NHS CBB, abbiamo adattato i modelli di Markov come descritto nello studio di simulazione. Abbiamo analizzato i dati sugli eventi dei pazienti dopo aver ricevuto i loro trapianti e mirato a ottenere informazioni sulle probabilità di transizione e sulle durate di permanenza attese in ciascuno stato.
Utilizzando i metodi di MI, abbiamo scoperto che le stime dei rischi relativi-che mostrano la probabilità che un paziente sperimenti certi risultati-erano generalmente più strette e precise rispetto a quelle della CCA. I risultati hanno confermato le nostre conclusioni precedenti che la MI, in particolare quando adattata per sequenze di eventi, migliora le stime nel contesto degli MSM.
Conclusione
In sintesi, l'analisi ha dimostrato che la MI è uno strumento prezioso per gestire i dati mancanti nei modelli multi-stato, soprattutto quando si tratta di dataset medici complessi. Focalizzandosi sia sui dati osservati che sulla natura della mancanza, i ricercatori possono ottenere migliori intuizioni sui risultati dei pazienti e sulla progressione della malattia.
Mentre il nostro studio ha mostrato risultati promettenti, abbiamo anche riconosciuto aree di miglioramento. La ricerca futura potrebbe esplorare come i metodi di MI possano essere ulteriormente perfezionati o resi più robusti nell'affrontare casi in cui i dati sono mancanti in modi più complicati. In generale, questo lavoro getta le basi per migliori pratiche nell'analisi dei dati sulla salute, beneficiando alla fine la cura e i risultati per i pazienti.
Titolo: Multiple imputation strategies for missing event times in a multi-state model analysis
Estratto: In clinical studies, multi-state model (MSM) analysis is often used to describe the sequence of events that patients experience, enabling better understanding of disease progression. A complicating factor in many MSM studies is that the exact event times may not be known. Motivated by a real dataset of patients who received stem cell transplants, we considered the setting in which some event times were exactly observed and some were missing. In our setting, there was little information about the time intervals in which the missing event times occurred and missingness depended on the event type, given the analysis model covariates. These additional challenges limited the usefulness of some missing data methods (maximum likelihood, complete case analysis, and inverse probability weighting). We show, for the first time in the MSM context, that multiple imputation (MI) of event times can perform well in this setting. MI is a flexible method that can be used with any complete data analysis model. Through an extensive simulation study, we show that MI by predictive mean matching (PMM), in which sampling is from a set of observed times without reliance on a specific parametric distribution, has little bias when event times are missing at random, conditional on the observed data. Applying PMM separately for each sub-group of patients with a different pathway through the MSM tends to further reduce bias and improve precision. We recommend MI using PMM methods when performing MSM analysis with Markov models and partially observed event times.
Autori: Elinor Curnow, R. Hughes, K. Birnie, K. Tilling, M. J. Crowther
Ultimo aggiornamento: 2023-06-20 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.06.16.23291499
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.06.16.23291499.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.