Affrontare i Dati Mancanti negli Studi con Accelerometri
Metodi per gestire i dati mancanti degli accelerometri nelle sperimentazioni cliniche.
― 8 leggere min
Indice
Negli ultimi anni, i dispositivi indossabili come gli accelerometri sono diventati popolari per monitorare l'attività fisica negli studi clinici. Questi dispositivi aiutano i ricercatori a capire come diversi trattamenti possano influenzare il numero di passi delle persone nel tempo. Tuttavia, una delle sfide nell'uso degli accelerometri è gestire i Dati mancanti. Questo può succedere quando i partecipanti dimenticano di indossare il dispositivo, lo tolgono per vari motivi o hanno problemi tecnici.
Capire come gestire i dati mancanti è fondamentale, visto che può influenzare i risultati di uno studio. Questo articolo discute i metodi per affrontare i dati mancanti negli studi con accelerometri, concentrandosi sui dettagli dell'Imputazione Multipla (MI), un approccio comune per riempire i valori mancanti. Daremo un’occhiata a due tipologie di metodi per la MI: parametrici e non parametrici.
L'importanza dei dati degli accelerometri
Gli accelerometri sono dispositivi indossati sul corpo che misurano il movimento in tempo reale. Offrono un modo oggettivo di raccogliere dati sui livelli di attività fisica, diventando uno strumento prezioso nella ricerca. Questi dispositivi registrano di solito i dati in brevi intervalli, spesso ogni 5 secondi. Questo permette di avere uno sguardo dettagliato su quanto siano attivi i partecipanti durante il giorno.
Negli studi clinici, i ricercatori usano spesso gli accelerometri per misurare il numero di passi e altri livelli di attività. I partecipanti di solito indossano il dispositivo per una settimana alla volta per avere un quadro completo della loro attività quotidiana. Questi dati possono essere analizzati per valutare l'efficacia di diverse interventi mirati ad aumentare l'attività fisica.
Sfide dei dati mancanti
I dati mancanti sono un problema comune negli studi che usano accelerometri. I partecipanti potrebbero non indossare i dispositivi come indicato, either togliendoli o a causa di problemi come batterie scariche. Gli approcci tradizionali per gestire i dati mancanti spesso definiscono una giornata come "mancante" se il dispositivo è indossato per un certo tempo. Per esempio, se una persona indossa il dispositivo per meno di 540 minuti in un giorno, i dati di quel giorno potrebbero essere scartati. Questo può portare a una perdita di informazioni preziose perché a volte i partecipanti potrebbero comunque fornire dati utili anche se non rispettano la soglia di utilizzo.
Serve un approccio più sfumato per gestire i dati mancanti a un livello più fine, specificamente a livello di epoca. Questo significa esaminare intervalli di tempo specifici invece di considerare solo i totali giornalieri. Facendo così, i ricercatori possono mantenere più informazioni e sfruttare meglio i dati disponibili.
Classificazione dei dati mancanti
Prima di applicare i metodi di imputazione multipla, i ricercatori devono identificare e classificare accuratamente i dati mancanti. Nel contesto dei dati degli accelerometri, i dati mancanti possono assumere forme diverse. Per esempio, un partecipante potrebbe togliere il dispositivo mentre dorme, causando un lungo periodo senza movimento registrato. Questo periodo non dovrebbe essere trattato come dati mancanti poiché è in linea con il protocollo dello studio.
Per classificare efficacemente questi periodi, i ricercatori possono suddividerli in diverse tipologie:
Periodi inattivi: Brevi intervalli di tempo in cui il partecipante probabilmente indossa il dispositivo ma non si muove. Questi possono durare tra 1 e 3 ore.
Periodi di non indossamento: Intervalli più lunghi senza movimento, indicando che il dispositivo è stato tolto. Questi possono durare tra 1 e 5 ore.
Periodi di sonno: Lunghi intervalli (tra 5 e 15 ore) probabilmente dovuti al sonno, in cui il dispositivo non è indossato ma è atteso.
Periodi di sonno extra: Periodi estremamente lunghi (oltre 15 ore) che indicano che il dispositivo è stato indossato tardi o tolto presto, portando a dati mancanti.
Classificando efficacemente questi intervalli mancanti, i ricercatori possono comprendere meglio come gestire i dati mancanti quando applicano i metodi di imputazione multipla.
Panoramica dell'Imputazione Multipla
L'Imputazione Multipla (MI) è un metodo usato per riempire i dati mancanti con stime ragionevoli basate sui dati osservati. L'obiettivo della MI è fornire un intervallo di valori plausibili per le voci mancanti. Questo permette ai ricercatori di eseguire analisi come se avessero dati completi.
La MI prevede la creazione di diversi set di dati completi sostituendo le voci mancanti con valori predetti. Questi set di dati vengono quindi analizzati separatamente, e i risultati sono mediati per produrre stime finali. Questo approccio tiene conto dell'incertezza legata ai dati mancanti, portando a risultati più affidabili.
Ci sono due approcci principali alla MI: parametrici e non parametrici.
Imputazione Multipla Parametrica
L'approccio Parametrico alla MI assume che i dati seguano una distribuzione statistica specifica. Nel contesto dei dati degli accelerometri, i ricercatori potrebbero applicare un modello come la regressione Tobit, che aiuta a affrontare problemi con dati censurati (dati che hanno limiti, come il numero di passi che non può scendere sotto zero).
Quando si applica l'approccio parametrico, i ricercatori prima aggregano i dati a livello di giorno. Anche se questo può introdurre un certo bias, può aiutare a rendere l'assunzione di normalità più plausibile eseguendo una trasformazione logaritmica dei conteggi dei passi. Così facendo, possono definire i parametri necessari per l'imputazione.
Uno dei grandi vantaggi dell'approccio parametrico è che consente ai ricercatori di impostare limiti superiori e inferiori per i dati in base ai valori osservati. Per esempio, se un giorno è considerato parzialmente osservato a causa di periodi di non indossamento, l'imputazione può tenere conto di questo impostando limiti realistici per i conteggi dei passi associati.
Imputazione Multipla Non Parametrica
L'approccio Non parametrico alla MI non si basa su distribuzioni statistiche specifiche. Invece di utilizzare un modello parametrico, questo metodo riempie i dati mancanti usando dati osservati da partecipanti simili. L'idea è trovare "donatori" che hanno caratteristiche simili e usare i loro dati per stimare i valori mancanti.
In pratica, l'approccio non parametrico può essere vantaggioso perché non richiede assunzioni rigide sulla distribuzione dei dati. Tende ad essere più flessibile e può adattarsi a schemi di dati complessi, rendendolo una scelta adatta per i set di dati degli accelerometri.
Quando si implementa l'approccio non parametrico, i ricercatori prima identificano i periodi mancanti per ogni partecipante. Poi cercano dati donatori applicabili, sia dallo stesso partecipante in giorni diversi che da altri partecipanti simili. Abbinando in base a fattori come età, sesso e livelli di attività di base, i ricercatori possono creare imputazioni affidabili per i dati mancanti.
Studi di simulazione
Per valutare l'efficacia di entrambi gli approcci MI, i ricercatori conducono studi di simulazione. Questi studi valutano quanto accuratamente ciascun metodo può recuperare i valori veri da set di dati con dati mancanti aggiunti.
In una simulazione, i ricercatori potrebbero introdurre schemi di dati mancanti in un set di dati degli accelerometri, simulando casi di non indossamento e periodi di sonno extra. Poi applicano entrambi gli approcci, parametrico e non parametrico, per valutare le loro prestazioni nell'estimare il conteggio medio dei passi per i partecipanti.
I risultati mostrano che l'approccio non parametrico tende generalmente a portare a meno bias e a errori standard più piccoli rispetto al metodo parametrico. Tuttavia, nei casi in cui mancano settimane di dati, l'approccio non parametrico potrebbe avere prestazioni inferiori a causa della mancanza di dati donatori.
Applicazione al trial PACE-UP
Per illustrare l'efficacia di questi metodi, i ricercatori li applicano a un vero studio clinico chiamato trial PACE-UP. Questo trial esaminava gli interventi mirati ad aumentare l'attività fisica tra partecipanti di età compresa tra 45 e 75 anni.
Ai partecipanti sono stati dati accelerometri da indossare per diverse settimane in vari momenti. Come previsto, si sono verificati casi di dati mancanti. Applicando entrambi gli approcci di MI, i ricercatori hanno potuto valutare come ciascun metodo ha impattato sugli effetti stimati degli interventi sul numero di passi.
Entrambi i metodi hanno portato a valutazioni puntuali e errori standard diversi, dimostrando come le assunzioni sui dati mancanti possano cambiare drammaticamente i risultati di uno studio. In particolare, l'approccio non parametrico ha prodotto stime comparabili a quelle riportate nel trial originale.
Discussione
Entrambi gli approcci alla MI, parametrico e non parametrico, hanno punti di forza e debolezze. Mentre l'approccio parametrico fornisce un modo strutturato per gestire i dati mancanti, potrebbe non sempre adattarsi alla complessità presente nei set di dati reali. D'altra parte, l'approccio non parametrico offre maggiore flessibilità ma dipende dalla disponibilità di dati donatori adeguati.
Man mano che l'uso dei dispositivi indossabili continua a crescere, le sfide associate ai dati mancanti rimarranno probabilmente prevalenti. Pertanto, sviluppare metodi migliorati per gestire la mancanza in set di dati dettagliati sarà fondamentale per produrre risultati accurati nella ricerca clinica.
Il lavoro futuro può esplorare approcci ibridi che combinano i punti di forza di entrambi i metodi. Tali avanzamenti migliorerebbero ulteriormente la qualità dell'analisi dei dati negli studi clinici, portando a migliori intuizioni sugli interventi volti a migliorare i livelli di attività fisica dei partecipanti.
Titolo: Multiple Imputation Approaches for Epoch-level Accelerometer data in Trials
Estratto: Clinical trials that investigate interventions on physical activity often use accelerometers to measure step count at a very granular level, often in 5-second epochs. Participants typically wear the accelerometer for a week-long period at baseline, and for one or more week-long follow-up periods after the intervention. The data is usually aggregated to provide daily or weekly step counts for the primary analysis. Missing data are common as participants may not wear the device as per protocol. Approaches to handling missing data in the literature have largely defined missingness on the day level using a threshold on daily wear time, which leads to loss of information on the time of day when data are missing. We propose an approach to identifying and classifying missingness at the finer epoch-level, and then present two approaches to handling missingness. Firstly, we present a parametric approach which takes into account the number of missing epochs per day. Secondly, we describe a non-parametric approach to Multiple Imputation (MI) where missing periods during the day are replaced by donor data from the same person where possible, or data from a different person who is matched on demographic and physical activity-related variables. Our simulation studies comparing these approaches in a number of settings show that the non-parametric approach leads to estimates of the effect of treatment that are least biased while maintaining small standard errors. We illustrate the application of these different MI strategies to the analysis of the 2017 PACE-UP Trial. The proposed framework of classifying missingness and applying MI at the epoch-level is likely to be applicable to a number of different outcomes and data from other wearable devices.
Autori: Mia S. Tackney, Elizabeth Williamson, Derek G. Cook, Elizabeth Limb, Tess Harris, James Carpenter
Ultimo aggiornamento: 2023-03-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.17331
Fonte PDF: https://arxiv.org/pdf/2303.17331
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.