Migliorare la ricerca con le cartelle cliniche elettroniche e le biobanche

Indice

La sfida dei Dati mancanti
Gestione dei dati mancanti
Dati genetici come strumento
Bias di Selezione nelle biobanche
Obiettivi della ricerca
Panoramica dei metodi
Studio di caso: Iniziativa Genomica del Michigan
Risultati delle simulazioni
Risultati dallo studio di caso
Implicazioni e raccomandazioni
Conclusione
Fonte originale
Link di riferimento

Le cartelle cliniche elettroniche (EHR) sono versioni digitali delle storie mediche dei pazienti. Questi record contengono un sacco di info sulla salute delle persone, sui trattamenti e sui risultati che i ricercatori stanno sempre più usando per studiare le tendenze sanitarie e migliorare l'assistenza sanitaria.

Un aspetto interessante delle EHR è la loro connessione con le biobanche, che sono raccolte di campioni biologici e info sanitarie correlate. Alcune biobanche ora includono dati genetici insieme alle EHR, offrendo ai ricercatori un campo di informazioni più ampio. Questa combinazione può portare a intuizioni sulla salute pubblica e sulla cura individuale dei pazienti.

La sfida dei Dati mancanti

Anche se le EHR forniscono dati preziosi, presentano anche delle sfide. Un problema significativo è rappresentato dai dati mancanti. Quando certe informazioni sanitarie non vengono registrate o sono assenti, ciò può portare a conclusioni distorte. I dati mancanti possono verificarsi per vari motivi, ad esempio se un paziente non si è presentato a una visita di controllo, se alcuni test non sono stati effettuati, o addirittura se l'inserimento dati è stato errato.

I ricercatori spesso usano analisi di casi completi, il che significa che includono solo i pazienti con tutti i dati necessari. Tuttavia, questo approccio può portare a imprecisioni se i dati mancanti non sono casuali. Per esempio, se i pazienti più sani hanno maggiori probabilità di avere record completi, i risultati potrebbero essere distorti.

I dati mancanti possono rientrare in tre categorie:

Completamente Mancanti a Caso (MCAR): I dati mancanti sono completamente casuali e non sono correlati a nessuna caratteristica dei partecipanti.
Mancanti a Caso (MAR): La probabilità di dati mancanti è correlata ai dati osservati ma non ai dati mancanti stessi.
Mancanti Non a Caso (MNAR): I dati mancanti sono correlati al valore di ciò che manca, rendendo più complesso il loro trattamento.

Gestione dei dati mancanti

Ci sono metodi per affrontare i dati mancanti, e la Imputazione Multipla è una soluzione popolare. Questa tecnica riempie i valori mancanti più volte per creare diversi set di dati completi. I ricercatori poi analizzano ciascun set di dati e combinano i risultati per ottenere una stima più accurata.

Il successo di questi metodi può variare a seconda del tipo di assenza. Per esempio, se i dati mancano a caso, le analisi possono comunque fornire risultati affidabili. Tuttavia, se i dati mancano non a caso, questi metodi potrebbero avere difficoltà a fornire conclusioni accurate.

Dati genetici come strumento

Le biobanche spesso includono informazioni genetiche. Questo può essere particolarmente utile nella gestione dei dati mancanti. I ricercatori possono creare "Punteggi di Rischio Poligenico" (PRS), che riassumono le informazioni genetiche rilevanti per specifici tratti o malattie. Questi punteggi possono aiutare i ricercatori a capire le relazioni tra i dati sanitari e le predisposizioni genetiche.

Applicando il PRS nelle analisi, i ricercatori potrebbero essere in grado di compensare le informazioni mancanti in modo più efficace. Questo potrebbe portare a migliori stime di come fattori come l'indice di massa corporea (BMI) si relazionano con gli esiti di salute, come i livelli di glucosio nel sangue.

Bias di Selezione nelle biobanche

Un'altra preoccupazione con le biobanche è il bias di selezione. Questo si verifica quando gli individui inclusi nello studio non rappresentano accuratamente la popolazione generale. Ad esempio, se i ricercatori reclutano solo pazienti che stanno subendo un intervento chirurgico, potrebbero trascurare dati importanti di individui altrimenti sani.

Per affrontare il bias di selezione, i ricercatori possono utilizzare metodi di ponderazione. Questi metodi aggiustano la sovra- o sotto-rappresentazione di certi gruppi all'interno dello studio. Per esempio, se un gruppo è sottorappresentato nel campione, i ricercatori possono assegnare pesi maggiori alle loro osservazioni nell'analisi per riflettere la loro importanza.

Obiettivi della ricerca

In questa ricerca, vogliamo indagare se combinare l'imputazione multipla basata su PRS e la ponderazione del campione può ridurre i bias dovuti ai dati mancanti negli studi di associazione. I nostri obiettivi includono:

Valutare se l'imputazione multipla informata da PRS riduce significativamente il bias nell'analisi.
Valutare l'effetto combinato dell'imputazione informata da PRS e della ponderazione del campione sulle stime delle associazioni tra BMI e glucosio.

Panoramica dei metodi

Per condurre il nostro studio, abbiamo effettuato simulazioni per testare diversi scenari di dati mancanti. Abbiamo generato popolazioni con varie caratteristiche, creato set di dati, e manipolato dati mancanti per vedere come si comportano i diversi metodi in queste condizioni.

Abbiamo esaminato diverse dimensioni del campione, includendo popolazioni piccole e grandi, e analizzato come bias e tassi di copertura cambiavano con approcci diversi. Ciò ha comportato l'analisi dei dati sia con che senza il PRS e l'applicazione di pesi basati sulle probabilità di selezione.

Studio di caso: Iniziativa Genomica del Michigan

Abbiamo applicato i nostri metodi a dati reali dall'Iniziativa Genomica del Michigan (MGI), una Biobanca che raccoglie dati sanitari e genetici da un grande gruppo di partecipanti. Ci siamo concentrati in particolare su adulti di 40 anni e oltre senza diagnosi di diabete.

Nella nostra analisi MGI, abbiamo valutato la relazione tra BMI e livelli di glucosio. Abbiamo analizzato le persone che si identificavano come bianche non ispaniche e nere non ispaniche separatamente per vedere se ci fossero differenze nei risultati.

Risultati delle simulazioni

Le nostre simulazioni hanno rivelato che l'uso dell'imputazione multipla informata da PRS generalmente portava a un bias più basso, soprattutto quando i dati erano mancanti a caso (MAR). Sia gli approcci naif che i metodi ponderati hanno mostrato che l'imputazione multipla aiutava a mantenere tassi di copertura migliori e riduceva il bias nella maggior parte degli scenari. Tuttavia, le prestazioni peggioravano in condizioni di dati mancanti non a caso (MNAR).

Nei casi in cui sia i dati di esposizione che quelli di risultato erano mancanti, tutti i metodi avevano difficoltà a mantenere la validità. Anche se le analisi imputate da PRS performavano leggermente meglio, ancora faticavano a raggiungere risultati ideali in condizioni MNAR.

Risultati dallo studio di caso

Quando abbiamo analizzato i dati MGI, abbiamo confrontato le stime dell'effetto del BMI sui livelli di glucosio usando vari metodi. Abbiamo trovato che sia l'analisi dei casi completi che l'imputazione multipla portavano a stime diverse. È importante notare che l'inclusione dei pesi del campione avvicinava le stime ai valori riportati in un benchmark di indagine sulla salute nazionale.

Per i bianchi non ispanici, l'estimate dell'analisi dei casi completi non ponderati era inferiore alle aspettative, ma l'applicazione dei pesi migliorava significativamente l'estimate. Per i neri non ispanici, abbiamo trovato piccole differenze, suggerendo che il bias di selezione giocava un ruolo più significativo dei dati mancanti.

Implicazioni e raccomandazioni

I nostri risultati evidenziano la necessità per i ricercatori di considerare sia i dati mancanti sia i bias di selezione quando analizzano i dati delle biobanche collegate alle EHR. Anche se l'imputazione multipla informata da PRS può migliorare l'accuratezza, soprattutto negli scenari MAR, non è una soluzione miracolosa per le condizioni MNAR.

I ricercatori dovrebbero continuare a esplorare vari modelli di mancanza e considerare ulteriori strategie, come analisi di sensibilità, per comprendere meglio gli effetti dei dati mancanti. Inoltre, le biobanche dovrebbero fornire PRS e pesi appropriati per una migliore rappresentanza, consentendo risultati più affidabili negli studi futuri.

Conclusione

Affrontare i dati mancanti e il bias di selezione è fondamentale per l'affidabilità della ricerca che utilizza le biobanche collegate alle EHR. Combinando metodi di imputazione avanzati con informazioni genetiche e appropriati pesi di campionamento, i ricercatori possono migliorare l'accuratezza delle loro scoperte e contribuire a risultati sanitari migliori. Ulteriore esplorazione di questi metodi sarà essenziale per migliorare la qualità della ricerca sulla salute e informare le strategie di salute pubblica.

Migliorare la ricerca con le cartelle cliniche elettroniche e le biobanche

Combinare dati genetici e metodi avanzati risolve il problema dei dati mancanti nella ricerca sulla salute.

La sfida dei Dati mancanti

Gestione dei dati mancanti

Dati genetici come strumento

Bias di Selezione nelle biobanche

Obiettivi della ricerca

Panoramica dei metodi

Studio di caso: Iniziativa Genomica del Michigan

Risultati delle simulazioni

Risultati dallo studio di caso

Implicazioni e raccomandazioni

Conclusione

Link di riferimento

Argomenti citati

Migliorare la ricerca con le cartelle cliniche elettroniche e le biobanche

Combinare dati genetici e metodi avanzati risolve il problema dei dati mancanti nella ricerca sulla salute.

#La sfida dei Dati mancanti

#Gestione dei dati mancanti

#Dati genetici come strumento

#Bias di Selezione nelle biobanche

#Obiettivi della ricerca

#Panoramica dei metodi

#Studio di caso: Iniziativa Genomica del Michigan

#Risultati delle simulazioni

#Risultati dallo studio di caso

#Implicazioni e raccomandazioni

#Conclusione

Link di riferimento

Argomenti citati

La sfida dei Dati mancanti

Gestione dei dati mancanti

Dati genetici come strumento

Bias di Selezione nelle biobanche

Obiettivi della ricerca

Panoramica dei metodi

Studio di caso: Iniziativa Genomica del Michigan

Risultati delle simulazioni

Risultati dallo studio di caso

Implicazioni e raccomandazioni

Conclusione