Migliorare la ricerca con le cartelle cliniche elettroniche e le biobanche
Combinare dati genetici e metodi avanzati risolve il problema dei dati mancanti nella ricerca sulla salute.
Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce
― 7 leggere min
Indice
- La sfida dei Dati mancanti
- Gestione dei dati mancanti
- Dati genetici come strumento
- Bias di Selezione nelle biobanche
- Obiettivi della ricerca
- Panoramica dei metodi
- Studio di caso: Iniziativa Genomica del Michigan
- Risultati delle simulazioni
- Risultati dallo studio di caso
- Implicazioni e raccomandazioni
- Conclusione
- Fonte originale
- Link di riferimento
Le cartelle cliniche elettroniche (EHR) sono versioni digitali delle storie mediche dei pazienti. Questi record contengono un sacco di info sulla salute delle persone, sui trattamenti e sui risultati che i ricercatori stanno sempre più usando per studiare le tendenze sanitarie e migliorare l'assistenza sanitaria.
Un aspetto interessante delle EHR è la loro connessione con le biobanche, che sono raccolte di campioni biologici e info sanitarie correlate. Alcune biobanche ora includono dati genetici insieme alle EHR, offrendo ai ricercatori un campo di informazioni più ampio. Questa combinazione può portare a intuizioni sulla salute pubblica e sulla cura individuale dei pazienti.
Dati mancanti
La sfida deiAnche se le EHR forniscono dati preziosi, presentano anche delle sfide. Un problema significativo è rappresentato dai dati mancanti. Quando certe informazioni sanitarie non vengono registrate o sono assenti, ciò può portare a conclusioni distorte. I dati mancanti possono verificarsi per vari motivi, ad esempio se un paziente non si è presentato a una visita di controllo, se alcuni test non sono stati effettuati, o addirittura se l'inserimento dati è stato errato.
I ricercatori spesso usano analisi di casi completi, il che significa che includono solo i pazienti con tutti i dati necessari. Tuttavia, questo approccio può portare a imprecisioni se i dati mancanti non sono casuali. Per esempio, se i pazienti più sani hanno maggiori probabilità di avere record completi, i risultati potrebbero essere distorti.
I dati mancanti possono rientrare in tre categorie:
- Completamente Mancanti a Caso (MCAR): I dati mancanti sono completamente casuali e non sono correlati a nessuna caratteristica dei partecipanti.
- Mancanti a Caso (MAR): La probabilità di dati mancanti è correlata ai dati osservati ma non ai dati mancanti stessi.
- Mancanti Non a Caso (MNAR): I dati mancanti sono correlati al valore di ciò che manca, rendendo più complesso il loro trattamento.
Gestione dei dati mancanti
Ci sono metodi per affrontare i dati mancanti, e la Imputazione Multipla è una soluzione popolare. Questa tecnica riempie i valori mancanti più volte per creare diversi set di dati completi. I ricercatori poi analizzano ciascun set di dati e combinano i risultati per ottenere una stima più accurata.
Il successo di questi metodi può variare a seconda del tipo di assenza. Per esempio, se i dati mancano a caso, le analisi possono comunque fornire risultati affidabili. Tuttavia, se i dati mancano non a caso, questi metodi potrebbero avere difficoltà a fornire conclusioni accurate.
Dati genetici come strumento
Le biobanche spesso includono informazioni genetiche. Questo può essere particolarmente utile nella gestione dei dati mancanti. I ricercatori possono creare "Punteggi di Rischio Poligenico" (PRS), che riassumono le informazioni genetiche rilevanti per specifici tratti o malattie. Questi punteggi possono aiutare i ricercatori a capire le relazioni tra i dati sanitari e le predisposizioni genetiche.
Applicando il PRS nelle analisi, i ricercatori potrebbero essere in grado di compensare le informazioni mancanti in modo più efficace. Questo potrebbe portare a migliori stime di come fattori come l'indice di massa corporea (BMI) si relazionano con gli esiti di salute, come i livelli di glucosio nel sangue.
Bias di Selezione nelle biobanche
Un'altra preoccupazione con le biobanche è il bias di selezione. Questo si verifica quando gli individui inclusi nello studio non rappresentano accuratamente la popolazione generale. Ad esempio, se i ricercatori reclutano solo pazienti che stanno subendo un intervento chirurgico, potrebbero trascurare dati importanti di individui altrimenti sani.
Per affrontare il bias di selezione, i ricercatori possono utilizzare metodi di ponderazione. Questi metodi aggiustano la sovra- o sotto-rappresentazione di certi gruppi all'interno dello studio. Per esempio, se un gruppo è sottorappresentato nel campione, i ricercatori possono assegnare pesi maggiori alle loro osservazioni nell'analisi per riflettere la loro importanza.
Obiettivi della ricerca
In questa ricerca, vogliamo indagare se combinare l'imputazione multipla basata su PRS e la ponderazione del campione può ridurre i bias dovuti ai dati mancanti negli studi di associazione. I nostri obiettivi includono:
- Valutare se l'imputazione multipla informata da PRS riduce significativamente il bias nell'analisi.
- Valutare l'effetto combinato dell'imputazione informata da PRS e della ponderazione del campione sulle stime delle associazioni tra BMI e glucosio.
Panoramica dei metodi
Per condurre il nostro studio, abbiamo effettuato simulazioni per testare diversi scenari di dati mancanti. Abbiamo generato popolazioni con varie caratteristiche, creato set di dati, e manipolato dati mancanti per vedere come si comportano i diversi metodi in queste condizioni.
Abbiamo esaminato diverse dimensioni del campione, includendo popolazioni piccole e grandi, e analizzato come bias e tassi di copertura cambiavano con approcci diversi. Ciò ha comportato l'analisi dei dati sia con che senza il PRS e l'applicazione di pesi basati sulle probabilità di selezione.
Studio di caso: Iniziativa Genomica del Michigan
Abbiamo applicato i nostri metodi a dati reali dall'Iniziativa Genomica del Michigan (MGI), una Biobanca che raccoglie dati sanitari e genetici da un grande gruppo di partecipanti. Ci siamo concentrati in particolare su adulti di 40 anni e oltre senza diagnosi di diabete.
Nella nostra analisi MGI, abbiamo valutato la relazione tra BMI e livelli di glucosio. Abbiamo analizzato le persone che si identificavano come bianche non ispaniche e nere non ispaniche separatamente per vedere se ci fossero differenze nei risultati.
Risultati delle simulazioni
Le nostre simulazioni hanno rivelato che l'uso dell'imputazione multipla informata da PRS generalmente portava a un bias più basso, soprattutto quando i dati erano mancanti a caso (MAR). Sia gli approcci naif che i metodi ponderati hanno mostrato che l'imputazione multipla aiutava a mantenere tassi di copertura migliori e riduceva il bias nella maggior parte degli scenari. Tuttavia, le prestazioni peggioravano in condizioni di dati mancanti non a caso (MNAR).
Nei casi in cui sia i dati di esposizione che quelli di risultato erano mancanti, tutti i metodi avevano difficoltà a mantenere la validità. Anche se le analisi imputate da PRS performavano leggermente meglio, ancora faticavano a raggiungere risultati ideali in condizioni MNAR.
Risultati dallo studio di caso
Quando abbiamo analizzato i dati MGI, abbiamo confrontato le stime dell'effetto del BMI sui livelli di glucosio usando vari metodi. Abbiamo trovato che sia l'analisi dei casi completi che l'imputazione multipla portavano a stime diverse. È importante notare che l'inclusione dei pesi del campione avvicinava le stime ai valori riportati in un benchmark di indagine sulla salute nazionale.
Per i bianchi non ispanici, l'estimate dell'analisi dei casi completi non ponderati era inferiore alle aspettative, ma l'applicazione dei pesi migliorava significativamente l'estimate. Per i neri non ispanici, abbiamo trovato piccole differenze, suggerendo che il bias di selezione giocava un ruolo più significativo dei dati mancanti.
Implicazioni e raccomandazioni
I nostri risultati evidenziano la necessità per i ricercatori di considerare sia i dati mancanti sia i bias di selezione quando analizzano i dati delle biobanche collegate alle EHR. Anche se l'imputazione multipla informata da PRS può migliorare l'accuratezza, soprattutto negli scenari MAR, non è una soluzione miracolosa per le condizioni MNAR.
I ricercatori dovrebbero continuare a esplorare vari modelli di mancanza e considerare ulteriori strategie, come analisi di sensibilità, per comprendere meglio gli effetti dei dati mancanti. Inoltre, le biobanche dovrebbero fornire PRS e pesi appropriati per una migliore rappresentanza, consentendo risultati più affidabili negli studi futuri.
Conclusione
Affrontare i dati mancanti e il bias di selezione è fondamentale per l'affidabilità della ricerca che utilizza le biobanche collegate alle EHR. Combinando metodi di imputazione avanzati con informazioni genetiche e appropriati pesi di campionamento, i ricercatori possono migliorare l'accuratezza delle loro scoperte e contribuire a risultati sanitari migliori. Ulteriore esplorazione di questi metodi sarà essenziale per migliorare la qualità della ricerca sulla salute e informare le strategie di salute pubblica.
Titolo: Reducing Information and Selection Bias in EHR-Linked Biobanks via Genetics-Informed Multiple Imputation and Sample Weighting
Estratto: Electronic health records (EHRs) are valuable for public health and clinical research but are prone to many sources of bias, including missing data and non-probability selection. Missing data in EHRs is complex due to potential non-recording, fragmentation, or clinically informative absences. This study explores whether polygenic risk score (PRS)-informed multiple imputation for missing traits, combined with sample weighting, can mitigate missing data and selection biases in estimating disease-exposure associations. Simulations were conducted for missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR) conditions under different sampling mechanisms. PRS-informed multiple imputation showed generally lower bias, particularly when combined with sample weighting. For example, in biased samples of 10,000 with exposure and outcome MAR data, PRS-informed imputation had lower percent bias (3.8%) and better coverage rate (0.883) compared to PRS-uninformed (4.5%; 0.877) and complete case analyses (10.3%; 0.784) in covariate-adjusted, weighted, multiple imputation scenarios. In a case study using Michigan Genomics Initiative (n=50,026) data, PRS-informed imputation aligned more closely with a sample-weighted All of Us-derived benchmark than analyses ignoring missing data and selection bias. Researchers should consider leveraging genetic data and sample weighting to address biases from missing data and non-probability sampling in biobanks.
Autori: Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce
Ultimo aggiornamento: 2024-10-29 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.