Migliorare la ricerca con le cartelle cliniche elettroniche e le biobanche
Combinare dati genetici e metodi avanzati risolve il problema dei dati mancanti nella ricerca sulla salute.
― 7 leggere min
Indice
- La sfida dei Dati mancanti
- Gestione dei dati mancanti
- Dati genetici come strumento
- Bias di Selezione nelle biobanche
- Obiettivi della ricerca
- Panoramica dei metodi
- Studio di caso: Iniziativa Genomica del Michigan
- Risultati delle simulazioni
- Risultati dallo studio di caso
- Implicazioni e raccomandazioni
- Conclusione
- Fonte originale
- Link di riferimento
Le cartelle cliniche elettroniche (EHR) sono versioni digitali delle storie mediche dei pazienti. Questi record contengono un sacco di info sulla salute delle persone, sui trattamenti e sui risultati che i ricercatori stanno sempre più usando per studiare le tendenze sanitarie e migliorare l'assistenza sanitaria.
Un aspetto interessante delle EHR è la loro connessione con le biobanche, che sono raccolte di campioni biologici e info sanitarie correlate. Alcune biobanche ora includono dati genetici insieme alle EHR, offrendo ai ricercatori un campo di informazioni più ampio. Questa combinazione può portare a intuizioni sulla salute pubblica e sulla cura individuale dei pazienti.
Dati mancanti
La sfida deiAnche se le EHR forniscono dati preziosi, presentano anche delle sfide. Un problema significativo è rappresentato dai dati mancanti. Quando certe informazioni sanitarie non vengono registrate o sono assenti, ciò può portare a conclusioni distorte. I dati mancanti possono verificarsi per vari motivi, ad esempio se un paziente non si è presentato a una visita di controllo, se alcuni test non sono stati effettuati, o addirittura se l'inserimento dati è stato errato.
I ricercatori spesso usano analisi di casi completi, il che significa che includono solo i pazienti con tutti i dati necessari. Tuttavia, questo approccio può portare a imprecisioni se i dati mancanti non sono casuali. Per esempio, se i pazienti più sani hanno maggiori probabilità di avere record completi, i risultati potrebbero essere distorti.
I dati mancanti possono rientrare in tre categorie:
- Completamente Mancanti a Caso (MCAR): I dati mancanti sono completamente casuali e non sono correlati a nessuna caratteristica dei partecipanti.
- Mancanti a Caso (MAR): La probabilità di dati mancanti è correlata ai dati osservati ma non ai dati mancanti stessi.
- Mancanti Non a Caso (MNAR): I dati mancanti sono correlati al valore di ciò che manca, rendendo più complesso il loro trattamento.
Gestione dei dati mancanti
Ci sono metodi per affrontare i dati mancanti, e la Imputazione Multipla è una soluzione popolare. Questa tecnica riempie i valori mancanti più volte per creare diversi set di dati completi. I ricercatori poi analizzano ciascun set di dati e combinano i risultati per ottenere una stima più accurata.
Il successo di questi metodi può variare a seconda del tipo di assenza. Per esempio, se i dati mancano a caso, le analisi possono comunque fornire risultati affidabili. Tuttavia, se i dati mancano non a caso, questi metodi potrebbero avere difficoltà a fornire conclusioni accurate.
Dati genetici come strumento
Le biobanche spesso includono informazioni genetiche. Questo può essere particolarmente utile nella gestione dei dati mancanti. I ricercatori possono creare "Punteggi di Rischio Poligenico" (PRS), che riassumono le informazioni genetiche rilevanti per specifici tratti o malattie. Questi punteggi possono aiutare i ricercatori a capire le relazioni tra i dati sanitari e le predisposizioni genetiche.
Applicando il PRS nelle analisi, i ricercatori potrebbero essere in grado di compensare le informazioni mancanti in modo più efficace. Questo potrebbe portare a migliori stime di come fattori come l'indice di massa corporea (BMI) si relazionano con gli esiti di salute, come i livelli di glucosio nel sangue.
Bias di Selezione nelle biobanche
Un'altra preoccupazione con le biobanche è il bias di selezione. Questo si verifica quando gli individui inclusi nello studio non rappresentano accuratamente la popolazione generale. Ad esempio, se i ricercatori reclutano solo pazienti che stanno subendo un intervento chirurgico, potrebbero trascurare dati importanti di individui altrimenti sani.
Per affrontare il bias di selezione, i ricercatori possono utilizzare metodi di ponderazione. Questi metodi aggiustano la sovra- o sotto-rappresentazione di certi gruppi all'interno dello studio. Per esempio, se un gruppo è sottorappresentato nel campione, i ricercatori possono assegnare pesi maggiori alle loro osservazioni nell'analisi per riflettere la loro importanza.
Obiettivi della ricerca
In questa ricerca, vogliamo indagare se combinare l'imputazione multipla basata su PRS e la ponderazione del campione può ridurre i bias dovuti ai dati mancanti negli studi di associazione. I nostri obiettivi includono:
- Valutare se l'imputazione multipla informata da PRS riduce significativamente il bias nell'analisi.
- Valutare l'effetto combinato dell'imputazione informata da PRS e della ponderazione del campione sulle stime delle associazioni tra BMI e glucosio.
Panoramica dei metodi
Per condurre il nostro studio, abbiamo effettuato simulazioni per testare diversi scenari di dati mancanti. Abbiamo generato popolazioni con varie caratteristiche, creato set di dati, e manipolato dati mancanti per vedere come si comportano i diversi metodi in queste condizioni.
Abbiamo esaminato diverse dimensioni del campione, includendo popolazioni piccole e grandi, e analizzato come bias e tassi di copertura cambiavano con approcci diversi. Ciò ha comportato l'analisi dei dati sia con che senza il PRS e l'applicazione di pesi basati sulle probabilità di selezione.
Studio di caso: Iniziativa Genomica del Michigan
Abbiamo applicato i nostri metodi a dati reali dall'Iniziativa Genomica del Michigan (MGI), una Biobanca che raccoglie dati sanitari e genetici da un grande gruppo di partecipanti. Ci siamo concentrati in particolare su adulti di 40 anni e oltre senza diagnosi di diabete.
Nella nostra analisi MGI, abbiamo valutato la relazione tra BMI e livelli di glucosio. Abbiamo analizzato le persone che si identificavano come bianche non ispaniche e nere non ispaniche separatamente per vedere se ci fossero differenze nei risultati.
Risultati delle simulazioni
Le nostre simulazioni hanno rivelato che l'uso dell'imputazione multipla informata da PRS generalmente portava a un bias più basso, soprattutto quando i dati erano mancanti a caso (MAR). Sia gli approcci naif che i metodi ponderati hanno mostrato che l'imputazione multipla aiutava a mantenere tassi di copertura migliori e riduceva il bias nella maggior parte degli scenari. Tuttavia, le prestazioni peggioravano in condizioni di dati mancanti non a caso (MNAR).
Nei casi in cui sia i dati di esposizione che quelli di risultato erano mancanti, tutti i metodi avevano difficoltà a mantenere la validità. Anche se le analisi imputate da PRS performavano leggermente meglio, ancora faticavano a raggiungere risultati ideali in condizioni MNAR.
Risultati dallo studio di caso
Quando abbiamo analizzato i dati MGI, abbiamo confrontato le stime dell'effetto del BMI sui livelli di glucosio usando vari metodi. Abbiamo trovato che sia l'analisi dei casi completi che l'imputazione multipla portavano a stime diverse. È importante notare che l'inclusione dei pesi del campione avvicinava le stime ai valori riportati in un benchmark di indagine sulla salute nazionale.
Per i bianchi non ispanici, l'estimate dell'analisi dei casi completi non ponderati era inferiore alle aspettative, ma l'applicazione dei pesi migliorava significativamente l'estimate. Per i neri non ispanici, abbiamo trovato piccole differenze, suggerendo che il bias di selezione giocava un ruolo più significativo dei dati mancanti.
Implicazioni e raccomandazioni
I nostri risultati evidenziano la necessità per i ricercatori di considerare sia i dati mancanti sia i bias di selezione quando analizzano i dati delle biobanche collegate alle EHR. Anche se l'imputazione multipla informata da PRS può migliorare l'accuratezza, soprattutto negli scenari MAR, non è una soluzione miracolosa per le condizioni MNAR.
I ricercatori dovrebbero continuare a esplorare vari modelli di mancanza e considerare ulteriori strategie, come analisi di sensibilità, per comprendere meglio gli effetti dei dati mancanti. Inoltre, le biobanche dovrebbero fornire PRS e pesi appropriati per una migliore rappresentanza, consentendo risultati più affidabili negli studi futuri.
Conclusione
Affrontare i dati mancanti e il bias di selezione è fondamentale per l'affidabilità della ricerca che utilizza le biobanche collegate alle EHR. Combinando metodi di imputazione avanzati con informazioni genetiche e appropriati pesi di campionamento, i ricercatori possono migliorare l'accuratezza delle loro scoperte e contribuire a risultati sanitari migliori. Ulteriore esplorazione di questi metodi sarà essenziale per migliorare la qualità della ricerca sulla salute e informare le strategie di salute pubblica.
Titolo: Reducing Information and Selection Bias in EHR-Linked Biobanks via Genetics-Informed Multiple Imputation and Sample Weighting
Estratto: Electronic health records (EHRs) are valuable for public health and clinical research but are prone to many sources of bias, including missing data and non-probability selection. Missing data in EHRs is complex due to potential non-recording, fragmentation, or clinically informative absences. This study explores whether polygenic risk score (PRS)-informed multiple imputation for missing traits, combined with sample weighting, can mitigate missing data and selection biases in estimating disease-exposure associations. Simulations were conducted for missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR) conditions under different sampling mechanisms. PRS-informed multiple imputation showed generally lower bias, particularly when combined with sample weighting. For example, in biased samples of 10,000 with exposure and outcome MAR data, PRS-informed imputation had lower percent bias (3.8%) and better coverage rate (0.883) compared to PRS-uninformed (4.5%; 0.877) and complete case analyses (10.3%; 0.784) in covariate-adjusted, weighted, multiple imputation scenarios. In a case study using Michigan Genomics Initiative (n=50,026) data, PRS-informed imputation aligned more closely with a sample-weighted All of Us-derived benchmark than analyses ignoring missing data and selection bias. Researchers should consider leveraging genetic data and sample weighting to address biases from missing data and non-probability sampling in biobanks.
Autori: Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce
Ultimo aggiornamento: 2024-10-29 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.