Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Epidemiologia

Migliorare la ricerca con le cartelle cliniche elettroniche e le biobanche

Combinare dati genetici e metodi avanzati risolve il problema dei dati mancanti nella ricerca sulla salute.

― 7 leggere min


EHR e Biobanche: UnaEHR e Biobanche: UnaRivoluzione della Ricercanegli studi sulla salute.Nuovi metodi affrontano i dati mancanti
Indice

Le cartelle cliniche elettroniche (EHR) sono versioni digitali delle storie mediche dei pazienti. Questi record contengono un sacco di info sulla salute delle persone, sui trattamenti e sui risultati che i ricercatori stanno sempre più usando per studiare le tendenze sanitarie e migliorare l'assistenza sanitaria.

Un aspetto interessante delle EHR è la loro connessione con le biobanche, che sono raccolte di campioni biologici e info sanitarie correlate. Alcune biobanche ora includono dati genetici insieme alle EHR, offrendo ai ricercatori un campo di informazioni più ampio. Questa combinazione può portare a intuizioni sulla salute pubblica e sulla cura individuale dei pazienti.

La sfida dei Dati mancanti

Anche se le EHR forniscono dati preziosi, presentano anche delle sfide. Un problema significativo è rappresentato dai dati mancanti. Quando certe informazioni sanitarie non vengono registrate o sono assenti, ciò può portare a conclusioni distorte. I dati mancanti possono verificarsi per vari motivi, ad esempio se un paziente non si è presentato a una visita di controllo, se alcuni test non sono stati effettuati, o addirittura se l'inserimento dati è stato errato.

I ricercatori spesso usano analisi di casi completi, il che significa che includono solo i pazienti con tutti i dati necessari. Tuttavia, questo approccio può portare a imprecisioni se i dati mancanti non sono casuali. Per esempio, se i pazienti più sani hanno maggiori probabilità di avere record completi, i risultati potrebbero essere distorti.

I dati mancanti possono rientrare in tre categorie:

  1. Completamente Mancanti a Caso (MCAR): I dati mancanti sono completamente casuali e non sono correlati a nessuna caratteristica dei partecipanti.
  2. Mancanti a Caso (MAR): La probabilità di dati mancanti è correlata ai dati osservati ma non ai dati mancanti stessi.
  3. Mancanti Non a Caso (MNAR): I dati mancanti sono correlati al valore di ciò che manca, rendendo più complesso il loro trattamento.

Gestione dei dati mancanti

Ci sono metodi per affrontare i dati mancanti, e la Imputazione Multipla è una soluzione popolare. Questa tecnica riempie i valori mancanti più volte per creare diversi set di dati completi. I ricercatori poi analizzano ciascun set di dati e combinano i risultati per ottenere una stima più accurata.

Il successo di questi metodi può variare a seconda del tipo di assenza. Per esempio, se i dati mancano a caso, le analisi possono comunque fornire risultati affidabili. Tuttavia, se i dati mancano non a caso, questi metodi potrebbero avere difficoltà a fornire conclusioni accurate.

Dati genetici come strumento

Le biobanche spesso includono informazioni genetiche. Questo può essere particolarmente utile nella gestione dei dati mancanti. I ricercatori possono creare "Punteggi di Rischio Poligenico" (PRS), che riassumono le informazioni genetiche rilevanti per specifici tratti o malattie. Questi punteggi possono aiutare i ricercatori a capire le relazioni tra i dati sanitari e le predisposizioni genetiche.

Applicando il PRS nelle analisi, i ricercatori potrebbero essere in grado di compensare le informazioni mancanti in modo più efficace. Questo potrebbe portare a migliori stime di come fattori come l'indice di massa corporea (BMI) si relazionano con gli esiti di salute, come i livelli di glucosio nel sangue.

Bias di Selezione nelle biobanche

Un'altra preoccupazione con le biobanche è il bias di selezione. Questo si verifica quando gli individui inclusi nello studio non rappresentano accuratamente la popolazione generale. Ad esempio, se i ricercatori reclutano solo pazienti che stanno subendo un intervento chirurgico, potrebbero trascurare dati importanti di individui altrimenti sani.

Per affrontare il bias di selezione, i ricercatori possono utilizzare metodi di ponderazione. Questi metodi aggiustano la sovra- o sotto-rappresentazione di certi gruppi all'interno dello studio. Per esempio, se un gruppo è sottorappresentato nel campione, i ricercatori possono assegnare pesi maggiori alle loro osservazioni nell'analisi per riflettere la loro importanza.

Obiettivi della ricerca

In questa ricerca, vogliamo indagare se combinare l'imputazione multipla basata su PRS e la ponderazione del campione può ridurre i bias dovuti ai dati mancanti negli studi di associazione. I nostri obiettivi includono:

  1. Valutare se l'imputazione multipla informata da PRS riduce significativamente il bias nell'analisi.
  2. Valutare l'effetto combinato dell'imputazione informata da PRS e della ponderazione del campione sulle stime delle associazioni tra BMI e glucosio.

Panoramica dei metodi

Per condurre il nostro studio, abbiamo effettuato simulazioni per testare diversi scenari di dati mancanti. Abbiamo generato popolazioni con varie caratteristiche, creato set di dati, e manipolato dati mancanti per vedere come si comportano i diversi metodi in queste condizioni.

Abbiamo esaminato diverse dimensioni del campione, includendo popolazioni piccole e grandi, e analizzato come bias e tassi di copertura cambiavano con approcci diversi. Ciò ha comportato l'analisi dei dati sia con che senza il PRS e l'applicazione di pesi basati sulle probabilità di selezione.

Studio di caso: Iniziativa Genomica del Michigan

Abbiamo applicato i nostri metodi a dati reali dall'Iniziativa Genomica del Michigan (MGI), una Biobanca che raccoglie dati sanitari e genetici da un grande gruppo di partecipanti. Ci siamo concentrati in particolare su adulti di 40 anni e oltre senza diagnosi di diabete.

Nella nostra analisi MGI, abbiamo valutato la relazione tra BMI e livelli di glucosio. Abbiamo analizzato le persone che si identificavano come bianche non ispaniche e nere non ispaniche separatamente per vedere se ci fossero differenze nei risultati.

Risultati delle simulazioni

Le nostre simulazioni hanno rivelato che l'uso dell'imputazione multipla informata da PRS generalmente portava a un bias più basso, soprattutto quando i dati erano mancanti a caso (MAR). Sia gli approcci naif che i metodi ponderati hanno mostrato che l'imputazione multipla aiutava a mantenere tassi di copertura migliori e riduceva il bias nella maggior parte degli scenari. Tuttavia, le prestazioni peggioravano in condizioni di dati mancanti non a caso (MNAR).

Nei casi in cui sia i dati di esposizione che quelli di risultato erano mancanti, tutti i metodi avevano difficoltà a mantenere la validità. Anche se le analisi imputate da PRS performavano leggermente meglio, ancora faticavano a raggiungere risultati ideali in condizioni MNAR.

Risultati dallo studio di caso

Quando abbiamo analizzato i dati MGI, abbiamo confrontato le stime dell'effetto del BMI sui livelli di glucosio usando vari metodi. Abbiamo trovato che sia l'analisi dei casi completi che l'imputazione multipla portavano a stime diverse. È importante notare che l'inclusione dei pesi del campione avvicinava le stime ai valori riportati in un benchmark di indagine sulla salute nazionale.

Per i bianchi non ispanici, l'estimate dell'analisi dei casi completi non ponderati era inferiore alle aspettative, ma l'applicazione dei pesi migliorava significativamente l'estimate. Per i neri non ispanici, abbiamo trovato piccole differenze, suggerendo che il bias di selezione giocava un ruolo più significativo dei dati mancanti.

Implicazioni e raccomandazioni

I nostri risultati evidenziano la necessità per i ricercatori di considerare sia i dati mancanti sia i bias di selezione quando analizzano i dati delle biobanche collegate alle EHR. Anche se l'imputazione multipla informata da PRS può migliorare l'accuratezza, soprattutto negli scenari MAR, non è una soluzione miracolosa per le condizioni MNAR.

I ricercatori dovrebbero continuare a esplorare vari modelli di mancanza e considerare ulteriori strategie, come analisi di sensibilità, per comprendere meglio gli effetti dei dati mancanti. Inoltre, le biobanche dovrebbero fornire PRS e pesi appropriati per una migliore rappresentanza, consentendo risultati più affidabili negli studi futuri.

Conclusione

Affrontare i dati mancanti e il bias di selezione è fondamentale per l'affidabilità della ricerca che utilizza le biobanche collegate alle EHR. Combinando metodi di imputazione avanzati con informazioni genetiche e appropriati pesi di campionamento, i ricercatori possono migliorare l'accuratezza delle loro scoperte e contribuire a risultati sanitari migliori. Ulteriore esplorazione di questi metodi sarà essenziale per migliorare la qualità della ricerca sulla salute e informare le strategie di salute pubblica.

Fonte originale

Titolo: Reducing Information and Selection Bias in EHR-Linked Biobanks via Genetics-Informed Multiple Imputation and Sample Weighting

Estratto: Electronic health records (EHRs) are valuable for public health and clinical research but are prone to many sources of bias, including missing data and non-probability selection. Missing data in EHRs is complex due to potential non-recording, fragmentation, or clinically informative absences. This study explores whether polygenic risk score (PRS)-informed multiple imputation for missing traits, combined with sample weighting, can mitigate missing data and selection biases in estimating disease-exposure associations. Simulations were conducted for missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR) conditions under different sampling mechanisms. PRS-informed multiple imputation showed generally lower bias, particularly when combined with sample weighting. For example, in biased samples of 10,000 with exposure and outcome MAR data, PRS-informed imputation had lower percent bias (3.8%) and better coverage rate (0.883) compared to PRS-uninformed (4.5%; 0.877) and complete case analyses (10.3%; 0.784) in covariate-adjusted, weighted, multiple imputation scenarios. In a case study using Michigan Genomics Initiative (n=50,026) data, PRS-informed imputation aligned more closely with a sample-weighted All of Us-derived benchmark than analyses ignoring missing data and selection bias. Researchers should consider leveraging genetic data and sample weighting to address biases from missing data and non-probability sampling in biobanks.

Autori: Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce

Ultimo aggiornamento: 2024-10-29 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili