Valutare il bias di selezione nelle biobanche collegate a EHR
Questo studio analizza come i pesi di selezione influenzano i risultati della ricerca in diversi set di dati biobanco.
― 6 leggere min
Indice
I registri sanitari elettronici (EHR) sono versioni digitali delle storie mediche dei pazienti, mentre le biobanche sono raccolte di campioni biologici e dati correlati. Le biobanche collegate agli EHR mettono in contatto questi due mondi, permettendo ai ricercatori di studiare informazioni sulla salute insieme ai campioni biologici. Queste raccolte spesso includono dati da diverse fonti, come registri medici dei pazienti, registri farmaceutici e caratteristiche del quartiere.
Sempre più ricercatori stanno utilizzando i dati EHR perché sono ampi, immediati e facilmente accessibili. Negli ultimi dieci anni, il numero di studi pubblicati che usano i dati EHR è aumentato in modo significativo. Molte organizzazioni, come l'Iniziativa di Meta-analisi delle Biobanche Globali, stanno collaborando per condividere i loro risultati a livello globale.
Man mano che i ricercatori raccolgono più dati, sorgono due domande importanti: chi è incluso nello studio e quale popolazione stanno cercando di capire? Se una Biobanca non include un gruppo rappresentativo della popolazione, può portare a un Bias di Selezione. Questo significa che le conclusioni tratte dai dati potrebbero essere fuorvianti. Affrontare il bias di selezione può essere complesso perché è difficile determinare come influisce sui risultati. Aumentare la dimensione del campione da solo non risolve questo problema.
Ci sono tre modi comuni per affrontare il bias di selezione: stratificazione, analisi del bias quantitativo e pesatura per probabilità inversa (IP-weighting). L'IP-weighting aggiusta l'analisi in base alla probabilità che gli individui siano stati inclusi nel campione rispetto alla popolazione target. Questo aggiustamento si basa su dati accurati della popolazione target e sull'identificazione corretta dei fattori che influenzano la selezione.
Sono stati fatti dei passi per applicare questo metodo ai gruppi di biobanche collegate agli EHR. Alcuni ricercatori hanno proposto framework per gestire meglio il bias di selezione usando procedure di pesatura e hanno dimostrato come utilizzare dati provenienti da altre fonti per stimare questi pesi.
Questo articolo esamina tre biobanche collegate agli EHR che usano metodi di reclutamento diversi: il Programma di Ricerca All of Us (AOU), l'Iniziativa Genomica del Michigan (MGI) e la UK Biobank (UKB). L'obiettivo è capire come l'uso dei pesi di selezione influisce sulle analisi comuni nei dati EHR. Lo studio prevede diversi passaggi, tra cui la stima dei pesi di selezione, l'analisi dei dati demografici e il test dell'influenza dei pesi sui risultati della ricerca.
Descrizione di Ogni Biobanca
AOU: All of Us
Lanciato nel 2018, il programma AOU mira a iscrivere oltre un milione di adulti utilizzando un mix di inviti aperti e reclutamento tramite fornitori di assistenza sanitaria. Il programma si concentra sull'inclusione di individui provenienti da comunità che storicamente sono state sottorappresentate nella ricerca medica. Fattori come età, sesso, razza, reddito e livello di istruzione sono considerati nel reclutamento. A inizio 2024, AOU conta oltre 760.000 partecipanti.
MGI: Michigan Genomics Initiative
Il MGI è iniziato nel 2012, reclutando adulti principalmente tramite appuntamenti medici che richiedono anestesia. Si è anche espanso per includere vari sottogruppi legati al metabolismo, alla salute mentale e altro. Fattori come età, sesso e alcune condizioni di salute sono usati nel processo di reclutamento. Attualmente, il MGI ha circa 100.000 partecipanti consenzienti.
UKB: UK Biobank
La UK Biobank ha reclutato più di 500.000 adulti inviando milioni di inviti a famiglie vicino ai centri di valutazione. Questo gruppo ha affrontato sfide come il bias dei volontari sani, portando a sforzi per rendere il campione più rappresentativo della popolazione target. Attualmente, la UKB ha circa 401.000 partecipanti.
Metodo di Analisi
Lo studio utilizza dati EHR da AOU e MGI, insieme a dati precedentemente convalidati da UKB. Lo scopo è vedere come i pesi di selezione impattano calcoli semplici, come stimare la prevalenza delle malattie, e analisi complesse, come gli studi di associazione genetica.
I pesi di selezione vengono calcolati in base ai dati del National Health Interview Survey (NHIS), un campione rappresentativo di adulti statunitensi. L'analisi include diversi compiti, come confrontare dati ponderati e non ponderati, condurre un'analisi dei componenti principali per comprendere la struttura del fenoma e fare test ipotetici su larga scala per malattie come il cancro colorettale.
Risultati Chiave
Caratteristiche Demografiche
In AOU, più del 60% dei partecipanti sono donne, con un'età media di 54 anni. Oltre la metà si identifica come non ispanico bianco. Anche in MGI, più della metà sono donne, leggermente più grandi in media, e prevalentemente non ispanico bianco. La UKB ha una proporzione simile di partecipanti femminili con un'età media di 57 anni e una percentuale elevata che si identifica come bianca.
Prevalenza del Phecode
I phecode sono codici che categorizzano le condizioni di salute. Guardando i dati non ponderati, sia AOU che MGI mostrano una maggiore prevalenza di alcune condizioni rispetto a UKB. Dopo aver applicato i pesi di selezione, le stime di prevalenza sono cambiate in entrambe le direzioni, portando a una migliore rappresentazione della popolazione target.
Struttura del Fenome
Utilizzando l'analisi dei componenti principali, lo studio ha stimato la complessità della struttura dei dati. I risultati hanno indicato che il numero di componenti significativi era leggermente inferiore in AOU e MGI rispetto a UKB dopo aver applicato i pesi. Questo suggerisce un'ampia varietà di condizioni di salute nei gruppi basati negli Stati Uniti rispetto a UKB.
Testing su Larga Scala delle Associazioni
L'analisi del cancro colorettale ha mostrato un numero variabile di risultati significativi tra i dataset ponderati e non ponderati. Ad esempio, in AOU, i test non ponderati hanno trovato molte associazioni significative, mentre l'analisi ponderata ha rivelato meno. In MGI, è successo l'opposto, con più risultati identificati una volta applicati i pesi.
Le differenze nei risultati evidenziano l'importanza di utilizzare i pesi di selezione, specialmente quando si cerca di identificare vere associazioni nella ricerca. La raccomandazione generale è che i pesi di selezione dovrebbero essere usati quando si stimano la prevalenza delle malattie e le dimensioni dell'effetto per ridurre gli errori legati al bias.
Raccomandazioni
Sulla base dei risultati, sono state fatte diverse raccomandazioni per i ricercatori che lavorano con biobanche collegate agli EHR:
Usa i Pesi di Selezione: Quando si stima la prevalenza e le dimensioni dell'effetto, i ricercatori dovrebbero applicare i pesi di selezione per allineare meglio i loro risultati con la vera popolazione.
Analisi Stratificata: Nei casi di diversità della popolazione nota (come razza o etnia), si incoraggiano i ricercatori a condurre analisi stratificate per affrontare potenziali bias.
Report Dettagliati: I ricercatori dovrebbero comunicare chiaramente la popolazione target, i metodi di selezione e i bias presenti nei loro dati.
Sforzi Collaborativi: Le organizzazioni di biobanca dovrebbero condividere informazioni sulle strategie di reclutamento e rendere disponibili i pesi di selezione alla comunità di ricerca.
In sintesi, mentre lo studio mostra che i pesi di selezione possono cambiare significativamente i risultati delle analisi, sottolinea anche che il loro uso serve principalmente a ridurre il bias piuttosto che eliminarlo completamente. La ricerca futura dovrebbe continuare a esplorare gli effetti del bias di selezione attraverso diverse biobanche collegate agli EHR e affinare i metodi per migliorare la precisione dei dati.
Titolo: To weight or not to weight? Studying the effect of selection bias in three large EHR-linked biobanks
Estratto: ObjectiveTo explore the role of selection bias adjustment by weighting electronic health record (EHR)-linked biobank data for commonly performed analyses. Materials and methodsWe mapped diagnosis (ICD code) data to standardized phecodes from three EHR-linked biobanks with varying recruitment strategies: All of Us (AOU; n=244,071), Michigan Genomics Initiative (MGI; n=81,243), and UK Biobank (UKB; n=401,167). Using 2019 National Health Interview Survey data, we constructed selection weights for AOU and MGI to be more representative of the US adult population. We used weights previously developed for UKB to represent the UKB-eligible population. We conducted four common descriptive and analytic tasks comparing unweighted and weighted results. ResultsFor AOU and MGI, estimated phecode prevalences decreased after weighting (weighted-unweighted median phecode prevalence ratio [MPR]: 0.82 and 0.61), while UKBs estimates increased (MPR: 1.06). Weighting minimally impacted latent phenome dimensionality estimation. Comparing weighted versus unweighted PheWAS for colorectal cancer, the strongest associations remained unaltered and there was large overlap in significant hits. Weighting affected the estimated log-odds ratio for sex and colorectal cancer to align more closely with national registry-based estimates. DiscussionWeighting had limited impact on dimensionality estimation and large-scale hypothesis testing but impacted prevalence and association estimation more. Results from untargeted association analyses should be followed by weighted analysis when effect size estimation is of interest for specific signals. ConclusionEHR-linked biobanks should report recruitment and selection mechanisms and provide selection weights with defined target populations. Researchers should consider their intended estimands, specify source and target populations, and weight EHR-linked biobank analyses accordingly.
Autori: Bhramar Mukherjee, M. Salvatore, R. Kundu, X. Shi, C. R. Friese, S. Lee, L. G. Fritsche, A. M. Mondul, D. A. Hanauer, C. L. Pearce
Ultimo aggiornamento: 2024-02-13 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.02.12.24302710
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.02.12.24302710.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.