Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Epidemiologia

Avaliando o viés de seleção em biobancos ligados a EHR

Este estudo analisa como os pesos de seleção afetam os resultados da pesquisa em vários conjuntos de dados de biobanco.

― 7 min ler


Viés de Seleção emViés de Seleção emPesquisas de Biobancoinfluenciam os resultados da pesquisa.Estudo mostra como os pesos de seleção
Índice

Prontuários eletrônicos de saúde (EHRs) são versões digitais das histórias médicas dos pacientes, e Biobancos são coleções de amostras biológicas e dados relacionados. Biobancos ligados a EHR conectam essas duas coisas, permitindo que pesquisadores estudem informações de saúde junto com amostras biológicas. Essas coleções costumam incluir dados de várias fontes, como prontuários médicos, registros de farmácias e características de bairros.

Mais pesquisadores estão utilizando dados de EHR porque são grandes, imediatos e fáceis de acessar. Na última década, o número de estudos publicados usando dados de EHR aumentou significativamente. Muitas organizações, como a Iniciativa de Meta-análise de Biobancos Globais, estão se juntando para compartilhar suas descobertas e colaborar globalmente.

À medida que os pesquisadores reúnem mais dados, duas perguntas importantes surgem: Quem está incluído no estudo e qual população eles estão tentando entender? Se um biobanco não incluir um grupo representativo da população, isso pode levar a um Viés de Seleção. Isso significa que as conclusões tiradas dos dados podem ser enganosas. Lidar com o viés de seleção pode ser complexo porque é difícil determinar como ele afeta os resultados. Aumentar o tamanho da amostra sozinho não resolve esse problema.

Tem três maneiras comuns de lidar com viés de seleção: estratificação, análise de viés quantitativo e ponderação por probabilidade inversa (IP-weighting). A ponderação IP ajusta a análise com base na probabilidade de que indivíduos foram incluídos na amostra em comparação com a população-alvo. Esse ajuste depende de ter dados precisos da população-alvo e de identificar corretamente os fatores que influenciam a seleção.

Já foi feito trabalho para aplicar esse método a grupos de biobanco ligados a EHR. Alguns pesquisadores propuseram estruturas para lidar melhor com o viés de seleção usando procedimentos de ponderação e mostraram como usar dados de outras fontes para estimar esses pesos.

Esse artigo analisa três biobancos ligados a EHR que usam diferentes métodos de recrutamento: o Programa de Pesquisa All of Us (AOU), a Iniciativa de Genômica de Michigan (MGI) e o Biobanco do Reino Unido (UKB). O objetivo é entender como o uso de pesos de seleção afeta análises comuns em dados de EHR. O estudo envolve várias etapas, incluindo estimar pesos de seleção, analisar dados demográficos e testar a influência dos pesos nos resultados da pesquisa.

Descrição de Cada Biobanco

AOU: All of Us

Lançado em 2018, o programa AOU tem como objetivo inscrever mais de um milhão de adultos usando uma mistura de convites abertos e recrutamento através de provedores de saúde. O programa foca em incluir indivíduos de comunidades que historicamente foram sub-representadas na pesquisa médica. Fatores como idade, sexo, raça, renda e nível educacional são considerados no recrutamento. Até o início de 2024, o AOU tem mais de 760.000 participantes.

MGI: Iniciativa de Genômica de Michigan

A MGI começou em 2012, recrutando adultos principalmente por meio de consultas médicas que exigem anestesia. Também expandiu para incluir vários subgrupos relacionados a metabolismo, saúde mental e mais. Fatores como idade, sexo e certas condições de saúde são usados no processo de recrutamento. Atualmente, a MGI tem cerca de 100.000 participantes que consentiram.

UKB: Biobanco do Reino Unido

O Biobanco do Reino Unido recrutou mais de 500.000 adultos enviando milhões de convites para lares próximos aos centros de avaliação. Esse grupo enfrentou desafios como viés de voluntários saudáveis, levando a esforços para tornar a amostra mais representativa da população-alvo. O UKB agora tem cerca de 401.000 participantes.

Método de Análise

O estudo usa dados de EHR do AOU e MGI, juntamente com dados previamente validados do UKB. O objetivo é ver como os pesos de seleção impactam cálculos simples, como estimar a prevalência de doenças, e análise complexa, como estudos de associação genética.

Os pesos de seleção são calculados com base em dados da Pesquisa Nacional de Entrevistas de Saúde (NHIS), uma amostra representativa de adultos nos EUA. A análise inclui várias tarefas, como comparar dados ponderados e não ponderados, realizar análise de componentes principais para entender a estrutura do fenoma e realizar testes de hipótese em larga escala para doenças como câncer colorretal.

Principais Descobertas

Características Demográficas

No AOU, mais de 60% dos participantes são mulheres, com uma idade média de 54 anos. Mais da metade se identifica como não hispânico branco. Na MGI, também mais da metade são mulheres, ligeiramente mais velhas em média, e predominantemente não hispânicas brancas. O UKB tem uma proporção semelhante de participantes mulheres, com idade média de 57 anos e uma alta porcentagem se identificando como brancos.

Prevalência de Phecode

Phecodes são códigos que categorizam condições de saúde. Ao olhar para os dados não ponderados, tanto o AOU quanto a MGI mostram maior prevalência de certas condições em comparação ao UKB. Depois de aplicar os pesos de seleção, as estimativas de prevalência mudaram em ambas as direções, levando a uma melhor representação da população-alvo.

Estrutura do Fenoma

Usando a análise de componentes principais, o estudo estimou a complexidade da estrutura dos dados. Os resultados indicaram que o número de componentes significativos era ligeiramente menor no AOU e MGI do que no UKB após a aplicação dos pesos. Isso sugere uma gama mais ampla de condições de saúde nas coortes baseadas nos EUA em comparação ao UKB.

Testes em Larga Escala de Associações

A análise do câncer colorretal mostrou um número variável de resultados significativos entre conjuntos de dados ponderados e não ponderados. Por exemplo, no AOU, os testes não ponderados encontraram muitas associações significativas, enquanto a análise ponderada revelou menos. Na MGI, ocorreu o oposto, com mais acertos identificados assim que os pesos foram aplicados.

As diferenças nas descobertas destacam a importância de usar pesos de seleção, especialmente ao tentar identificar verdadeiras associações na pesquisa. A recomendação geral é que os pesos de seleção devem ser usados ao estimar prevalência de doenças e tamanhos de efeito para reduzir erros ligados ao viés.

Recomendações

Com base nas descobertas, várias recomendações foram feitas para pesquisadores que trabalham com biobancos ligados a EHR:

  1. Use Pesos de Seleção: Ao estimar prevalência e tamanhos de efeito, os pesquisadores devem aplicar pesos de seleção para alinhar melhor suas descobertas à verdadeira população.

  2. Análise Estratificada: Em casos de diversidade populacional conhecida (como raça ou etnia), os pesquisadores são incentivados a realizar análises estratificadas para lidar com potenciais viés.

  3. Relato Detalhado: Os pesquisadores devem comunicar claramente a população-alvo, métodos de seleção e viés presentes em seus dados.

  4. Esforços Colaborativos: As organizações de biobanco devem compartilhar informações sobre estratégias de recrutamento e tornar os pesos de seleção disponíveis para a comunidade de pesquisa.

Em resumo, enquanto o estudo mostra que os pesos de seleção podem mudar significativamente os resultados das análises, também enfatiza que seu uso é principalmente sobre reduzir viés em vez de eliminá-lo completamente. Pesquisas futuras devem continuar explorando os efeitos do viés de seleção em diferentes biobancos ligados a EHR e refinando métodos para melhorar a precisão dos dados.

Fonte original

Título: To weight or not to weight? Studying the effect of selection bias in three large EHR-linked biobanks

Resumo: ObjectiveTo explore the role of selection bias adjustment by weighting electronic health record (EHR)-linked biobank data for commonly performed analyses. Materials and methodsWe mapped diagnosis (ICD code) data to standardized phecodes from three EHR-linked biobanks with varying recruitment strategies: All of Us (AOU; n=244,071), Michigan Genomics Initiative (MGI; n=81,243), and UK Biobank (UKB; n=401,167). Using 2019 National Health Interview Survey data, we constructed selection weights for AOU and MGI to be more representative of the US adult population. We used weights previously developed for UKB to represent the UKB-eligible population. We conducted four common descriptive and analytic tasks comparing unweighted and weighted results. ResultsFor AOU and MGI, estimated phecode prevalences decreased after weighting (weighted-unweighted median phecode prevalence ratio [MPR]: 0.82 and 0.61), while UKBs estimates increased (MPR: 1.06). Weighting minimally impacted latent phenome dimensionality estimation. Comparing weighted versus unweighted PheWAS for colorectal cancer, the strongest associations remained unaltered and there was large overlap in significant hits. Weighting affected the estimated log-odds ratio for sex and colorectal cancer to align more closely with national registry-based estimates. DiscussionWeighting had limited impact on dimensionality estimation and large-scale hypothesis testing but impacted prevalence and association estimation more. Results from untargeted association analyses should be followed by weighted analysis when effect size estimation is of interest for specific signals. ConclusionEHR-linked biobanks should report recruitment and selection mechanisms and provide selection weights with defined target populations. Researchers should consider their intended estimands, specify source and target populations, and weight EHR-linked biobank analyses accordingly.

Autores: Bhramar Mukherjee, M. Salvatore, R. Kundu, X. Shi, C. R. Friese, S. Lee, L. G. Fritsche, A. M. Mondul, D. A. Hanauer, C. L. Pearce

Última atualização: 2024-02-13 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2024.02.12.24302710

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.02.12.24302710.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes