Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Metodologia

Melhorando Estimativas de Saúde Pública com Amostragem em Duas Fases

Métodos avançados melhoram a precisão em pesquisas de saúde, especialmente para estimativas de diabetes.

― 7 min ler


Aprimorando a PrecisãoAprimorando a Precisãodas Pesquisas de Saúdediabetes em pesquisas de saúde pública.Novos métodos melhoram a estimativa de
Índice

As pesquisas são uma parte importante da pesquisa, especialmente em saúde pública. Elas ajudam a entender questões de saúde em grandes grupos de pessoas. Um método eficaz usado em pesquisas é chamado de Amostragem em duas fases. Esse processo é econômico e permite que os pesquisadores consigam informações importantes sem ter que perguntar a todo mundo.

Num design de duas fases, os pesquisadores primeiro selecionam um grupo de pessoas para pesquisar usando perguntas simples que são fáceis de responder. Depois, desse primeiro grupo, um grupo menor é escolhido para responder perguntas mais específicas e detalhadas. Esse segundo grupo geralmente fornece dados que são mais difíceis de obter, como testes médicos ou entrevistas.

No entanto, um problema comum com esse método é que os resultados podem ser instáveis. Isso acontece porque os pesos usados para tornar os resultados da pesquisa representativos da população maior podem variar demais. Quando os pesos estão errados, leva a Estimativas não confiáveis de coisas como a prevalência de doenças.

Para superar esses problemas, os pesquisadores podem usar métodos estatísticos avançados. Uma abordagem promissora é usar aprendizado de máquina combinado com uma técnica chamada estatística Bayesiana. Esses métodos podem usar informações coletadas na primeira fase da pesquisa para melhorar a precisão das estimativas da segunda fase.

Design de Amostragem em Duas Fases

A amostragem em duas fases é uma maneira inteligente de coletar dados quando obter informações completas de cada pessoa em uma pesquisa seria muito difícil ou caro. Na primeira fase, uma amostra é retirada de uma população, e informações básicas ou baratas são coletadas. Na segunda fase, os pesquisadores selecionam um subconjunto da primeira amostra para coletar dados mais detalhados.

Por exemplo, considere um estudo sobre saúde mental que usa uma grande pesquisa para descobrir sobre o uso de drogas e álcool nos Estados Unidos. Para obter dados específicos de saúde mental, os pesquisadores entrevistariam apenas um grupo menor de pessoas da amostra maior da pesquisa. Assim, eles evitam o custo e a complexidade de entrevistar todo mundo.

Importância da Estimativa Precisa

Quando os pesquisadores analisam os dados da segunda fase, eles devem garantir que suas estimativas reflitam a verdadeira situação em toda a população. Se o grupo menor selecionado não representar bem o grupo maior, os resultados podem ser enganosos. É aí que entra a ponderação. Pesos são usados para ajustar quaisquer diferenças entre a primeira amostra e a população.

No entanto, existem limitações. Quando os pesos são altamente variáveis ou mal definidos, os resultados se tornam menos confiáveis. Um método alternativo é usar Imputação. Isso envolve preencher dados ausentes usando informações da primeira fase da pesquisa. Quando feito corretamente, a imputação pode produzir melhores estimativas.

Árvores de Regressão Aditiva Bayesiana (BART)

BART é um método que está se tornando popular para lidar com dados complexos de pesquisa. É flexível e pode lidar com várias variáveis ao mesmo tempo, sem que o pesquisador precise escolher quais variáveis incluir. Isso é especialmente útil em designs de duas fases, onde muitos fatores diferentes podem influenciar o resultado medido.

BART pode modelar relações que não são diretas, facilitando a compreensão de como diferentes fatores interagem. Esse método tem mostrado melhores resultados em comparação com métodos tradicionais em várias situações, incluindo estudos de saúde e casos de dados ausentes.

Imputação Múltipla (MI)

A imputação múltipla é uma técnica poderosa usada para lidar com informações ausentes. Em vez de estimar um único valor para os dados ausentes, a imputação múltipla cria vários valores possíveis e analisa os dados várias vezes. Isso ajuda a dar uma visão melhor da incerteza nas estimativas.

Ao usar a imputação múltipla com BART, a análise se beneficia dos dados ricos coletados na primeira fase. Esse método pode preencher efetivamente os valores ausentes, considerando as relações complexas entre as variáveis.

Aplicação à Estimativa de Diabetes

O diabetes é uma preocupação significativa de saúde pública. Estimativas precisas da prevalência do diabetes ajudam na tomada de decisões políticas informadas sobre prevenção e tratamento. A Pesquisa Nacional de Saúde e Nutrição (NHANES) é um estudo que fornece dados relevantes.

Na NHANES, a amostragem em duas fases é usada para coletar dados de saúde. A primeira fase envolve coletar informações básicas de saúde dos participantes. Os indivíduos que participam das sessões matinais fazem testes de glicose no sangue em jejum na segunda fase. Esse teste específico é crucial para diagnosticar diabetes, mas é dado apenas a um subconjunto de pessoas.

O desafio aqui é estimar a prevalência do diabetes com precisão. Os pesquisadores devem usar as informações da primeira fase para apoiar as estimativas da segunda fase. Usar métodos como BART para imputação pode aumentar significativamente a precisão dessas estimativas.

Estudos de Simulação

Os pesquisadores frequentemente realizam estudos de simulação para testar quão bem diferentes métodos funcionam. Nesse caso, eles comparam métodos tradicionais de ponderação com métodos de BART e imputação múltipla. Simulando dados, eles avaliam como cada método estima médias populacionais e medem sua precisão.

Esses estudos revelam que os métodos baseados em BART tendem a produzir resultados melhores que os métodos tradicionais de ponderação. Eles produzem menor viés e intervalos de confiança mais estreitos, tornando as estimativas mais confiáveis. Essa precisão é crucial, especialmente em pesquisas de saúde pública, onde decisões baseadas em dados podem impactar muitas vidas.

Resultados da NHANES 2017-2018

Usando dados da NHANES 2017-2018, os pesquisadores analisaram a prevalência de diabetes entre adultos não institucionalizados nos Estados Unidos. Os resultados mostraram que os métodos BART e de imputação forneceram estimativas ligeiramente mais altas que as que usaram métodos tradicionais.

Por exemplo, as estimativas dos métodos BART indicaram que aproximadamente 14,3% dos adultos tinham diabetes, enquanto os métodos tradicionais sugeriram uma prevalência mais baixa, de cerca de 13,7%. Os métodos BART e de imputação também geraram intervalos de confiança mais estreitos, indicando mais precisão nas estimativas.

Conclusão

A amostragem em duas fases é uma estratégia valiosa em pesquisas de survey, especialmente em saúde pública. Embora os métodos tradicionais de ponderação sejam comumente usados, eles enfrentam desafios como viés e ineficiência. Técnicas estatísticas avançadas, como BART e imputação múltipla, oferecem uma maneira melhor de lidar com esses problemas e melhorar a precisão das estimativas.

Ao utilizar os dados ricos da primeira fase das pesquisas, os pesquisadores podem produzir estimativas mais confiáveis de condições de saúde, como o diabetes. Como demonstrado com os dados da NHANES, esses métodos avançados mostram promessas em fornecer insights mais claros sobre preocupações de saúde pública. À medida que a pesquisa continua a evoluir, a incorporação de técnicas de aprendizado de máquina na análise de surveys provavelmente levará a melhores resultados tanto para os pesquisadores quanto para as populações que eles atendem.

Fonte original

Título: Improving Survey Inference in Two-phase Designs Using Bayesian Machine Learning

Resumo: The two-phase sampling design is a cost-effective sampling strategy that has been widely used in public health research. The conventional approach in this design is to create subsample specific weights that adjust for probability of selection and response in the second phase. However, these weights can be highly variable which in turn results in unstable weighted analyses. Alternatively, we can use the rich data collected in the first phase of the study to improve the survey inference of the second phase sample. In this paper, we use a Bayesian tree-based multiple imputation (MI) approach for estimating population means using a two-phase survey design. We demonstrate how to incorporate complex survey design features, such as strata, clusters, and weights, into the imputation procedure. We use a simulation study to evaluate the performance of the tree-based MI approach in comparison to the alternative weighted analyses using the subsample weights. We find the tree-based MI method outperforms weighting methods with smaller bias, reduced root mean squared error, and narrower 95\% confidence intervals that have closer to the nominal level coverage rate. We illustrate the application of the proposed method by estimating the prevalence of diabetes among the United States non-institutionalized adult population using the fasting blood glucose data collected only on a subsample of participants in the 2017-2018 National Health and Nutrition Examination Survey.

Autores: Xinru Wang, Lauren Kennedy, Qixuan Chen

Última atualização: 2023-06-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.04119

Fonte PDF: https://arxiv.org/pdf/2306.04119

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes