Simple Science

Ciência de ponta explicada de forma simples

# Estatística # Aplicações # Aprendizagem de máquinas # Aprendizagem automática

Prevendo Não Respostas no Estudo ELSA COVID-19

Usando aprendizado de máquina pra analisar as não-respostas em pesquisas com idosos durante a pandemia.

Marjan Qazvini

― 6 min ler


Previsões de Não Resposta Previsões de Não Resposta do Estudo ELSA usando métodos de dados avançados. Analisando as desistências da pesquisa
Índice

Todo ano, as organizações gastam um tempão e uma grana pra coletar informações através de pesquisas. Às vezes, a galera não participa das pesquisas de acompanhamento. Por quê? Pode ser que tenham se mudado, tenham problemas de saúde ou até não estejam mais por aqui. Neste artigo, a gente foca em um estudo específico chamado Estudo Longitudinal Inglês sobre Envelhecimento – Subestudo COVID-19. Esse estudo coletou informações durante a pandemia, mas alguns participantes da primeira rodada não apareceram na segunda. Qual o nosso objetivo? Descobrir quem pode não responder com base em várias paradas usando técnicas de aprendizado de máquina.

Entendendo o Estudo

O Subestudo ELSA COVID-19 foi realizado em duas rodadas durante a pandemia. A primeira rolou de junho a julho de 2020, e a segunda foi de novembro a dezembro do mesmo ano. Desde então, vários pesquisadores já exploraram os dados coletados. A gente quer prever quem pode sumir na onda dois usando métodos de aprendizado de máquina como K-vizinhos mais próximos, floresta aleatória, Regressão Logística, e por aí vai.

Por Que Isso Importa

Quando as organizações conseguem identificar quem pode não responder às pesquisas, elas podem economizar recursos. Por exemplo, no Reino Unido, o Escritório de Estatísticas Nacionais usa regressão logística pra tentar prever a probabilidade das pessoas responderem. Em 2012, uma iniciativa dos EUA até fez uma competição pra desenvolver um modelo preditivo para não-respostas, mostrando como é importante usar métodos avançados.

Investigando Não-Respostas

Nosso foco é na segunda onda do estudo ELSA. Muita pesquisa já foi feita com os dados, mas estudos que exploram especificamente as não-respostas são raros. A gente quer mudar isso. Diferente das rodadas anteriores do ELSA, não teve um estudo que trouxesse evidências sobre a falta de participação. Então, nosso objetivo é identificar os fatores que determinaram quem não respondeu na onda dois.

Qual É o Conjunto de Dados?

O estudo ELSA é uma pesquisa autorrelatada que acontece a cada dois anos. Ele representa indivíduos com 50 anos ou mais. A amostra original foi retirada de domicílios que participaram de pesquisas de saúde anteriores. Com nove ondas já completadas, um novo estudo foi criado durante a COVID-19 pra examinar seu impacto nos adultos mais velhos em relação à saúde, demografia e emprego.

Para nossa análise, consideramos os membros principais – aqueles que atendem aos requisitos de idade e participaram das pesquisas anteriores. No entanto, teve uma queda significativa nas respostas da onda um pra onda dois.

Analisando Respostas

A maior parte dos nossos participantes vem da primeira coorte. Curiosamente, muitos preferiram ser entrevistados online do que por telefone. Também percebemos algo importante – o lugar onde as pessoas estavam morando durante a pandemia afetou suas respostas. A maioria ficou nas suas residências habituais, enquanto alguns estavam em lares de idosos. Fatores como problemas de saúde, mudanças no emprego e demografia tiveram papéis significativos em determinar quem respondeu.

Modelos de Aprendizado de Máquina Usados

Pra resolver nosso problema, usamos vários modelos de aprendizado de máquina.

K-Vizinhos Mais Próximos (KNN)

Esse modelo olha os pontos de dados mais próximos pra prever resultados. É como perguntar pros seus vizinhos o que eles acham de um filme antes de você assistir. Se seus amigos mais chegados adoraram, você pode dar uma chance também!

Árvores de Decisão

Imagine desenhar um fluxograma. Em cada ponto, você decide qual caminho seguir com base no que você sabe. Essas árvores ajudam a classificar dados e são fáceis de entender.

Floresta Aleatória

Pensa nisso como uma floresta inteira de árvores de decisão. Cada árvore vota no resultado, e a maioria ganha. É como perguntar pra um grupo de amigos onde ir jantar e ir no lugar mais popular.

Regressão Logística

Esse é um método estatístico pra prever as chances de um resultado acontecer. É especialmente útil pra resultados binários, como se alguém vai responder ou não.

Redes Neurais

Essas são inspiradas no cérebro humano e consistem em unidades ou neurônios interligados. Elas funcionam bem com dados complexos, mas podem ser um pouco mais difíceis de interpretar comparadas às árvores.

Classificadores de Vetores de Suporte (SVC)

SVC ajuda a encontrar a melhor linha que separa diferentes classes nos nossos dados. Pense nisso como um segurança de clube, garantindo que só certas pessoas entrem.

Métodos de Conjunto

Esses métodos combinam vários modelos pra melhorar o desempenho. É como reunir uma equipe com diferentes talentos pra alcançar um resultado melhor.

Avaliando os Modelos

Depois de treinar nossos modelos, precisamos avaliar o quão bem eles performaram. A gente foca na precisão e em outras métricas como precisão e recall. Precisão é importante, mas não é a única coisa. Às vezes, encontrar os verdadeiros positivos (quem não respondeu) é muito mais importante que a precisão geral, especialmente em conjuntos de dados desbalanceados.

Resultados e Observações

Enquanto analisamos os dados, descobrimos que o modelo de floresta aleatória foi o que funcionou melhor no geral, enquanto KNN foi excelente em prever verdadeiros positivos. No entanto, SVC e redes neurais tiveram um pouco mais de dificuldade.

Os modelos identificaram vários fatores significativos que influenciaram as respostas. Curiosamente, o modo de entrevista se destacou como um fator crucial. Mais pessoas entrevistadas online não participaram na onda dois em comparação com aquelas que foram entrevistadas por telefone.

Saúde e Outras Influências

Questões de saúde também apareceram como um fator chave. Parece que as áreas mais afetadas pela COVID-19 viram uma maior não-resposta. Os níveis de atividade física das pessoas durante a pandemia também tiveram um papel – aqueles que estavam menos ativos pareciam mais propensos a desistir.

O Que Tudo Isso Significa

Prever quem pode não responder às pesquisas é vital para as organizações. Ao entender os fatores que levam às não-respostas, elas podem se planejar melhor pra futuras pesquisas. As descobertas aqui não são só úteis pro estudo ELSA, mas também podem ser aplicadas a várias pesquisas e estudos.

Conclusão

Nesta análise do conjunto de dados ELSA COVID-19, mergulhamos na previsão de não-respostas e destacamos fatores importantes que influenciaram as decisões dos participantes. Enquanto floresta aleatória e KNN se destacaram, a regressão logística mostrou capacidades de generalização notáveis.

Ao identificar esses fatores, fica claro que as organizações podem tomar decisões informadas e economizar tempo e recursos para futuras pesquisas!

Vamos torcer pra que nossas previsões ajudem a melhorar as taxas de resposta na próxima vez – porque, afinal, quem não gostaria de fazer parte de um estudo que dá voz a eles?

Fonte original

Título: Analysis of ELSA COVID-19 Substudy response rate using machine learning algorithms

Resumo: National Statistical Organisations every year spend time and money to collect information through surveys. Some of these surveys include follow-up studies, and usually, some participants due to factors such as death, immigration, change of employment, health, etc, do not participate in future surveys. In this study, we focus on the English Longitudinal Study of Ageing (ELSA) COVID-19 Substudy, which was carried out during the COVID-19 pandemic in two waves. In this substudy, some participants from wave 1 did not participate in wave 2. Our purpose is to predict non-responses using Machine Learning (ML) algorithms such as K-nearest neighbours (KNN), random forest (RF), AdaBoost, logistic regression, neural networks (NN), and support vector classifier (SVC). We find that RF outperforms other models in terms of balanced accuracy, KNN in terms of precision and test accuracy, and logistics regressions in terms of the area under the receiver operating characteristic curve (ROC), i.e. AUC.

Autores: Marjan Qazvini

Última atualização: 2024-10-31 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.00297

Fonte PDF: https://arxiv.org/pdf/2411.00297

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais do autor

Artigos semelhantes