Aprendizado de Máquina para Detectar Casos de COVID-19
Novos métodos melhoram a detecção de COVID-19 usando dados de pesquisa e aprendizado de máquina.
― 10 min ler
Índice
- Abordagens para Detecção de COVID-19
- Pesquisa Global sobre Tendências e Impacto da COVID-19
- Nova Abordagem de Aprendizado de Máquina
- População do Estudo
- Análise de Desempenho
- Comparação com Outras Técnicas
- Estimativas Normalizadas de Casos Diários
- Análise de Explicabilidade
- Considerações Éticas
- Disponibilidade de Dados e Financiamento
- Conclusão
- Fonte original
- Ligações de referência
Durante a pandemia de COVID-19, os sistemas de saúde tiveram que acompanhar como a doença estava se espalhando. Para isso, precisavam de dados confiáveis e rápidos para tomar melhores decisões de saúde. Uma das formas mais comuns de monitorar a disseminação do COVID-19 era através de um teste chamado reação em cadeia da polimerase (teste PCR). Porém, havia desafios com esses testes, como o momento em que o teste era feito em relação a uma infecção, muitas pessoas não apresentando sintomas e a escassez de kits de teste. Por causa desses problemas, várias metodologias que usavam dados de pesquisa foram criadas para coletar mais informações sobre a pandemia. Por exemplo, os sintomas relatados por pessoas que fizeram o teste PCR foram analisados para aprimorar os métodos de teste. Aplicativos de celular também foram usados para que as pessoas pudessem relatar seus sintomas. Várias pesquisas online perguntaram sobre sintomas, comportamentos sociais e práticas de isolamento para identificar casos positivos.
Abordagens para Detecção de COVID-19
Diferentes métodos foram propostos para detectar COVID-19 analisando dados pessoais de pesquisas. Esses métodos podem ser agrupados em três categorias: regras de previsão, Regressão Logística e modelos de aprendizado de máquina.
Regras de Previsão
Os métodos de regras de previsão identificam um caso ativo usando um conjunto específico de sintomas relatados. As regras de previsão mais conhecidas são baseadas nos critérios de doença semelhante à COVID fornecidos pelas autoridades de saúde. Regras de previsão adicionais também foram criadas para avaliações mais precisas.
Regressão Logística
Os métodos de regressão logística criam uma equação simples que ajuda a entender como diferentes características relatadas, como sintomas, gênero e faixa etária, contribuem para identificar casos ativos. Porém, essas técnicas muitas vezes usam um número limitado de características e podem deixar de lado informações úteis de outros dados, levando a uma menor precisão na detecção.
Modelos de Aprendizado de Máquina
Modelos de aprendizado de máquina estão sendo cada vez mais utilizados para melhorar a detecção de COVID-19. Esses modelos podem analisar dados complexos e fazer previsões mais precisas ao considerar uma variedade maior de características pessoais.
Pesquisa Global sobre Tendências e Impacto da COVID-19
Em abril de 2020, a Universidade de Maryland se juntou ao Facebook para lançar uma grande pesquisa de saúde chamada Pesquisa Global sobre Tendências e Impacto da COVID-19. Essa pesquisa tinha como objetivo coletar dados diários de várias pessoas sobre sintomas, resultados de testes PCR, disposição para se vacinar, comportamentos de isolamento e informações pessoais de fundo. As perguntas foram disponibilizadas em 56 idiomas e coletaram respostas de pessoas em 114 países, garantindo uma ampla representação de diferentes grupos sociais e econômicos. Essa pesquisa forneceu informações detalhadas e úteis sobre as tendências da pandemia e indicadores de saúde.
Nova Abordagem de Aprendizado de Máquina
Este artigo apresenta uma abordagem de aprendizado de máquina que usa classificadores supervisionados baseados em árvores e técnicas de seleção de características para detectar casos ativos de COVID-19. Ao contrário dos métodos anteriores, a nova abordagem leva em conta uma ampla gama de características individuais. Para melhorar o modelo e reduzir o risco de imprecisões, um método de seleção de características baseado em valores de Shapley é utilizado para encontrar as características mais relevantes para uma melhor previsão.
Implementação de Classificadores Baseados em Árvores
Seis versões da abordagem foram testadas usando três classificadores baseados em árvores diferentes: random forest (RF), light gradient boosting (LGB) e extreme gradient boosting (XGB). O modelo foi avaliado usando dados da pesquisa UMD-CTIS em quatro países: Brasil, Canadá, Japão e África do Sul, cobrindo os anos de 2020 e 2021. O desempenho do novo método foi avaliado usando várias métricas e seus resultados foram comparados com técnicas existentes.
População do Estudo
A eficácia do método de detecção proposto foi avaliada usando dados de pesquisa do Brasil, Canadá, Japão e África do Sul. Os países foram escolhidos com base em sua diversidade geográfica e na disponibilidade de dados suficientes. O estudo analisou dois períodos: de abril de 2020 a dezembro de 2020 e o ano inteiro de 2021. Ao estudar esses períodos, os pesquisadores puderam ver como as campanhas de vacinação afetaram a importância de diferentes características no modelo.
Para cada país e período de tempo, foram coletadas respostas de indivíduos que relataram ter experimentado pelo menos um sintoma nas últimas 24 horas e que forneceram um resultado de teste nos últimos 14 dias. A nova abordagem considerou todas as características coletadas através da pesquisa UMD-CTIS, em vez de limitar a análise a algumas características selecionadas.
Análise de Desempenho
Diferentes métricas de desempenho foram calculadas para comparar as várias implementações da abordagem entre países e anos. As métricas incluíram F1-score, especificidade, sensibilidade e precisão. Para o Brasil em 2020, o modelo random forest mostrou o melhor desempenho geral em todas as métricas, com os segundos melhores valores vindo do modelo que usou seleção de características baseada em valores de Shapley.
A análise de desempenho também envolveu examinar as curvas características de funcionamento do receptor (ROC) para determinar a eficácia dos modelos de aprendizado de máquina em diferentes países e anos. Por exemplo, em 2020, o modelo random forest apresentou os melhores valores de ROC no Brasil e na África do Sul, indicando um alto nível de precisão na detecção de casos positivos.
Em 2021, o modelo random forest novamente teve um bom desempenho no Brasil, enquanto outros classificadores como o XGB mostraram bons resultados no Canadá e no Japão. Essa consistência entre países e anos destaca a robustez dos métodos propostos.
Comparação com Outras Técnicas
Os métodos de detecção propostos foram comparados a várias técnicas existentes que também utilizavam dados de pesquisa. Os resultados mostraram que os novos métodos de aprendizado de máquina geralmente superaram essas técnicas anteriores em termos de F1-score nos quatro países em ambos os anos. Em particular, a abordagem random forest consistentemente alcançou as maiores pontuações.
Estimativas Normalizadas de Casos Diários
Para avaliar a utilidade prática dos métodos de detecção propostos, as estimativas diárias de casos de COVID-19 foram geradas para os quatro países de janeiro de 2021 a junho de 2022. As curvas de casos diários estimadas, produzidas usando os modelos random forest, light gradient boosting e extreme gradient boosting, foram então normalizadas e comparadas aos relatórios oficiais do sistema de saúde de cada país.
Os resultados mostraram uma forte concordância entre as curvas de casos diários estimadas e os dados oficiais, demonstrando a eficácia dos métodos propostos na estimativa das tendências da pandemia. As curvas normalizadas também foram úteis para projetos voltados a fornecer vigilância global da pandemia.
Análise de Explicabilidade
À medida que as abordagens de aprendizado de máquina se tornam mais comuns na saúde, a necessidade de transparência e interpretabilidade cresce. Neste estudo, dois principais métodos de explicabilidade foram usados: valores de Shapley e uma análise de importância de características baseada em árvores usando o método random forest. Esses métodos ajudam a esclarecer quais características estão influenciando as previsões do modelo.
Valores de Shapley
Para analisar os resultados, o método de valor de Shapley foi utilizado para determinar quanto cada característica contribuiu para as previsões finais. No ano de 2020, as variáveis relacionadas à perda de olfato ou paladar foram consideradas consistentemente significativas. Outros fatores, como se alguém havia passado tempo com uma pessoa positiva para COVID-19, também foram relevantes.
Para o ano de 2021, a análise revelou que o status de vacinação e as características de exposição comunitária se tornaram mais importantes. Essa mudança reflete a natureza em evolução da pandemia e o papel crescente da vacinação no controle da disseminação do vírus.
Importância de Características do Random Forest
Usando o método random forest, várias medidas de importância de características foram exploradas. Os resultados mostraram que as características mais relevantes para identificar casos ativos de COVID-19 estavam novamente relacionadas à perda de olfato ou paladar. Em contraste, à medida que novas variantes do vírus surgiram, características associadas à vacinação e à disseminação comunitária se tornaram mais pronunciadas.
No geral, ambos os métodos de explicação forneceram insights valiosos sobre os fatores que contribuem para a detecção de COVID-19, ajudando os pesquisadores a entender e interpretar as previsões do modelo.
Considerações Éticas
Este estudo seguiu diretrizes éticas e recebeu aprovação do conselho de ética apropriado. O consentimento informado foi obtido de todos os participantes da pesquisa, garantindo que os dados coletados fossem usados de forma responsável e ética, preservando a privacidade dos participantes.
Disponibilidade de Dados e Financiamento
Os dados usados neste estudo estarão disponíveis em um formato agregado para acesso público. No entanto, as respostas individuais da pesquisa não podem ser compartilhadas devido a acordos de uso de dados. O trabalho recebeu financiamento de várias organizações para apoiar a pesquisa.
Conclusão
A abordagem de aprendizado de máquina apresentada neste estudo oferece uma maneira promissora de detectar casos ativos de COVID-19 utilizando uma ampla gama de características pessoais e técnicas avançadas de seleção de características. A eficácia e robustez dos métodos propostos são apoiadas por métricas de desempenho fortes em vários países e pelo escrutínio contra técnicas existentes. A capacidade de explicar e interpretar as previsões do modelo através de valores de Shapley e outros métodos aumenta a utilidade das descobertas para medidas de saúde pública.
A análise contínua continuará a se adaptar às circunstâncias em evolução, proporcionando insights valiosos sobre a pandemia e facilitando um melhor acompanhamento dos indicadores de saúde no futuro. Esta pesquisa exemplifica como métodos avançados de análise de dados podem ser eficazmente aproveitados na luta contra doenças infecciosas.
Título: Feature Selection for an Explainability Analysis in Detection of COVID-19 Active Cases from Facebook User-Based Online Surveys
Resumo: In this paper, we introduce a machine-learning approach to detecting COVID-19-positive cases from self-reported information. Specifically, the proposed method builds a tree-based binary classification model that includes a recursive feature elimination step. Based on Shapley values, the recursive feature elimination method preserves the most relevant features without compromising the detection performance. In contrast to previous approaches that use a limited set of selected features, the machine learning approach constructs a detection engine that considers the full set of features reported by respondents. Various versions of the proposed approach were implemented using three different binary classifiers: random forest (RF), light gradient boosting (LGB), and extreme gradient boosting (XGB). We consistently evaluate the performance of the implemented versions of the proposed detection approach on data extracted from the University of Maryland Global COVID-19 Trends and Impact Survey (UMD-CTIS) for four different countries: Brazil, Canada, Japan, and South Africa, and two periods: 2020 and 2021. We also compare the performance of the proposed approach to those obtained by state-of-the-art methods under various quality metrics: F1-score, sensitivity, specificity, precision, receiver operating characteristic (ROC), and area under ROC curve (AUC). It should be noted that the proposed machine learning approach outperformed state-of-the-art detection techniques in terms of the F1-score metric. In addition, this work shows the normalized daily case curves obtained by the proposed approach for the four countries. It should note that the estimated curves are compared to those reported in official reports. Finally, we perform an explainability analysis, using Shapley and relevance ranking of the classification models, to identify the most significant variables contributing to detecting COVID-19-positive cases. This analysis allowed us to determine the relevance of each feature and the corresponding contribution to the detection task.
Autores: Juan Marcos Ramirez, J. Rufino, J. Aguilar, C. Baquero, J. Champati, D. Frey, R. E. Lillo, A. Fernandez Anta
Última atualização: 2023-06-05 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.05.26.23290608
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.05.26.23290608.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.