Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Aprendizagem automática# Aprendizagem de máquinas# Aplicações

Calibração Eficiente de Modelos Baseados em Agentes em Epidemiologia

Este artigo discute um novo método para calibrar modelos baseados em agentes usando florestas aleatórias.

― 10 min ler


Calibrando ABMs para aCalibrando ABMs para aDisseminação de Doençascalibração de modelos de doenças.Novos métodos melhoram a eficiência na
Índice

Modelos baseados em agentes (ABMs) são ferramentas poderosas utilizadas para simular sistemas complexos em várias áreas, incluindo fluxo de tráfego, ecologia, economia e epidemiologia. Esses modelos tratam sistemas como uma coleção de agentes individuais que tomam decisões e interagem entre si e com seu ambiente. Essa abordagem permite que os pesquisadores capturem comportamentos e efeitos detalhados que outros métodos de modelagem podem perder.

No entanto, os ABMs enfrentam um desafio significativo: muitas vezes exigem uma Calibração cuidadosa de muitos parâmetros para refletir com precisão cenários do mundo real. Esse processo de calibração torna-se ainda mais difícil quando se considera a aleatoriedade inerente nos comportamentos e interações dos agentes.

Necessidade de Calibração em Epidemiologia

No contexto da epidemiologia, os ABMs podem ajudar a simular a propagação de doenças e avaliar o impacto de intervenções de saúde pública. Por exemplo, durante um surto, compreender como os indivíduos interagem pode informar decisões sobre restrições e vacinas. No entanto, devido à complexidade do comportamento humano e à aleatoriedade que influencia a transmissão de doenças, calibrar o modelo é crucial para alcançar previsões confiáveis.

O desafio está no fato de que os ABMs muitas vezes contêm numerosos parâmetros, tornando caro em termos computacionais ajustá-los. Cada simulação pode consumir uma quantidade significativa de recursos computacionais, especialmente quando muitas variações precisam ser testadas.

O Papel das Florestas Aleatórias

Florestas aleatórias são uma técnica de aprendizado de máquina que pode ajudar a melhorar o processo de calibração. Elas funcionam criando um modelo composto por muitas árvores de decisão e agregando suas saídas. Este método pode capturar efetivamente relações complexas entre entradas (como parâmetros) e saídas (como taxas de hospitalização). Ao usar florestas aleatórias, os pesquisadores podem reduzir a carga computacional associada à execução repetida de ABMs.

Nesse contexto, os pesquisadores desenvolveram um método que combina as forças das florestas aleatórias com uma técnica de amostragem conhecida como Cadeia de Markov Monte Carlo (MCMC). Essa abordagem combinada permite uma calibração mais eficiente dos ABMs, particularmente na compreensão da propagação de doenças.

Entendendo o CityCOVID

CityCOVID é um exemplo de um ABM projetado para simular os efeitos da COVID-19 na área de Chicago. Este modelo leva em consideração uma população de cerca de 2,7 milhões de indivíduos, refletindo várias demografias e locais, como casas, escolas e hospitais. Cada agente individual no modelo pode transitar por diferentes estados de saúde, como suscetível, infectado ou recuperado.

Para alcançar previsões precisas, o CityCOVID precisa ser calibrado com dados reais, como números diários de hospitalizações e estatísticas de morte. A calibração tem como objetivo alinhar as saídas do modelo com os dados observados, o que pode ser complicado pela aleatoriedade inerente ao modelo.

Desafios na Calibração

A calibração de ABMs como o CityCOVID envolve um espaço de parâmetros de alta dimensão. Isso significa que há muitos parâmetros a serem ajustados, e fazê-lo requer extensos recursos computacionais. Métodos tradicionais enfrentaram problemas com estocasticidade - o que significa que a aleatoriedade do ABM pode levar a resultados diferentes para o mesmo conjunto de parâmetros.

As técnicas padrão de calibração incluem métodos como Computação Bayesiana Aproximada (ABC) e MCMC. No entanto, esses métodos podem ser lentos e podem não lidar efetivamente com a aleatoriedade nos ABMs. Portanto, há necessidade de novas abordagens que possam gerenciar esses desafios de maneira mais eficaz e oferecer resultados mais rápidos.

Uma Nova Abordagem para Calibração

Para abordar os problemas associados aos métodos tradicionais de calibração, a nova abordagem propõe usar florestas aleatórias como um modelo substituto. Este método constrói uma representação simplificada do ABM que pode ser avaliada rapidamente.

O processo envolve algumas etapas-chave:

  1. Coleta de Dados: Os pesquisadores coletam dados históricos sobre hospitalizações e mortes por COVID-19 em Chicago.
  2. Seleção de Parâmetros: Identificar os parâmetros mais influentes que afetam os resultados do modelo usando técnicas como análise de sensibilidade.
  3. Treinamento do Modelo: Treinar um modelo de floresta aleatória para prever resultados com base nos parâmetros selecionados, criando efetivamente um substituto para o ABM.
  4. Calibração via MCMC: Usar a floresta aleatória para amostrar a partir da distribuição posterior dos parâmetros, permitindo uma calibração eficiente do ABM.
  5. Validação: Verificar a precisão do modelo substituto usando várias métricas para garantir que ele funcione bem em comparação com o ABM completo.

Coleta de Dados

Para o processo de calibração, é crucial reunir dados precisos e relevantes. No caso do CityCOVID, os pesquisadores utilizaram dados do Sistema Nacional de Vigilância de Doenças Eletrônicas de Illinois, que forneceu contagens diárias de casos hospitalizados e mortes causadas pela COVID-19 durante os primeiros meses da pandemia.

Esses dados servem como a base para a calibração, permitindo que o modelo seja ajustado para refletir a realidade. Na ausência de contagens de casos confiáveis no início da pandemia, os dados de hospitalização e morte foram priorizados para a calibração.

Treinamento do Modelo Substituto

Uma vez que os dados são coletados, o próximo passo é treinar o modelo substituto de floresta aleatória. Este modelo precisa de uma amostra representativa de dados de saída gerados pelo ABM CityCOVID em uma faixa de parâmetros.

Para alcançar isso, um esforço de calibração anterior (conhecido como Cadeia de Markov Monte Carlo Iterativa, ou IMABC) forneceu um conjunto de dados a partir do qual os pesquisadores puderam identificar parâmetros chave que influenciam significativamente as taxas de hospitalização e morte. Esses parâmetros foram então utilizados para criar um conjunto de treinamento para a floresta aleatória.

Nesta etapa, os pesquisadores também empregaram uma técnica chamada Análise de Componentes Principais (PCA). Este método ajuda a reduzir a complexidade dos dados, identificando as características mais importantes enquanto descarta as menos significativas. Ao se concentrar em menos dimensões, a floresta aleatória pode operar de forma mais eficiente.

Desempenho do Modelo Substituto

Após o treinamento, o desempenho do modelo substituto de floresta aleatória precisa ser avaliado. Isso envolve comparar a saída do modelo com dados reais observados. O objetivo é garantir que o substituto possa replicar com precisão os comportamentos essenciais do ABM CityCOVID.

Métricas como erro absoluto médio e erro relativo são usadas para avaliar o desempenho. Uma descoberta chave geralmente é que o modelo substituto apresenta um bom desempenho geral, mas pode exibir taxas de erro mais altas ao lidar com números pequenos de hospitalizações e mortes, onde a variabilidade é maior.

Calibração via MCMC

Uma vez que o modelo substituto é validado, ele pode ser utilizado no processo MCMC para calibração. O objetivo é encontrar os valores dos parâmetros que melhor alinhem as previsões do modelo com os dados observados.

Usar o substituto em vez do modelo completo permite uma amostragem mais rápida e evita a carga computacional excessiva que viria do uso direto do CityCOVID. Durante o processo MCMC, o algoritmo gera amostras do espaço de parâmetros, construindo uma imagem de quais são os valores de parâmetros prováveis, dados os dados observados.

Resultados da Calibração

Os resultados da calibração baseada no substituto MCMC são então analisados. Uma das saídas primárias é um conjunto de distribuições posteriores para os parâmetros, que fornecem insights sobre os valores prováveis dos parâmetros após a calibração.

Essas distribuições posteriores são úteis para entender quais parâmetros são mais críticos para as previsões do modelo. Por exemplo, parâmetros relacionados a taxas de exposição e comportamentos de resposta frequentemente mostram fortes correlações nos resultados, uma vez que mudanças em um aspecto podem exigir ajustes em outro.

Comparação com Métodos Anteriores

Após completar a calibração, os pesquisadores comparam rotineiramente os resultados com aqueles de métodos anteriores, como a abordagem IMABC. Isso lhes permite ver como a nova técnica baseada em substituto se compara em termos de precisão e eficiência computacional.

Frequentemente, a abordagem baseada em substituto produz resultados que se aproximam muito dos produzidos pelos métodos mais tradicionais, enquanto reduz significativamente o tempo e os recursos necessários para a calibração.

Avaliando a Precisão do Modelo

Para avaliar a precisão geral do modelo, os pesquisadores usam várias métricas de pontuação. O Continuous Ranked Probability Score (CRPS) é uma métrica comum que ajuda a avaliar quão bem o modelo captura incerteza e variabilidade nos dados. Idealmente, o modelo deve produzir uma distribuição de saídas que corresponda de perto aos dados observados.

Além disso, Histogramas de Classificação de Verificação (VRHs) são empregados para analisar ainda mais as previsões do modelo em comparação com os resultados reais. Idealmente, esses histogramas devem ser distribuídos uniformemente, indicando que há um equilíbrio entre super e subprevisões.

Abordando Limitações

Embora a nova abordagem de calibração mostre promessas, não está isenta de limitações. Pode haver ainda casos de super ou subprevisão de certos resultados, especialmente em relação às contagens de mortes. Isso indica possíveis imprecisões dentro do modelo que precisam ser abordadas.

Em esforços futuros, os pesquisadores planejam integrar métodos mais sofisticados para lidar com a aleatoriedade inerente aos ABMs. Isso pode envolver o refinamento do modelo substituto para considerar melhor as incertezas e aproveitar técnicas estatísticas adicionais para aprimorar as previsões gerais.

Conclusão

Em resumo, a combinação de modelos baseados em agentes com técnicas de aprendizado de máquina, como florestas aleatórias, oferece uma nova e eficiente maneira de calibrar modelos complexos em epidemiologia. Ao usar uma floresta aleatória como substituto, os pesquisadores podem alcançar calibrações rápidas e confiáveis, facilitando a simulação e previsão da propagação de doenças como a COVID-19.

À medida que avançamos, refinar esses métodos e abordar as limitações será crucial para melhorar as respostas de saúde pública a surtos futuros. A integração de dados abrangentes e abordagens de modelagem avançadas detém a chave para uma melhor compreensão e gerenciamento de desafios epidemiológicos complexos.

Fonte original

Título: Bayesian calibration of stochastic agent based model via random forest

Resumo: Agent-based models (ABM) provide an excellent framework for modeling outbreaks and interventions in epidemiology by explicitly accounting for diverse individual interactions and environments. However, these models are usually stochastic and highly parametrized, requiring precise calibration for predictive performance. When considering realistic numbers of agents and properly accounting for stochasticity, this high dimensional calibration can be computationally prohibitive. This paper presents a random forest based surrogate modeling technique to accelerate the evaluation of ABMs and demonstrates its use to calibrate an epidemiological ABM named CityCOVID via Markov chain Monte Carlo (MCMC). The technique is first outlined in the context of CityCOVID's quantities of interest, namely hospitalizations and deaths, by exploring dimensionality reduction via temporal decomposition with principal component analysis (PCA) and via sensitivity analysis. The calibration problem is then presented and samples are generated to best match COVID-19 hospitalization and death numbers in Chicago from March to June in 2020. These results are compared with previous approximate Bayesian calibration (IMABC) results and their predictive performance is analyzed showing improved performance with a reduction in computation.

Autores: Connor Robertson, Cosmin Safta, Nicholson Collier, Jonathan Ozik, Jaideep Ray

Última atualização: 2024-06-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.19524

Fonte PDF: https://arxiv.org/pdf/2406.19524

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes