Avaliação de Modelos de Aprendizado de Máquina em Hidrologia
Um estudo comparando XGBoost e Random Forests para previsões hidrológicas.
― 10 min ler
Índice
- O Papel das Previsões em Hidrologia
- Modelos Tradicionais Versus Aprendizado de Máquina
- Florestas Aleatórias em Hidrologia
- XGBoost: Uma Opção Avançada
- A Necessidade de Ferramentas Melhores
- Analisando Conjuntos de Dados de Hidrologia de Grande Amostra
- Implementando Florestas Aleatórias
- Implementando XGBoost
- Comparando os Dois Modelos
- Estratégias de Otimização de Hiperparâmetros
- Resultados e Descobertas
- Tornando os Modelos Acessíveis
- Direções Futuras
- Fonte original
- Ligações de referência
Previsões de água são super importantes pra cuidar dos nossos recursos hídricos. Pesquisadores em hidrologia focam em prever várias questões relacionadas à água, como quanta água tá disponível pra uso, quando ela vai estar acessível, a gravidade das secas e os perigos potenciais de inundações. Fazer previsões precisas é especialmente vital pra bacias que não têm instrumentos de medição instalados, conhecidas como bacias sem medição. Esse assunto já é prioridade pra pesquisadores há muitos anos.
No passado, os cientistas confiavam muito em modelos baseados em física pra prever resultados hidrológicos. Mas, esses modelos costumam falhar em representar processos hidrológicos complexos, especialmente em grande escala. Por outro lado, métodos de aprendizado de máquina (ML) ganharam força como uma alternativa válida nos últimos anos, mas ainda não foram amplamente adotados na pesquisa da água. Isso acontece principalmente porque usar modelos de ML de ponta exige conhecimento especializado em matemática e estatística.
Os hidrologistas às vezes precisam treinar modelos várias vezes, o que dificulta otimizar os Hiperparâmetros necessários pra previsões precisas. Hiperparâmetros são configurações dentro dos modelos que influenciam seu desempenho. Por isso, é necessário tornar os modelos de ML mais acessíveis pra cientistas da água, melhorando as ferramentas disponíveis pra aprendizado de máquina automatizado.
Entre os vários modelos de ML disponíveis, o XGBoost mostrou recentemente um desempenho melhor do que o tradicional modelo de floresta aleatória (RF), que sempre foi popular na hidrologia. Esse artigo compara esses dois modelos com base em um grande número de conjuntos de dados relacionados à água e tem como objetivo fornecer aos cientistas da água uma abordagem acessível e simples pra otimização de modelos.
O Papel das Previsões em Hidrologia
Previsões precisas são essenciais pra gerenciar recursos hídricos. Os hidrologistas precisam prever vários fatores, como:
- A quantidade de água disponível pra recarga de aquíferos e direitos de alocação.
- O tempo de disponibilidade de água, que é essencial pra planejar restaurações e produção de hidrelétricas.
- A gravidade das secas pra avaliar a saúde ecológica e riscos.
- A intensidade de inundações potenciais pra melhorar o design de barragens, diques, bueiros e reservatórios.
Essas previsões se tornam ainda mais críticas em bacias sem medição, onde não há instrumentos de medição presentes. Os desafios associados à previsão nesses lugares são reconhecidos há mais de uma década por organizações importantes focadas em hidrologia.
Modelos Tradicionais Versus Aprendizado de Máquina
Historicamente, os pesquisadores têm confiado em modelos baseados em física e estatísticas pra previsões hidrológicas. Enquanto os modelos baseados em física foram a escolha padrão por muitos anos, eles têm várias desvantagens. Por exemplo, aplicar certas equações físicas a grandes células de grade pode não resultar em resultados precisos. Essa limitação vem dos recursos computacionais disponíveis, que podem restringir a precisão do modelo.
Além disso, problemas cruciais como preencher dados de precipitação faltantes, prever o uso de água ou converter a profundidade da neve em conteúdo hídrico não podem ser modelados com precisão usando abordagens físicas tradicionais. Dada a complexidade dos problemas hidrológicos, estratégias de modelagem aprimoradas são essenciais pra uma gestão efetiva.
A escolha do modelo representa um desafio significativo pra cientistas e gerentes de água. Eles precisam avaliar as compensações entre fidelidade do modelo, complexidade e restrições de recursos, como tempo e dados disponíveis. Mesmo considerando apenas modelos estatísticos, há muitas opções disponíveis, incluindo modelos simples como regressão linear múltipla. No entanto, esses métodos mais simples costumam não ter um bom desempenho em problemas hidrológicos altamente não lineares.
Modelos de aprendizado de máquina como máquinas de vetor de suporte, redes neurais e abordagens baseadas em árvores têm mostrado sucesso em lidar com essas questões complexas. Florestas Aleatórias, um método baseado em árvores, são particularmente favorecidas na hidrologia devido à sua capacidade de modelar relacionamentos complexos não lineares sem superajustar.
Florestas Aleatórias em Hidrologia
O método de floresta aleatória (RF) é popular na hidrologia há mais de duas décadas, mas sua adoção foi mais lenta do que outras técnicas avançadas de ML. Apesar de ser uma ferramenta eficaz, o RF não foi amplamente utilizado por muitos anos após sua introdução. Recentemente, seu uso na pesquisa de recursos hídricos aumentou rapidamente porque ele gerencia efetivamente padrões de dados complexos.
O RF funciona criando várias árvores de decisão através de um processo conhecido como bagging. Essa técnica envolve tirar amostras aleatórias dos dados de treinamento e treinar uma árvore de decisão em cada amostra. Os resultados dessas árvores de decisão são então combinados pra gerar uma previsão final.
Embora o RF seja usado principalmente pra tarefas de classificação, ele é mais aplicado na hidrologia pra problemas de regressão, que envolvem prever variáveis contínuas. Ao treinar modelos de RF, é possível ajustar vários hiperparâmetros que definem a aleatoriedade e a estrutura do modelo. Ajustar corretamente esses hiperparâmetros pode melhorar significativamente o desempenho preditivo do modelo. Infelizmente, os hidrologistas costumam pular essa etapa ou apenas testam um conjunto limitado de hiperparâmetros devido a restrições de tempo.
XGBoost: Uma Opção Avançada
O Extreme Gradient Boosting (XGBoost) é um método de ML mais recente que ganhou popularidade, especialmente em competições de aprendizado de máquina. Esse algoritmo constrói árvores de decisão de maneira sequencial, onde cada nova árvore aprende com os erros cometidos pela anterior. O XGBoost pode lidar eficientemente e efetivamente com grandes conjuntos de dados, tornando-se uma opção atraente pra hidrologia.
Comparado ao RF, a otimização de hiperparâmetros pra XGBoost é mais complexa, exigindo que os usuários considerem vários fatores, como taxas de aprendizado e outros parâmetros de regularização. Embora os hidrologistas tenham começado a usar XGBoost pra tarefas como previsão de fluxo de rios, o RF ainda é a escolha mais comum.
A Necessidade de Ferramentas Melhores
Selecionar modelos e hiperparâmetros pode ser assustador pra cientistas da água, especialmente pra aqueles sem grande experiência em estatísticas ou aprendizado de máquina. Uma pesquisa com gerentes de recursos naturais indicou que muitos acham o ML confuso ou arriscado, contribuindo pra um uso inadequado das técnicas disponíveis. Além disso, muitas vezes falta orientação clara sobre como usar ferramentas de aprendizado de máquina de forma eficaz.
Muitos hidrologistas assumem que a otimização de hiperparâmetros é cara computacionalmente e pode não melhorar significativamente os resultados. Essa concepção errada pode levar à subutilização de métodos de ponta. Embora algumas aplicações de ML exijam o treinamento de múltiplos modelos, o peso computacional impede até mesmo usuários experientes de ajustarem hiperparâmetros de forma eficaz.
Esse estudo visa abordar esses desafios comparando RF e XGBoost em uma ampla gama de problemas de regressão hidrológica. Além disso, a pesquisa fornecerá recursos pra otimizar eficientemente modelos de RF e XGBoost, tornando-os mais acessíveis pra hidrologistas.
Analisando Conjuntos de Dados de Hidrologia de Grande Amostra
Os conjuntos de dados usados nesse estudo vêm da área de hidrologia de grande amostra (LSH). A LSH foca em analisar uma ampla gama de bacias pra gerar insights generalizáveis sobre o comportamento hidrológico em diferentes climas e locais. Ao utilizar grandes conjuntos de dados, os pesquisadores podem minimizar erros e fazer previsões mais confiantes.
Antes da análise, os conjuntos de dados precisam ser limpos, garantindo que valores faltantes não distorçam os resultados. Uma vez prontos, os conjuntos de dados são divididos com base em várias variáveis de resposta, que são então usadas pra treinar os modelos.
Implementando Florestas Aleatórias
O algoritmo RF usa um método de conjunto pra construir modelos preditivos poderosos. Florestas aleatórias criam várias árvores de decisão que são treinadas usando amostras de dados descorrelacionadas. Cada árvore de decisão contribui pra previsão final fornecendo sua própria saída, que é agregada pra gerar uma resposta mais robusta.
Vários hiperparâmetros desempenham um papel crucial na determinação do desempenho dos modelos de RF. Os usuários podem ajustar essas configurações pra otimizar o modelo para seus dados e requisitos específicos.
Implementando XGBoost
O XGBoost utiliza uma abordagem diferente construindo árvores sequencialmente. Cada árvore foca em corrigir os erros das árvores anteriores. Essa técnica permite que o XGBoost crie modelos preditivos altamente precisos. O algoritmo também lida bem com dados esparsos, reduzindo as chances de superajuste.
Assim como o RF, o XGBoost depende de hiperparâmetros que os usuários podem manipular pra melhorar o desempenho do modelo. A otimização desses hiperparâmetros é necessária pra alcançar os melhores resultados ao aplicar o XGBoost.
Comparando os Dois Modelos
Pra comparar o desempenho preditivo do RF e do XGBoost, vários métodos de avaliação são empregados. A eficiência Nash-Sutcliffe (NSE) é uma métrica comum usada pra avaliar o desempenho do modelo. Valores de NSE próximos de um indicam um alto nível de precisão.
Em contraste, valores baixos de NSE indicam previsões ruins. A Eficiência Kling-Gupta (KGE) é outro método de avaliação que captura a relação entre valores observados e previstos, equilibrando correlação, viés e variabilidade.
Estratégias de Otimização de Hiperparâmetros
Ajustar os hiperparâmetros corretamente é fundamental pra melhorar o desempenho dos modelos de ML. Existem vários métodos disponíveis pra otimização de hiperparâmetros, incluindo busca em grade, busca aleatória e técnicas automatizadas. Essas estratégias podem ajudar a identificar as melhores configurações para conjuntos de dados específicos, aumentando a precisão preditiva e garantindo que os modelos gerem resultados confiáveis.
Resultados e Descobertas
Através de testes extensivos, o estudo encontra que o XGBoost frequentemente supera o RF em termos de poder preditivo, especialmente pra métricas de avaliação específicas. Métodos de otimização de hiperparâmetros melhoraram o desempenho de ambos os modelos, mostrando que o ajuste adequado pode resultar em melhorias significativas.
A análise também demonstra que, embora o RF seja uma escolha robusta, o XGBoost pode oferecer um poder preditivo ainda melhor quando os hiperparâmetros são gerenciados de forma eficaz.
Tornando os Modelos Acessíveis
Ao simplificar o processo de otimização de hiperparâmetros, essa pesquisa oferece um caminho pra hidrologistas adotarem técnicas avançadas de ML sem precisar de uma grande expertise em modelagem estatística.
Através de recursos e orientações acessíveis, os pesquisadores podem aproveitar o potencial do aprendizado de máquina pra produzir previsões mais precisas.
Direções Futuras
À medida que o aprendizado de máquina continua a evoluir, as estratégias de otimização de hiperparâmetros também vão melhorar. Pesquisas futuras devem explorar novos métodos de otimização e incorporar novos conjuntos de dados pra expandir o escopo e a precisão das descobertas.
Ao construir sobre esse trabalho, os pesquisadores podem fortalecer a aplicação do aprendizado de máquina em hidrologia, levando a melhores práticas de gerenciamento de água e um aumento do conhecimento na área.
Título: How to out-perform default random forest regression: choosing hyperparameters for applications in large-sample hydrology
Resumo: Predictions are a central part of water resources research. Historically, physically-based models have been preferred; however, they have largely failed at modeling hydrological processes at a catchment scale and there are some important prediction problems that cannot be modeled physically. As such, machine learning (ML) models have been seen as a valid alternative in recent years. In spite of their availability, well-optimized state-of-the-art ML strategies are not being widely used in water resources research. This is because using state-of-the-art ML models and optimizing hyperparameters requires expert mathematical and statistical knowledge. Further, some analyses require many model trainings, so sometimes even expert statisticians cannot properly optimize hyperparameters. To leverage data and use it effectively to drive scientific advances in the field, it is essential to make ML models accessible to subject matter experts by improving automated machine learning resources. ML models such as XGBoost have been recently shown to outperform random forest (RF) models which are traditionally used in water resources research. In this study, based on over 150 water-related datasets, we extensively compare XGBoost and RF. This study provides water scientists with access to quick user-friendly RF and XGBoost model optimization.
Autores: Divya K. Bilolikar, Aishwarya More, Aella Gong, Joseph Janssen
Última atualização: 2023-05-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.07136
Fonte PDF: https://arxiv.org/pdf/2305.07136
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.