Evaluando Modelos de Aprendizaje Automático en Hidrología
Un estudio que compara XGBoost y Random Forests para predicciones hidrológicas.
― 11 minilectura
Tabla de contenidos
- El papel de las predicciones en hidrología
- Modelos tradicionales vs. aprendizaje automático
- Bosques aleatorios en hidrología
- XGBoost: una opción avanzada
- La necesidad de mejores herramientas
- Analizando conjuntos de datos de hidrología de gran muestra
- Implementando bosques aleatorios
- Implementando XGBoost
- Comparando los dos modelos
- Estrategias de optimización de hiperparámetros
- Resultados y hallazgos
- Haciendo modelos accesibles
- Direcciones futuras
- Fuente original
- Enlaces de referencia
Las predicciones de agua son clave para manejar nuestros recursos hídricos. Los investigadores en hidrología se enfocan en predecir varios problemas relacionados con el agua, como cuánta agua hay disponible para usar, cuándo será accesible, la gravedad de las sequías y los peligros potenciales de inundaciones. Hacer predicciones precisas es especialmente vital para cuencas que no tienen instrumentos de medición instalados, conocidas como cuencas no medidas. Este tema ha sido prioridad para los investigadores durante muchos años.
Antes, los científicos confiaban mucho en modelos basados en la física para prever resultados hidrológicos. Sin embargo, estos modelos a menudo no logran representar procesos hidrológicos complejos, especialmente a gran escala. Por otro lado, en los últimos años, los métodos de aprendizaje automático (ML) han ganado popularidad como una alternativa válida, pero no se han adoptado ampliamente en la investigación del agua. Esto se debe principalmente a que usar modelos de ML de última generación requiere conocimientos expertos en matemáticas y estadísticas.
Los hidrólogos a veces necesitan entrenar modelos múltiples veces, lo que hace que sea complicado optimizar los Hiperparámetros necesarios para hacer predicciones precisas. Los hiperparámetros son configuraciones dentro de los modelos que influyen en su rendimiento. Como resultado, es necesario hacer que los modelos de ML sean más accesibles para los científicos del agua mejorando las herramientas disponibles para el aprendizaje automático automatizado.
Entre los diversos modelos de ML disponibles, XGBoost ha mostrado recientemente un mejor rendimiento que el modelo tradicional de bosque aleatorio (RF), que ha sido popular en hidrología. Este artículo compara estos dos modelos basándose en una gran cantidad de conjuntos de datos relacionados con el agua y tiene como objetivo proporcionar a los científicos del agua un enfoque accesible y sencillo para la optimización de modelos.
El papel de las predicciones en hidrología
Las predicciones precisas juegan un papel esencial en la gestión de los recursos hídricos. Los hidrólogos necesitan prever varios factores, como:
- La cantidad de agua disponible para recarga de aguas subterráneas y derechos de asignación.
- El momento de la disponibilidad de agua esencial para planificar la restauración y la producción de hidroeléctrica.
- La gravedad de las sequías para evaluar la salud ecológica y los riesgos.
- La intensidad de las posibles inundaciones para mejorar el diseño de presas, diques, alcantarillas y embalses.
Estas predicciones se vuelven aún más críticas en cuencas no medidas donde no hay instrumentos de medición presentes. Los desafíos asociados con la previsión en estos lugares han sido reconocidos durante más de una década por organizaciones importantes enfocadas en la hidrología.
Modelos tradicionales vs. aprendizaje automático
Históricamente, los investigadores se han apoyado en modelos basados en la física y modelos estadísticos para predicciones hidrológicas. Aunque los modelos basados en la física han sido la opción preferida durante muchos años, tienen varios inconvenientes. Por ejemplo, aplicar ciertas ecuaciones físicas a celdas de grilla grandes puede no dar resultados precisos. Esta limitación surge de los recursos computacionales disponibles, que pueden restringir la precisión del modelo.
Además, problemas cruciales como completar datos de precipitación faltantes, predecir el uso del agua o convertir la profundidad de nieve en contenido de agua de nieve no pueden modelarse con precisión usando enfoques físicos tradicionales. Dada la complejidad de los problemas hidrológicos, se requieren estrategias de modelado mejoradas para una gestión efectiva.
La selección de modelos plantea un desafío importante para los científicos y gestores del agua. Deben sopesar los pros y contras entre la fidelidad del modelo, la complejidad y las limitaciones de recursos, como tiempo y datos disponibles. Incluso cuando se consideran solo modelos estadísticos, hay muchas opciones disponibles, incluidos modelos simples como la regresión lineal múltiple. Sin embargo, estos métodos más simples a menudo no funcionan bien para problemas hidrológicos altamente no lineales.
Modelos de aprendizaje automático como máquinas de soporte vectorial, redes neuronales y enfoques basados en árboles han demostrado éxito al abordar estos problemas complejos. Los Bosques Aleatorios, un método basado en árboles, son particularmente favorecidos en hidrología debido a su capacidad para modelar relaciones no lineales complejas sin sobreajuste.
Bosques aleatorios en hidrología
El método de bosque aleatorio (RF) ha sido popular en hidrología durante más de dos décadas, pero su adopción ha sido más lenta que otras técnicas avanzadas de ML. A pesar de ser una herramienta efectiva, RF no se utilizó ampliamente durante muchos años después de su introducción. Recientemente, ha habido un aumento notable en su uso en la investigación de recursos hídricos porque gestiona eficazmente patrones de datos complejos.
RF opera creando numerosos árboles de decisión a través de un proceso conocido como bagging. Esta técnica consiste en tomar muestras aleatorias de los datos de entrenamiento y entrenar un árbol de decisión en cada muestra. Los resultados de estos árboles de decisión se combinan para producir una predicción final.
Aunque RF se usa principalmente para tareas de clasificación, en hidrología se aplica principalmente a problemas de regresión, que implican predecir variables continuas. Al entrenar modelos RF, se pueden ajustar varios hiperparámetros que definen la aleatoriedad y la estructura del modelo. Ajustar correctamente estos hiperparámetros puede mejorar significativamente el rendimiento predictivo de un modelo. Desafortunadamente, los hidrólogos a menudo saltan este paso o solo prueban un conjunto limitado de hiperparámetros debido a limitaciones de tiempo.
XGBoost: una opción avanzada
El aumento extremo de gradiente (XGBoost) es un método de ML más reciente que ha ganado popularidad, especialmente en competencias de aprendizaje automático. Este algoritmo se basa en árboles de decisión de manera secuencial, donde cada nuevo árbol aprende de los errores cometidos por su predecesor. XGBoost puede manejar conjuntos de datos grandes de manera eficiente y efectiva, lo que lo convierte en una opción atractiva para la hidrología.
En comparación con RF, la optimización de hiperparámetros para XGBoost es más compleja, requiriendo que los usuarios consideren varios factores como tasas de aprendizaje y otros parámetros de regularización. Aunque los hidrólogos han comenzado a usar XGBoost para tareas como la predicción del escurrimiento, RF sigue siendo la opción más común.
La necesidad de mejores herramientas
Seleccionar modelos y hiperparámetros puede ser abrumador para los científicos del agua, especialmente aquellos sin antecedentes extensos en estadística o aprendizaje automático. Una encuesta a gestores de recursos naturales indicó que muchos encuentran confuso o arriesgado el uso de ML, lo que contribuye a un uso inadecuado de las técnicas disponibles. Además, a menudo falta una guía clara sobre cómo utilizar eficazmente las herramientas de aprendizaje automático.
Muchos hidrólogos asumen que la optimización de hiperparámetros es costosa computacionalmente y puede no mejorar significativamente los resultados. Este malentendido puede llevar a subutilizar métodos de última generación. Si bien algunas aplicaciones de ML requieren entrenar múltiples modelos, la carga computacional impide que incluso los usuarios expertos ajusten los hiperparámetros de manera efectiva.
Este estudio tiene como objetivo abordar estos desafíos al comparar RF y XGBoost en una amplia gama de problemas de regresión hidrológica. Además, la investigación proporcionará recursos para optimizar de manera eficiente los modelos RF y XGBoost, haciéndolos más accesibles para los hidrólogos.
Analizando conjuntos de datos de hidrología de gran muestra
Los conjuntos de datos utilizados en este estudio provienen del campo de la hidrología de gran muestra (LSH). LSH se enfoca en analizar una amplia gama de cuencas para generar conocimientos generalizables sobre el comportamiento hidrológico en diferentes climas y ubicaciones. Al utilizar grandes conjuntos de datos, los investigadores pueden minimizar errores y hacer predicciones más confiables.
Antes del análisis, los conjuntos de datos deben limpiarse, asegurando que los valores faltantes no sesguen los resultados. Una vez preparados, los conjuntos de datos se dividen en función de varias variables de respuesta, que luego se utilizan para entrenar los modelos.
Implementando bosques aleatorios
El algoritmo RF utiliza un método en ensamble para construir modelos predictivos poderosos. Los bosques aleatorios crean numerosos árboles de decisión que se entrenan utilizando muestras de datos decorrelacionadas. Cada árbol de decisión contribuye a la predicción final al proporcionar su propia salida, que se agrega para generar una respuesta más robusta.
Varios hiperparámetros juegan un papel crucial en la determinación del rendimiento de los modelos RF. Los usuarios pueden ajustar estos ajustes para optimizar el modelo según sus datos y requisitos específicos.
Implementando XGBoost
XGBoost utiliza un enfoque diferente al construir árboles de manera secuencial. Cada árbol se centra en corregir los errores cometidos por los árboles anteriores. Esta técnica permite a XGBoost crear modelos predictivos altamente precisos. El algoritmo también puede manejar bien datos escasos, reduciendo las posibilidades de sobreajuste.
Al igual que RF, XGBoost se basa en hiperparámetros que los usuarios pueden manipular para mejorar el rendimiento del modelo. La optimización de estos hiperparámetros es necesaria para lograr los mejores resultados al aplicar XGBoost.
Comparando los dos modelos
Para comparar el rendimiento predictivo de RF y XGBoost, se emplean varios métodos de evaluación. La Eficiencia de Nash-Sutcliffe (NSE) es una métrica común utilizada para medir el rendimiento del modelo. Valores de NSE cercanos a uno indican un alto nivel de precisión.
En contraste, valores de NSE bajos indican malas predicciones. La eficiencia de Kling-Gupta (KGE) es otro método de evaluación que captura la relación entre los valores observados y predichos, equilibrando correlación, sesgo y variabilidad.
Estrategias de optimización de hiperparámetros
Ajustar con éxito los hiperparámetros es clave para mejorar el rendimiento de los modelos de ML. Hay varios métodos disponibles para la optimización de hiperparámetros, incluidos la búsqueda en cuadrícula, la búsqueda aleatoria y técnicas automatizadas. Estas estrategias pueden ayudar a identificar las mejores configuraciones para conjuntos de datos específicos, mejorando la precisión predictiva y asegurando que los modelos generen resultados confiables.
Resultados y hallazgos
A través de pruebas extensivas, el estudio encuentra que XGBoost a menudo supera a RF en términos de poder predictivo, particularmente para métricas de evaluación específicas. Los métodos de optimización de hiperparámetros mejoraron el rendimiento de ambos modelos, demostrando que un ajuste adecuado puede resultar en mejoras significativas.
El análisis también demuestra que, aunque RF es una opción robusta, XGBoost puede proporcionar un poder predictivo aún mejor cuando se gestionan adecuadamente los hiperparámetros.
Haciendo modelos accesibles
Al simplificar el proceso de optimización de hiperparámetros, esta investigación proporciona un camino para que los hidrólogos adopten técnicas avanzadas de ML sin necesidad de contar con una amplia experiencia en modelado estadístico.
A través de recursos accesibles y orientación, los investigadores pueden aprovechar el potencial del aprendizaje automático para producir predicciones más precisas.
Direcciones futuras
A medida que el aprendizaje automático continúa evolucionando, las estrategias para la optimización de hiperparámetros también mejorarán. La investigación futura debería explorar nuevos métodos de optimización e incorporar conjuntos de datos frescos para ampliar el alcance y la precisión de los hallazgos.
Al construir sobre este trabajo, los investigadores pueden fortalecer la aplicación del aprendizaje automático en hidrología, lo que llevará a mejores prácticas de gestión del agua y un mayor conocimiento en el campo.
Título: How to out-perform default random forest regression: choosing hyperparameters for applications in large-sample hydrology
Resumen: Predictions are a central part of water resources research. Historically, physically-based models have been preferred; however, they have largely failed at modeling hydrological processes at a catchment scale and there are some important prediction problems that cannot be modeled physically. As such, machine learning (ML) models have been seen as a valid alternative in recent years. In spite of their availability, well-optimized state-of-the-art ML strategies are not being widely used in water resources research. This is because using state-of-the-art ML models and optimizing hyperparameters requires expert mathematical and statistical knowledge. Further, some analyses require many model trainings, so sometimes even expert statisticians cannot properly optimize hyperparameters. To leverage data and use it effectively to drive scientific advances in the field, it is essential to make ML models accessible to subject matter experts by improving automated machine learning resources. ML models such as XGBoost have been recently shown to outperform random forest (RF) models which are traditionally used in water resources research. In this study, based on over 150 water-related datasets, we extensively compare XGBoost and RF. This study provides water scientists with access to quick user-friendly RF and XGBoost model optimization.
Autores: Divya K. Bilolikar, Aishwarya More, Aella Gong, Joseph Janssen
Última actualización: 2023-05-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.07136
Fuente PDF: https://arxiv.org/pdf/2305.07136
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.