Simple Science

La science de pointe expliquée simplement

# Statistiques# Applications

Évaluer les modèles de machine learning en hydrologie

Une étude comparant XGBoost et Random Forests pour des prédictions hydrologiques.

― 11 min lire


Techniques ML pour lesTechniques ML pour lesprédictions d'eauaméliorer les prévisions hydrologiques.Comparer XGBoost et Random Forest pour
Table des matières

Les prédictions sur l'eau sont super importantes pour gérer nos ressources en eau. Les chercheurs en hydrologie se concentrent sur la prévision de divers problèmes liés à l'eau, comme la quantité d'eau disponible, quand elle sera accessible, la gravité des sécheresses et les dangers potentiels d'inondations. Faire des prédictions précises est particulièrement crucial pour les bassins qui n'ont pas d'instruments de mesure, appelés bassins non mesurés. Ce sujet est une priorité pour les chercheurs depuis des années.

Dans le passé, les scientifiques s'appuyaient beaucoup sur des modèles basés sur des principes physiques pour prédire les résultats hydrologiques. Mais ces modèles ont souvent du mal à représenter des processus hydrologiques complexes, surtout à grande échelle. D'un autre côté, les méthodes d'apprentissage automatique (ML) ont gagné en popularité ces dernières années, mais elles ne sont pas encore largement utilisées dans la recherche sur l'eau. C'est surtout parce que l'utilisation de modèles ML à la pointe nécessite une expertise en mathématiques et en statistiques.

Les hydrologues doivent parfois entraîner les modèles plusieurs fois, ce qui rend difficile l'optimisation des Hyperparamètres nécessaires pour des prédictions précises. Les hyperparamètres sont des réglages dans les modèles qui influencent leur performance. Du coup, il est nécessaire de rendre les modèles ML plus accessibles aux scientifiques de l'eau en améliorant les outils disponibles pour l'apprentissage automatique automatisé.

Parmi les différents modèles ML, XGBoost a récemment montré de meilleures performances que le modèle traditionnel de forêt aléatoire (RF), qui était populaire en hydrologie. Cet article compare ces deux modèles en utilisant un grand nombre de jeux de données liés à l'eau et vise à fournir aux scientifiques de l'eau une approche accessible et simple pour l'optimisation des modèles.

Le rôle des prédictions en hydrologie

Des prédictions précises jouent un rôle essentiel dans la gestion des ressources en eau. Les hydrologues doivent prévoir plusieurs facteurs, comme :

  1. La quantité d'eau disponible pour le rechargement des eaux souterraines et les droits d'allocation.
  2. Le moment où l'eau sera disponible, essentiel pour planifier la restauration et la production hydroélectrique.
  3. La gravité des sécheresses pour évaluer la santé écologique et les risques.
  4. L'intensité des inondations potentielles pour améliorer la conception des barrages, des digues, des ponceaux et des réservoirs.

Ces prédictions deviennent encore plus cruciales dans les bassins non mesurés où il n'y a pas d'instruments de mesure. Les défis liés à la prévision dans ces endroits sont reconnus depuis plus d'une décennie par des organisations importantes consacrées à l'hydrologie.

Modèles traditionnels contre apprentissage automatique

Historiquement, les chercheurs s'appuyaient sur des modèles basés sur des principes physiques et statistiques pour les prédictions hydrologiques. Bien que les modèles basés sur des principes physiques aient été le choix privilégié pendant de nombreuses années, ils présentent plusieurs inconvénients. Par exemple, appliquer certaines équations physiques à de grandes cellules de grille peut ne pas donner des résultats précis. Cette limitation vient des ressources de calcul disponibles, qui peuvent restreindre l'exactitude du modèle.

De plus, des problèmes cruciaux comme le remplissage des données de précipitations manquantes, la prédiction de l'utilisation de l'eau ou la conversion de la profondeur de la neige en contenu en eau ne peuvent pas être modélisés avec précision en utilisant des approches physiques traditionnelles. Étant donné la complexité des problèmes hydrologiques, des stratégies de modélisation améliorées sont essentielles pour une gestion efficace.

Le choix du modèle représente un défi important pour les scientifiques et les gestionnaires de l'eau. Ils doivent peser les compromis entre la fidélité du modèle, sa complexité et les contraintes de ressources, comme le temps et les données disponibles. Même en considérant seulement des modèles statistiques, il existe de nombreuses options, y compris des modèles simples comme la régression linéaire multiple. Cependant, ces méthodes plus simples ne fonctionnent souvent pas bien pour des problèmes hydrologiques très non linéaires.

Les modèles d'apprentissage automatique comme les machines à vecteurs de support, les réseaux neuronaux et les approches basées sur des arbres ont montré leur succès pour résoudre ces problèmes complexes. Les Forêts aléatoires, une méthode basée sur des arbres, sont particulièrement prisées en hydrologie en raison de leur capacité à modéliser des relations non linéaires complexes sans surajuster.

Forêts aléatoires en hydrologie

La méthode de forêt aléatoire (RF) est populaire en hydrologie depuis plus de vingt ans, mais son adoption a été plus lente que d'autres techniques avancées de ML. Malgré son efficacité, RF n'a pas été largement utilisé pendant de nombreuses années après son introduction. Récemment, son utilisation dans la recherche sur les ressources en eau a fortement augmenté car elle gère efficacement des modèles de données complexes.

RF fonctionne en créant de nombreux arbres de décision grâce à un processus appelé bagging. Cette technique consiste à prendre des échantillons aléatoires des données d'entraînement et à entraîner un arbre de décision sur chaque échantillon. Les résultats de ces arbres de décision sont ensuite combinés pour produire une prédiction finale.

Bien que RF soit principalement utilisé pour des tâches de classification, il est surtout appliqué en hydrologie pour des problèmes de régression, qui impliquent de prédire des variables continues. Lors de l'entraînement des modèles RF, on peut ajuster divers hyperparamètres qui définissent le caractère aléatoire et la structure du modèle. Bien régler ces hyperparamètres peut améliorer considérablement les performances prédictives d'un modèle. Malheureusement, les hydrologues passent souvent cette étape ou ne testent qu'un nombre limité d'hyperparamètres en raison de contraintes de temps.

XGBoost : une option avancée

Le boosting par gradient extrême (XGBoost) est une méthode ML plus récente qui a gagné en popularité, surtout dans les compétitions d'apprentissage automatique. Cet algorithme construit des arbres de décision de manière séquentielle, où chaque nouvel arbre apprend des erreurs commises par son prédécesseur. XGBoost peut gérer efficacement de grands ensembles de données, ce qui en fait une option attractive pour l'hydrologie.

Comparé à RF, l'optimisation des hyperparamètres pour XGBoost est plus complexe, nécessitant que les utilisateurs prennent en compte divers facteurs comme les taux d'apprentissage et d'autres paramètres de régularisation. Bien que les hydrologues aient commencé à utiliser XGBoost pour des tâches comme la prévision des débits des rivières, RF reste le choix le plus courant.

Le besoin de meilleurs outils

Choisir des modèles et des hyperparamètres peut être écrasant pour les scientifiques de l'eau, surtout ceux qui n'ont pas de solides connaissances en statistiques ou en apprentissage automatique. Une enquête auprès des gestionnaires de ressources naturelles a montré que beaucoup trouvent le ML confus ou risqué, ce qui contribue à une utilisation inadéquate des techniques disponibles. De plus, il y a souvent un manque de directives claires sur la façon d'utiliser efficacement les outils d'apprentissage automatique.

Beaucoup d'hydrologues supposent que l'optimisation des hyperparamètres est coûteuse en calcul et peut ne pas améliorer significativement les résultats. Cette idée fausse peut conduire à sous-utiliser des méthodes à la pointe. Bien que certaines applications de ML nécessitent d'entraîner plusieurs modèles, la charge computationnelle empêche même les utilisateurs experts de régler efficacement les hyperparamètres.

Cette étude vise à résoudre ces défis en comparant RF et XGBoost sur une large gamme de problèmes de régression hydrologique. De plus, la recherche fournira des ressources pour optimiser efficacement les modèles RF et XGBoost, les rendant plus accessibles aux hydrologues.

Analyse des jeux de données hydrologiques à grand échantillon

Les jeux de données utilisés dans cette étude proviennent du domaine de l'hydrologie à grand échantillon (LSH). LSH se concentre sur l'analyse d'une grande variété de bassins pour générer des idées généralisables sur le comportement hydrologique à travers différents climats et emplacements. En utilisant de grands jeux de données, les chercheurs peuvent minimiser les erreurs et faire des prédictions plus confiantes.

Avant l'analyse, les jeux de données doivent être nettoyés, en s'assurant que les valeurs manquantes ne faussent pas les résultats. Une fois préparés, les jeux de données sont divisés en fonction de diverses variables de réponse, qui sont ensuite utilisées pour entraîner les modèles.

Mise en œuvre des forêts aléatoires

L'algorithme RF utilise une méthode d'ensemble pour construire des modèles prédictifs puissants. Les forêts aléatoires créent de nombreux arbres de décision qui sont entraînés en utilisant des échantillons de données non corrélés. Chaque arbre de décision contribue à la prédiction finale en fournissant son propre résultat, qui est agrégé pour générer une réponse plus robuste.

Plusieurs hyperparamètres jouent un rôle crucial dans la détermination des performances des modèles RF. Les utilisateurs peuvent ajuster ces paramètres pour optimiser le modèle selon leurs données et besoins spécifiques.

Mise en œuvre de XGBoost

XGBoost utilise une approche différente en construisant les arbres de manière séquentielle. Chaque arbre se concentre sur la correction des erreurs faites par les arbres précédents. Cette technique permet à XGBoost de créer des modèles prédictifs très précis. L'algorithme peut également gérer des données éparses, réduisant ainsi les risques de surajustement.

Comme RF, XGBoost repose sur des hyperparamètres que les utilisateurs peuvent modifier pour améliorer les performances du modèle. L'optimisation de ces hyperparamètres est nécessaire pour obtenir les meilleurs résultats lors de l'application de XGBoost.

Comparaison des deux modèles

Pour comparer les performances prédictives de RF et XGBoost, diverses méthodes d'évaluation sont utilisées. L'Efficacité de Nash-Sutcliffe (NSE) est une métrique courante pour évaluer les performances du modèle. Des valeurs de NSE proches de un indiquent un haut niveau de précision.

En revanche, de faibles valeurs de NSE indiquent de mauvaises prédictions. L'efficacité de Kling-Gupta (KGE) est une autre méthode d'évaluation qui capture la relation entre les valeurs observées et prédites, équilibrant la corrélation, le biais et la variabilité.

Stratégies d'optimisation des hyperparamètres

Réussir à ajuster les hyperparamètres est la clé pour améliorer les performances des modèles ML. Il existe diverses méthodes pour l'optimisation des hyperparamètres, y compris la recherche en grille, la recherche aléatoire et les techniques automatisées. Ces stratégies peuvent aider à identifier les meilleures configurations pour des ensembles de données spécifiques, améliorant la précision prédictive et garantissant que les modèles fournissent des résultats fiables.

Résultats et conclusions

À travers des tests approfondis, l'étude trouve que XGBoost surpasse souvent RF en termes de pouvoir prédictif, particulièrement pour des métriques d'évaluation spécifiques. Les méthodes d'optimisation des hyperparamètres ont amélioré les performances des deux modèles, montrant que des réglages appropriés peuvent conduire à des améliorations significatives.

L'analyse démontre également que, bien que RF soit un choix robuste, XGBoost peut offrir un pouvoir prédictif encore meilleur lorsque les hyperparamètres sont bien gérés.

Rendre les modèles accessibles

En simplifiant le processus d'optimisation des hyperparamètres, cette recherche fournit une voie pour que les hydrologues adoptent des techniques avancées de ML sans avoir besoin d'une expertise approfondie en modélisation statistique.

Grâce à des ressources et des conseils accessibles, les chercheurs peuvent exploiter le potentiel de l'apprentissage automatique pour produire des prédictions plus précises.

Directions futures

Alors que l'apprentissage automatique continue d'évoluer, les stratégies d'optimisation des hyperparamètres s'amélioreront également. Les recherches futures devraient explorer de nouvelles méthodes d'optimisation et intégrer de nouveaux ensembles de données pour élargir la portée et la précision des résultats.

En s'appuyant sur ce travail, les chercheurs peuvent renforcer l'application de l'apprentissage automatique en hydrologie, menant finalement à de meilleures pratiques de gestion de l'eau et à une connaissance accrue dans le domaine.

Source originale

Titre: How to out-perform default random forest regression: choosing hyperparameters for applications in large-sample hydrology

Résumé: Predictions are a central part of water resources research. Historically, physically-based models have been preferred; however, they have largely failed at modeling hydrological processes at a catchment scale and there are some important prediction problems that cannot be modeled physically. As such, machine learning (ML) models have been seen as a valid alternative in recent years. In spite of their availability, well-optimized state-of-the-art ML strategies are not being widely used in water resources research. This is because using state-of-the-art ML models and optimizing hyperparameters requires expert mathematical and statistical knowledge. Further, some analyses require many model trainings, so sometimes even expert statisticians cannot properly optimize hyperparameters. To leverage data and use it effectively to drive scientific advances in the field, it is essential to make ML models accessible to subject matter experts by improving automated machine learning resources. ML models such as XGBoost have been recently shown to outperform random forest (RF) models which are traditionally used in water resources research. In this study, based on over 150 water-related datasets, we extensively compare XGBoost and RF. This study provides water scientists with access to quick user-friendly RF and XGBoost model optimization.

Auteurs: Divya K. Bilolikar, Aishwarya More, Aella Gong, Joseph Janssen

Dernière mise à jour: 2023-05-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.07136

Source PDF: https://arxiv.org/pdf/2305.07136

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires