Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Apprentissage automatique# Systèmes et contrôle# Systèmes et contrôle

Progrès dans le contrôle des systèmes énergétiques

Une nouvelle technique améliore le contrôle en temps réel des systèmes énergétiques grâce à l'apprentissage par renforcement.

― 8 min lire


Contrôle de nouvelleContrôle de nouvellegénération pour lessystèmes énergétiquesl'énergie en temps réel.améliore les stratégies de gestion deL'apprentissage par renforcement
Table des matières

Dans les industries modernes, gérer les systèmes d'énergie est super important. Une méthode prometteuse s'appelle le contrôle prédictif économique non linéaire (eNMPC). Pour ça, il faut des modèles précis des systèmes qu'on veut contrôler. Ces modèles doivent être non seulement corrects mais aussi rapides à calculer. Si les modèles sont lents, on ne peut pas les utiliser en temps réel, ce qui complique le contrôle efficace des systèmes.

Pour régler ce problème, on peut utiliser des modèles de substitution basés sur les données. Ces modèles aident à alléger la charge de calcul en approximant des modèles mécanistes plus complexes. Mais les méthodes d'entraînement habituelles se concentrent sur la performance moyenne optimale sur des échantillons de simulation. Cette approche peut ne pas bien fonctionner dans des applications réelles où les conditions peuvent être assez différentes.

La Nouvelle Approche

On présente une nouvelle technique qui utilise un truc appelé Apprentissage par renforcement de bout en bout pour entraîner ces modèles de substitution. De cette façon, on s'assure que les contrôleurs basés sur ces modèles fonctionnent bien lors des tâches de contrôle réelles. On a testé notre méthode sur deux scénarios en utilisant un modèle de réacteur à cuve agité continu bien connu. En comparant notre méthode avec celles existantes, on montre que notre approche peut maintenir une bonne performance tout en étant efficace en computation.

Contexte

Les modèles de substitution sont utiles pour simplifier les calculs complexes impliqués dans l'eNMPC. La façon habituelle d'entraîner ces modèles est par identification système. Cependant, cette méthode ne donne pas toujours les meilleurs résultats dans des situations de contrôle en temps réel. Des recherches ont montré que former des modèles de substitution dynamiques avec l'apprentissage par renforcement peut donner de meilleures performances.

L'apprentissage par renforcement est une approche où les agents apprennent à prendre des décisions en essayant des actions et en recevant des retours basés sur les résultats. En utilisant cette méthode, on peut entraîner des modèles qui s'adaptent à des dynamiques de système changeantes sans avoir besoin d'être réentraînés quand les objectifs ou les contraintes changent.

L'Importance des Modèles Dynamiques

Les modèles dynamiques sont cruciaux pour des applications comme l'eNMPC parce qu'ils permettent aux contrôleurs de prédire les états futurs basés sur les actions actuelles. Cette capacité prédictive est essentielle pour un contrôle efficace, surtout dans des environnements avec des contraintes.

La Méthodologie

Notre approche de bout en bout implique plusieurs éléments clés. D'abord, on commence avec un modèle mécaniste qui décrit la dynamique du système. On génère des données en simulant ce modèle sous différents scénarios. Avec ces données, on entraîne un Modèle dynamique qui suit la Théorie de Koopman.

La théorie de Koopman nous aide à créer une représentation linéaire des dynamiques non linéaires. Ça facilite la formulation et la résolution des problèmes d’optimisation qui se posent dans les applications de contrôle. On utilise une méthode appelée Proximal Policy Optimization (PPO), un algorithme d'apprentissage par renforcement efficace, pour affiner nos modèles pour une performance optimale.

Configuration Expérimentale

Pour valider notre approche, on utilise un modèle de réacteur à cuve agité continu (CSTR). Le CSTR fonctionne sur la base d'équations différentielles ordinaires non linéaires qui illustrent sa dynamique. On a mis en place deux scénarios :

  1. NMPC - où l'objectif est de stabiliser la concentration de produit et la température.
  2. eNMPC - où le but est de réduire les coûts d'électricité tout en respectant certaines contraintes.

Dans nos expériences, on compare la performance de nos modèles entraînés avec ceux obtenus par identification système traditionnelle et aussi avec des réseaux de neurones sans modèle entraînés par apprentissage par renforcement.

Étude de Cas 1 : NMPC

Le scénario NMPC se concentre sur la stabilisation de la sortie du CSTR à des niveaux désirés. Le contrôleur reçoit des infos sur l'état actuel du système et ajuste les entrées pour garder la concentration de produit et la température proches des valeurs cibles. On surveille la performance de trois types de contrôleurs :

  • Koopman-SI : Un modèle entraîné par identification système.
  • Koopman-RL : Un modèle affiné grâce à notre approche d'apprentissage par renforcement.
  • MLP : Un contrôleur de réseau de neurones sans modèle entraîné directement par apprentissage par renforcement.

La performance de chaque contrôleur est évaluée en fonction de sa capacité à maintenir les concentrations cibles.

Résultats de NMPC

Les résultats montrent que le contrôleur Koopman-RL a surpassé les autres en stabilisant la concentration de produit et la température. Il a réagi de manière plus efficace aux changements et perturbations que le contrôleur basé sur l'identification système traditionnelle.

Le contrôleur MLP, bien qu'il montre une certaine amélioration avec le temps, était moins efficace que les méthodes Koopman. Sa performance était marquée par des oscillations autour de la cible plutôt que par une stabilisation constante.

Étude de Cas 2 : eNMPC

Pour le scénario eNMPC, l'objectif est d'optimiser les coûts énergétiques tout en respectant des contraintes opérationnelles. La variable de prix de l'électricité entre en jeu, et le contrôleur doit prendre des décisions en temps réel sur la consommation d'énergie en fonction de ces prix.

On teste de nouveau les trois types de contrôleurs du scénario NMPC. Le but est de gérer le débit de fluide de refroidissement tout en maintenant la concentration de produit et la température requises dans les contraintes.

Résultats de eNMPC

Dans ce cas, la performance de chaque contrôleur varie. Le contrôleur Koopman-SI atteint les plus grandes économies de coûts mais entraîne aussi plus de violations de contraintes. Le contrôleur Koopman-RL parvient à équilibrer les économies de coûts avec moins de problèmes de contraintes, montrant l'adaptabilité de notre approche. Le contrôleur MLP parvient aussi à économiser un peu de coûts mais avec beaucoup plus de violations de contraintes.

Adaptabilité des Contrôleurs

Une des forces de l'approche MPC est son adaptabilité à de nouvelles contraintes ou objectifs. On a testé comment nos contrôleurs pouvaient s'ajuster aux changements des limites fixées pour la concentration de produit.

Limites Relaxées et Resserées

Quand les contraintes ont été modifiées, le contrôleur Koopman-RL a montré une capacité d'adaptation remarquable. Il a maintenu une bonne performance même avec des limites resserrées ou relaxées par rapport aux autres contrôleurs.

Conditions Changeantes

Le contrôleur Koopman-RL a aussi pu s'adapter à un changement dans la région réalisable, ajustant sa stratégie sans avoir besoin d'être réentraîné. En revanche, le contrôleur MLP a eu des difficultés à gérer les changements, ce qui reflète ses limites face à la variabilité de l'environnement.

Conclusion

Notre étude démontre l'efficacité d'utiliser l'apprentissage par renforcement de bout en bout pour entraîner des modèles de substitution dynamiques dans les applications de contrôle. Les résultats montrent que notre approche Koopman-RL donne de meilleures performances par rapport aux méthodes d'identification système traditionnelles et aux contrôleurs de réseaux de neurones sans modèle.

L'adaptabilité de nos contrôleurs face aux changements de contraintes souligne encore le potentiel de l'apprentissage par renforcement dans les systèmes de contrôle en temps réel. Bien que cette étude se concentre sur un modèle CSTR moins complexe, les futurs travaux devraient viser à appliquer cette méthode à des systèmes plus complexes, ce qui pourrait conduire à des améliorations dans la gestion des systèmes énergétiques dans des applications réelles.

Travaux Futurs

Explorer diverses applications du monde réel aidera à affiner encore ces approches. Améliorer la robustesse et l'efficacité des contrôleurs sous différentes conditions sera un objectif principal pour l'avenir.

Remerciements

Les auteurs remercient pour les efforts collaboratifs des collègues et le soutien reçu tout au long du processus de recherche. Le développement de ces méthodes a été grandement aidé par le partage de connaissances et de ressources.

Source originale

Titre: End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control

Résumé: (Economic) nonlinear model predictive control ((e)NMPC) requires dynamic models that are sufficiently accurate and computationally tractable. Data-driven surrogate models for mechanistic models can reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum prediction accuracy on simulation samples and perform suboptimally in (e)NMPC. We present a method for end-to-end reinforcement learning of Koopman surrogate models for optimal performance as part of (e)NMPC. We apply our method to two applications derived from an established nonlinear continuous stirred-tank reactor model. The controller performance is compared to that of (e)NMPCs utilizing models trained using system identification, and model-free neural network controllers trained using reinforcement learning. We show that the end-to-end trained models outperform those trained using system identification in (e)NMPC, and that, in contrast to the neural network controllers, the (e)NMPC controllers can react to changes in the control setting without retraining.

Auteurs: Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen

Dernière mise à jour: 2024-08-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.01674

Source PDF: https://arxiv.org/pdf/2308.01674

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires