Cadre d'apprentissage par renforcement pour l'arbitrage énergétique
Une nouvelle méthode utilisant l'apprentissage par renforcement pour améliorer les stratégies de trading d'énergie en toute sécurité.
― 8 min lire
Table des matières
L'essor des sources d'énergie renouvelables a ouvert de nouvelles opportunités pour gérer les coûts énergétiques. Un moyen d'en profiter, c'est l'Arbitrage énergétique, qui consiste à acheter de l'énergie à bas prix et à la revendre à des prix plus élevés. C'est particulièrement pertinent puisque la production d'énergie renouvelable peut fluctuer en fonction des conditions météorologiques. Cependant, utiliser cette méthode présente des défis, car les prix de l'énergie peuvent changer rapidement.
L'Apprentissage par renforcement (RL) est une méthode qui peut aider à prendre des décisions dans cet environnement complexe. Ça permet à un modèle informatique d'apprendre de ses expériences, un peu comme les humains apprennent de leurs propres actions. Malgré son potentiel, le RL n'est pas souvent utilisé dans des applications réelles. C'est principalement parce que les stratégies qu'il apprend peuvent parfois mener à des actions dangereuses, notamment face à des situations inconnues.
Cet article présente un nouveau cadre qui utilise le RL pour développer des stratégies d'arbitrage énergétique sûres et efficaces. L'idée est d'abord de faire apprendre à un agent (un programme informatique) à maximiser les profits grâce au commerce de l'énergie. Après ça, on affine la stratégie apprise pour s'assurer qu'elle suit des règles sûres et logiques qui ont du sens pour les opérateurs humains.
Le défi de l'arbitrage énergétique
Alors que les pays visent à réduire leur empreinte carbone, intégrer plus d'énergie renouvelable dans le réseau devient un objectif commun. Cependant, un inconvénient de ce changement est l'inconstance de l'approvisionnement en énergie, entraînant des décalages entre la production et la consommation d'énergie. Ça peut créer des défis pour les gestionnaires d'énergie qui doivent maintenir l'équilibre du réseau électrique.
Les gestionnaires d'énergie, appelés Parties responsables de l'équilibre (BRP), doivent agir pour maintenir l'équilibre en réagissant aux changements de prix de l'énergie et en prenant des décisions en temps opportun. Le mécanisme de règlement des déséquilibres sanctionne les BRP qui dévient trop de leur utilisation d'énergie planifiée, offrant une opportunité d'arbitrage énergétique.
L'arbitrage énergétique consiste à prendre des décisions rapides pour tirer parti des fluctuations des prix sur le marché de l'énergie. Cependant, ce domaine est complexe en raison des prix imprévisibles et nécessite des décisions presque en temps réel. Les méthodes précédentes s'appuyaient souvent sur des techniques d'optimisation traditionnelles mais avaient du mal à capturer avec précision la nature volatile des prix de l'énergie.
L'apprentissage par renforcement comme solution
L'apprentissage par renforcement propose une autre approche. Au lieu de nécessiter un modèle détaillé de l'environnement, le RL permet à un agent d'apprendre des stratégies optimales par interaction avec l'environnement. L'agent prend des décisions en fonction de l'état actuel, reçoit des récompenses (ou des pénalités) en fonction de ses actions, et ajuste sa stratégie en conséquence.
L'avantage du RL dans le contexte de l'arbitrage énergétique est sa capacité à s'adapter aux conditions changeantes et à trouver des stratégies qui maximisent les profits sans avoir besoin d'un modèle prédéfini. Cependant, mettre en œuvre le RL dans la réalité a été un défi en raison de l'imprévisibilité des résultats et du potentiel d'actions dangereuses.
Un problème clé est que les stratégies apprises peuvent bien fonctionner dans des situations familières mais galérer face à de nouveaux scénarios. Cette imprévisibilité peut conduire à des actions inattendues, ce qui peut être risqué dans des applications réelles. Aborder ces préoccupations en matière de sécurité tout en préservant les avantages du RL est essentiel pour son application réussie dans l'arbitrage énergétique.
Cadre de contrôle proposé
Pour relever ces défis, nous proposons un cadre qui combine les forces de l'apprentissage par renforcement avec des mesures de sécurité. Le cadre se compose de deux étapes principales.
Étape 1 : Formation de l'agent
Au départ, l'agent est formé pour maximiser les profits en s'engageant efficacement dans l'arbitrage énergétique au sein du système de règlement des déséquilibres. Pendant cette phase, l'agent interagit avec le marché de l'énergie, apprenant continuellement et affinant sa stratégie en fonction des différents scénarios de prix.
Le processus de formation implique de simuler le marché de l'énergie en utilisant des données historiques sur les prix. L'agent apprend à reconnaître des schémas dans les prix et à prendre des décisions qui mènent à des résultats rentables. Ce processus d'apprentissage est crucial pour que l'agent développe une solide compréhension de la navigation sur le marché de l'énergie.
Étape 2 : Correction de la politique
Une fois que l'agent a été formé, la prochaine étape est la correction de la politique. Cela implique d'affiner la stratégie apprise pour s'assurer qu'elle s'aligne sur la compréhension humaine et les directives de sécurité. Cela se fait à travers une méthode appelée distillation de connaissances, où la stratégie de l'agent est ajustée pour incorporer des contraintes intuitives pour les humains.
L'intuition humaine suggère que lorsque les prix sont très bas, l'agent devrait charger la batterie, tandis que pour des prix très élevés, il devrait décharger la batterie. Le processus de correction s'assure que la politique apprise reflète ces règles simples, rendant son utilisation et sa compréhension plus faciles pour les opérateurs.
Cette correction de politique vise à traiter les comportements erratiques potentiels dans la politique apprise. En introduisant ces contraintes, l'agent peut fonctionner plus fiablement et réduire la probabilité de prendre des décisions qui pourraient être nuisibles ou contre-productives.
Mise en œuvre et tests
Le cadre proposé a été testé en utilisant des données de prix récentes du marché de l'énergie belge. L'objectif était d'évaluer la performance de l'agent RL en termes de Rentabilité par rapport à un contrôleur basé sur des règles traditionnelles.
Résultats de simulation
Lors de la phase de simulation, la rentabilité de l'agent RL avec l'étape de correction de politique était considérablement supérieure à celle du contrôleur basé sur des règles. Les résultats ont montré que l'agent RL était capable de prendre des décisions plus intelligentes en réponse aux changements de prix, entraînant une meilleure performance générale.
Au cours des simulations, il est devenu évident que la capacité de l'agent à s'adapter à différentes conditions de marché faisait une différence significative dans sa rentabilité. L'étape de correction de politique a encore amélioré la performance de l'agent en s'assurant que ses stratégies étaient alignées sur des actions sûres et logiques.
Résultats expérimentaux
Pour valider le cadre dans des conditions réelles, il a été mis en œuvre sur un système de batterie physique. Ce dispositif a permis de tester la performance de l'agent dans des scénarios en direct, réagissant à des changements de prix en temps réel.
Bien que les résultats expérimentaux aient été légèrement inférieurs à ceux obtenus lors des simulations, ils ont néanmoins démontré l'efficacité du cadre. Les principales raisons de la performance réduite incluaient des retards dans l'exécution des actions et les défis inhérents à l'exploitation d'un système de batterie physique.
Malgré ces défis, les tests en conditions réelles ont confirmé que le cadre proposé pouvait s'adapter aux conditions du marché et fournir des stratégies d'arbitrage énergétique efficaces. La capacité du cadre à affiner les politiques apprises pour la sécurité et l'interprétabilité souligne sa valeur pratique pour les gestionnaires d'énergie.
Conclusion
Le cadre de contrôle basé sur le RL proposé offre une solution prometteuse pour l'arbitrage énergétique dans le mécanisme de règlement des déséquilibres. En combinant l'apprentissage par renforcement avec une étape de correction de politique, le cadre aborde à la fois les préoccupations de performance et de sécurité, le rendant adapté aux applications réelles.
Alors que de plus en plus de sources d'énergie renouvelables sont intégrées dans le réseau, des outils qui aident à gérer le commerce de l'énergie de manière efficace et sécurisée vont devenir de plus en plus importants. Le cadre développé dans cette recherche offre un chemin vers l'atteinte de ces objectifs, rendant l'arbitrage énergétique plus accessible à divers acteurs tout en garantissant des opérations sûres.
Les recherches futures se concentreront sur l'amélioration du cadre, y compris le développement de méthodes d'apprentissage en ligne pour des ajustements en temps réel et l'introduction de contraintes supplémentaires pour s'adapter aux différentes préférences des utilisateurs. L'objectif ultime est de créer un système flexible et robuste qui puisse s'adapter à la nature dynamique des marchés de l'énergie tout en priorisant la sécurité et l'efficacité.
Titre: Control Policy Correction Framework for Reinforcement Learning-based Energy Arbitrage Strategies
Résumé: A continuous rise in the penetration of renewable energy sources, along with the use of the single imbalance pricing, provides a new opportunity for balance responsible parties to reduce their cost through energy arbitrage in the imbalance settlement mechanism. Model-free reinforcement learning (RL) methods are an appropriate choice for solving the energy arbitrage problem due to their outstanding performance in solving complex stochastic sequential problems. However, RL is rarely deployed in real-world applications since its learned policy does not necessarily guarantee safety during the execution phase. In this paper, we propose a new RL-based control framework for batteries to obtain a safe energy arbitrage strategy in the imbalance settlement mechanism. In our proposed control framework, the agent initially aims to optimize the arbitrage revenue. Subsequently, in the post-processing step, we correct (constrain) the learned policy following a knowledge distillation process based on properties that follow human intuition. Our post-processing step is a generic method and is not restricted to the energy arbitrage domain. We use the Belgian imbalance price of 2023 to evaluate the performance of our proposed framework. Furthermore, we deploy our proposed control framework on a real battery to show its capability in the real world.
Auteurs: Seyed Soroush Karimi Madahi, Gargya Gokhale, Marie-Sophie Verwee, Bert Claessens, Chris Develder
Dernière mise à jour: 2024-04-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.18821
Source PDF: https://arxiv.org/pdf/2404.18821
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://doi.org/10.1145/3632775.3661948
- https://opendata.elia.be/pages/home/
- https://www.elia.be/-/media/project/elia/elia-site/grid-data/balancing/20190827
- https://homelab.ilabt.imec.be/
- https://www.latex-project.org/lppl.txt
- https://www.overleaf.com/read/bmqdgdxkfwys
- https://ctan.org/pkg/anonymous-acm
- https://www.acm.org/publications/proceedings-template
- https://www.ctan.org/pkg/acmart
- https://www.ctan.org/pkg/hyperref
- https://www.google.com
- https://www.ryanair.com