Apprentissage par renforcement pour des stratégies de trading
Une nouvelle méthode combine l'apprentissage par renforcement et des modèles prédictifs pour trader sur le marché boursier malaisien.
― 7 min lire
Table des matières
- Apprentissage Machine dans le Trading
- Combinaison d'Approches d'Apprentissage
- Qu'est-ce que l'Apprentissage par Renforcement ?
- Recherches Précédentes
- Notre Approche
- Modèle de Prédiction des Prix
- Développement de Stratégies avec RL
- Gestion des Données et Cross-Ségmentation
- Configuration Expérimentale
- Résultats
- Performance de Généralisation
- Travaux Futurs
- Conclusion
- Source originale
L'utilisation de l'apprentissage machine dans le trading a beaucoup évolué. En général, l'apprentissage supervisé aide à prédire les prix futurs des actifs, orientant ainsi une stratégie de trading. Ça marche bien sur les marchés actifs avec des coûts faibles. Mais quand on se retrouve face à des marchés moins actifs ou des actifs uniques, c'est plus compliqué. Une vision à long terme est nécessaire car changer de positions peut être plus difficile. Cet article parle d'une nouvelle méthode de trading utilisant l'Apprentissage par renforcement (RL) et un modèle prédictif, testé avec des données du marché boursier malaisien.
Apprentissage Machine dans le Trading
L'apprentissage machine, surtout le deep learning, a changé pas mal de domaines. En finance, la prédiction des prix des actions a beaucoup retenu l'attention. L'objectif n'est pas juste de prédire les prix, mais d'utiliser ces prédictions pour faire des bénéfices. Le concept semble simple : acheter quand on prévoit que les prix vont monter et vendre quand on pense qu'ils vont baisser. Mais des facteurs comme l'activité du marché et les coûts dtransaction compliquent un peu les choses.
Combinaison d'Approches d'Apprentissage
Cette étude présente une méthode qui fusionne l'apprentissage supervisé pour la prédiction des prix avec l'apprentissage par renforcement pour le trading. On applique un modèle de deep learning pour prévoir les mouvements des actions et un agent RL pour décider quand trader. En entraînant ces modèles sur des ensembles de données distincts et non chevauchants, on améliore leur performance.
Qu'est-ce que l'Apprentissage par Renforcement ?
L'apprentissage par renforcement est un type d'apprentissage machine où les agents apprennent à agir dans des situations changeantes par essais et erreurs, guidés par des récompenses. Dans le trading, le RL vise à créer une stratégie qui maximise les rendements. Des travaux précédents ont exploré diverses techniques RL pour le trading d'actions, y compris des systèmes multi-agents et le deep reinforcement learning.
Recherches Précédentes
Les premières études sur le RL pour le trading impliquaient plusieurs agents qui coopéraient pour maximiser les bénéfices. À mesure que les techniques ont évolué, le deep reinforcement learning a gagné en popularité grâce à sa capacité à gérer des données complexes. Divers chercheurs ont appliqué des méthodes RL à des tâches comme la gestion de portefeuille et l'exécution d'ordres, montrant une tendance où le deep learning performance souvent mieux que les méthodes traditionnelles. Cependant, la capacité de ces modèles à prédire avec précision reste cruciale.
Notre Approche
Dans notre méthode, on a deux étapes. D'abord, on entraîne un modèle pour prédire les mouvements des prix des actions en se basant sur des données historiques. La sortie de ce modèle sert d'entrée pour la deuxième étape, où on entraîne un modèle d'apprentissage par renforcement pour décider des actions de trading. Ce système permet d'utiliser des modèles et des stratégies d'apprentissage distincts pour chaque aspect.
Sources de Données
Les données de cette étude proviennent du marché boursier malaisien, avec une histoire de 30 jours d'éléments comme les prix de clôture et les moyennes mobiles. Chaque point de données est soigneusement normalisé pour assurer la cohérence.
Modèle de Prédiction des Prix
On utilise un réseau de neurones GRU (Gated Recurrent Unit) pour la prédiction des prix en raison de son efficacité à traiter des données temporelles. Ce modèle traite l'entrée et produit des prédictions sur les prix de clôture du lendemain. Après avoir fait des prédictions, on les convertit en sorties binaires indiquant si le prix de l'action va monter ou descendre.
Développement de Stratégies avec RL
Une fois qu'on a prédit les mouvements des prix, la prochaine étape est de définir une stratégie de trading en utilisant l'apprentissage par renforcement. On simule un environnement où on fixe les paramètres pour l'état, l'action et les récompenses impliquées dans le trading.
Configuration de l'Environnement
Dans notre cadre de trading, l'état est constitué des mouvements des actions prévus. Les actions représentent l'allocation de richesse parmi les actions, tandis que les récompenses prennent en compte le changement réel de richesse au fil du temps. On impose des pénalités pour les rendements négatifs afin de limiter les comportements de trading risqués. L'algorithme Proximal Policy Optimization (PPO) est ensuite utilisé pour l'entraînement en raison de sa stabilité.
Gestion des Données et Cross-Ségmentation
Un défi est le nombre limité de données d'entraînement disponibles pour cette tâche. On y remédie par une technique appelée cross-segmentation, où on crée deux ensembles de données distincts. Le premier ensemble est utilisé pour entraîner le modèle de prédiction des prix, tandis que le deuxième ensemble sert à entraîner l'agent RL. Cette séparation aide à prévenir le surapprentissage et assure une meilleure performance lors de la généralisation à de nouvelles données.
Configuration Expérimentale
Nos données sont divisées en trois parties : entraînement, validation, et test. L'ensemble de données d'entraînement couvre une période substantielle, tandis que les ensembles de validation et de test assurent qu'on peut évaluer la performance du modèle dans le temps. On teste différentes configurations, y compris l'utilisation de l'ensemble de données complet contre une segmentation en trimestres ou en moitiés.
Réglage des hyperparamètres
Pour optimiser nos modèles, on cherche méthodiquement les meilleurs hyperparamètres à travers un processus systématique. Cela implique de tester diverses configurations pour identifier celles qui donnent la meilleure performance sur les données de validation. Notre métrique d'évaluation se concentre sur la maximisation du ratio de Sharpe, une mesure courante en finance.
Résultats
À travers nos expériences, on constate que l'utilisation de l'ensemble de données complet pour entraîner l'agent RL mène à des résultats moyens, surtout au fur et à mesure que l'entraînement avance. En revanche, l'utilisation de la cross-segmentation en trimestres se classe systématiquement parmi les meilleures méthodes, permettant des résultats plus stables. L'approche trimestrielle atteint également des ratios de Sharpe élevés lors des tests, surpassant d'autres stratégies, y compris des tactiques simples de buy-and-hold.
Performance de Généralisation
Pour évaluer comment nos modèles se généralisent, on compare la performance sur les données de test à celle sur les données d'entraînement. La stratégie de cross-segmentation trimestrielle montre une généralisation supérieure, indiquant qu'elle performe bien sur les données historiques mais est aussi efficace dans des circonstances imprévues.
Travaux Futurs
Il y a plusieurs pistes pour améliorer les performances de nos algorithmes de trading. Actuellement, nos prédictions de prix ne se concentrent que sur une vision à un jour. Incorporer des prédictions à plus long terme pourrait améliorer les décisions de trading. De plus, expérimenter avec des réseaux autres que les GRU pourrait produire de meilleurs signaux de prix, et utiliser des structures de réseau plus avancées pour les composants RL pourrait encore améliorer les stratégies de trading.
Conclusion
Nos résultats suggèrent que l'utilisation de l'apprentissage par renforcement peut créer efficacement des politiques de trading basées sur des modèles prédictifs, même dans des environnements avec des coûts de trading variés. La cross-segmentation des données améliore notablement la performance des algorithmes de trading. À mesure que le domaine progresse, un effort continu pour affiner ces modèles et explorer de nouvelles techniques sera essentiel pour atteindre un plus grand succès dans le trading et une meilleure compréhension du marché.
Titre: Data Cross-Segmentation for Improved Generalization in Reinforcement Learning Based Algorithmic Trading
Résumé: The use of machine learning in algorithmic trading systems is increasingly common. In a typical set-up, supervised learning is used to predict the future prices of assets, and those predictions drive a simple trading and execution strategy. This is quite effective when the predictions have sufficient signal, markets are liquid, and transaction costs are low. However, those conditions often do not hold in thinly traded financial markets and markets for differentiated assets such as real estate or vehicles. In these markets, the trading strategy must consider the long-term effects of taking positions that are relatively more difficult to change. In this work, we propose a Reinforcement Learning (RL) algorithm that trades based on signals from a learned predictive model and addresses these challenges. We test our algorithm on 20+ years of equity data from Bursa Malaysia.
Auteurs: Vikram Duvvur, Aashay Mehta, Edward Sun, Bo Wu, Ken Yew Chan, Jeff Schneider
Dernière mise à jour: 2023-07-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.09377
Source PDF: https://arxiv.org/pdf/2307.09377
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.