Évaluer le Deep Learning pour la gestion d'investissement
Une étude sur les algorithmes d'apprentissage profond pour optimiser les portefeuilles d'investissement.
― 6 min lire
Table des matières
Cet article parle d'un projet qui évalue des algorithmes de deep learning pour aider à gérer des portefeuilles d'investissement. La gestion de portefeuille consiste à décider comment répartir l'argent entre différents investissements pour maximiser les retours tout en gérant le risque. Cette évaluation utilise un environnement simulé qui imite le comportement du marché pour tester les performances de ces algorithmes.
L'objectif du projet
Le but est de voir à quel point divers algorithmes de deep reinforcement learning (DRL) sont efficaces pour optimiser les portefeuilles. Dans ce contexte, l'Optimisation de portefeuille signifie trouver la meilleure façon d'allouer les investissements pour maximiser les retours selon certaines stratégies. Les algorithmes sont testés à l'aide d'une simulation qui reflète les mouvements des prix des actions sur le marché.
Configuration de la simulation
La simulation est construite sur des modèles mathématiques qui imitent les mouvements des prix des actions. Elle prend en compte trois actions corrélées ainsi qu'un compte en espèces qui génère des intérêts. Les mouvements de prix des actions sont modélisés à l'aide d'un mouvement brownien géométrique (GBM), qui est une méthode populaire pour représenter les prix des actifs.
La simulation inclut également un modèle d'impact sur le marché qui montre comment acheter ou vendre affecte les prix des actions. Quand un investisseur achète beaucoup d'actions, cela peut faire monter le prix, tandis que la vente peut le faire baisser. Cet aspect rend la simulation plus réaliste par rapport à des modèles plus simples qui supposent que les transactions n'influencent pas les prix.
Objectif des algorithmes
L'objectif principal de ces algorithmes est de maximiser la croissance du portefeuille d'investissement au fil du temps. Le cadre prend en compte les retours potentiels et les risques associés aux investissements. Plus précisément, la stratégie utilisée est connue sous le nom de critère de Kelly, qui vise à maximiser la croissance de la richesse tout en minimisant les chances de pertes.
Types d'algorithmes testés
Le projet teste cinq algorithmes DRL différents, regroupés en deux catégories :
Algorithmes hors politique : Ceux-ci incluent Deep Deterministic Policy Gradients (DDPG), Twin Delayed DDPG (TD3) et Soft Actor-Critic (SAC). Ces algorithmes apprennent des expériences passées, même si elles ne résultent pas de la stratégie actuelle utilisée.
Algorithmes sur politique : Ceux-ci incluent Proximal Policy Optimization (PPO) et Advantage Actor-Critic (A2C). Ces algorithmes apprennent sur la base des stratégies qu'ils utilisent actuellement, ce qui leur permet de réagir plus efficacement aux expériences les plus récentes.
Résultats clés
Variabilité de performance
Les résultats ont montré une variabilité significative des performances entre les algorithmes. Les algorithmes sur politique, surtout PPO et A2C, ont mieux réussi à s'adapter à des conditions de marché bruyantes comparés aux algorithmes hors politique. Du coup, les algorithmes sur politique ont élaboré des politiques plus proches de la stratégie optimale.
Rôle du bruit
Un grand défi durant l'évaluation a été le caractère bruyant des récompenses du marché. Quand les algorithmes recevaient des résultats incohérents du marché simulé, cela freinait leur capacité à apprendre des stratégies optimales. Les algorithmes hors politique ont eu du mal à surmonter cela parce que leur processus d'apprentissage dépendait beaucoup des données passées, qui pouvaient être trompeuses à cause du bruit.
En revanche, les algorithmes sur politique avaient des mécanismes, comme l'estimation d'avantage généralisée, pour mieux gérer ce bruit. Cela leur a permis d'apprendre des stratégies plus fiables avec le temps.
Le facteur de clipping
Un constat majeur a été l'importance de la fonction de clipping utilisée dans l'algorithme PPO. Cette fonction aide à garder le processus d'apprentissage stable, empêchant l'algorithme de s'éloigner trop de la politique optimale une fois identifiée. La stabilité dans l'apprentissage est cruciale, surtout sur les marchés financiers où les conditions peuvent changer rapidement.
Régimes de marché
Pour simuler des scénarios réels plus complexes, l'évaluation a également introduit des changements de régime sur le marché. Les régimes font référence à différentes conditions de marché, comme des états haussiers (prix en hausse) et baissiers (prix en baisse). Les agents ont été testés pour voir s'ils pouvaient ajuster leurs stratégies pour bien performer dans ces environnements en changement.
Les tests ont montré qu'avec un modèle de Markov caché, l'algorithme PPO pouvait apprendre à adapter sa stratégie en fonction du régime de marché actuel. Cette adaptabilité est essentielle pour une gestion efficace de portefeuille, permettant aux investisseurs de réagir rapidement aux conditions changeantes du marché.
Préoccupations sur l'efficacité de l'échantillon
Malgré quelques résultats positifs, l'efficacité globale de ces algorithmes était préoccupante. Les algorithmes avaient besoin de millions d'étapes d'entraînement pour apprendre des stratégies efficaces, ce qui équivaut à une quantité impraticable de données de marché. Cette inefficacité souligne un défi majeur dans l'application des techniques de deep learning à la finance. Cela met en évidence le besoin d'améliorations dans la rapidité d'apprentissage de ces algorithmes, surtout puisque les marchés financiers n'offrent qu'une seule réalisation des événements sans possibilité de réinitialiser pour un nouvel entraînement.
Directions futures
Alors que le domaine de l'utilisation de DRL en finance est encore en développement, les chercheurs sont impatients d'explorer des méthodes pour augmenter l'efficacité de l'entraînement de ces algorithmes. Une direction proposée est l'utilisation de données synthétiques générées par des modèles entraînés sur des données financières réelles, ce qui pourrait fournir un matériel d'entraînement supplémentaire sans dépendre uniquement des données historiques.
En résumé, l'évaluation a mis en évidence à la fois des forces et des faiblesses dans l'application des algorithmes de deep learning aux tâches de gestion de portefeuille. Bien que les algorithmes sur politique aient montré un potentiel d'adaptation aux défis posés par les récompenses bruyantes et les conditions changeantes du marché, le besoin d'améliorer l'efficacité de l'échantillon reste une préoccupation clé. La recherche continue dans ce domaine pourrait conduire à de meilleurs outils pour les investisseurs, améliorant la prise de décision et potentiellement conduisant à des retours plus élevés sur les investissements.
Titre: Evaluation of Deep Reinforcement Learning Algorithms for Portfolio Optimisation
Résumé: We evaluate benchmark deep reinforcement learning (DRL) algorithms on the task of portfolio optimisation under a simulator. The simulator is based on correlated geometric Brownian motion (GBM) with the Bertsimas-Lo (BL) market impact model. Using the Kelly criterion (log utility) as the objective, we can analytically derive the optimal policy without market impact and use it as an upper bound to measure performance when including market impact. We found that the off-policy algorithms DDPG, TD3 and SAC were unable to learn the right Q function due to the noisy rewards and therefore perform poorly. The on-policy algorithms PPO and A2C, with the use of generalised advantage estimation (GAE), were able to deal with the noise and derive a close to optimal policy. The clipping variant of PPO was found to be important in preventing the policy from deviating from the optimal once converged. In a more challenging environment where we have regime changes in the GBM parameters, we found that PPO, combined with a hidden Markov model (HMM) to learn and predict the regime context, is able to learn different policies adapted to each regime. Overall, we find that the sample complexity of these algorithms is too high, requiring more than 2m steps to learn a good policy in the simplest setting, which is equivalent to almost 8,000 years of daily prices.
Auteurs: Chung I Lu
Dernière mise à jour: 2023-07-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.07694
Source PDF: https://arxiv.org/pdf/2307.07694
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.