Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Quantitatives Finanzwesen# Computergestützte Technik, Finanzen und Wissenschaft# Portfoliomanagement

Bewertung von Deep Learning im Investmentmanagement

Eine Studie über Deep-Learning-Algorithmen zur Optimierung von Anlageportfolios.

― 5 min Lesedauer


Deep Learning imDeep Learning imInvestmentInvestmententscheidungen.Algorithmen bewerten für smartere
Inhaltsverzeichnis

Dieser Artikel behandelt ein Projekt, das Deep-Learning-Algorithmen auswertet, um bei der Verwaltung von Investmentportfolios zu helfen. Portfoliomanagement bedeutet, zu entscheiden, wie man Geld auf verschiedene Investitionen verteilt, um die Rendite zu maximieren und gleichzeitig das Risiko zu verwalten. Diese Bewertung nutzt eine simulierte Umgebung, die das Marktverhalten nachahmt, um zu testen, wie gut diese Algorithmen abschneiden.

Zweck des Projekts

Das Ziel ist herauszufinden, wie effektiv verschiedene Deep Reinforcement Learning (DRL) Algorithmen bei der Portfolioptimierung sind. In diesem Zusammenhang bedeutet Portfolioptimierung, die beste Art und Weise zu finden, Investitionen zu verteilen, um die Rendite basierend auf bestimmten Strategien zu maximieren. Die Algorithmen werden in einer Simulation getestet, die widerspiegelt, wie Aktienpreise sich im Markt bewegen.

Simulationssetup

Die Simulation basiert auf bestimmten mathematischen Modellen, die die Bewegungen von Aktienpreisen nachahmen. Es sind drei korrelierte Aktien sowie ein Bargeldkonto dabei, das Zinsen einbringt. Die Preisbewegungen der Aktien werden mit geometrischer Brownscher Bewegung (GBM) modelliert, einem beliebten Verfahren zur Darstellung von Vermögenspreisen.

Die Simulation beinhaltet auch ein Markt-Einflussmodell, das zeigt, wie Kauf oder Verkauf die Aktienpreise beeinflussen. Wenn ein Anleger viele Aktien kauft, kann das den Preis erhöhen, während der Verkauf ihn senken kann. Dieser Aspekt macht die Simulation realistischer im Vergleich zu einfacheren Modellen, die annehmen, dass Transaktionen die Preise nicht beeinflussen.

Ziel der Algorithmen

Das Hauptziel bei der Verwendung dieser Algorithmen ist, das Wachstum des Investmentportfolios über die Zeit zu maximieren. Der Rahmen berücksichtigt die möglichen Renditen und die Risiken, die mit den Investitionen verbunden sind. Konkret wird die Strategie genutzt, die als Kelly-Kriterium bekannt ist, das darauf abzielt, das Wachstum des Vermögens zu maximieren und gleichzeitig die Wahrscheinlichkeit von Verlusten zu minimieren.

Getestete Algorithmustypen

Das Projekt testet fünf verschiedene DRL-Algorithmen, die in zwei Kategorien unterteilt werden können:

  1. Off-Policy-Algorithmen: Dazu gehören Deep Deterministic Policy Gradients (DDPG), Twin Delayed DDPG (TD3) und Soft Actor-Critic (SAC). Diese Algorithmen lernen aus vergangenen Erfahrungen, selbst wenn sie nicht das Ergebnis der aktuellen Strategie sind.

  2. On-Policy-Algorithmen: Dazu gehören Proximal Policy Optimization (PPO) und Advantage Actor-Critic (A2C). Diese Algorithmen lernen basierend auf den Strategien, die sie derzeit verwenden, wodurch sie effektiver auf die aktuellsten Erfahrungen reagieren können.

Wichtige Erkenntnisse

Leistungsvariabilität

Die Ergebnisse zeigten eine signifikante Variabilität in der Leistung der Algorithmen. Die On-Policy-Algorithmen, insbesondere PPO und A2C, konnten sich besser an laute Marktbedingungen anpassen als die Off-Policy-Algorithmen. Infolgedessen leiteten die On-Policy-Algorithmen Politiken ab, die näher an der optimalen Strategie lagen.

Rolle des Rauschens

Eine grosse Herausforderung während der Bewertung war die rauschhafte Natur der Marktbelohnungen. Wenn Algorithmen inkonsistente Ergebnisse vom simulierten Markt erhielten, behinderte das ihre Fähigkeit, optimale Strategien zu lernen. Die Off-Policy-Algorithmen hatten Schwierigkeiten, dies zu überwinden, da ihr Lernprozess stark auf vergangenen Daten basierte, die aufgrund von Rauschen irreführend sein konnten.

Im Gegensatz dazu hatten die On-Policy-Algorithmen Mechanismen wie die verallgemeinerte Vorteilsschätzung, um besser mit diesem Rauschen umzugehen. Das ermöglichte ihnen, über die Zeit verlässlichere Strategien zu lernen.

Der Clipping-Faktor

Eine wichtige Erkenntnis war die Bedeutung der Clipping-Funktion, die im PPO-Algorithmus verwendet wird. Diese Funktion hilft, den Lernprozess stabil zu halten, sodass der Algorithmus nicht zu weit von der optimalen Politik abweicht, sobald sie identifiziert ist. Stabilität im Lernen ist entscheidend, insbesondere in Finanzmärkten, in denen sich die Bedingungen schnell ändern können.

Marktregime

Um komplexere reale Szenarien zu simulieren, führte die Bewertung auch Regimewechsel im Markt ein. Regime beziehen sich auf unterschiedliche Marktbedingungen, wie z.B. bullishe (steigende Preise) und bearishe (fallende Preise) Zustände. Die Agenten wurden getestet, um zu sehen, ob sie ihre Strategien anpassen konnten, um in diesen sich verändernden Umgebungen gut abzuschneiden.

Die Tests zeigten, dass der PPO-Algorithmus mit einem versteckten Markov-Modell lernen konnte, seine Strategie an das aktuelle Marktregime anzupassen. Diese Anpassungsfähigkeit ist entscheidend für ein effektives Portfoliomanagement, da sie es Investoren ermöglicht, schnell auf sich ändernde Marktbedingungen zu reagieren.

Bedenken zur Stichprobeneffizienz

Trotz einiger positiver Ergebnisse war die allgemeine Stichprobeneffizienz dieser Algorithmen ein Anliegen. Die Algorithmen benötigten Millionen von Trainingsschritten, um effektive Strategien zu lernen, was einer unpraktischen Menge an Marktdaten entspricht. Diese Ineffizienz hebt eine bedeutende Herausforderung hervor, die sich aus der Anwendung von Deep-Learning-Techniken in der Finanzwelt ableitet. Es unterstreicht die Notwendigkeit, wie schnell diese Algorithmen lernen können, insbesondere da Finanzmärkte nur eine Realisierung von Ereignissen darstellen, ohne die Fähigkeit, für das Retraining zurückzusetzen.

Zukünftige Richtungen

Da das Feld der Anwendung von DRL in der Finanzwelt noch in Entwicklung ist, sind Forscher daran interessiert, Methoden zu erkunden, um die Effizienz des Trainings dieser Algorithmen zu steigern. Eine vorgeschlagene Richtung ist die Verwendung von synthetischen Daten, die von Modellen generiert wurden, die auf realen Finanzdaten trainiert wurden, was zusätzliches Trainingsmaterial bieten könnte, ohne ausschliesslich auf historische Daten angewiesen zu sein.

Zusammenfassend hat die Bewertung sowohl Stärken als auch Schwächen bei der Anwendung von Deep-Learning-Algorithmen auf Aufgaben des Portfoliomanagements aufgedeckt. Während On-Policy-Algorithmen vielversprechend im Umgang mit Herausforderungen durch rauschhafte Belohnungen und sich ändernde Marktbedingungen waren, bleibt die Notwendigkeit zur Verbesserung der Stichprobeneffizienz ein zentrales Anliegen. Weitere Forschungen in diesem Bereich könnten zu besseren Werkzeugen für Investoren führen, was die Entscheidungsfindung verbessert und potenziell zu höheren Renditen bei Investitionen führt.

Originalquelle

Titel: Evaluation of Deep Reinforcement Learning Algorithms for Portfolio Optimisation

Zusammenfassung: We evaluate benchmark deep reinforcement learning (DRL) algorithms on the task of portfolio optimisation under a simulator. The simulator is based on correlated geometric Brownian motion (GBM) with the Bertsimas-Lo (BL) market impact model. Using the Kelly criterion (log utility) as the objective, we can analytically derive the optimal policy without market impact and use it as an upper bound to measure performance when including market impact. We found that the off-policy algorithms DDPG, TD3 and SAC were unable to learn the right Q function due to the noisy rewards and therefore perform poorly. The on-policy algorithms PPO and A2C, with the use of generalised advantage estimation (GAE), were able to deal with the noise and derive a close to optimal policy. The clipping variant of PPO was found to be important in preventing the policy from deviating from the optimal once converged. In a more challenging environment where we have regime changes in the GBM parameters, we found that PPO, combined with a hidden Markov model (HMM) to learn and predict the regime context, is able to learn different policies adapted to each regime. Overall, we find that the sample complexity of these algorithms is too high, requiring more than 2m steps to learn a good policy in the simplest setting, which is equivalent to almost 8,000 years of daily prices.

Autoren: Chung I Lu

Letzte Aktualisierung: 2023-07-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2307.07694

Quell-PDF: https://arxiv.org/pdf/2307.07694

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel