Verstärkendes Lernen im Aktienhandel
Untersuchung der Leistung von Reinforcement-Learning-Strategien im Aktienhandel.
― 7 min Lesedauer
Inhaltsverzeichnis
Diese Arbeit untersucht, wie gut bestimmte Techniken des verstärkenden Lernens beim Handel mit Aktien abschneiden, insbesondere beim S&P 500-Index. Es werden drei Hauptmethoden getestet: Wertiteration (VI), Zustands-Aktions-Belohnungs-Zustands-Aktion (SARSA) und Q-Learning. Diese Methoden wurden mit Daten des Aktienmarkts trainiert und getestet, die von 2000 bis 2023 gesammelt wurden. Die Analyse konzentriert sich auf zwei unterschiedliche Zeitrahmen: einen, der die COVID-19-Pandemiejahre einbezieht, und einen anderen, der sie ausschliesst.
Die Ergebnisse zeigen, dass die Verwendung von Marktdaten aus der COVID-19-Zeit in den Trainingsdaten zu einer besseren Performance im Vergleich zu traditionellen Handelsstrategien geführt hat. Während des Tests schnitten die On-Policy-Methoden (VI und SARSA) besser ab als Q-Learning. Das hebt hervor, wie einfachere Modelle in unsicheren Situationen besser generalisieren können.
Das Projekt zielt darauf ab, die besten Handelssignale für den algorithmischen Handel zu finden und verschiedene Techniken des verstärkenden Lernens zu vergleichen. Speziell wird untersucht, wie man entscheidet, wann man Aktien kaufen oder verkaufen sollte, basierend auf den drei vorher genannten Methoden. Diese Methoden helfen dabei, die beste Handelsstrategie zu identifizieren, neben einer handgefertigten Politik für On-Policy-Methoden und einem lernbasierten Ansatz für die Off-Policy-Methode.
Nach dem Ausführen der Modelle auf einem ausgewählten Portfolio über mehrere Jahre Daten ist das Ziel, die Rendite der Investition (ROI) zu schätzen und sie mit dem S&P 500-Index zu vergleichen, der als Benchmark dient.
Wichtige Fragen
Diese aktualisierte Forschung zielt darauf ab, einige wichtige Fragen zu beantworten:
- Welche Methode des verstärkenden Lernens bietet eine bessere ROI und warum?
- Ist der Einsatz von verstärkendem Lernen eine bessere Strategie als einfach nur in den S&P 500 zu investieren? Unter welchen Umständen ist das wahr oder falsch?
- Welche Anpassungen können an den Einstellungen des Modells vorgenommen werden, um die ROI weiter zu verbessern?
Literaturübersicht
Im Bereich der On-Policy-Methoden haben Forscher Wertiteration zusammen mit der Bellman-Optimalitätsgleichung verwendet. Einige haben sich entschieden, die Bewertungen frühzeitig zu beenden, um das Training zu beschleunigen. Andere haben die Generalized Policy Iteration (GPI) genutzt, um optimale Handelsstrategien zu finden.
Off-Policy-Methoden, wie Q-Learning, haben ebenfalls an Aufmerksamkeit gewonnen. Studien haben gezeigt, dass die Kombination von Q-Learning und dem Durchschnittlichen Absoluten Fehler (MAD) traditionelle Methoden übertreffen kann. Einige haben sogar herausgefunden, dass Q-Learning besser abschneiden kann als einfache Kauf-und-Halte-Strategien.
Es gibt auch Arbeiten, die beide Ansätze kombinieren. Einige Forscher haben Algorithmen vorgeschlagen, die Strategien aus sowohl On-Policy- als auch Off-Policy-Methoden mischen, um bessere Ergebnisse als die Verwendung einer Methode allein zu erzielen.
Nach der Überprüfung früherer Forschungen hat sich dieses Projekt entschieden, sich auf den Handel mit Exchange-Traded Funds (ETFs), speziell dem SPY ETF, der den S&P 500 verfolgt, zu konzentrieren. Forscher haben Methoden untersucht, die Handelssignale basierend auf Belohnungen extrahieren, und Studien haben vielversprechende Ergebnisse gezeigt.
Für unser Projekt haben wir Daten über die Yahoo Finance API gesammelt, die eine einfache Möglichkeit bietet, Informationen zu sammeln. Wir haben uns auf die täglichen Eröffnungs-, Schluss-, Höchst- und Tiefstpreise von SPY von 1980 bis 2023 konzentriert, um unsere Handelstechniken anzuwenden.
Der S&P 500-Index ist bekannt, da er die allgemeinen Trends am Aktienmarkt widerspiegelt. Forscher haben versucht, algorithmische Methoden zu entwickeln, die Handelssignale besser bereitstellen können, als einfach nur in den S&P 500 zu investieren. Dieses Projekt zielt darauf ab zu bewerten, ob ein KI-Algorithmus dieses Ziel erreichen kann und ob er umsetzbare Erkenntnisse liefern kann.
Die Kauf-und-Halte-Strategie wird als Baseline-Vergleich dienen. Diese Strategie basiert auf dem Glauben, dass eine langfristige Investition im Allgemeinen vorteilhafter ist, als zu versuchen, den Markt zu timen.
Hauptansatz
Dieses Projekt wird die drei Strategien des verstärkenden Lernens auf SPY, einem ETF, der den S&P 500 verfolgt, implementieren und testen. Nur mit einem ETF zu arbeiten, ermöglicht es uns, klare Vergleiche zwischen allen drei Methoden ohne die Komplexität des Handels mit mehreren Aktien zu ziehen.
Für die On-Policy-Methoden (VI und SARSA) wird eine einfache Handelsregel befolgt:
- Wenn der Kaufpreis niedriger ist als der aktuelle Verkaufspreis, verkaufe zufällig einige Aktien.
- Wenn der Kaufpreis höher ist als der aktuelle Verkaufspreis, kaufe zufällig einige Aktien.
Der Off-Policy-Ansatz unter Verwendung von Q-Learning basiert nicht auf einer bestimmten Politik. Stattdessen lernt der Algorithmus durch seine Erfahrung mit den Daten und identifiziert wertvolle Handelsmöglichkeiten.
Der Datensatz wird für das Training und das Testen aufgeteilt:
- Training von 2000 bis 2021, Testen von 2021 bis heute.
- Training von 2000 bis 2016, Testen von 2016 bis heute.
Diese Methode wird uns helfen zu sehen, wie sich die Einbeziehung von COVID-19-Daten im Training auf die Modellperformance auswirkt.
Bewertungsmassstab
Um zu bewerten, wie gut die Handelsstrategien abschneiden, werden wir Gewinn und Verlust (PnL) als Hauptmass verwenden. Wir verfolgen den gesamten Gewinn oder Verlust über die Zeit, in der das Modell getestet wird, und stellen sicher, dass der Anfangsinvestitionsbetrag gleich bleibt. Tägliche und kürzere Zeitrahmen werden ebenfalls überwacht, um zu sehen, ob bestimmte Zeiträume bessere Ergebnisse liefern.
Ergebnisse und Analyse
Die Ergebnisse der Modelle, die von 2000 bis 2015 trainiert und ab 2016 getestet wurden, zeigen interessante Trends. Besonders Modelle, die ohne COVID-Daten trainiert wurden, schnitten schlecht ab, wenn diese Daten Teil des Testsatzes waren. Umgekehrt schnitten Modelle, die mit COVID-Daten trainiert wurden, während des Testens besser ab. Das deutet darauf hin, dass die ungewöhnlichen und unvorhersehbaren Marktbedingungen während COVID die Modelle auf bessere Entscheidungsfindung vorbereitet haben.
Im Vergleich der drei Lerntechniken sehen wir, dass einfache Prinzipien, die VI und SARSA antreiben, zuverlässige Leistungen unabhängig von den Marktbedingungen erzeugten. Auch wenn Q-Learning während des Trainings den höchsten Portfoliowert erzeugte, hatte es Schwierigkeiten während der Testphase.
Der Rückgang der Effektivität von Q-Learning kann auf seine Unfähigkeit zurückgeführt werden, sich nach Beginn des Tests anzupassen. Die einfacheren On-Policy-Methoden schnitten hingegen besser ab, weil sie sich auf feste Richtlinien stützten, wodurch sie besser generalisieren konnten.
Beide experimentellen Durchläufe fanden unter aktuellen Marktbedingungen statt, die möglicherweise nicht vollständig die zukünftige Stabilität widerspiegeln. Während sich die Wirtschaft erholt, steht sie immer noch vor vielen Herausforderungen durch die Pandemie.
Die Ergebnisse führen uns dazu, die ursprünglichen Fragen erneut zu betrachten:
- In Bezug auf ROI schneidet Q-Learning anfänglich während des Trainings besser ab, aber im Test zeigt SARSA die beste Leistung. Das könnte daran liegen, dass SARSA Entscheidungen basierend auf aktuellen Aktionen besser optimiert als die anderen.
- Das Halten des S&P 500 scheint während unvorhersehbarer Marktzeiten eine sicherere Wette zu sein. Währenddessen könnte verstärkendes Lernen in ruhigeren Marktphasen die bessere Wahl sein.
- Anpassungen könnten beinhalten, sich mehr auf kurzfristige Belohnungen zu konzentrieren, da sich das Marktverhalten über längere Zeiträume hinweg schwerer vorhersagen lässt.
Zukünftige Arbeiten
In Zukunft sind mehrere Experimente geplant. Das Team möchte versuchen, Q-Learning während des Tests zu aktualisieren, um zu sehen, ob das die Leistung verbessert. Dieser Ansatz, obwohl unkonventionell, könnte für verstärkendes Lernen sinnvoll sein.
Zusätzlich wäre es interessant, individuelle Aktien über SPY hinaus zu testen. Das könnte Einblicke bieten, wie gut die trainierten Politiken in unterschiedlichen Marktbedingungen abschneiden können.
Letztlich könnten wir auch andere wirtschaftliche Indikatoren berücksichtigen, abgesehen von Preisen, wie gleitende Durchschnitte und andere Kennzahlen. Diese Erkundung könnte neue Möglichkeiten bieten, um unsere Modelle zu trainieren und deren Leistung zu verbessern.
Finanzielle Haftungsausschluss
Die Ergebnisse und Erkenntnisse aus dieser Arbeit dienen allgemeinen Informationszwecken. Jeder, der Investitionsentscheidungen trifft, sollte seine eigene Recherche durchführen oder einen qualifizierten Finanzberater konsultieren. Investieren birgt Risiken, und jeder sollte seine Situation sorgfältig abwägen, bevor er Entscheidungen trifft.
Die Autoren übernehmen keinerlei Haftung für irgendwelche Handlungen, die auf Grundlage dieser Arbeit unternommen werden.
Titel: Evaluation of Reinforcement Learning Techniques for Trading on a Diverse Portfolio
Zusammenfassung: This work seeks to answer key research questions regarding the viability of reinforcement learning over the S&P 500 index. The on-policy techniques of Value Iteration (VI) and State-action-reward-state-action (SARSA) are implemented along with the off-policy technique of Q-Learning. The models are trained and tested on a dataset comprising multiple years of stock market data from 2000-2023. The analysis presents the results and findings from training and testing the models using two different time periods: one including the COVID-19 pandemic years and one excluding them. The results indicate that including market data from the COVID-19 period in the training dataset leads to superior performance compared to the baseline strategies. During testing, the on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the influence of bias-variance tradeoff and the generalization capabilities of simpler policies. However, it is noted that the performance of Q-learning may vary depending on the stability of future market conditions. Future work is suggested, including experiments with updated Q-learning policies during testing and trading diverse individual stocks. Additionally, the exploration of alternative economic indicators for training the models is proposed.
Autoren: Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera
Letzte Aktualisierung: 2024-02-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.03202
Quell-PDF: https://arxiv.org/pdf/2309.03202
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.