株取引における強化学習
株取引における強化学習戦略のパフォーマンスを調べる。
― 1 分で読む
この研究は、特定の強化学習技術が株式取引、特にS&P 500指数でどれだけうまく機能するかを見ています。主にテストされた方法は、価値反復(VI)、状態-行動-報酬-状態-行動(SARSA)、Q学習の3つです。これらの方法は、2000年から2023年までの株式市場データで訓練およびテストされました。分析は、COVID-19パンデミックの年を含む時間枠と含まない時間枠の2つに焦点を当てています。
結果は、COVID-19期間の市場データを訓練データに使用することで、従来の取引戦略と比較してパフォーマンスが向上したことを示しました。テスト中、オンポリシー手法(VIとSARSA)はQ学習よりも良い結果を出しました。これは、よりシンプルなモデルが不確実な状況でより一般化することができることを強調しています。
このプロジェクトは、アルゴリズム取引のための最良の取引シグナルを見つけることを目指しており、異なる強化学習手法を比較しています。具体的には、前述の3つの方法に基づいて株を買ったり売ったりする決定方法について見ています。これらの方法は、オンポリシー手法のための手作りポリシーや、オフポリシー手法のための学習ベースアプローチと共に、最高の取引戦略を特定するのに役立ちます。
選択したポートフォリオで数年間のデータを用いてモデルを実行した後、投資収益率(ROI)を推定し、S&P 500指数と比較することが目標です。
重要な質問
この更新された研究は、いくつかの重要な質問に答えることを目指しています:
- どの強化学習手法がより良いROIを提供し、その理由は?
- 強化学習を使用することは、S&P 500への投資を持ち続けるよりも良い戦略ですか?どんな状況でそれが真実で、どんな状況で違うの?
- モデルの設定をどのように調整すればさらにROIを改善できる?
文献レビュー
オンポリシー手法の分野では、研究者たちは価値反復とベルマン最適性方程式を一緒に使ってきました。一部は訓練を早く終わらせて評価を早めることを選択しました。他の研究者は、最適な取引戦略を見つけるために一般化ポリシー反復(GPI)を使用しました。
オフポリシー手法、例えばQ学習も注目を集めています。研究によると、Q学習と平均絶対偏差(MAD)の組み合わせを使用すると、従来の方法よりも優れた結果が得られることが示されています。一部は、Q学習がシンプルな買い持ち戦略よりも良いパフォーマンスを発揮できると報告しています。
両方のアプローチを組み合わせた研究もあります。一部の研究者は、オンポリシーとオフポリシー手法の戦略を組み合わせたアルゴリズムを提案し、どちらかの手法を単独で使用するよりも良い結果を得ています。
過去の研究をレビューした結果、このプロジェクトはS&P 500を追跡するSPY ETFの取引に焦点を当てることに決めました。研究者たちは報酬に基づいて取引シグナルを抽出する方法を探求しており、研究は有望な結果を示しています。
私たちのプロジェクトでは、Yahoo Finance APIを使ってデータを収集し、情報を集めやすくしています。1980年から2023年までのSPYの日次の始値、終値、高値、安値に焦点を当てて取引技術を適用しています。
S&P 500指数は株式市場全体のトレンドを反映していることで知られています。研究者たちは、単にS&P 500を持ち続けるよりも良い取引シグナルを提供できるアルゴリズム手法を作成しようとしています。このプロジェクトは、人工知能アルゴリズムがこの目標を達成できるか、行動可能な洞察を生み出せるかを評価することを目指しています。
買い持ち戦略は基準比較として機能します。この戦略は、時間をかけて投資を維持することが市場をタイミングを図るよりも一般的に有益であるという信念に基づいています。
主なアプローチ
このプロジェクトは、S&P 500を追跡するETFであるSPYに対して3つの強化学習戦略を実装およびテストします。1つのETFのみで作業することで、複数の株を取引する複雑さなしに、すべての方法を明確に比較できます。
オンポリシー手法(VIとSARSA)の場合、シンプルな取引ルールに従います:
- 購入価格が現在の販売価格よりも低い場合は、ランダムに一部の株を売ります。
- 購入価格が現在の販売価格よりも高い場合は、ランダムに一部の株を買います。
Q学習を使用したオフポリシーアプローチは、特定のポリシーに依存しません。代わりに、アルゴリズムはデータとの経験を通じて学び、貴重な取引機会を特定します。
データセットは訓練とテストのために分割されます:
- 2000年から2021年までの訓練、2021年から現在までのテスト。
- 2000年から2016年までの訓練、2016年から現在までのテスト。
この方法は、COVID-19データを訓練に含めることでモデルパフォーマンスにどのように影響するかを見るのに役立ちます。
評価指標
取引戦略がどれだけうまく機能するかを評価するために、利益と損失(PnL)を主要な指標として使用します。モデルがテストされた期間中の合計利益または損失を追跡し、開始投資額が同じであることを確認します。特定の期間がより良い結果をもたらすかどうかを見るために、日次および短い期間も監視します。
結果と分析
2000年から2015年までモデルを訓練し、2016年以降にテストした結果は興味深い傾向を示しています。特に、COVIDデータを含まない状態で訓練されたモデルは、そのデータがテストセットの一部であったときにパフォーマンスが悪化しました。一方で、COVIDデータで訓練されたモデルはテスト中により良い結果を出しました。これは、COVID中の異常で予測不可能な市場条件がモデルをより良い意思決定のために準備させたことを示唆しています。
3つの学習技術を比較すると、VIとSARSAを駆動するシンプルな原則が市場条件に関係なく信頼性のあるパフォーマンスを生んでいることがわかります。Q学習は訓練中に最高のポートフォリオ価値を生成しましたが、テスト段階では苦労しました。
Q学習の効果が落ちた理由は、テストを始めたときに適応できなかったからです。一方、シンプルなオンポリシー手法は、固定されたガイドラインに依存しているため、より良く一般化しました。
両方の実験ランは現在の市場条件で行われ、将来の安定性を完全に反映しているわけではないかもしれません。経済は回復していますが、パンデミックからの多くの課題に直面しています。
結果は、元の質問に立ち返ることを促します:
- ROIに関して、Q学習は最初は訓練中により良い結果を出しましたが、テストではSARSAが最も良いパフォーマンスを示しました。これは、SARSAが他の方法よりも現在の行動に基づいて意思決定を最適化しているからかもしれません。
- 不規則な市場の状況ではS&P 500を保持することが安全な賭けであるようです。一方、強化学習はより穏やかな市場の期間中により良い選択かもしれません。
- 調整には、長期のタイムラインでは市場の行動が予測しづらくなるため、近距離の報酬にもっと焦点を当てることが含まれるかもしれません。
今後の作業
今後、いくつかの実験が計画されています。チームは、テスト中にQ学習を更新して、パフォーマンスが向上するかどうかを試してみたいと考えています。このアプローチは珍しいものですが、強化学習にとっては意味があるかもしれません。
また、SPY以外の個別株をテストすることも興味深いでしょう。これは、訓練されたポリシーがさまざまな市場条件でどれだけよく機能するかについての洞察を提供するかもしれません。
最後に、価格以外の他の経済指標、移動平均やその他の指標を考慮することもできます。この探求は、モデルを訓練し、パフォーマンスを向上させる新しい角度を提供するかもしれません。
金融上の免責事項
この研究の結果と洞察は、一般的な知識と情報提供の目的のみとしています。投資判断を行う場合は、自分自身で調査を行うか、資格のあるファイナンシャルアドバイザーに相談してください。投資にはリスクが伴い、各自は慎重にご自身の状況を考慮してから決定を下すべきです。
著者は、この研究に基づいて行われた行動に対して責任を負いません。
タイトル: Evaluation of Reinforcement Learning Techniques for Trading on a Diverse Portfolio
概要: This work seeks to answer key research questions regarding the viability of reinforcement learning over the S&P 500 index. The on-policy techniques of Value Iteration (VI) and State-action-reward-state-action (SARSA) are implemented along with the off-policy technique of Q-Learning. The models are trained and tested on a dataset comprising multiple years of stock market data from 2000-2023. The analysis presents the results and findings from training and testing the models using two different time periods: one including the COVID-19 pandemic years and one excluding them. The results indicate that including market data from the COVID-19 period in the training dataset leads to superior performance compared to the baseline strategies. During testing, the on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the influence of bias-variance tradeoff and the generalization capabilities of simpler policies. However, it is noted that the performance of Q-learning may vary depending on the stability of future market conditions. Future work is suggested, including experiments with updated Q-learning policies during testing and trading diverse individual stocks. Additionally, the exploration of alternative economic indicators for training the models is proposed.
著者: Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera
最終更新: 2024-02-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.03202
ソースPDF: https://arxiv.org/pdf/2309.03202
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。