Apprendimento per rinforzo nel trading di azioni
Esaminando le performance delle strategie di reinforcement learning nel trading azionario.
― 7 leggere min
Questo lavoro esamina quanto bene certi metodi di apprendimento per rinforzo siano efficaci nel trading di azioni, in particolare sull'indice S&P 500. Sono stati testati tre metodi principali: Value Iteration (VI), State-action-reward-state-action (SARSA) e Q-learning. Questi metodi sono stati addestrati e testati con dati del mercato azionario raccolti tra il 2000 e il 2023. L'analisi si concentra su due diversi periodi temporali: uno che include gli anni della pandemia di COVID-19 e l'altro che li esclude.
I risultati hanno mostrato che usare i dati di mercato del periodo COVID-19 nell'addestramento ha portato a prestazioni migliori rispetto alle strategie di trading tradizionali. Durante i test, i metodi on-policy (VI e SARSA) hanno performato meglio del Q-Learning. Questo evidenzia come modelli più semplici possano generalizzare meglio in situazioni di incertezza.
Il progetto mira a capire i migliori segnali di trading per il trading algoritmico e confronta diverse tecniche di apprendimento per rinforzo. In particolare, si guarda a come decidere quando comprare o vendere azioni basandosi sui tre metodi menzionati in precedenza. I metodi aiutano a identificare la migliore strategia di trading, insieme a una politica progettata a mano per i metodi on-policy e un approccio basato sull'apprendimento per il metodo off-policy.
Dopo aver eseguito i modelli su un portafoglio scelto per vari anni di dati, l'obiettivo è stimare il ritorno sugli investimenti (ROI) e confrontarlo con l'indice S&P 500, che funge da benchmark.
Domande Chiave
Questa ricerca aggiornata mira a rispondere ad alcune domande importanti:
- Quale metodo di apprendimento per rinforzo fornisce un miglior ROI e perché?
- È meglio usare l'apprendimento per rinforzo rispetto a semplicemente detenere un investimento nell'S&P 500? In quali circostanze è vero o falso?
- Quali aggiustamenti possono essere fatti nelle impostazioni del modello per migliorare ulteriormente il ROI?
Revisione della Letteratura
Nel campo dei metodi on-policy, i ricercatori hanno usato Value Iteration insieme all'equazione di optimalità di Bellman. Alcuni hanno scelto di fermare presto le valutazioni per accelerare l'addestramento. Altri hanno usato il Generalized Policy Iteration (GPI) per trovare strategie di trading ottimali.
I metodi off-policy, come il Q-learning, hanno anche guadagnato attenzione. Gli studi hanno dimostrato che l'utilizzo di una combinazione di Q-learning e Deviazione Assoluta Media (MAD) può superare i metodi tradizionali. Alcuni hanno persino scoperto che il Q-learning può fare meglio delle semplici strategie di Buy-and-Hold.
Ci sono anche lavori che combinano entrambi gli approcci. Alcuni ricercatori hanno proposto algoritmi che mescolano strategie dei metodi on-policy e off-policy, ottenendo risultati migliori rispetto all'uso di un solo metodo.
Dopo aver esaminato le ricerche passate, questo progetto ha deciso di concentrarsi sul trading di Fondi Negoziazione (ETFS), specificamente l'ETF SPY, che traccia l'S&P 500. I ricercatori hanno esplorato metodi che estraggono segnali di trading basati su ricompense, e gli studi hanno mostrato risultati promettenti.
Per il nostro progetto, abbiamo raccolto dati utilizzando l'API di Yahoo Finance, offrendo un modo semplice per raccogliere informazioni. Ci siamo concentrati sui prezzi giornalieri di apertura, chiusura, massimo e minimo dello SPY dal 1980 al 2023 per applicare le nostre tecniche di trading.
L'indice S&P 500 è ben noto in quanto riflette le tendenze generali del mercato azionario. I ricercatori hanno cercato di creare metodi algoritmici in grado di fornire segnali di trading migliori rispetto al semplice mantenere l'S&P 500. Questo progetto mira a valutare se un algoritmo di intelligenza artificiale può raggiungere questo obiettivo e se può produrre intuizioni che siano attuabili.
La strategia Buy-and-Hold agirà come un paragone di base. Questa strategia si basa sulla convinzione che rimanere investiti nel tempo sia generalmente più vantaggioso rispetto a cercare di tempificare il mercato.
Approccio Principale
Questo progetto implementerà e testerà le tre strategie di apprendimento per rinforzo sullo SPY, un ETF che traccia l'S&P 500. Lavorare solo con un ETF ci consente di fare confronti chiari tra tutti e tre i metodi senza le complessità del trading di più azioni.
Per i metodi on-policy (VI e SARSA), viene seguita una semplice regola di trading:
- Se il prezzo di acquisto è inferiore al prezzo di vendita attuale, vendi casualmente alcune azioni.
- Se il prezzo di acquisto è superiore al prezzo di vendita attuale, compra casualmente alcune azioni.
L'approccio off-policy che utilizza il Q-learning non si basa su una politica specifica. Invece, l'algoritmo apprende attraverso la sua esperienza con i dati, identificando opportunità di trading preziose.
Il dataset è suddiviso per addestramento e testing:
- Addestramento dal 2000 al 2021, testing dal 2021 a oggi.
- Addestramento dal 2000 al 2016, testing dal 2016 a oggi.
Questo metodo ci aiuterà a vedere come includere i dati COVID-19 nell'addestramento influenzi le prestazioni del modello.
Metrica di Valutazione
Per valutare quanto bene performano le strategie di trading, useremo profitto e perdita (PnL) come misura principale. Tracceremo il profitto o la perdita totale durante il tempo in cui il modello è testato, assicurandoci che l'importo dell'investimento iniziale rimanga lo stesso. Verranno monitorati anche periodi più brevi per vedere se specifici periodi producono risultati migliori.
Risultati e Analisi
I risultati dei modelli addestrati dal 2000 al 2015 e testati dal 2016 in poi mostrano tendenze interessanti. In particolare, i modelli addestrati senza dati COVID hanno performato male quando quei dati erano parte del set di test. Al contrario, i modelli addestrati con dati COVID hanno performato meglio durante i test. Questo suggerisce che condizioni di mercato insolite e imprevedibili durante il COVID hanno preparato i modelli per una migliore presa di decisioni.
Confrontando le tre tecniche di apprendimento, vediamo che principi semplici che guidano VI e SARSA hanno prodotto prestazioni affidabili indipendentemente dalle condizioni di mercato. Anche se il Q-Learning ha generato il valore del portafoglio più alto durante l'addestramento, ha faticato durante la fase di test.
Il calo dell'efficacia del Q-Learning può essere attribuito alla sua incapacità di adattarsi una volta iniziato il testing. D'altra parte, i metodi on-policy più semplici hanno performato meglio perché si basavano su linee guida fisse, permettendo loro di generalizzare meglio.
Entrabili esperimenti sono stati condotti in condizioni di mercato attuali, che potrebbero non rappresentare pienamente la stabilità futura. Anche se l'economia si sta riprendendo, affronta ancora molte sfide a causa della pandemia.
I risultati ci portano a rivedere le domande originali:
- In termini di ROI, il Q-Learning inizialmente ha performato meglio durante l'addestramento, ma nei test, SARSA mostra la migliore prestazione. Questo potrebbe essere perché SARSA ottimizza le decisioni basate sulle azioni attuali meglio degli altri.
- Mantenere l'S&P 500 sembra essere una scommessa più sicura durante tempi di mercato imprevedibili. Nel frattempo, l'apprendimento per rinforzo potrebbe essere una scelta migliore durante periodi di mercato più tranquilli.
- Gli aggiustamenti potrebbero includere il concentrarsi maggiormente sui premi a breve termine, dato che il comportamento del mercato diventa più difficile da prevedere su linee temporali più lunghe.
Lavori Futuri
In avanti, sono pianificati diversi esperimenti. Il team vuole provare ad aggiornare il Q-Learning durante i test per vedere se ciò migliora le prestazioni. Questo approccio, sebbene non convenzionale, potrebbe avere senso per l'apprendimento per rinforzo.
Inoltre, sarebbe interessante testare azioni individuali oltre a SPY. Questo potrebbe offrire intuizioni su quanto bene le politiche addestrate possano performare in diverse condizioni di mercato.
Infine, potremmo considerare altri indicatori economici oltre al prezzo, come medie mobili e altre metriche. Questa esplorazione potrebbe fornire nuovi spunti per addestrare i nostri modelli e migliorare le loro prestazioni.
Dichiarazione Finanziaria
I risultati e le intuizioni di questo lavoro sono per conoscenza generale e fini informativi. Chiunque prenda decisioni di investimento dovrebbe fare le proprie ricerche o consultare un consulente finanziario qualificato. Investire comporta rischi, e ogni persona dovrebbe considerare attentamente la propria situazione prima di prendere decisioni.
Gli autori non saranno ritenuti responsabili per eventuali azioni intraprese sulla base di questo lavoro.
Titolo: Evaluation of Reinforcement Learning Techniques for Trading on a Diverse Portfolio
Estratto: This work seeks to answer key research questions regarding the viability of reinforcement learning over the S&P 500 index. The on-policy techniques of Value Iteration (VI) and State-action-reward-state-action (SARSA) are implemented along with the off-policy technique of Q-Learning. The models are trained and tested on a dataset comprising multiple years of stock market data from 2000-2023. The analysis presents the results and findings from training and testing the models using two different time periods: one including the COVID-19 pandemic years and one excluding them. The results indicate that including market data from the COVID-19 period in the training dataset leads to superior performance compared to the baseline strategies. During testing, the on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the influence of bias-variance tradeoff and the generalization capabilities of simpler policies. However, it is noted that the performance of Q-learning may vary depending on the stability of future market conditions. Future work is suggested, including experiments with updated Q-learning policies during testing and trading diverse individual stocks. Additionally, the exploration of alternative economic indicators for training the models is proposed.
Autori: Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera
Ultimo aggiornamento: 2024-02-10 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.03202
Fonte PDF: https://arxiv.org/pdf/2309.03202
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.