Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico

Apprendimento per rinforzo per strategie di trading

Un nuovo metodo combina il reinforcement learning e modelli predittivi per fare trading nel mercato azionario malese.

― 6 leggere min


Apprendimento perApprendimento perrinforzo nel trading diazionil'IA e l'analisi predittiva.Una nuova strategia di trading che usa
Indice

L'uso del machine learning nel trading è cresciuto rapidamente. Di solito, l'apprendimento supervisionato aiuta a prevedere i prezzi futuri degli asset, guidando una strategia di trading. Funziona bene nei mercati attivi con costi bassi. Ma quando si tratta di mercati meno attivi o asset unici, la cosa diventa più complessa. Serve una visione a lungo termine, dato che cambiare posizioni può essere più difficile. Questo articolo parla di un nuovo metodo di trading che utilizza il Reinforcement Learning (RL) e un modello predittivo, testato con dati del mercato azionario malese.

Machine Learning nel Trading

Il machine learning, in particolare il deep learning, ha cambiato molti settori. In finanza, la previsione dei prezzi delle azioni ha ricevuto molta attenzione. L'obiettivo non è solo prevedere i prezzi, ma utilizzare queste previsioni per fare profitti. L'idea sembra semplice: comprare quando i prezzi sono destinati a salire e vendere quando si prevede che scendano. Ma fattori come l'attività di mercato e i costi di transazione creano ostacoli.

Combinare Approcci di Apprendimento

Questo studio presenta un metodo che unisce l'apprendimento supervisionato per la previsione dei prezzi con il reinforcement learning per il trading. Applichiamo un modello di deep learning per prevedere i movimenti azionari e un agente RL per decidere quando fare trading. Allenare questi modelli su set di dati separati e non sovrapposti migliora le loro prestazioni.

Cos'è il Reinforcement Learning?

Il Reinforcement Learning è un tipo di machine learning dove gli agenti imparano come agire in situazioni che cambiano, tramite tentativi ed errori, guidati da ricompense. Nel trading, l'RL mira a creare una strategia che massimizza i ritorni. Lavori precedenti hanno esplorato varie tecniche di RL per il trading azionario, inclusi sistemi multi-agente e deep reinforcement learning.

Ricerca Precedente

I primi studi sull'RL per il trading coinvolgevano più agenti che lavoravano insieme per massimizzare i profitti. Con l'evoluzione delle tecniche, il deep reinforcement learning ha guadagnato popolarità per la sua capacità di gestire dati complessi. Vari ricercatori hanno applicato metodi RL a compiti come la gestione del portafoglio e l'esecuzione degli ordini, mostrando una tendenza in cui il deep learning spesso supera i metodi tradizionali. Tuttavia, la capacità di questi modelli di prevedere con precisione rimane cruciale.

Il Nostro Approccio

Nel nostro metodo, abbiamo due fasi. Prima, alleniamo un modello per prevedere i movimenti dei prezzi delle azioni basandoci su dati storici. L'output di questo modello serve come input per la seconda fase, dove alleniamo un modello di reinforcement learning per decidere le azioni di trading. Questa configurazione permette di usare modelli e strategie di apprendimento distinti per ogni aspetto.

Fonti di Dati

I dati per questo studio provengono dal mercato azionario malese, con una storia di 30 giorni di fattori come i prezzi di chiusura e le medie mobili. Ogni punto dati è stato normalizzato con attenzione per garantire coerenza.

Modello di Previsione dei Prezzi

Utilizziamo una rete neurale GRU (Gated Recurrent Unit) per la previsione dei prezzi grazie alla sua efficacia nella gestione di dati temporali. Questo modello elabora l'input e produce previsioni sui prezzi di chiusura del giorno successivo. Dopo aver fatto le previsioni, le convertiamo in output binari che indicano se il prezzo dell'azione salirà o scenderà.

Sviluppo della Strategia con l'RL

Una volta previste le variazioni dei prezzi, il passo successivo è definire una strategia di trading usando il reinforcement learning. Simuliamo un ambiente in cui impostiamo i parametri per lo stato, l'azione e le ricompense coinvolte nel trading.

Impostazione dell'Ambiente

Nel nostro framework di trading, lo stato consiste nei movimenti previsti delle azioni. Le azioni rappresentano l'allocazione della ricchezza tra le azioni, mentre le ricompense considerano il cambiamento della ricchezza reale nel tempo. Impostiamo penalità per i ritorni negativi per limitare i comportamenti di trading rischiosi. L'algoritmo Proximal Policy Optimization (PPO) viene poi utilizzato per l'allenamento grazie alla sua stabilità.

Gestione dei Dati e Cross-Segmentation

Una delle sfide è il limitato numero di dati di allenamento disponibili per questo compito. Affrontiamo questo problema attraverso una tecnica chiamata cross-segmentation, dove creiamo due set di dati distinti. Il primo set di dati è usato per allenare il modello di previsione dei prezzi, mentre il secondo set è utilizzato per allenare l'agente RL. Questa separazione aiuta a prevenire l'overfitting e garantisce migliori prestazioni quando si generalizza a nuovi dati.

Impostazione Sperimentale

I nostri dati sono divisi in tre parti: allenamento, validazione e test. Il dataset di allenamento copre un periodo sostanziale, mentre i dataset di validazione e test assicurano che possiamo valutare le prestazioni del modello nel tempo. Testiamo varie configurazioni, incluso l'uso del set di dati completo rispetto alla segmentazione in trimestri o metà.

Ottimizzazione degli iperparametri

Per ottimizzare i nostri modelli, cerchiamo metodicamente i migliori iperparametri tramite un processo sistematico. Questo implica testare varie configurazioni per identificare quelle che offrono le migliori prestazioni sui dati di validazione. Il nostro criterio di valutazione si concentra sulla massimizzazione del rapporto di Sharpe, una misura comune in finanza.

Risultati

Dai nostri esperimenti, scopriamo che usare l'intero set di dati per allenare l'agente RL porta a risultati scadenti, soprattutto man mano che l'allenamento continua. Al contrario, l'uso della cross-segmentazione trimestrale si posiziona costantemente tra i migliori metodi, consentendo risultati più stabili. L'approccio trimestrale raggiunge anche alti rapporti di Sharpe nei test, superando altre strategie, comprese quelle più semplici di buy-and-hold.

Prestazione di Generalizzazione

Per valutare quanto bene i nostri modelli generalizzano, confrontiamo le prestazioni sui dati di test rispetto a quelli di allenamento. La strategia di cross-segmentazione trimestrale dimostra una superiorità nella generalizzazione, indicando che non solo performa bene sui dati storici, ma è anche efficace in circostanze impreviste.

Lavori Futuri

Ci sono diverse strade per migliorare le prestazioni dei nostri algoritmi di trading. Attualmente, le nostre previsioni sui prezzi si concentrano solo su una visione a un giorno. Incorporare previsioni a lungo termine potrebbe migliorare le decisioni di trading. Inoltre, sperimentare con reti oltre le GRU potrebbe fornire migliori segnali di prezzo, e utilizzare strutture di rete più avanzate per i componenti RL potrebbe ulteriormente migliorare le strategie di trading.

Conclusione

I nostri risultati suggeriscono che usare il reinforcement learning può creare efficacemente politiche di trading basate su modelli predittivi, anche in ambienti con costi di trading variabili. La cross-segmentazione dei dati migliora notevolmente le prestazioni degli algoritmi di trading. Con il progresso del settore, sarà essenziale continuare a perfezionare questi modelli ed esplorare tecniche nuove per raggiungere un maggiore successo nel trading e una migliore comprensione del mercato.

Fonte originale

Titolo: Data Cross-Segmentation for Improved Generalization in Reinforcement Learning Based Algorithmic Trading

Estratto: The use of machine learning in algorithmic trading systems is increasingly common. In a typical set-up, supervised learning is used to predict the future prices of assets, and those predictions drive a simple trading and execution strategy. This is quite effective when the predictions have sufficient signal, markets are liquid, and transaction costs are low. However, those conditions often do not hold in thinly traded financial markets and markets for differentiated assets such as real estate or vehicles. In these markets, the trading strategy must consider the long-term effects of taking positions that are relatively more difficult to change. In this work, we propose a Reinforcement Learning (RL) algorithm that trades based on signals from a learned predictive model and addresses these challenges. We test our algorithm on 20+ years of equity data from Bursa Malaysia.

Autori: Vikram Duvvur, Aashay Mehta, Edward Sun, Bo Wu, Ken Yew Chan, Jeff Schneider

Ultimo aggiornamento: 2023-07-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2307.09377

Fonte PDF: https://arxiv.org/pdf/2307.09377

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili