Valutare il Deep Learning per la gestione degli investimenti
Uno studio sugli algoritmi di deep learning per ottimizzare i portafogli di investimento.
― 5 leggere min
Questo articolo parla di un progetto che valuta algoritmi di deep learning per aiutare a gestire i portafogli di investimento. La gestione del portafoglio consiste nel decidere come distribuire il denaro tra diversi investimenti per massimizzare i rendimenti gestendo il rischio. Questa valutazione utilizza un ambiente simulato che imita il comportamento del mercato per testare quanto bene questi algoritmi si comportano.
Scopo del Progetto
L’obiettivo è vedere quanto siano efficaci vari algoritmi di deep reinforcement learning (DRL) nell’Ottimizzazione del portafoglio. In questo contesto, l’ottimizzazione del portafoglio significa trovare il modo migliore di allocare gli investimenti per massimizzare i rendimenti basandosi su determinate strategie. Gli algoritmi vengono testati usando una simulazione che riflette come si muovono i prezzi delle azioni nel mercato.
Configurazione della Simulazione
La simulazione si basa su alcuni modelli matematici che imitano i movimenti dei prezzi delle azioni. Considera tre azioni correlate insieme a un conto di cassa che guadagna interessi. I movimenti dei prezzi delle azioni sono modellati usando il movimento browniano geometrico (GBM), che è un metodo popolare per rappresentare i prezzi degli asset.
La simulazione include anche un modello di impatto di mercato che mostra come l'acquisto o la vendita influenzano i prezzi delle azioni. Quando un investitore compra una grande quantità di azioni, può far salire il prezzo, mentre la vendita può abbassarlo. Questo aspetto rende la simulazione più realistica rispetto a modelli più semplici che assumono che le transazioni non influenzino i prezzi.
Obiettivo degli Algoritmi
L’obiettivo principale di usare questi algoritmi è massimizzare la crescita del portafoglio di investimenti nel tempo. Il framework tiene conto dei potenziali rendimenti e dei rischi associati agli investimenti. Specificamente, la strategia utilizzata è nota come criterio di Kelly, che mira a massimizzare la crescita del patrimonio minimizzando le probabilità di perdite.
Tipi di Algoritmi Testati
Il progetto testa cinque diversi algoritmi DRL, che possono essere raggruppati in due categorie:
Algoritmi Off-Policy: Questi includono Deep Deterministic Policy Gradients (DDPG), Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Questi algoritmi imparano dalle esperienze passate, anche se non sono il risultato della strategia attuale in uso.
Algoritmi On-Policy: Questi includono Proximal Policy Optimization (PPO) e Advantage Actor-Critic (A2C). Questi algoritmi apprendono in base alle strategie che stanno attualmente usando, permettendo loro di reagire più efficacemente alle esperienze più recenti.
Risultati Chiave
Variabilità delle Prestazioni
I risultati hanno indicato una significativa variabilità nelle prestazioni tra gli algoritmi. Gli algoritmi on-policy, in particolare PPO e A2C, sono riusciti ad adattarsi meglio a condizioni di mercato rumorose rispetto agli algoritmi off-policy. Di conseguenza, gli algoritmi on-policy hanno elaborato politiche più vicine alla strategia ottimale.
Ruolo del Rumore
Una grande sfida affrontata durante la valutazione è stata la natura rumorosa dei premi di mercato. Quando gli algoritmi ricevevano risultati incoerenti dal mercato simulato, questo ostacolava la loro capacità di apprendere strategie ottimali. Gli algoritmi off-policy hanno faticato a superare questo problema perché il loro processo di apprendimento si basava molto sui dati passati, che potevano essere fuorvianti a causa del rumore.
Al contrario, gli algoritmi on-policy avevano meccanismi in atto, come la stima dell'avvantaggio generalizzato, per affrontare più efficacemente questo rumore. Questo ha permesso loro di apprendere strategie più affidabili nel tempo.
Il Fattore di Clipping
Una scoperta importante è stata l'importanza della funzione di clipping usata nell'algoritmo PPO. Questa funzione aiuta a mantenere stabile il processo di apprendimento, impedendo all'algoritmo di allontanarsi troppo dalla politica ottimale una volta identificata. La stabilità nell’apprendimento è cruciale, specialmente nei mercati finanziari dove le condizioni possono cambiare rapidamente.
Regimi di mercato
Per simulare scenari più complessi del mondo reale, la valutazione ha anche introdotto cambiamenti di regime nel mercato. I regimi si riferiscono a diverse condizioni di mercato, come stati rialzisti (prezzi in aumento) e ribassisti (prezzi in calo). Gli agenti sono stati messi alla prova per vedere se potevano adattare le loro strategie per ottenere buoni risultati in questi ambienti in cambiamento.
I test hanno mostrato che con un modello di Markov nascosto, l'algoritmo PPO poteva apprendere ad adattare la sua strategia secondo il regime di mercato attuale. Quest’adattabilità è essenziale per una gestione efficace del portafoglio, poiché consente agli investitori di rispondere rapidamente alle condizioni di mercato in cambiamento.
Preoccupazioni sull’Efficienza del Campione
Nonostante alcuni risultati positivi, l'efficienza complessiva del campione di questi algoritmi è stata una preoccupazione. Gli algoritmi hanno richiesto milioni di passaggi di addestramento per apprendere strategie efficaci, equivalenti a una quantità impraticabile di dati di mercato. Questa inefficienza evidenzia una sfida significativa nell'applicare tecniche di deep learning alla finanza. Sottolinea la necessità di miglioramenti nella rapidità con cui questi algoritmi possono apprendere, soprattutto perché i mercati finanziari presentano solo una realizzazione di eventi senza la possibilità di ripristinare per un nuovo addestramento.
Direzioni Future
Poiché il campo dell'uso del DRL nella finanza è ancora in sviluppo, i ricercatori sono desiderosi di esplorare metodi per aumentare l'efficienza dell'addestramento di questi algoritmi. Una direzione proposta è l'uso di dati sintetici generati da modelli allenati su dati finanziari reali, che potrebbero fornire materiale di addestramento aggiuntivo senza fare affidamento esclusivo su dati storici.
In sintesi, la valutazione ha rivelato sia punti di forza che di debolezza nell'applicazione degli algoritmi di deep learning ai compiti di gestione del portafoglio. Mentre gli algoritmi on-policy hanno mostrato promesse nell'adattarsi alle sfide poste da premi rumorosi e condizioni di mercato in cambiamento, la necessità di migliorare l'efficienza del campione rimane una preoccupazione chiave. La continua ricerca in quest'area potrebbe portare a strumenti migliori per gli investitori, migliorando il processo decisionale e potenzialmente portando a rendimenti più elevati sugli investimenti.
Titolo: Evaluation of Deep Reinforcement Learning Algorithms for Portfolio Optimisation
Estratto: We evaluate benchmark deep reinforcement learning (DRL) algorithms on the task of portfolio optimisation under a simulator. The simulator is based on correlated geometric Brownian motion (GBM) with the Bertsimas-Lo (BL) market impact model. Using the Kelly criterion (log utility) as the objective, we can analytically derive the optimal policy without market impact and use it as an upper bound to measure performance when including market impact. We found that the off-policy algorithms DDPG, TD3 and SAC were unable to learn the right Q function due to the noisy rewards and therefore perform poorly. The on-policy algorithms PPO and A2C, with the use of generalised advantage estimation (GAE), were able to deal with the noise and derive a close to optimal policy. The clipping variant of PPO was found to be important in preventing the policy from deviating from the optimal once converged. In a more challenging environment where we have regime changes in the GBM parameters, we found that PPO, combined with a hidden Markov model (HMM) to learn and predict the regime context, is able to learn different policies adapted to each regime. Overall, we find that the sample complexity of these algorithms is too high, requiring more than 2m steps to learn a good policy in the simplest setting, which is equivalent to almost 8,000 years of daily prices.
Autori: Chung I Lu
Ultimo aggiornamento: 2023-07-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.07694
Fonte PDF: https://arxiv.org/pdf/2307.07694
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.