Aprendizado por Reforço em Negociação de Ações
Analisando o desempenho de estratégias de aprendizado por reforço na bolsa.
― 8 min ler
Esse trabalho analisa como certas técnicas de aprendizado por reforço se saem ao negociar ações, especialmente no índice S&P 500. Três métodos principais são testados: Iteração de Valor (VI), Estado-ação-recompensa-estado-ação (SARSA) e Q-learning. Esses métodos foram treinados e testados com dados do mercado de ações coletados entre 2000 e 2023. A análise se concentra em dois períodos diferentes: um que inclui os anos da pandemia de COVID-19 e outro que não.
Os resultados mostraram que usar dados de mercado do período COVID-19 no treinamento levou a um desempenho melhor em comparação com estratégias de negociação tradicionais. Durante os testes, os métodos on-policy (VI e SARSA) tiveram um desempenho melhor que o Q-Learning. Isso destaca como modelos mais simples conseguem generalizar melhor em situações incertas.
O projeto tem como objetivo descobrir quais são os melhores sinais de negociação para a negociação algorítmica e compara diferentes técnicas de aprendizado por reforço. Especificamente, olha como decidir quando comprar ou vender ações com base nos três métodos mencionados. Os métodos ajudam a identificar a melhor estratégia de negociação, junto com uma política desenhada manualmente para métodos on-policy e uma abordagem baseada em aprendizado para o método off-policy.
Depois de rodar os modelos em um portfólio escolhido durante vários anos de dados, o objetivo é estimar o retorno sobre o investimento (ROI) e comparar com o índice S&P 500, que serve como uma referência.
Questões Principais
Essa pesquisa atualizada busca responder algumas perguntas importantes:
- Qual método de aprendizado por reforço oferece um ROI melhor, e por quê?
- Usar aprendizado por reforço é uma estratégia melhor do que simplesmente manter um investimento no S&P 500? Sob quais circunstâncias isso é verdadeiro ou falso?
- Quais ajustes podem ser feitos nas configurações do modelo para melhorar ainda mais o ROI?
Revisão da Literatura
No campo dos métodos on-policy, os pesquisadores usaram Iteração de Valor junto com a equação de otimalidade de Bellman. Alguns optaram por encerrar as avaliações mais cedo para acelerar o treinamento. Outros usaram Iteração de Política Generalizada (GPI) para encontrar estratégias de negociação ótimas.
Métodos off-policy, como Q-learning, também ganharam atenção. Estudos mostraram que usar uma combinação de Q-learning e Desvio Absoluto Médio (MAD) pode superar métodos tradicionais. Alguns até descobriram que Q-learning pode se sair melhor do que estratégias simples de Comprar e Manter.
Há também trabalho que combina ambas as abordagens. Alguns pesquisadores propuseram algoritmos que misturam estratégias de métodos on-policy e off-policy, alcançando resultados melhores do que usar apenas um dos métodos sozinhos.
Depois de revisar pesquisas anteriores, este projeto decidiu focar na negociação de Fundos Negociados em Bolsa (ETFs), especificamente o ETF SPY, que acompanha o S&P 500. Os pesquisadores exploraram métodos que extraem sinais de negociação com base em recompensas, e estudos mostraram resultados promissores.
Para nosso projeto, coletamos dados usando a API do Yahoo Finance, proporcionando uma maneira fácil de reunir informações. Focamos nos preços diários de Abertura, Fechamento, Máxima e Mínima do SPY de 1980 a 2023 para aplicar nossas técnicas de negociação.
O índice S&P 500 é bem conhecido, pois reflete as tendências gerais do mercado de ações. Pesquisadores tentaram criar métodos algorítmicos que possam fornecer sinais de negociação melhores do que simplesmente manter o S&P 500. Este projeto tem como objetivo avaliar se um algoritmo de inteligência artificial pode alcançar esse objetivo e se pode produzir insights que sejam acionáveis.
A estratégia Comprar e Manter servirá como uma comparação base. Essa estratégia se baseia na crença de que permanecer investido ao longo do tempo é, em geral, mais benéfico do que tentar cronometrar o mercado.
Abordagem Principal
Este projeto irá implementar e testar as três estratégias de aprendizado por reforço no SPY, um ETF que acompanha o S&P 500. Trabalhar apenas com um ETF permite fazer comparações claras entre os três métodos sem as complexidades de negociar várias ações.
Para os métodos on-policy (VI e SARSA), uma regra de negociação simples é seguida:
- Se o preço de compra for menor que o preço de venda atual, venda aleatoriamente algumas ações.
- Se o preço de compra for maior que o preço de venda atual, compre aleatoriamente algumas ações.
A abordagem off-policy usando Q-learning não depende de uma política específica. Em vez disso, o algoritmo aprende através de sua experiência com os dados, identificando oportunidades de negociação valiosas.
O conjunto de dados é dividido para treinamento e teste:
- Treinamento de 2000 a 2021, teste de 2021 até o presente.
- Treinamento de 2000 a 2016, teste de 2016 até o presente.
Esse método nos ajudará a ver como a inclusão de dados da COVID-19 no treinamento influencia o desempenho do modelo.
Métrica de Avaliação
Para avaliar quão bem as estratégias de negociação se saem, usaremos lucro e perda (PnL) como a principal medida. Vamos acompanhar o lucro ou perda total durante o tempo em que o modelo é testado, garantindo que o valor do investimento inicial permaneça o mesmo. Períodos diários e mais curtos também serão monitorados para ver se períodos específicos geram melhores resultados.
Resultados e Análise
Os resultados do treinamento dos modelos de 2000 a 2015 e teste a partir de 2016 mostram tendências interessantes. Notavelmente, os modelos treinados sem dados da COVID se saíram mal quando esses dados estavam no conjunto de teste. Por outro lado, os modelos treinados com dados da COVID tiveram um desempenho melhor durante os testes. Isso sugere que as condições de mercado incomuns e imprevisíveis durante a COVID prepararam os modelos para uma melhor tomada de decisão.
Ao comparar as três técnicas de aprendizado, vemos que princípios simples que impulsionam o VI e o SARSA produziram um desempenho confiável, independentemente das condições do mercado. Embora o Q-Learning tenha gerado o maior valor de portfólio durante o treinamento, teve dificuldades durante a fase de teste.
A queda na eficácia do Q-Learning pode ser atribuída à sua incapacidade de se adaptar uma vez que o teste começou. Por outro lado, os métodos on-policy mais simples tiveram um desempenho melhor porque se basearam em diretrizes fixas, permitindo que eles generalizassem melhor.
Ambas as execuções experimentais foram realizadas em condições atuais de mercado, que podem não representar totalmente a estabilidade futura. Embora a economia esteja se recuperando, ainda enfrenta muitos desafios decorrentes da pandemia.
Os resultados nos levam a revisar as perguntas originais:
- Em termos de ROI, o Q-Learning inicialmente se sai melhor durante o treinamento, mas durante os testes, o SARSA mostra o melhor desempenho. Isso pode ser porque o SARSA otimiza decisões com base nas ações atuais melhor do que os outros.
- Manter o S&P 500 parece ser uma aposta mais segura durante tempos de mercado imprevisíveis. Enquanto isso, o aprendizado por reforço pode ser uma melhor escolha durante períodos de mercado mais calmos.
- Ajustes poderiam incluir focar mais em recompensas de curto prazo, dado que o comportamento do mercado se torna mais difícil de prever ao longo de prazos mais longos.
Trabalho Futuro
Para frente, vários experimentos estão planejados. A equipe quer tentar atualizar o Q-Learning durante os testes para ver se isso melhora o desempenho. Essa abordagem, embora não convencional, pode fazer sentido para o aprendizado por reforço.
Além disso, seria interessante testar ações individuais além do SPY. Isso poderia oferecer insights sobre quão bem as políticas treinadas podem se sair em diferentes condições de mercado.
Por fim, poderíamos considerar outros indicadores econômicos além do preço, como médias móveis e outras métricas. Essa exploração pode oferecer novas perspectivas para treinar nossos modelos e melhorar seu desempenho.
Isenção Financeira
Os resultados e insights deste trabalho são para conhecimento geral e fins informativos. Qualquer um que tomar decisões de investimento deve fazer sua própria pesquisa ou consultar um conselheiro financeiro qualificado. Investir envolve riscos, e cada pessoa deve considerar sua situação cuidadosamente antes de tomar qualquer decisão.
Os autores não serão responsabilizados por quaisquer ações tomadas com base neste trabalho.
Título: Evaluation of Reinforcement Learning Techniques for Trading on a Diverse Portfolio
Resumo: This work seeks to answer key research questions regarding the viability of reinforcement learning over the S&P 500 index. The on-policy techniques of Value Iteration (VI) and State-action-reward-state-action (SARSA) are implemented along with the off-policy technique of Q-Learning. The models are trained and tested on a dataset comprising multiple years of stock market data from 2000-2023. The analysis presents the results and findings from training and testing the models using two different time periods: one including the COVID-19 pandemic years and one excluding them. The results indicate that including market data from the COVID-19 period in the training dataset leads to superior performance compared to the baseline strategies. During testing, the on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the influence of bias-variance tradeoff and the generalization capabilities of simpler policies. However, it is noted that the performance of Q-learning may vary depending on the stability of future market conditions. Future work is suggested, including experiments with updated Q-learning policies during testing and trading diverse individual stocks. Additionally, the exploration of alternative economic indicators for training the models is proposed.
Autores: Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera
Última atualização: 2024-02-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.03202
Fonte PDF: https://arxiv.org/pdf/2309.03202
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.