Novos Métodos em Trading: Transformers de Decisão

Uma nova abordagem para estratégias de trading usando Transformers de Decisão e Aprendizado por Reforço Offline.

Índice

O Desafio do RL Offline
Apresentando os Transformers de Decisão
O Poder Superior do GPT-2
Experimentando com Dados Reais
Comparando Modelos
Resultados do Confronto
Entendendo os Resultados
Direções Futuras
Conclusão
Fonte original
Ligações de referência

Criar estratégias de trading vencedoras é muito importante pra empresas que querem lucrar mantendo os riscos lá embaixo. Antigamente, os traders confiavam nas próprias regras e características que eles criavam manualmente. Esse método nem sempre é flexível o suficiente pra acompanhar a rapidez e a complexidade do mercado.

Graças a uns gênios nerds, surgiu um novo método chamado Aprendizado por Reforço (RL). Esse termo chique significa que os sistemas podem aprender a tomar decisões de trading melhores ao interagir com o mercado. Porém, entrar em trading ao vivo usando RL pode ser arriscado e caro, como pular numa piscina de tubarões vestindo um traje de carne. Por isso, algumas pessoas espertas decidiram seguir um caminho mais seguro com o RL Offline, que significa aprender com dados de mercado passados sem arriscar grana de verdade.

O Desafio do RL Offline

O problema com os métodos de RL Offline existentes é que eles às vezes reagem demais a padrões passados, como uma criança mimada fazendo birra quando não ganha o brinquedo favorito. Além disso, os dados financeiros costumam ser complicados, com recompensas aparecendo de forma esporádica ou atrasadas. Os métodos tradicionais de RL Offline têm dificuldades em levar isso em conta, o que pode levar a decisões ruins, como comprar uma ação bem na hora que ela despenca.

Apresentando os Transformers de Decisão

Agora, vamos falar das coisas boas. Conheça o Transformer de Decisão (DT). Essa é uma forma de olhar o Aprendizado por Reforço como um problema de modelagem de sequência, o que significa focar na ordem das negociações e dos resultados. Imagine tentar prever o que vai acontecer a seguir em uma história – é isso que o DT faz, mas com trading.

O DT usa algo chamado Transformers. Pense nos Transformers como aqueles robôs high-tech do seu filme de ficção científica favorito, mas em vez de lutar em batalhas, eles ajudam a prever os movimentos do mercado. Eles analisam muitos dados, o que é importante pra entender padrões de longo prazo no mundo financeiro.

O Poder Superior do GPT-2

É aqui que a mágica acontece. Decidimos dar um up no nosso Transformer de Decisão, dando uma turbinada no cérebro dele. Pegamos um modelo de linguagem popular chamado GPT-2, que é como um robô super inteligente que entende linguagem, e deixamos ele compartilhar seu poder cerebral com nossa ferramenta de tomada de decisões. Assim, o modelo pode aprender com um tesouro de dados históricos pra tomar decisões de trading melhores.

Pra manter tudo eficiente e enxuto, usamos uma técnica chamada Adaptação de Baixa Classificação (LoRA). Pense na LoRA como um programa de emagrecimento para o nosso modelo - ela mantém o modelo robusto em forma, eliminando partes desnecessárias enquanto ainda permite que ele aprenda de forma eficaz.

Experimentando com Dados Reais

Para nosso grande teste, analisamos 29 ações do Dow Jones Industrial Average (DJIA) e conseguimos coletar dados de 2009 a 2021. Criando agentes de trading virtuais que se comportavam como traders experientes, fizemos com que eles tomassem decisões no nosso mercado simulado. Depois que eles aprenderam o caminho das pedras, pegamos suas ações e as usamos pra treinar nosso próprio modelo de Transformer de Decisão.

Comparando Modelos

Com nosso modelo pronto, queríamos medir sua capacidade de aprender estratégias de trading. Então, colocamos ele frente a frente com alguns algoritmos de RL Offline bem conhecidos pra ver como ele se saiu. Nossos concorrentes incluíam Conservative Q-Learning (CQL), Implicit Q-Learning (IQL) e Behavior Cloning (BC) – eles podem parecer personagens de uma fantasia medieval, mas na verdade são jogadores sérios no mundo do trading.

Pra garantir que as coisas fossem justas, asseguramos que todos os modelos tivessem um número semelhante de partes treináveis. Mais uma vez, treinamos nosso Transformer de Decisão com os poderosos pesos do GPT-2 e pesos inicializados aleatoriamente.

Resultados do Confronto

Quando fomos checar os resultados, vimos alguns resultados empolgantes. Nosso Transformer de Decisão, movido pelo GPT-2, se tornou um forte concorrente, muitas vezes superando os métodos tradicionais. Ele aprendeu a captar padrões complexos e não hesitou quando as recompensas eram escassas. Pense nele como seu amigo que consegue resolver um cubo de Rubik mesmo depois de esconder debaixo da cama por uma semana!

Em termos de métricas de desempenho, nosso modelo se destacou ao gerar retornos cumulativos mais altos enquanto mantinha um perfil de risco melhor que alguns especialistas. Enquanto isso, aqueles modelos tradicionais ficaram se coçando, se perguntando por que não se saíram tão bem.

Entendendo os Resultados

A grande lição ficou clara: nosso Transformer de Decisão, com seu background chique em processamento de linguagem, podia aprender eficientemente com trajetórias de especialistas de uma maneira que o impedia de ficar preso em eventos passados. Em outras palavras, ele não era como aquele amigo que fica contando a mesma história velha sobre como ele fez um gol uma vez; ele estava focado em tomar as melhores decisões daqui pra frente.

Direções Futuras

Enquanto celebrávamos nossas conquistas, também reconhecemos que ainda havia áreas a serem exploradas. Não mergulhamos fundo na ideia de combinar múltiplas trajetórias de especialistas, o que poderia ajudar a construir uma visão mais ampla dos padrões de trading.

Outra coisa que notamos foi que nosso modelo não forneceu explicações para suas decisões. Imagine ter um assistente pessoal que se recusa a explicar por que escolheu a gravata vermelha em vez da azul – frustrante, né? Assim, transformar escolhas de trading complexas em explicações em linguagem simples poderia ser uma aventura legal pra futuras pesquisas.

Generalizar nosso modelo para outros mercados e classes de ativos também parece uma ótima ideia. É como testar suas habilidades culinárias em diferentes cozinhas em vez de ficar só na lasanha. Além disso, há espaço pra explorar se versões maiores dos nossos modelos pré-treinados oferecem um desempenho ainda melhor.

Conclusão

Pra encerrar, mostramos que misturar um Transformer de Decisão com o GPT-2 e aproveitar a Adaptação de Baixa Classificação pode criar uma ferramenta eficaz para Aprendizado por Reforço Offline em trading quantitativo. Ele não só se garante contra métodos tradicionais, mas às vezes brilha mais que eles, valendo a pena para quem tá afim de impulsionar seu jogo de trading.

Enquanto olhamos pra frente, há muitos caminhos a seguir, desde aprender com múltiplos especialistas até fazer nossos modelos se explicarem. O futuro parece promissor, e quem sabe - talvez a gente esteja tomando um café com nossos robôs de trading em breve, discutindo os próximos grandes movimentos do mercado como se fosse só mais um dia no escritório!

Novos Métodos em Trading: Transformers de Decisão

O Desafio do RL Offline

Apresentando os Transformers de Decisão

O Poder Superior do GPT-2

Experimentando com Dados Reais

Comparando Modelos

Resultados do Confronto

Entendendo os Resultados

Direções Futuras

Conclusão

Ligações de referência

Tópicos referenciados

Artigos semelhantes

Novos Métodos em Trading: Transformers de Decisão

#O Desafio do RL Offline

#Apresentando os Transformers de Decisão

#O Poder Superior do GPT-2

#Experimentando com Dados Reais

#Comparando Modelos

#Resultados do Confronto

#Entendendo os Resultados

#Direções Futuras

#Conclusão

Ligações de referência

Tópicos referenciados

Artigos semelhantes

O Desafio do RL Offline

Apresentando os Transformers de Decisão

O Poder Superior do GPT-2

Experimentando com Dados Reais

Comparando Modelos

Resultados do Confronto

Entendendo os Resultados

Direções Futuras

Conclusão