Nuevos Métodos en Trading: Transformadores de Decisiones

Un enfoque nuevo para las estrategias de trading usando Transformers de Decisión y Aprendizaje por Refuerzo Offline.

Tabla de contenidos

El Desafío con Offline RL
Presentando a los Decision Transformers
El Poder Superior de GPT-2
Experimentando con Datos Reales
Comparando Modelos
Resultados del Enfrentamiento
Entendiendo los Resultados
Direcciones Futuras
Conclusión
Fuente original
Enlaces de referencia

Crear estrategias de trading ganadoras es súper importante para las empresas que quieren hacer dinero mientras mantienen los riesgos bajos. En los viejos tiempos, los traders se basaban en sus propias reglas y características que creaban a mano. Este método no siempre es lo suficientemente flexible para seguir el ritmo de lo rápido y complicado que puede ser el mercado.

Gracias a unos genios frikis, hay un nuevo jugador en la escena llamado Reinforcement Learning (RL). Este término tan elegante significa que los sistemas pueden aprender a tomar mejores decisiones de trading interactuando con el mercado. Sin embargo, lanzarse a hacer trading en vivo usando RL puede ser arriesgado y costoso, como zambullirse en una piscina llena de tiburones con un traje de carne. Por esta razón, algunas personas inteligentes decidieron optar por un camino más seguro con Offline RL, que significa aprender de datos de mercado pasados sin arriesgar dinero real.

El Desafío con Offline RL

El problema con los métodos de Offline RL existentes es que a veces reaccionan exageradamente a patrones pasados, como un niño pequeño y malcriado haciendo una rabieta cuando no consigue su juguete favorito. Además, los datos financieros son a menudo complicados, con recompensas apareciendo de forma esporádica o con retrasos. Los métodos tradicionales de Offline RL luchan para tener esto en cuenta, lo que puede llevar a decisiones malas, como comprar una acción justo cuando se desploma.

Presentando a los Decision Transformers

Ahora vamos a lo interesante. Conoce al Decision Transformer (DT). Esta es una forma de ver el Reinforcement Learning como un problema de modelado de secuencias, lo que significa enfocarse en el orden de las operaciones y los resultados. Imagina intentar predecir qué pasa después en una historia; eso es lo que hace DT, pero con trading.

DT utiliza algo llamado Transformers. Piensa en los Transformers como esos robots de alta tecnología de tu película de ciencia ficción favorita, pero en lugar de pelear batallas, están ayudando a predecir movimientos del mercado. Analizan un montón de datos, que son importantes para entender patrones a largo plazo en el mundo financiero.

El Poder Superior de GPT-2

Aquí es donde sucede la magia. Decidimos darle un empujón a nuestro Decision Transformer dándole un “boost” cerebral. Tomamos un modelo de lenguaje popular llamado GPT-2, que es como un robot súper inteligente que entiende el lenguaje, y le dejamos compartir su poder cerebral con nuestra herramienta de toma de decisiones. De esta manera, el modelo puede aprender de un tesoro de datos históricos para tomar mejores decisiones de trading.

Para que todo sea eficiente y ligero, usamos una técnica llamada Low-Rank Adaptation (LoRA). Piensa en LoRA como en un programa de control de peso para nuestro modelo: mantiene el modelo pesado en forma eliminando partes innecesarias mientras aún le permite aprender de forma efectiva.

Experimentando con Datos Reales

Para nuestra gran prueba, miramos 29 acciones en el Dow Jones Industrial Average (DJIA) y logramos recopilar datos desde 2009 hasta 2021. Creando agentes de trading virtuales que se comportaban como traders expertos, les hicimos tomar decisiones en nuestro mercado simulado. Una vez que aprendieron lo básico, tomamos sus acciones y las usamos para entrenar nuestro propio modelo de Decision Transformer.

Comparando Modelos

Con nuestro modelo listo para funcionar, queríamos medir su capacidad de aprender estrategias de trading. Así que lo pusimos cara a cara con algunos algoritmos de Offline RL bien conocidos para ver cómo se desempeñaba. Nuestros contendientes incluyeron Conservative Q-Learning (CQL), Implicit Q-Learning (IQL) y Behavior Cloning (BC); pueden sonar como personajes de una fantasía medieval, pero en realidad son jugadores serios en el mundo del trading.

Para que todo fuera justo, aseguramos que todos los modelos tuvieran un número similar de partes entrenables. Nuevamente, entrenamos nuestro Decision Transformer con los poderosos pesos de GPT-2 y pesos inicializados aleatoriamente.

Resultados del Enfrentamiento

Cuando revisamos los resultados, vimos algunos resultados emocionantes. Nuestro Decision Transformer, impulsado por GPT-2, se convirtió en un fuerte competidor, superando a menudo los métodos tradicionales. Aprendió a captar patrones complejos y no se echó atrás cuando las recompensas eran escasas. Piensa en él como tu amigo que aún puede resolver un cubo Rubik incluso después de haberlo escondido bajo su cama durante una semana.

En términos de métricas de rendimiento, nuestro modelo se destacó generando mayores rendimientos acumulativos mientras mantenía un perfil de riesgo mejor que algunos de los expertos. Mientras tanto, esos modelos tradicionales se quedaron rascándose la cabeza, preguntándose por qué no les fue tan bien.

Entendiendo los Resultados

La gran lección fue clara: nuestro Decision Transformer, con su elegante formación en procesamiento de lenguaje, podía aprender de manera eficiente de trayectorias expertas sin dejarse llevar demasiado por eventos pasados. En otras palabras, no era como tu amigo que sigue contando la misma historia vieja sobre cómo marcó un gol una vez; estaba enfocado en tomar las mejores decisiones hacia adelante.

Direcciones Futuras

Mientras celebrábamos nuestros logros, también reconocimos que aún había áreas por explorar. No profundizamos mucho en la idea de combinar múltiples trayectorias expertas, lo que podría ayudar a construir una visión más amplia de los patrones de trading.

Otra cosa que notamos fue cómo nuestro modelo no proporcionó explicaciones para sus decisiones. Imagina tener un asistente personal que se niega a explicar por qué eligió la corbata roja en lugar de la azul; frustrante, ¿verdad? Así que convertir decisiones complejas de trading en explicaciones en lenguaje claro podría ser una aventura divertida para futuras investigaciones.

Generalizar nuestro modelo a otros mercados y clases de activos también suena como una gran idea. Es como probar tus habilidades de cocina en diferentes cocinas en lugar de ceñirte solo a los espaguetis. Además, hay espacio para explorar si versiones más grandes de nuestros modelos preentrenados ofrecen un rendimiento aún mejor.

Conclusión

Para concluir, hemos mostrado que combinar un Decision Transformer con GPT-2 y aprovechar la Low-Rank Adaptation puede crear una herramienta efectiva para el Reinforcement Learning Offline en trading cuantitativo. No solo se defiende frente a métodos tradicionales, sino que a veces los eclipsa, lo que vale la pena para cualquiera que quiera mejorar su juego de trading.

A medida que miramos hacia adelante, hay muchos caminos a seguir, desde aprender de múltiples expertos hasta hacer que nuestros modelos hablen con explicaciones. ¡El futuro se ve prometedor, y quién sabe, tal vez pronto estaremos tomando un café con nuestros bots de trading, discutiendo los próximos grandes movimientos del mercado como si fuera solo otro día en la oficina!

Nuevos Métodos en Trading: Transformadores de Decisiones

El Desafío con Offline RL

Presentando a los Decision Transformers

El Poder Superior de GPT-2

Experimentando con Datos Reales

Comparando Modelos

Resultados del Enfrentamiento

Entendiendo los Resultados

Direcciones Futuras

Conclusión

Enlaces de referencia

Temas referenciados

Artículos similares

Nuevos Métodos en Trading: Transformadores de Decisiones

#El Desafío con Offline RL

#Presentando a los Decision Transformers

#El Poder Superior de GPT-2

#Experimentando con Datos Reales

#Comparando Modelos

#Resultados del Enfrentamiento

#Entendiendo los Resultados

#Direcciones Futuras

#Conclusión

Enlaces de referencia

Temas referenciados

Artículos similares

El Desafío con Offline RL

Presentando a los Decision Transformers

El Poder Superior de GPT-2

Experimentando con Datos Reales

Comparando Modelos

Resultados del Enfrentamiento

Entendiendo los Resultados

Direcciones Futuras

Conclusión