Desarrollando un Modelo de Lenguaje Financiero Tailandés

Creando un modelo especializado para las finanzas tailandesas a través de técnicas innovadoras.

Tabla de contenidos

El Auge de los Modelos de Lenguaje Grande
Llenando el Vacío
Cómo Lo Hicimos
Construyendo el Modelo
Mejora del Entrenamiento
Un Resumen Rápido de Nuestro Trabajo
LLMs en el Dominio Financiero
¿Qué es el Examen de Licencia de Consultor de Inversiones?
Producto Básico (P1)
Producto Complejo 1 (P2)
Producto Complejo 2 (P3)
La Maquinaria Detrás de ReLoRA
Preparando los Datos
Desglosándolo
Augmentación de Datos Inteligente
Augmentación de Datos Auto-Supervisada
Augmentación de Prompts de Múltiples Sistemas
Mezcla de Opciones Múltiples
Generación de Respuestas Multi-LLM
Generación de Preguntas-Respuestas desde Markdown
Optimizando el Modelo
Preentrenamiento Continuo
Ajuste Fine Supervisado
Optimización de Preferencias Directas
Configuración Experimental
Conjunto de Datos de Entrenamiento
Práctica de Examen Público para Consultores de Inversión
Resultados
Conclusión
Agradecimientos
Fuente original

Los Modelos de Lenguaje Grande (LLMs) son los superhéroes de las tareas de texto. Pueden manejar muchas cosas bien. Sin embargo, cuando se trata de campos específicos como las finanzas, se tropiezan con jerga complicada y reglas locales. Modelos como FinGPT y BloombergGPT no están hechos para la escena financiera tailandesa. No saben cómo lidiar con el lenguaje financiero local.

Para solucionar esto, hemos creado un LLM financiero tailandés especial usando preguntas de examen del examen de Consultor de Inversiones en Tailandia. Dado que nuestro conjunto de datos era más pequeño de lo que nos gustaría, lo mejoramos con algunos trucos como la augmentación de datos, ReLoRA para un entrenamiento rápido, y algunos otros para que entendiera mejor las finanzas tailandesas. Hicimos que el modelo pasara exámenes simulados para ver cómo se desempeñaba, y lo hizo bastante bien, sacando 72% en sus primeros dos niveles y 84% en el tercero.

El Auge de los Modelos de Lenguaje Grande

En los últimos años, los LLMs han mejorado bastante en muchas tareas, especialmente en conversaciones. Estos modelos aprenden cosas generales de mucho texto. Una de las estrellas de este show es Llama 3.1. Ha estado sobresaliendo en tareas de conversación sin necesidad de una hoja de trucos.

Pero aquí está el detalle: los LLMs pueden tener problemas con términos especializados en ciertos campos. Se pierden al enfrentarse a la jerga financiera, que es algo que realmente necesitamos en finanzas. Necesitan entender el significado detrás de términos complejos y cálculos, todo mientras siguen reglas locales. ¡Pero no te preocupes!

Modelos más nuevos, como FinGPT y BloombergGPT, están subiendo su juego. Sin embargo, no entienden del todo el panorama financiero tailandés. Hay un vacío que necesita llenarse.

Llenando el Vacío

Vimos este vacío y pensamos, "¿Por qué no construir un modelo que realmente entienda las finanzas tailandesas?" Así que tomamos el examen de Consultor de Inversiones de la Bolsa de Tailandia para usarlo como nuestro terreno de entrenamiento. Pero como estábamos trabajando con un conjunto de datos pequeño, nos lanzamos a la augmentación de datos. Este truco mágico multiplica nuestros datos para hacer que nuestro modelo sea más inteligente.

Usamos un método llamado ReLoRA para hacer el entrenamiento más rápido y eficiente. Además, diseñamos dos sesiones de entrenamiento especiales para preparar al modelo para situaciones de examen reales. Los resultados fueron impresionantes: ¡nuestro modelo aprobó con excelentes resultados!

Cómo Lo Hicimos

Construyendo el Modelo

Empezamos desde cero y construimos un modelo de lenguaje centrado en el dominio financiero tailandés. Para variar, tomamos el conjunto de datos del examen de Consultor de Inversiones y añadimos más datos a través de técnicas inteligentes de augmentación.

Mejora del Entrenamiento

Facilitamos el aprendizaje del modelo usando ReLoRA. Esta técnica nos permite entrenar modelos grandes más rápido y mantenerlos fuertes. Al usar un preentrenamiento continuo, aseguramos que el modelo estuviera bien versado en los conceptos básicos de finanzas antes de profundizar en temas específicos. Y para el ajuste fino, usamos LoRA Estabilizado por Rango, que es solo una forma elegante de decir que mantuvimos las cosas estables mientras hacíamos mejoras.

También creamos dos formas de entrenar: una que simulaba condiciones de examen reales y otra que ayudaba al modelo a aprender de sus errores. Con estas estrategias, nuestro modelo se ajustó para enfrentar cualquier pregunta que se le presentara.

Un Resumen Rápido de Nuestro Trabajo

Desarrollo del LLM Financiero Tailandés: Creamos un modelo solo para finanzas tailandesas usando el examen de Consultor de Inversiones.
Augmentación de Datos: Empleamos técnicas para aumentar nuestro conjunto de datos limitado, haciendo nuestro modelo más inteligente.
Entrenamiento Eficiente: Usamos ReLoRA para aprovechar al máximo nuestro tiempo y recursos de entrenamiento mientras asegurábamos que el modelo aprendiera de manera efectiva.
Simulación de Exámenes y Retroalimentación: Creamos un ambiente de examen realista y usamos retroalimentación para mejorar continuamente el modelo.

Con estas técnicas combinadas, creamos un LLM que puede enfrentar preguntas de asesoría financiera como un pro.

LLMs en el Dominio Financiero

Los LLMs son útiles para tareas financieras ya que pueden manejar diferentes desafíos lingüísticos. Cada modelo tiene sus fortalezas, como soportar múltiples idiomas o ser rápido. Pero no es suficiente. Necesitan adaptarse para ajustarse a las necesidades específicas del mundo financiero.

Algunos modelos como FinBERT se enfocan únicamente en el análisis de sentimientos dentro de textos financieros. FLUE y su versión FLANG-BERT actúan como puntos de referencia para la comprensión financiera. BloombergGPT tiene tesoros de datos financieros para sobresalir en tareas financieras, mientras que FinGPT se centra en hacer las finanzas más accesibles a través de técnicas de código abierto.

Sin embargo, muchos modelos existentes se quedan cortos cuando se trata de conocimientos específicos de Tailandia. A menudo fallan en las reglas locales y la aceptación, lo que puede llevar a malentendidos incómodos.

¿Qué es el Examen de Licencia de Consultor de Inversiones?

El Examen de Licencia de Consultor de Inversiones es una prueba requerida para los profesionales que quieren dar asesoría de inversión en Tailandia. Tiene tres niveles: P1, P2 y P3. Cada nivel se basa en el anterior, asegurando que los candidatos sepan lo que están haciendo.

Producto Básico (P1)

Este nivel básico examina tres áreas clave:

Conocimiento Fundamental: Cosas como entornos de inversión y riesgo.
Reglas y Regulaciones Relacionadas: Entender el lado legal.
Conocimiento de Productos: Esto cubre diferentes productos financieros como acciones y bonos.

Consiste en 100 preguntas de opción múltiple, y debes obtener al menos un 70% para aprobar.

Producto Complejo 1 (P2)

Este nivel profundiza más, enfocándose en productos financieros complejos como bonos estructurados y fondos mutuos. Tiene 25 preguntas de opción múltiple y también requiere al menos un 70% para aprobar.

Producto Complejo 2 (P3)

Este es el nivel más alto, cubriendo derivados como futuros y opciones. Consiste en 50 preguntas de opción múltiple, y de nuevo necesitas al menos un 70% para aprobar.

La Maquinaria Detrás de ReLoRA

ReLoRA es una forma inteligente de entrenar modelos grandes sin agotar recursos. Funciona utilizando actualizaciones de bajo rango, que suena sofisticado pero básicamente significa que mejora el modelo sin acabar con tu computadora.

¿Cómo Funciona?

Fase de Entrenamiento Inicial: Comienza con entrenamiento de rango completo para establecer una buena base.
Actualizaciones de Bajo Rango: Aplica actualizaciones ligeras para seguir avanzando.
Programa de Tasa de Aprendizaje: Reinicia el ritmo de aprendizaje para mantener el entrenamiento fluido.
Reinicios de Optimizador: Refresca partes del optimizador para evitar quedar atascado.

Este sistema ingenioso no solo acelera el proceso de entrenamiento, sino que también lo hace menos intensivo en recursos, lo cual es música para los oídos de cualquiera que intente ahorrar dinero.

Preparando los Datos

Manejar documentos grandes puede ser complicado, especialmente al preparar datos para el entrenamiento. Usamos una técnica llamada Chunking Dinámico en Markdown. Este método corta documentos grandes en partes más pequeñas y manejables mientras mantiene todo lógico y en tema.

Desglosándolo

Chunking Inicial: Partimos el documento basado en sus encabezados, asegurando que cada parte esté completa en su contexto.
División Adicional: Si un fragmento se vuelve demasiado grande, lo reducimos aún más utilizando divisiones lógicas como párrafos.

De esta manera, nuestro modelo puede digerir la información más fácilmente, manteniendo todo relevante.

Augmentación de Datos Inteligente

Con nuestro conjunto de datos de exámenes y una buena cantidad de materiales de estudio, necesitábamos asegurarnos de que nuestro modelo se mantuviera afilado y listo para cualquier cosa. Así que, empleamos varios trucos de augmentación de datos.

Augmentación de Datos Auto-Supervisada

Para crear datos de razonamiento para preguntas de examen, hicimos que el modelo produjera razones para cada opción de respuesta. De esta manera, podría aprender de las respuestas correctas e incluso de las incorrectas.

Augmentación de Prompts de Múltiples Sistemas

Presentamos el mismo contenido de examen de diferentes maneras. Este enfoque acostumbró al modelo a una variedad de escenarios, preparándolo para diferentes tipos de preguntas.

Mezcla de Opciones Múltiples

Para mantener el modelo enfocado en las preguntas y no en el orden de las respuestas, mezclamos las opciones de respuesta. Así, tuvo que prestar atención al contenido en lugar de a patrones.

Generación de Respuestas Multi-LLM

Aprovechamos el poder de varios modelos para producir respuestas diversas para cada pregunta, enriqueciendo nuestro conjunto de datos y mejorando el aprendizaje del modelo.

Generación de Preguntas-Respuestas desde Markdown

Usando la estructura de documentos markdown, generamos pares de preguntas-respuestas basados en los encabezados y su contenido correspondiente. Esto nos dio un tesoro de preguntas y respuestas significativas para el entrenamiento.

Optimizando el Modelo

Preentrenamiento Continuo

Preentrenamos el modelo en una parte de nuestros materiales de estudio usando fragmentos de datos en markdown para ayudarle a captar los conceptos básicos de finanzas.

Ajuste Fine Supervisado

Usamos dos métodos:

CoT sobre Razonamiento: Este método mejoró las habilidades de razonamiento del modelo al hacer que explicara las respuestas correctas.
Ajuste Fine de Preguntas-Respuestas: Aquí, entrenamos con varios pares de preguntas-respuestas, mejorando su adaptabilidad y generalización.

Optimización de Preferencias Directas

Aplicamos dos variaciones de DPO para agudizar las habilidades de razonamiento del modelo:

CoT sobre Razonamiento: Esta variante ayudó al modelo a generar las mejores explicaciones.
Aprendizaje Zero-shot con Mezcla: El enfoque aquí fue priorizar el contenido sobre la posición.

Configuración Experimental

Para ver qué tan bien funcionaba nuestro modelo, realizamos pruebas en exámenes IC públicos. Usamos varios modelos comerciales disponibles y modelos de base afinados por instrucciones para evaluar el rendimiento.

Conjunto de Datos de Entrenamiento

Nuestro conjunto de datos contenía:

Exámenes Simulados: Un número limitado de pruebas simuladas que cubrían los tres niveles del examen.
Materiales de Estudio: Más de 1.3 millones de tokens de contenido cubriendo muchos temas financieros importantes.

Práctica de Examen Público para Consultores de Inversión

Elegimos los exámenes de práctica proporcionados por la SET como nuestros datos de prueba. Esto nos permitió comparar nuestros resultados contra puntos de referencia conocidos sin problemas.

Resultados

Después de realizar nuestras pruebas, los resultados mostraron un rendimiento animado entre los modelos. APIs comerciales como gpt-4o mostraron puntajes robustos en todas las pruebas. Pero lo que fue aún más emocionante fue que nuestro modelo hecho en casa, THaLLE-IC, mantuvo su propio rendimiento, especialmente en el examen más complicado P3.

Conclusión

En este informe, cubrimos el viaje de crear THaLLE-IC, un modelo diseñado específicamente para el dominio financiero tailandés. A través de estrategias inteligentes de datos y entrenamiento, logramos equiparlo con las habilidades necesarias para manejar preguntas de examen del mundo real.

Mientras que los modelos comerciales tienden a brillar en general, THaLLE-IC demuestra que los modelos de código abierto bien ajustados pueden competir, ofreciendo un rendimiento prometedor a una fracción del costo. A medida que avanzamos, está claro que con el enfoque adecuado, podemos hacer que los modelos inteligentes sean aún más inteligentes sin gastar una fortuna.

Agradecimientos

Gracias a todos los que nos apoyaron en hacer realidad este proyecto, especialmente a nuestros gerentes de proyecto y miembros del equipo líder.

Desarrollando un Modelo de Lenguaje Financiero Tailandés

El Auge de los Modelos de Lenguaje Grande

Llenando el Vacío

Cómo Lo Hicimos

Construyendo el Modelo

Mejora del Entrenamiento

Un Resumen Rápido de Nuestro Trabajo

LLMs en el Dominio Financiero

¿Qué es el Examen de Licencia de Consultor de Inversiones?

Producto Básico (P1)

Producto Complejo 1 (P2)

Producto Complejo 2 (P3)

La Maquinaria Detrás de ReLoRA

Preparando los Datos

Desglosándolo

Augmentación de Datos Inteligente

Augmentación de Datos Auto-Supervisada

Augmentación de Prompts de Múltiples Sistemas

Mezcla de Opciones Múltiples

Generación de Respuestas Multi-LLM

Generación de Preguntas-Respuestas desde Markdown

Optimizando el Modelo

Preentrenamiento Continuo

Ajuste Fine Supervisado

Optimización de Preferencias Directas

Configuración Experimental

Conjunto de Datos de Entrenamiento

Práctica de Examen Público para Consultores de Inversión

Resultados

Conclusión

Agradecimientos

Temas referenciados

Artículos similares

Desarrollando un Modelo de Lenguaje Financiero Tailandés

#El Auge de los Modelos de Lenguaje Grande

#Llenando el Vacío

#Cómo Lo Hicimos

#Construyendo el Modelo

#Mejora del Entrenamiento

#Un Resumen Rápido de Nuestro Trabajo

#LLMs en el Dominio Financiero

#¿Qué es el Examen de Licencia de Consultor de Inversiones?

#Producto Básico (P1)

#Producto Complejo 1 (P2)

#Producto Complejo 2 (P3)

#La Maquinaria Detrás de ReLoRA

#Preparando los Datos

#Desglosándolo

#Augmentación de Datos Inteligente

#Augmentación de Datos Auto-Supervisada

#Augmentación de Prompts de Múltiples Sistemas

#Mezcla de Opciones Múltiples

#Generación de Respuestas Multi-LLM

#Generación de Preguntas-Respuestas desde Markdown

#Optimizando el Modelo

#Preentrenamiento Continuo

#Ajuste Fine Supervisado

#Optimización de Preferencias Directas

#Configuración Experimental

#Conjunto de Datos de Entrenamiento

#Práctica de Examen Público para Consultores de Inversión

#Resultados

#Conclusión

#Agradecimientos

Temas referenciados

Artículos similares

El Auge de los Modelos de Lenguaje Grande

Llenando el Vacío

Cómo Lo Hicimos

Construyendo el Modelo

Mejora del Entrenamiento

Un Resumen Rápido de Nuestro Trabajo

LLMs en el Dominio Financiero

¿Qué es el Examen de Licencia de Consultor de Inversiones?

Producto Básico (P1)

Producto Complejo 1 (P2)

Producto Complejo 2 (P3)

La Maquinaria Detrás de ReLoRA

Preparando los Datos

Desglosándolo

Augmentación de Datos Inteligente

Augmentación de Datos Auto-Supervisada

Augmentación de Prompts de Múltiples Sistemas

Mezcla de Opciones Múltiples

Generación de Respuestas Multi-LLM

Generación de Preguntas-Respuestas desde Markdown

Optimizando el Modelo

Preentrenamiento Continuo

Ajuste Fine Supervisado

Optimización de Preferencias Directas

Configuración Experimental

Conjunto de Datos de Entrenamiento

Práctica de Examen Público para Consultores de Inversión

Resultados

Conclusión

Agradecimientos