Mejorando el razonamiento matemático en modelos de lenguaje más pequeños
Un nuevo método mejora las habilidades para resolver matemáticas en modelos de lenguaje más pequeños usando DPO y autoentrenamiento.
― 7 minilectura
Tabla de contenidos
- El Problema con los Métodos Tradicionales
- Visión General del Autoentrenamiento
- Optimización de Preferencias Directas (DPO)
- El Marco de Autoentrenamiento Aumentado por DPO
- Uso de Calculadoras Externas
- Configuración del Experimento
- Principales Hallazgos
- La Importancia del Entrenamiento Iterativo
- El Impacto de DPO en el Autoentrenamiento
- El Papel de las Calculadoras Externas
- Conclusión
- Fuente original
- Enlaces de referencia
Entrenar modelos de lenguaje para resolver problemas de matemáticas es un objetivo desafiante pero importante. Un buen entrenamiento necesita datos de alta calidad que muestren cómo resolver estos problemas. Aunque algunos de estos datos pueden venir de expertos, otra forma común es usar información de modelos de lenguaje más grandes y potentes. Sin embargo, depender de estos modelos más grandes puede ser caro y a veces impredecible.
En este artículo, discutimos un nuevo método que ayuda a modelos de lenguaje más pequeños a mejorar sus habilidades de Razonamiento matemático. Este método implica Autoentrenamiento, donde los modelos aprenden de sus propias salidas. También introducimos una técnica llamada Optimización de Preferencias Directas (DPO) que ayuda a guiar a los modelos para que produzcan mejores respuestas.
El Problema con los Métodos Tradicionales
Entrenar modelos de lenguaje para resolver problemas matemáticos a menudo ha dependido de datos costosos de modelos más grandes. Estos modelos grandes, aunque buenos en razonamiento, pueden tener altos costos y ser menos confiables. Por ejemplo, modelos como GPT-4 pueden proporcionar anotaciones útiles, pero su uso no siempre es práctico.
Investigaciones anteriores han mostrado que los modelos más pequeños pueden mejorar su razonamiento aprendiendo de modelos más grandes. Aunque este método es efectivo, puede ser caro en términos de recursos computacionales. Nuestro enfoque busca reducir estos costos mientras aún mejora el rendimiento.
Visión General del Autoentrenamiento
El autoentrenamiento es una técnica donde un modelo entrenado actúa como profesor para ayudarse a aprender de nuevos datos. El modelo generará respuestas para nuevos problemas matemáticos y luego usará estas para mejorar. El objetivo es crear mejores datos etiquetados que puedan ayudar a mejorar su rendimiento. Este método ha sido utilizado con éxito en varios campos, incluyendo el procesamiento del lenguaje natural.
Optimización de Preferencias Directas (DPO)
DPO es una técnica que mejora el proceso de autoentrenamiento. En vez de depender solamente de un modelo de recompensa, DPO permite la sintonización directa del modelo de lenguaje basada en preferencias humanas. El proceso comienza con un modelo generando varias respuestas para un aviso. Estas respuestas se clasifican según si son buenas o malas según la retroalimentación humana.
Al usar estos datos, el modelo se entrena para proporcionar respuestas aún mejores en el futuro. DPO ayuda específicamente al modelo a centrarse en tareas de razonamiento, especialmente en matemáticas. Dado que las respuestas matemáticas pueden verificarse fácilmente por su corrección, facilita la creación de conjuntos de datos para DPO.
El Marco de Autoentrenamiento Aumentado por DPO
Nuestro método propuesto comienza con una fase de calentamiento donde el modelo se entrena con datos etiquetados. Después de este entrenamiento inicial, el modelo utiliza los pasos de autoentrenamiento y DPO para refinar su rendimiento.
Durante el paso de DPO, el modelo genera un conjunto de explicaciones para preguntas dadas. Estas explicaciones se etiquetan como correctas o incorrectas basadas en si proporcionan las respuestas correctas. Luego, el modelo se entrena a sí mismo con estos datos etiquetados para mejorar su rendimiento.
En el siguiente paso de SFT, el modelo mejorado genera nuevas explicaciones basadas en la comprensión refinada del paso de DPO. Este proceso continúa de manera iterativa, permitiendo al modelo mejorar gradualmente.
Uso de Calculadoras Externas
Otro desafío surge con los modelos de lenguaje más pequeños, ya que a menudo luchan con aritmética básica. Para abordar este problema, integramos una calculadora externa en nuestros modelos. Esta herramienta ayuda a mejorar las habilidades Aritméticas de los modelos, lo que lleva a un mejor rendimiento en tareas matemáticas.
Muchos métodos existentes limitan el procesamiento a una pregunta a la vez al usar una calculadora, lo que ralentiza el rendimiento. Nuestro método permite procesar muchas preguntas simultáneamente, mejorando la velocidad y eficiencia general.
Configuración del Experimento
Para entender cómo funciona nuestro método, utilizamos una variedad de modelos, específicamente dos versiones de Flan-T5, como nuestros modelos base. Usamos estos modelos en un benchmark popular para problemas de palabras matemáticas llamado GSM8K. Además, creamos un conjunto de datos de validación separado seleccionando una parte de los ejemplos de entrenamiento.
En nuestros experimentos, comparamos nuestro método contra métodos tradicionales de ajuste fino supervisado y autoentrenamiento estándar. Esta comparación tenía como objetivo mostrar cuán bien funciona nuestro proceso aumentado por DPO en relación con las técnicas establecidas.
Principales Hallazgos
Nuestros resultados indican que los métodos de autoentrenamiento, incluyendo nuestro enfoque aumentado por DPO, superan significativamente a los métodos tradicionales de ajuste fino supervisado. Este éxito muestra que el autoentrenamiento puede mejorar efectivamente las capacidades de razonamiento de los modelos de lenguaje.
Mientras que ambos métodos de autoentrenamiento mejoraron sobre los modelos supervisados iniciales, nuestro enfoque aumentado por DPO demostró un rendimiento superior en tareas familiares (dentro del dominio) y nuevas (fuera del dominio).
Notablemente, nuestro método capitaliza las ventajas del autoentrenamiento mientras minimiza costos. Al generar datos de alta calidad a través del paso de DPO, encontramos que los modelos podían producir mejores respuestas sin requerir más recursos.
La Importancia del Entrenamiento Iterativo
Observamos que nuestro método de entrenamiento iterativo trae mejoras consistentes. Los primeros resultados mostraron que ambos métodos de autoentrenamiento comenzaron de manera similar. Sin embargo, a medida que avanzaba el entrenamiento, nuestro enfoque aumentado por DPO mostró consistentemente mejores resultados en cada paso.
Esta mejora subraya la efectividad de nuestro método para refinar el rendimiento de los modelos de lenguaje. Incluso los modelos más grandes mostraron sólidos avances a lo largo de las iteraciones.
El Impacto de DPO en el Autoentrenamiento
El paso de DPO en nuestro proceso juega un papel crucial en la mejora del marco de autoentrenamiento. Las evaluaciones iniciales mostraron que, aunque el paso de DPO proporcionó mejoras limitadas para soluciones únicas, mejoró significativamente la capacidad del modelo para generar múltiples justificaciones.
Al muestrear más soluciones por problema, encontramos que el entrenamiento DPO alienta al modelo a producir salidas diversas y de alta calidad. Esta capacidad de generar un rango más amplio de soluciones mejora el rendimiento general.
El Papel de las Calculadoras Externas
Como se mencionó anteriormente, los modelos más pequeños a menudo luchan con problemas aritméticos. Nuestro método emplea una calculadora externa para abordar este problema. Sin ella, los modelos tienden a producir muchas salidas incorrectas incluso si la respuesta final parece correcta. Esta limitación reduce la precisión general.
En nuestros estudios de ablación, encontramos que los modelos que usaron la calculadora tuvieron mejor rendimiento en varias iteraciones. Este hallazgo ilustra la importancia de integrar herramientas que apoyen las capacidades de razonamiento del modelo.
Conclusión
En resumen, hemos introducido un nuevo método para mejorar las habilidades de razonamiento matemático en modelos de lenguaje más pequeños a través de autoentrenamiento aumentado por DPO. Esta técnica no solo mejora las capacidades de aprendizaje de estos modelos, sino que también lo hace de manera eficiente en recursos. Al usar tanto autoentrenamiento como DPO, nuestros modelos han logrado mejoras significativas en su rendimiento, mientras también abordan los desafíos presentados por escalas más pequeñas y razonamiento aritmético.
Nuestros hallazgos sugieren que futuras investigaciones deberían enfocarse en expandir este enfoque a otras tareas de razonamiento, identificar conjuntos de datos adecuados y explorar formas de recopilar datos no etiquetados de alta calidad. Este trabajo abre nuevas avenidas para mejorar los modelos de lenguaje y sus aplicaciones en varios campos.
Título: Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
Resumen: Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.
Autores: Tianduo Wang, Shichen Li, Wei Lu
Última actualización: 2024-07-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.18248
Fuente PDF: https://arxiv.org/pdf/2407.18248
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.