Mejorando Modelos de Recompensa con Críticas Sintéticas

Tabla de contenidos

Aprendizaje por Refuerzo a partir de la Retroalimentación Humana
Enfoque Propuesto
Trabajos Relacionados
Generando Críticas Sintéticas con LLMs
Entrenando Modelos de Recompensa con Críticas
Configuración Experimental
Análisis Detallado
Comparación con RM Juez Generativo
Conclusión
Fuente original
Enlaces de referencia

Los modelos de recompensa (RMs) son herramientas esenciales para enseñar a los modelos de lenguaje a alinearse con las preferencias humanas. Estos modelos predicen puntuaciones que reflejan lo que a la gente le gusta y lo que no. Sin embargo, entrenar estos modelos requiere mucho tiempo y esfuerzo debido a la anotación humana. Este proceso puede ser caro, y los RMs a menudo terminan enfocándose demasiado en detalles superficiales en lugar del significado más profundo del texto. Esto puede hacer que sean menos efectivos cuando se enfrentan a datos nuevos y no vistos.

Para abordar estos problemas, proponemos un nuevo método que utiliza críticas sintéticas generadas por grandes modelos de lenguaje (LLMs). En lugar de depender únicamente de la retroalimentación humana, usamos estas críticas para evaluar aspectos como el seguimiento de instrucciones, la corrección y el estilo de escritura. Este método tiene como objetivo proporcionar información más rica y ayudar a los RMs a desempeñarse mejor.

Nuestra investigación muestra que usar críticas de alta calidad puede mejorar significativamente el rendimiento y la eficiencia de los RMs, incluso cuando se basan en diferentes modelos preentrenados. Por otro lado, las críticas de baja calidad pueden perjudicar el rendimiento. Además, agregar críticas permite una mejor interpretabilidad y estabilidad durante el Entrenamiento de los RMs.

Aprendizaje por Refuerzo a partir de la Retroalimentación Humana

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es un enfoque popular para asegurar que los grandes modelos de lenguaje (LLMs) cumplan con las preferencias humanas. Este método consta de dos pasos principales. Primero, se entrena un Modelo de Recompensa para producir recompensas numéricas basadas en la retroalimentación humana. Luego, se utilizan métodos de aprendizaje por refuerzo, como la Optimización de Políticas Proximales (PPO), para ajustar finamente los modelos de lenguaje y maximizar estas recompensas.

El modelo de recompensa actúa como un sustituto de las preferencias humanas, ayudando a decidir qué texto podría preferir un usuario. Hay un proceso para recopilar retroalimentación de anotadores humanos. El RM compara dos respuestas a un aviso y les da puntajes según cuál sea mejor.

Por ejemplo, Llama 2 utilizó alrededor de un millón de puntos de Datos de Preferencias binarias para entrenar su modelo de recompensa.

Al entrenar RMs, las críticas generadas por LLMs ayudan a desglosar tanto los buenos como los malos aspectos de las respuestas. Evalúan qué tan bien cada respuesta cumple con los requisitos del aviso en términos de seguimiento de instrucciones, corrección y utilidad.

Desafíos en el Entrenamiento de Modelos de Recompensa Basados en Preferencias

Actualmente, el entrenamiento de modelos de recompensa basados en preferencias enfrenta varias dificultades:

El proceso de alinear RLHF con las preferencias humanas carece de explicaciones claras y comprensibilidad.
Las puntuaciones de preferencia dadas por humanos pueden ser inconsistentes, subjetivas y influenciadas por sesgos.
Es difícil saber si los RMs están aprendiendo las verdaderas preferencias de los humanos o simplemente memorizando características superficiales. Esto puede llevar a problemas durante la segunda etapa de ajuste del modelo según estas preferencias.

Los RMs pueden volverse frágiles y pueden optimizarse demasiado para el conjunto de datos con el que fueron entrenados, lo que lleva a diferencias entre las predicciones del RM y las verdaderas preferencias humanas cuando se utilizan los modelos. Otros desafíos incluyen adaptarse a cambios en la distribución de datos y ser vulnerables a ataques adversariales. Además, entrenar RMs requiere datos que difieren de los utilizados para entrenar los modelos generativos de texto, lo que puede ser costoso y llevar mucho tiempo.

Debido a estos desafíos, los conjuntos de datos de preferencias existentes son a menudo pequeños y no exhaustivos.

Con este documento, sugerimos utilizar críticas generadas por modelos para abordar estas limitaciones.

Enfoque Propuesto

En nuestro enfoque, primero le pedimos a los LLMs que produzcan críticas para cada par de aviso-completación en los datos de preferencias. Estas críticas evalúan las respuestas en varias dimensiones, como la corrección y el seguimiento de instrucciones. Luego, entrenamos a los RMs para predecir puntuaciones basadas en estas críticas y evaluamos su rendimiento en un conjunto de prueba que incluye estas críticas. Dado que las críticas sintéticas se pueden producir fácilmente utilizando modelos de código abierto, nuestro método es accesible y ahorra costos.

Planeamos detallar el proceso de críticas dentro del documento y tenemos como objetivo responder varias preguntas de investigación. Nuestros experimentos indican que usar estas críticas puede mejorar el rendimiento del RM, especialmente cuando hay datos limitados. Encontramos que una crítica sintética de calidad puede ser equivalente a alrededor de 40 pares de preferencias regulares, maximizando la eficiencia de nuestros esfuerzos de anotación.

Críticamente, también mostramos cómo críticas sólidas pueden limitar los efectos negativos de características superficiales, mejorando las puntuaciones finales de recompensa.

Trabajos Relacionados

El proceso para entrenar modelos de lenguaje modernos suele seguir un método de múltiples pasos. Generalmente, implica primero entrenar el modelo en un gran conjunto de datos no supervisado, luego ajustarlo con aprendizaje supervisado en demostraciones y, finalmente, aplicar aprendizaje por refuerzo a partir de la retroalimentación humana. La retroalimentación humana ha sido crucial para lograr el éxito de estos modelos.

RLHF generalmente implica entrenar un modelo de recompensa utilizando datos de preferencias de anotadores humanos, lo que ayuda en el aprendizaje de una política a través de técnicas de aprendizaje por refuerzo como Reinforce o PPO. Existen varios métodos disponibles para abordar tareas de modelado de recompensas. Un enfoque común emplea el modelo de Bradley-Terry para predecir preferencias humanas. Otro método es la Optimización Directa de Preferencias, donde el LLM actúa como un proxy para el modelo de recompensa.

Sin embargo, todas estas estrategias fuera de línea aún necesitan datos de preferencias, aunque no requieren que se entrene un modelo de recompensa separado.

Muchos investigadores también exploran el uso de LLMs generativos como modelos de recompensa pidiéndoles que expresen preferencias o que califiquen respuestas directamente.

Con el papel clave que juegan los modelos de recompensa en el proceso de RLHF, hay un creciente interés en comprender su comportamiento. Una contribución notable es RewardBench, un banco de pruebas creado para evaluar modelos de recompensa, que incluye pares de completaciones con un razonamiento detallado para las decisiones de preferencia. Los hallazgos de RewardBench indican que, aunque los modelos de recompensa generalmente se desempeñan bien en conversaciones casuales, tienen dificultades con tareas de razonamiento complejo. Los problemas de rendimiento se complican aún más por factores como el sesgo de longitud de respuesta y desafíos de interpretabilidad.

Las críticas han surgido recientemente como una herramienta útil para mejorar la claridad durante el desarrollo del modelo y aumentar la robustez contra ejemplos difíciles. Tales razonamientos son vitales durante el entrenamiento y la evaluación de LLMs. Estudios recientes muestran que las críticas pueden refinar las respuestas en versiones más precisas. También ayudan a los anotadores humanos a notar fallas que podrían pasar por alto, y estudios sugieren que usar críticas durante la evaluación puede mejorar la precisión de los propios evaluadores.

Algunos trabajos exploran el uso de LLMs como evaluadores, y pedirles razonamientos mejora su precisión. Auto-J amplía estas ideas, creando jueces generativos LLM que evalúan respuestas y generan críticas, lo que mejora la precisión general del sistema. A pesar de los prometedores resultados que las críticas muestran en varias aplicaciones, su éxito depende en gran medida de la calidad de las críticas. Se ha propuesto un banco de pruebas llamado CriticBench para medir la eficacia de las críticas generadas por LLMs.

Generando Críticas Sintéticas con LLMs

Nuestro primer paso implica generar críticas sintéticas para los datos de preferencias que entrenarán a los RMs. Guiamos a los LLMs para crear críticas en lenguaje natural. Dado un par de datos de preferencias (un aviso y dos respuestas), le pedimos al LLM que produzca críticas puntuales para cada completación. Esto lleva a un nuevo conjunto de datos de críticas, que permite un proceso de entrenamiento más exhaustivo para los RMs.

Los diseños de avisos para los LLMs se centran en generar críticas sintéticas que evalúan respuestas según qué tan bien cumplen con los requisitos del aviso en varios aspectos.

Entrenando Modelos de Recompensa con Críticas

Línea Base Sin Críticas

Entrenamos modelos de recompensa que reciben un aviso y una respuesta para producir una puntuación numérica. Para esta línea base sin críticas, utilizamos una función de pérdida de clasificación binaria, que ayuda a medir cómo se comporta el RM con el conjunto de entrenamiento.

RM con Críticas

Una vez que tenemos las críticas generadas por los LLMs, mejoramos los datos de entrenamiento con estas críticas. Concatenamos las críticas con cada respuesta para crear nuevos pares de preferencias, que forman un conjunto de entrenamiento aumentado por críticas.

Entrenamos los RMs de críticas utilizando estos pares de datos mejorados. Durante la fase de prueba, también pedimos críticas utilizando los mismos LLMs en el conjunto de prueba, lo que nos permite evaluar el rendimiento utilizando este conjunto de prueba aumentado por críticas. Para comparación, observamos el rendimiento de los RMs entrenados sin críticas.

Configuración Experimental

En esta sección, describimos los conjuntos de datos utilizados para la investigación, los LLMs usados para generar críticas, los modelos preentrenados para los RMs y los detalles de entrenamiento.

Conjuntos de Datos

Para entrenar nuestros RMs, recopilamos un conjunto de datos de preferencias humanas que comprende 5,000 ejemplos de conversaciones abiertas y de múltiples turnos entre usuarios y chatbots. Cada entrada tiene un aviso y dos respuestas, junto con una etiqueta de un anotador humano que indica cuál respuesta era mejor. Se mide una escala de tres puntos para la calificación de preferencias.

Durante la evaluación, usamos RMs entrenados para asignar puntuaciones a ambas respuestas para cada aviso del conjunto de prueba. La precisión del test sirve como una métrica para evaluar el rendimiento del RM, donde calculamos la precisión en función de cuán a menudo la completación elegida tiene una puntuación más alta que la rechazada.

Evaluamos los RMs a través de varios conjuntos de datos de referencia que cubren una amplia gama de habilidades, incluyendo conversación, seguimiento de instrucciones, codificación y tareas de seguridad.

Generador de Críticas LLM

Al evaluar los efectos de las críticas, seleccionamos una variedad de LLMs con diferentes arquitecturas, tamaños y datos de entrenamiento. Establecimos un grupo de seis modelos para la generación de críticas.

Dado los datos de preferencias de entrenamiento y prueba, le pedimos a cada modelo que cree críticas para ambos conjuntos. Aseguramos que los datos de entrenamiento y prueba contengan críticas generadas por el mismo modelo para mantener la consistencia.

Modelos Preentrenados para Inicialización de RM

Para examinar los efectos de los modelos preentrenados iniciales en los RMs, exploramos diferentes puntos de control de modelos de varios tamaños y datos de entrenamiento. Esto incluye modelos que han pasado por un fine-tuning adicional.

Detalles de Entrenamiento

Para entrenar los RMs a través de nuestros experimentos, establecimos un tamaño de lote de 32 y ejecutamos una época con 155 pasos en total. Hemos encontrado que un entrenamiento prolongado tiende a causar sobreajuste. Entrenamos todos los parámetros del modelo, incluyendo tanto los pesos preentrenados como la capa final. Usamos un decaimiento coseno para la tasa de aprendizaje y el optimizador Adam.

En nuestros experimentos, notamos que los RMs que comienzan desde LLaMA2-7B-Base son sensibles a los hiperparámetros al usar datos enriquecidos con críticas. Sospechamos que esto se debe al tamaño relativamente pequeño del modelo, lo que lo hace más vulnerable a distribuciones de críticas diversas.

Resultados de Evaluación

Entrenamos RMs con datos de preferencias enriquecidos por críticas sintéticas generadas por varios modelos. Aquí, compartimos los hallazgos clave respecto al uso de críticas para entrenar RMs.

¿Mejoran las Críticas Sintéticas el Rendimiento de los RMs?

Nuestros resultados de evaluación indican que la adición de críticas generalmente mejora la precisión del test de los RMs en comparación con la línea base sin críticas, demostrando la efectividad de las críticas sintéticas. Las críticas de alta calidad mejoran notablemente el rendimiento del RM, particularmente para modelos que comienzan desde modelos preentrenados más débiles y en situaciones con pocos datos.

Observamos una correlación positiva entre la calidad de las críticas y el rendimiento de los RMs. Críticas fuertes generalmente producen puntuaciones promedio más altas en conjuntos de datos. También vimos que las críticas benefician significativamente a los RMs que comienzan desde modelos base menos capaces, mostrando aún más su valor.

¿Qué Impacto Tienen las Críticas en los RMs a Medida que Aumenta la Escala de Entrenamiento?

Realizamos experimentos adicionales para analizar cómo se comportan los RMs entrenados con críticas a medida que aumenta la escala de entrenamiento. Al preparar conjuntos de datos de entrenamiento sin críticas de varios tamaños, generamos críticas sintéticas para estos conjuntos y entrenamos RMs para comparar su rendimiento con los modelos sin críticas.

Nuestros hallazgos sugieren que las críticas mejoran la eficiencia de los datos, particularmente en contextos de datos escasos. Cuando hay suficientes datos, ambos métodos logran un rendimiento comparable, lo que muestra que las críticas juegan un papel crucial en aprovechar al máximo los datos limitados.

Como parte de este examen, vemos que el rendimiento mejora significativamente en tareas desafiantes cuando se usan críticas, resaltando su capacidad para apoyar el razonamiento complejo.

Análisis Detallado

Notamos que el rendimiento del RM en el subconjunto de Chat tiende a ser más bajo. Para entender esto mejor, repetimos nuestros experimentos, enfocándonos únicamente en este subconjunto. Encontramos que después de que el RM ha ingresado 10,000 pares, logra puntuaciones de precisión muy altas.

En contraste, cuando miramos las tareas de Razonamiento, que son más difíciles, los RMs entrenados con críticas superan consistentemente la línea base por un margen notable, mostrando su robustez frente a ejemplos difíciles.

Comparación con RM Juez Generativo

Para confirmar la capacidad de nuestros RMs entrenados, comparamos los RMs basados en clasificador comenzando desde Command R-35B con un RM generativo condicionado a críticas. Al pedirle al RM generativo que produzca una puntuación para cada par de aviso-completación, pudimos ver cómo su rendimiento se compara con el enfoque basado en clasificador.

Nuestro análisis indicó que los RMs basados en clasificador generalmente superan la línea base del juez generativo, validando la efectividad de nuestro modelo. El juez generativo tuvo un rendimiento razonablemente bueno en tareas de conversación casual, pero tuvo dificultades con razonamientos más complejos y ejemplos difíciles.

Conclusión

Presentamos un nuevo enfoque accesible para mejorar los modelos de recompensa dentro del marco de RLHF mediante la integración de críticas sintéticas. Al guiar a los LLMs para generar críticas de respuestas y entrenar a los RMs para asignar puntuaciones basadas en estas críticas, mejoramos significativamente el rendimiento del RM en pruebas de referencia.

Nuestros experimentos confirman que los beneficios de las críticas son especialmente notables en situaciones con pocos recursos y modelos preentrenados más débiles. Las críticas se generan automáticamente, eliminando la necesidad de un esfuerzo humano extenso, lo que convierte esto en una solución rentable para desarrollar modelos de recompensa competitivos.

A medida que la investigación continúa, planeamos explorar más métodos para generar críticas y su potencial para mejorar las habilidades de razonamiento de los LLMs. Mientras nos enfocamos en evaluar RMs directamente contra bancos de pruebas existentes, futuros trabajos pueden involucrar la optimización de LLMs con estos RMs mejorados por críticas.

En resumen, nuestro estudio muestra que las críticas sintéticas pueden mejorar efectivamente el rendimiento de los modelos de recompensa, allanando el camino para un entrenamiento de modelos de lenguaje más eficiente y efectivo.

Mejorando Modelos de Recompensa con Críticas Sintéticas

Un nuevo método mejora los modelos de recompensa utilizando críticas sintéticas para un mejor alineamiento.

Aprendizaje por Refuerzo a partir de la Retroalimentación Humana

Desafíos en el Entrenamiento de Modelos de Recompensa Basados en Preferencias

Enfoque Propuesto

Trabajos Relacionados

Generando Críticas Sintéticas con LLMs

Entrenando Modelos de Recompensa con Críticas

Línea Base Sin Críticas

RM con Críticas

Configuración Experimental

Conjuntos de Datos

Generador de Críticas LLM

Modelos Preentrenados para Inicialización de RM

Detalles de Entrenamiento

Resultados de Evaluación

¿Mejoran las Críticas Sintéticas el Rendimiento de los RMs?

¿Qué Impacto Tienen las Críticas en los RMs a Medida que Aumenta la Escala de Entrenamiento?

Análisis Detallado

Comparación con RM Juez Generativo

Conclusión

Enlaces de referencia

Temas referenciados

Mejorando Modelos de Recompensa con Críticas Sintéticas

Un nuevo método mejora los modelos de recompensa utilizando críticas sintéticas para un mejor alineamiento.

#Aprendizaje por Refuerzo a partir de la Retroalimentación Humana

#Desafíos en el Entrenamiento de Modelos de Recompensa Basados en Preferencias

#Enfoque Propuesto

#Trabajos Relacionados

#Generando Críticas Sintéticas con LLMs

#Entrenando Modelos de Recompensa con Críticas

#Línea Base Sin Críticas

#RM con Críticas

#Configuración Experimental

#Conjuntos de Datos

#Generador de Críticas LLM

#Modelos Preentrenados para Inicialización de RM

#Detalles de Entrenamiento

#Resultados de Evaluación

#¿Mejoran las Críticas Sintéticas el Rendimiento de los RMs?

#¿Qué Impacto Tienen las Críticas en los RMs a Medida que Aumenta la Escala de Entrenamiento?

#Análisis Detallado

#Comparación con RM Juez Generativo

#Conclusión

Enlaces de referencia

Temas referenciados

Aprendizaje por Refuerzo a partir de la Retroalimentación Humana

Desafíos en el Entrenamiento de Modelos de Recompensa Basados en Preferencias

Enfoque Propuesto

Trabajos Relacionados

Generando Críticas Sintéticas con LLMs

Entrenando Modelos de Recompensa con Críticas

Línea Base Sin Críticas

RM con Críticas

Configuración Experimental

Conjuntos de Datos

Generador de Críticas LLM

Modelos Preentrenados para Inicialización de RM

Detalles de Entrenamiento

Resultados de Evaluación

¿Mejoran las Críticas Sintéticas el Rendimiento de los RMs?

¿Qué Impacto Tienen las Críticas en los RMs a Medida que Aumenta la Escala de Entrenamiento?

Análisis Detallado

Comparación con RM Juez Generativo

Conclusión