Alineando LLMs abiertos con la evaluación humana
Un nuevo método mejora el rendimiento de los LLM en evaluaciones personalizadas con datos limitados.
Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
― 7 minilectura
Tabla de contenidos
- Contribuciones
- Trabajos Relacionados
- Juicio Eficiente en Datos
- Curación y Aumento de Datos
- Semilla para el Conjunto de Datos de Preferencias
- Enfoque de Creación de Datos Ingenuos
- Enfoque de Conjunto de Retroalimentación
- Enfoque de Muestreo Eficiente
- Configuración del Experimento
- Configuración de Evaluación
- Resultados
- Conclusión
- Fuente original
- Enlaces de referencia
La Evaluación automática usando modelos de lenguaje grandes (LLMs) es un tema candente hoy en día. Sin embargo, evaluar tareas puede ser subjetivo y puede verse afectado por diferentes factores, lo que lo hace difícil de adaptar. Muchos estudios muestran que los mejores LLMs propietarios pueden hacerlo bien en comparación con evaluadores humanos, pero a menudo tienen problemas para ajustarse a las preferencias con el tiempo. Este ajuste es necesario para una evaluación personalizada.
Se han hecho numerosos intentos de aplicar LLMs abiertos como evaluadores, pero muchos de estos pasan por alto el problema de trabajar con datos limitados. El juicio personalizado a menudo proviene de situaciones con pocos puntos de datos, lo cual es común en situaciones de la vida real.
Este documento propone un método de Aumento de Datos para elegir una muestra más efectiva de datos limitados para alinear un LLM abierto con las preferencias humanas. Los resultados muestran una mejora de aproximadamente un 7% en la correlación de Pearson con un juez de referencia en comparación con la línea base y un 30% de mejora sobre el modelo base en razonamiento matemático.
El proceso de evaluación humana es subjetivo y puede variar mucho dependiendo del estado de ánimo del evaluador. Por ejemplo, calificar los trabajos de los estudiantes puede cambiar de un semestre a otro, reflejando el estado de ánimo o situación del profesor. Esta variabilidad debe ser considerada al intentar modelar o imitar el comportamiento de un evaluador.
Las evaluaciones automáticas a menudo enfrentan limitaciones debido a la pequeña cantidad de retroalimentación que generalmente está disponible. Esto hace importante buscar métodos de entrenamiento efectivos para evaluaciones en situaciones de datos limitados.
Este documento muestra una forma de alinear un LLM abierto con un evaluador de referencia en un entorno con pocos datos, centrándose en el juicio personalizado en tareas como matemáticas y preguntas generales.
La evaluación basada en LLMs se ha vuelto una forma escalable y rentable de evaluar tanto textos generados por máquinas como por humanos. Los LLMs ofrecen retroalimentación con una puntuación, indicando calidad.
Estudios anteriores que usaron LLMs propietarios como evaluadores han mostrado alta correlación con juicios humanos, mejor velocidad y rentabilidad. Estos modelos tienden a hacerlo bien en juicios estáticos, donde la puntuación se basa en criterios fijos. Sin embargo, personalizar estos modelos para preferencias específicas de evaluadores es un desafío, y a menudo carecen de juicio dinámico.
El juicio dinámico significa la capacidad de un evaluador para aprender de pocos ejemplos y ajustar políticas de evaluación con el tiempo, lo cual es crucial para la evaluación personalizada. Este trabajo presenta una forma efectiva de alinear un LLM abierto con un evaluador de referencia en un contexto de datos limitados.
El objetivo es ajustar el juicio del LLM para que coincida con el del juez humano. El método propuesto muestra aproximadamente un 9% y un 7% más de correlación de Pearson para evaluaciones de matemáticas y preguntas generales, respectivamente. Esto muestra que seleccionar datos más efectivos ayuda al enfoque a superar los métodos de base.
Contribuciones
- Propuso un método para simplificar el juicio dinámico para LLMs abiertos, que es un desafío que no ha sido completamente abordado antes.
- Introdujo una técnica para aumentar datos destinada a mejorar la capacidad de razonamiento del modelo evaluador usando el método de cadena de pensamientos (CoT).
- Introdujo un método para seleccionar instancias efectivas de juicios de referencia, centrándose en reducir sesgos en el modelo alineado.
Trabajos Relacionados
Creación de Datos Ingenuos
Se utilizan diferentes métodos para la creación de datos de preferencias. El enfoque de creación de datos ingenuos utiliza retroalimentación directa de un juez de referencia.
LLM como Juez
Usar LLMs como jueces ha ganado atención por su capacidad de imitar la precisión de la evaluación humana. Muchos utilizan modelos propietarios como el GPT-4, que han mostrado un fuerte acuerdo con las evaluaciones humanas.
Alineación de Preferencias Humanas
Los LLMs son geniales generando texto, pero tienen problemas siguiendo instrucciones y alineándose con expectativas humanas. El Ajuste Fino Supervisado (SFT) se ha convertido en un método clave para esta alineación. Han surgido varios métodos basados en el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF).
Alineación Eficiente de Datos
El tamaño y la calidad de los datos tienen un gran impacto en el tiempo y costo de entrenamiento de LLMs. Usar datos de manera eficiente puede reducir iteraciones de entrenamiento. Algunos estudios se centran en mejorar la calidad de los datos filtrando los de baja calidad.
Juicio Eficiente en Datos
Esta sección presenta un enfoque para alinear un LLM con un juez de referencia. Si bien el enfoque es en texto generado por máquinas, podría extenderse a texto humano también.
Curación y Aumento de Datos
Las tareas de evaluación requieren fuertes habilidades de razonamiento para asegurar decisiones justas y precisas. Sin embargo, estudios han mostrado que LLMs como Llama-3.1-8B-Instruct no son muy efectivos como evaluadores.
Semilla para el Conjunto de Datos de Preferencias
Partiendo de un conjunto de datos de preguntas y respuestas, se recopila retroalimentación y puntuaciones de un juez de referencia. Este conjunto de datos semilla busca mejorar el rendimiento de juicio del LLM.
Enfoque de Creación de Datos Ingenuos
En este método, el LLM base genera retroalimentación y puntuaciones para las respuestas. Se asume que la retroalimentación generada es de menor calidad en comparación con la retroalimentación del juez de referencia.
Enfoque de Conjunto de Retroalimentación
Se generan múltiples pares de retroalimentación y puntuaciones para cada respuesta usando el LLM base, que aprovecha sus habilidades de razonamiento. Esto permite que el LLM produzca mejor retroalimentación.
Enfoque de Muestreo Eficiente
Este método selecciona muestras más efectivas del juez de referencia. En lugar de usar toda la retroalimentación, se elige un subconjunto en función de la similitud.
Configuración del Experimento
Describe el tamaño de los datos creados y los conjuntos de datos de alineación extraídos de los conjuntos de datos de retroalimentación. Los resultados muestran una mejor alineación con el juez de referencia.
Configuración de Evaluación
La configuración experimental para evaluar LMs evaluadores implica usar Pearson, Spearman y Kendall-Tau para métricas de rendimiento contra el evaluador de referencia. Los resultados se comparan entre tres métodos, destacando la importancia de la estrategia de muestreo de datos elegida.
Resultados
Los hallazgos muestran que el enfoque propuesto produce mejoras significativas en la alineación con evaluadores humanos. Sin embargo, el estudio está limitado por la disponibilidad de datos y se centra en tareas específicas, lo que puede afectar su aplicabilidad más amplia.
Conclusión
Si bien los LLMs tienen potencial para la evaluación automática, personalizarlos para tareas subjetivas en situaciones de datos limitados sigue siendo un desafío. Los métodos propuestos muestran mejoras significativas y potencial para alinear mejor los LLMs con las evaluaciones humanas. El trabajo futuro podría centrarse en ampliar el rango de tareas y aumentar la diversidad de datos para lograr una mayor generalización.
Fuente original
Título: Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation
Resumen: Automatic evaluation by large language models (LLMs) is a prominent topic today; however, judgment and evaluation tasks are often subjective and influenced by various factors, making adaptation challenging. While many studies demonstrate the capabilities of state-of-the-art proprietary LLMs in comparison to human evaluators, they often struggle to adapt to reference evaluators over time, a requirement for achieving personalized judgment. Additionally, numerous works have attempted to apply open LLMs as judges or evaluators, but these efforts frequently overlook the limitations of working with scarce data. Personalized judgment is inherently associated with limited data scenarios, which are common in many real-world problems. Our work aims to present a data augmentation technique to select a more effective sample from limited data in order to align an open LLM with human preference. Our work achieves approximately 7% improvements in Pearson correlation with a reference judge over the baseline,and 30% improvement over the base model (Llama3.1-8B-Instruct) in the mathematical reasoning evaluation task. demonstrating that augmenting selecting more effective preference data enables our approach to surpass baseline methods.
Autores: Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
Última actualización: 2024-12-10 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.07429
Fuente PDF: https://arxiv.org/pdf/2412.07429
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.