Aprovechando la retroalimentación natural para el entrenamiento de modelos
Un estudio sobre cómo recopilar y usar la retroalimentación de los usuarios para mejorar los modelos de lenguaje.
― 7 minilectura
Tabla de contenidos
- Importancia del Feedback Humano
- Tipos de Feedback Natural
- Prevalencia del Feedback Natural
- Taxonomía del Feedback
- Anotación Manual del Feedback
- Crecimiento del Feedback a lo Largo del Tiempo
- Extracción Automática de Feedback
- Resultados de la Extracción de Feedback
- Creación de un Conjunto de Datos de Feedback Natural
- Entrenamiento con Feedback Extraído
- Evaluación Adicional con GPT
- Contraste con Muestras Aleatorias
- Uso Efectivo del Feedback Negativo
- Exploración del Impacto de la Taxonomía
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
El feedback humano es clave para construir modelos de lenguaje. Pero conseguir este feedback puede ser caro y complicado de escalar. Presentamos una manera de recoger fácilmente el feedback que los usuarios dan mientras hablan con modelos de chat y usarlo para entrenar. Estudios previos muestran que el feedback real suele ser mejor que el automático, ya que conduce a menos errores y sesgos.
En nuestra investigación, analizamos Datos de Conversación para ver cuánta retroalimentación natural se incluye. Descubrimos que casi el 30% de los intercambios de chat tienen un feedback claro. Usando nuestro método en más de un millón de conversaciones, recopilamos cientos de miles de ejemplos de feedback. Entrenar nuestro modelo con este feedback llevó a mejoras significativas en comparación con modelos estándar.
Importancia del Feedback Humano
El feedback humano es una parte clave para entrenar modelos. El proceso habitual de Entrenamiento tiene dos pasos principales: primero, una fase de preentrenamiento, y segundo, una fase de alineación donde el modelo se ajusta usando datos de feedback. Más feedback normalmente significa mejores modelos. Sin embargo, recopilar estos datos a menudo requiere mucho esfuerzo humano, lo que hace difícil recolectarlo a gran escala.
La gente normalmente da feedback durante las conversaciones. A menudo muestran satisfacción o insatisfacción solo a través de sus respuestas. Queremos usar este feedback natural en nuestros modelos.
Tipos de Feedback Natural
El feedback natural puede tomar diferentes formas. Por ejemplo, si un usuario está contento con una respuesta, puede hacer la siguiente pregunta sin ningún feedback explícito. En nuestro trabajo, nos enfocamos en el feedback claro y directo, como cuando los usuarios dicen "gracias" o señalan un error con frases como "eso está mal".
Con herramientas como ChatGPT volviéndose populares, ahora hay un montón de datos disponibles de interacciones de usuarios con estos modelos. El feedback natural, basado en respuestas reales de los usuarios, tiende a ser más confiable y más fácil de verificar en comparación con el feedback generado por el modelo mismo.
Prevalencia del Feedback Natural
Para ver qué tan común es el feedback natural, anotamos algunos datos de conversación. Descubrimos que las conversaciones más recientes tienen más feedback que las más antiguas. Esto podría ser porque los usuarios tienen expectativas más altas ahora y son más habilidosos al conversar con modelos.
Desarrollamos una manera de extraer automáticamente este feedback de interacciones humano-modelo. Nuestro método muestra buenos resultados al identificar el feedback de manera precisa. Aplicamos nuestro método a un millón de conversaciones y creamos un conjunto de datos de feedback natural.
Taxonomía del Feedback
Categorizar el feedback natural en cinco tipos:
- Repetir o Reformular: El usuario repite su pregunta o solicitud para aclarar.
- Hacer Consciente con Corrección: El usuario señala un error y explica la información correcta.
- Hacer Consciente sin Corrección: El usuario indica un error sin dar una corrección.
- Pedir Aclaración: El usuario busca más información sobre la respuesta anterior.
- Feedback Positivo: El usuario reconoce que el modelo lo hizo bien, a menudo diciendo "gracias".
Estas categorías nos ayudan a analizar cómo se da el feedback y pueden mejorar el entrenamiento de los modelos.
Anotación Manual del Feedback
Para entender la distribución de los tipos de feedback, anotamos manualmente un conjunto de conversaciones. Después de filtrar contenido irrelevante u ofensivo, encontramos un número significativo de conversaciones que incluían feedback.
Realizamos un chequeo de calidad con un segundo anotador para ver qué tan bien coincidían nuestras anotaciones iniciales. Esto confirmó que nuestro método para identificar feedback es confiable.
Crecimiento del Feedback a lo Largo del Tiempo
Comparamos modelos más antiguos con los actuales y notamos que los modelos más nuevos reciben más feedback. Esto sugiere que a medida que los modelos evolucionan, también lo hacen las interacciones de los usuarios, llevando a un feedback más rico. Más usuarios esperan que sus conversaciones con modelos se sientan más humanas.
Extracción Automática de Feedback
Diseñamos un método para obtener feedback automáticamente de las conversaciones. Instruimos a un modelo de lenguaje para que encuentre partes de las respuestas de los usuarios que contengan feedback y las etiquete en consecuencia. Implementamos esto en un gran conjunto de datos, permitiéndonos generar una amplia colección de ejemplos de feedback.
Resultados de la Extracción de Feedback
Nuestro método pudo identificar y clasificar un gran número de instancias de feedback de manera precisa. El análisis mostró que los tipos de feedback más comunes eran "Pedir Aclaración" y "Repetir o Reformular".
Aunque nuestro método a veces confundió respuestas que no eran feedback con feedback, muchas de estas instancias aún proporcionaron señales valiosas que pueden ser usadas para el entrenamiento.
Creación de un Conjunto de Datos de Feedback Natural
Usando anotaciones manuales y nuestro método de extracción automática, compilamos un gran conjunto de datos de feedback natural de un millón de conversaciones. Observamos que las conversaciones que contenían feedback tenían un número promedio de turnos más alto que las que no.
Los datos de feedback extraídos incluían una mezcla de ejemplos positivos y negativos, con una cantidad significativa de feedback disponible para entrenar modelos.
Entrenamiento con Feedback Extraído
Para mostrar la utilidad de nuestros datos de feedback, entrenamos varios modelos y observamos mejoras en el rendimiento. Los modelos entrenados con nuestro conjunto de datos de feedback mostraron ganancias significativas en comparación con sus versiones preentrenadas.
Realizamos evaluaciones humanas donde los modelos entrenados fueron calificados mejor que sus contrapartes basales. También probamos modelos abiertos para juzgar la calidad de las respuestas; sin embargo, fueron menos efectivos al distinguir entre los modelos entrenados y no entrenados inicialmente.
Evaluación Adicional con GPT
Usamos GPT-4 como evaluador en nuestros experimentos y confirmamos que nuestros modelos entrenados funcionaron mejor. Usar múltiples métodos de evaluación fortaleció nuestra conclusión de que el feedback que extraímos es valioso.
Contraste con Muestras Aleatorias
Como prueba adicional, comparamos el entrenamiento con nuestros ejemplos positivos extraídos con el entrenamiento en ejemplos de chat aleatorios. Los modelos entrenados con nuestro feedback mostraron claramente mejores resultados.
Uso Efectivo del Feedback Negativo
También queríamos ver cómo se podría utilizar el feedback negativo en el entrenamiento. Usamos el método KTO, que permite entrenar con datos de preferencia no emparejados. Focalizarse en las señales negativas más fuertes demostró ser beneficioso para entrenar aún más nuestros modelos.
Exploración del Impacto de la Taxonomía
Examinamos cómo nuestras categorías de feedback afectaron el proceso de extracción. Al probar diferentes taxonomías, confirmamos que tener categorías claras ayudó a mejorar la precisión de la extracción.
Cuando intentamos usar menos categorías, fue evidente que aunque parecía más fácil, a menudo conducía a confusión y extracciones inexactas.
Direcciones Futuras
Nuestro trabajo enfatiza la importancia del feedback que ocurre naturalmente. El desarrollo continuo en modelos puede llevar a un feedback aún más abundante y de mejor calidad. La investigación futura podría enfocarse en integrar el feedback en interacciones en tiempo real.
También esperamos que a medida que más personas usen asistentes de voz, la cantidad de feedback recopilado aumente, llevando a datos más perspicaces para mejorar los modelos.
Conclusión
En resumen, demostramos con éxito que el feedback que ocurre naturalmente es abundante en las interacciones humano-modelo. Nuestro método de extracción nos permitió recopilar una cantidad significativa de feedback útil, que usamos para entrenar modelos. Los resultados prometedores muestran el potencial de usar este feedback en el desarrollo de modelos para mejorar su alineación con las preferencias humanas. Creemos que hay mucho espacio para mejorar y explorar más en esta área.
Título: Learning from Naturally Occurring Feedback
Resumen: Human feedback data is a critical component in developing language models. However, collecting this feedback is costly and ultimately not scalable. We propose a scalable method for extracting feedback that users naturally include when interacting with chat models, and leveraging it for model training. We are further motivated by previous work that showed there are also qualitative advantages to using naturalistic (rather than auto-generated) feedback, such as less hallucinations and biases. We manually annotated conversation data to confirm the presence of naturally occurring feedback in a standard corpus, finding that as much as 30% of the chats include explicit feedback. We apply our method to over 1M conversations to obtain hundreds of thousands of feedback samples. Training with the extracted feedback shows significant performance improvements over baseline models, demonstrating the efficacy of our approach in enhancing model alignment to human preferences.
Autores: Shachar Don-Yehiya, Leshem Choshen, Omri Abend
Última actualización: 2024-07-15 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.10944
Fuente PDF: https://arxiv.org/pdf/2407.10944
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/shachardon/naturally_occurring_feedback
- https://huggingface.co/datasets/shachardon/naturally_occurring_feedback
- https://huggingface.co/sfairXC/FsfairX-LLaMA3-RM-v0.1
- https://huggingface.co/datasets/CollectiveCognition/chats-data-2023-10-16?row=11
- https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- https://github.com/ContextualAI/HALOs