Mejorando la confianza en los modelos de lenguaje
Un nuevo método de entrenamiento mejora cómo los modelos de lenguaje expresan certeza en las respuestas.
― 10 minilectura
Tabla de contenidos
- Comunicar y Escuchar: La Importancia del Lenguaje
- Confianza Implícita y Explícita
- Entrenamiento Pragmático para Mejorar la Confianza
- Mejorando la Confianza en los Sistemas de IA
- Evaluación Humana e Impacto en el Mundo Real
- Antecedentes sobre Lenguaje y Comunicación
- Esfuerzos Pasados en la Calibración de Modelos de Lenguaje
- Conjuntos de Datos Usados en la Investigación
- El Proceso de Entrenamiento
- Creación de Datos de Preferencia
- Entrenamiento y Validación
- Evaluando el Rendimiento del Modelo
- Implicaciones para la Interacción Humano-IA
- Conclusión
- Fuente original
- Enlaces de referencia
Los modelos de lenguaje grandes (LLMs) pueden responder preguntas y también expresar cuán seguros están sobre esas Respuestas. Pueden hacerlo de manera clara, como dando un número que refleje su Confianza, o de formas menos directas, como sonar seguros o proporcionar información extra. Para que estos modelos sean confiables, su certeza debería coincidir con cuán correctas son sus respuestas. Sin embargo, muchos modelos tienden a estar demasiado seguros, incluso cuando dan respuestas incorrectas.
Para solucionar este problema, los investigadores han ideado un nuevo método de entrenamiento que se enfoca en la perspectiva del oyente. Este método no solo verifica si la respuesta es correcta, sino también si es probable que el oyente acepte esa respuesta. Este enfoque trata la tarea como una forma de mejorar la comunicación del modelo con el oyente. Para hacerlo, se crea datos usando un juego de dos partes: un modelo da respuestas mientras otro modelo simula cómo reacciona un oyente a esas respuestas.
Tres modelos de lenguaje diferentes (Mistral-7B, Llama3-8B, Llama3-70B) fueron entrenados usando este nuevo método. Los resultados mostraron que estos modelos mejoraron en igualar sus niveles de confianza con la corrección de sus respuestas al interactuar con Oyentes. Esta mejora incluso se trasladó a oyentes humanos reales, ayudándoles a hacer juicios más precisos sobre las respuestas del modelo.
En las evaluaciones, se pidió a anotadores humanos que decidieran si aceptar o rechazar las respuestas dadas por los modelos. Los resultados mostraron que usar el nuevo método de entrenamiento redujo el número de respuestas incorrectas que fueron aceptadas por los oyentes, mientras que aún permitía que las respuestas correctas fueran aceptadas al mismo ritmo. Además, el método de entrenamiento demostró ser beneficioso cuando se aplicó a un conjunto de datos diferente, resultando en un gran aumento en la veracidad de las respuestas proporcionadas por los modelos.
El estudio destacó cómo el nuevo enfoque de entrenamiento mejoró la forma en que los modelos expresan confianza. Los modelos entrenados con este método tendieron a dudar más en sus respuestas cuando estaban inseguros y usaron señales claras de certeza cuando estaban correctos. Frecuentemente usaron un tono autoritario y proporcionaron más detalles cuando sus respuestas eran correctas. Además, el entrenamiento llevó a que los modelos fueran más propensos a decir "no sé" cuando no estaban seguros sobre una respuesta.
Comunicar y Escuchar: La Importancia del Lenguaje
Cuando las personas se comunican, generalmente siguen ciertas reglas que hacen que las conversaciones sean efectivas. Los buenos conversadores se esfuerzan por ser honestos, relevantes, claros y concisos. Cuando se ignoran estas pautas, puede confundir a los oyentes, haciendo que el hablante parezca poco confiable o incompetente.
Mientras que los modelos de lenguaje grandes a menudo siguen muchos de estos principios, tienen problemas para ser verídicos. Muchas veces, las respuestas que proporcionan no son correctas, pero se entregan de una manera demasiado confiada. Esto puede engañar a los usuarios haciéndoles creer que el modelo está proporcionando información confiable, lo que podría llevar a malentendidos.
La confianza de un modelo puede manifestarse de diferentes maneras. Pueden mostrarlo explícitamente dando puntuaciones numéricas (como "Estoy 100% seguro") o usando palabras que indican certeza. También pueden mostrar confianza implícitamente a través de detalles o la forma en que se expresan. A menudo, estos detalles pueden ser inventados y no representan hechos. Por ejemplo, un modelo podría decir algo como: "Recuerdo haber visto esta película en cines", incluso si eso no es cierto.
Confianza Implícita y Explícita
Cuando un oyente que no conoce la respuesta evalúa la respuesta del modelo, se basa en cuán segura suena la respuesta. La confianza mostrada puede influir en su decisión de aceptar o rechazar una respuesta. Para ayudar a los modelos a calibrar sus niveles de confianza, el nuevo método entrena al hablante (el modelo que da respuestas) considerando la perspectiva del oyente.
Antes de este entrenamiento, los modelos a menudo mostraban alta confianza independientemente de la corrección de sus respuestas. Después del entrenamiento, se encontró que los modelos expresaban confianza con Precisión, siendo más seguros cuando estaban en lo correcto y menos cuando sus respuestas eran incorrectas.
El problema de la sobreconfianza es preocupante, especialmente a medida que las personas confían cada vez más en estos modelos para obtener información confiable. Muchos usuarios no conocen las respuestas ellos mismos, por lo que podrían aceptar las respuestas del modelo sin cuestionarlas. Este comportamiento puede llevar a una pérdida de confianza en los sistemas de IA.
Entrenamiento Pragmático para Mejorar la Confianza
El nuevo método de entrenamiento se centra en dos problemas principales:
- Los modelos a menudo carecen de conocimiento sobre si sus respuestas son correctas o incorrectas.
- Los modelos no piensan en cómo los oyentes entenderán lo que dicen.
Primero, los modelos base no reciben retroalimentación directa sobre si sus respuestas son correctas, lo que significa que tienen pocas razones para moderar su confianza. En segundo lugar, estos modelos no consideran cómo los oyentes podrían interpretar sus respuestas en tiempo real. Aunque los modelos entrenados con retroalimentación humana pueden parecer tener estas habilidades, trabajos anteriores han demostrado que a menudo tienen un rendimiento peor que los modelos base en términos de calibración de confianza.
El nuevo método de Calibración Consciente del Oyente ajusta los modelos utilizando retroalimentación sobre tanto la corrección de sus respuestas como si los oyentes perciben esas respuestas como correctas. Este método cambia el enfoque de simplemente obtener respuestas correctas a cuán efectivamente las respuestas comunican confianza a los oyentes.
Mejorando la Confianza en los Sistemas de IA
Para lograr esta calibración de confianza mejorada, los investigadores usaron un método llamado Optimización de Preferencias Directas (DPO). Construyeron un conjunto de datos que incluía ejemplos de salidas preferidas y no preferidas del modelo. Al generar múltiples respuestas largas de un modelo de lenguaje estándar y compararlas con las respuestas de un modelo oyente, pudieron definir una función de preferencia que recompensa a los modelos por presentar su confianza con precisión.
El entrenamiento tenía como objetivo crear salidas mejor calibradas, lo que significa que los modelos pueden expresar su confianza de manera más precisa. Las evaluaciones mostraron que los modelos, cuando se probaron con un modelo oyente, tenían una mejor calibración, lo que significa que eran mejores en reflejar con precisión cuán correctas eran sus respuestas.
Evaluación Humana e Impacto en el Mundo Real
Después del entrenamiento, se probaron las respuestas del modelo contra un conjunto de preguntas de trivia para ver qué tan bien se desempeñaban al interactuar con oyentes humanos reales. Los resultados mostraron una mejora significativa en la precisión, lo que significa que se aceptaron menos respuestas incorrectas mientras se mantenía la tasa de aceptación de respuestas correctas.
Además, este nuevo modelo mostró un aumento en la abstención, lo que significa que era más probable que dijera "no sé" cuando no estaba seguro de una respuesta. Este es un cambio positivo, ya que sugiere que el modelo es más cauteloso y evita engañar a los oyentes.
Antecedentes sobre Lenguaje y Comunicación
La pragmática es el estudio de cómo las personas entienden el lenguaje en contexto, considerando más que solo los significados literales de las palabras. Los principios de comunicación de Grice han establecido pautas que las personas generalmente siguen en la conversación, como ser claros y relevantes, entre otros. La importancia de entender cómo se interpreta un mensaje por parte de un oyente está en el núcleo del análisis pragmático.
Esfuerzos Pasados en la Calibración de Modelos de Lenguaje
En investigaciones anteriores, se han propuesto varios métodos para mejorar cómo los modelos expresan confianza. Algunos estudios se han centrado en verbalizar la confianza a través de marcadores específicos o códigos de control en las salidas del modelo. Otros han ajustado modelos para mejorar la calibración de sus niveles de confianza.
Sin embargo, el desafío sigue siendo que los modelos a menudo generan salidas sin considerar cómo reaccionará un oyente. El nuevo método toma un enfoque diferente, entrenando modelos a través de un sistema multiagente que permite que diferentes modelos de hablantes y oyentes simulen mejor las interacciones del mundo real.
Conjuntos de Datos Usados en la Investigación
Para este estudio, se utilizaron dos conjuntos de datos. El conjunto de datos TriviaQA incluía muchas preguntas de trivia con respuestas y documentos fuente, lo que permitió extensas pruebas y Entrenamientos. El conjunto de datos TruthfulQA constaba de preguntas que comúnmente contienen conceptos erróneos, lo que lo convierte en una buena herramienta para evaluar la veracidad en los modelos después del entrenamiento.
El Proceso de Entrenamiento
Para desarrollar datos de entrenamiento para el nuevo método, los investigadores emplearon tanto modelos de hablante como de oyente. Se pidió al modelo hablante que expresara su confianza, mientras que el modelo oyente estaba diseñado para evaluar respuestas sin depender de su conocimiento previo.
Creación de Datos de Preferencia
La creación de datos de entrenamiento comenzó muestreando pares de pregunta-respuesta del conjunto de datos. El modelo hablante generó respuestas a cada pregunta, y el modelo oyente evaluó qué tan probable era aceptar o rechazar las respuestas basándose en sus niveles de confianza. Estos datos se utilizaron luego para crear funciones de preferencia que guiaron el proceso de entrenamiento.
Entrenamiento y Validación
El proceso de entrenamiento tenía como objetivo ajustar los modelos usando QLoRA, ajustando sus salidas según las preferencias de los oyentes. Se evaluaron múltiples modelos para encontrar el de mejor rendimiento, evaluando sus respuestas según cuán bien calibraron su confianza.
Evaluando el Rendimiento del Modelo
Después del entrenamiento, los investigadores probaron los modelos en un conjunto de preguntas de trivia para evaluar qué tan bien calibraron sus niveles de confianza. Los resultados mostraron que el nuevo enfoque mejoró significativamente la precisión y confiabilidad de las salidas del modelo, particularmente en cómo expresaron confianza.
Implicaciones para la Interacción Humano-IA
Mejorar cómo los modelos expresan su confianza tiene implicaciones significativas. Puede llevar a una mejor satisfacción del usuario y seguridad al interactuar con sistemas de IA. Un modelo más confiable puede hacer que las interacciones sean más fluidas y promover la confianza del usuario en la tecnología.
Conclusión
El nuevo método de Afinación Consciente del Oyente representa un desarrollo prometedor para hacer que los modelos de lenguaje sean más confiables y dignos de confianza. Al enfocarse en cómo los modelos comunican sus niveles de confianza, los investigadores pueden crear sistemas de IA que sirvan mejor a las necesidades y expectativas de los usuarios.
La capacidad de los modelos para expresar su nivel de certeza y entender las reacciones de los oyentes tiene el potencial de transformar cómo los humanos interactúan con la IA. A través de futuras investigaciones, estos métodos pueden ser perfeccionados y adaptados a diferentes aplicaciones, mejorando la efectividad general de los modelos de lenguaje en situaciones del mundo real.
Título: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models
Resumen: When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.
Autores: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
Última actualización: 2024-07-03 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.21028
Fuente PDF: https://arxiv.org/pdf/2405.21028
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/esteng/pragmatic_calibration
- https://huggingface.co/allenai/truthfulqa-info-judge-llama2-7B
- https://github.com/pytorch/pytorch/blob/master/LICENSE
- https://github.com/huggingface/transformers/blob/master/LICENSE
- https://github.com/huggingface/accelerate/blob/main/LICENSE
- https://github.com/TimDettmers/bitsandbytes/blob/main/LICENSE
- https://github.com/mandarjoshi90/triviaqa/blob/master/LICENSE
- https://github.com/sylinrl/TruthfulQA/blob/main/LICENSE
- https://www.surveymonkey.com/r/5VZ7Z6P