Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Un nuevo estándar para evaluar modelos de lenguaje de rol

Presentando un marco innovador para probar interacciones de modelos de lenguaje en escenarios de juego de roles.

― 10 minilectura


Evaluando Modelos de IAEvaluando Modelos de IAde Juego de Rollenguaje en interacciones dinámicas.Un marco para evaluar modelos de
Tabla de contenidos

Estamos introduciendo una nueva forma de probar qué tan bien los modelos de lenguaje pueden actuar en escenarios de rol. Este método de prueba permite a los modelos imitar a los usuarios en conversaciones con múltiples respuestas, haciéndolo más dinámico. Nuestro marco tiene tres partes clave: un modelo de jugador que asume un papel de personaje, un modelo de Interrogador que actúa como un usuario y un modelo de juez que evalúa la calidad de la Conversación. Realizamos pruebas comparando evaluaciones automatizadas con calificaciones de humanos reales, demostrando que nuestro método funciona bien. Esta investigación sienta las bases para una forma sólida de evaluar qué tan bien funcionan los modelos en situaciones interactivas.

Los modelos de lenguaje han estado a la vanguardia del procesamiento del lenguaje natural durante un tiempo, con versiones avanzadas como ChatGPT demostrando sus habilidades en conversaciones.

Resumen del Benchmark

Creemos que la mejor manera de juzgar la habilidad de un modelo de lenguaje en conversaciones es a través de la interacción directa. Sin embargo, las personas reales a menudo no tienen tiempo para probar nuevos modelos, y muchos benchmarks existentes se centran solo en interacciones de un solo turno. Estos benchmarks tradicionales también están perdiendo confiabilidad debido a problemas con los datos de prueba que se mezclan con los datos de entrenamiento. Nuestro documento sugiere usar modelos de lenguaje para simular usuarios en conversaciones de rol más largas y evaluar automáticamente los diálogos producidos.

Nuestro método incluye tres partes clave: un modelo de jugador que asume un papel de personaje, un modelo de interrogador que imita el comportamiento del usuario y un modelo de juez que mide la calidad de la conversación.

Contribuciones

  • Proponemos un benchmark flexible para comprobar qué tan bien pueden jugar roles los grandes modelos de lenguaje (LLMs).
  • Minimizamos sesgos de modelos individuales utilizando un sistema que evalúa múltiples modelos a la vez.
  • Validamos nuestro benchmark comparándolo con calificaciones humanas.

Todos los resultados, prompts y scripts se pueden encontrar en línea. El benchmark funciona tanto para los idiomas inglés como ruso.

Trabajo Relacionado

Evaluación Automática

Hay un método llamado LLM-as-a-Judge que utiliza modelos de lenguaje potentes para evaluar el rendimiento en lugar de depender únicamente de humanos. Los benchmarks notables que utilizan este enfoque incluyen AlpacaEval y BiGGen Bench. La fortaleza de estos benchmarks proviene de su estrecha alineación con las calificaciones humanas. Sin embargo, utilizan un solo modelo como juez, lo que puede crear sesgos, incluido el sesgo de autoevaluación.

Benchmarks de Múltiples Turnos

La mayoría de los benchmarks para modelos de lenguaje están limitados a interacciones de un solo turno, que no reflejan el uso del mundo real. Hay algunos benchmarks de múltiples turnos, pero a menudo se centran en habilidades específicas y sus métodos de evaluación pueden diferir de cómo la gente comúnmente evalúa los modelos.

Contaminación de Datos

Un gran problema con los benchmarks públicos existentes es que los datos de prueba a menudo se filtran en los datos usados para entrenar modelos. Puede ser difícil evitar esta contaminación ya que muchas pruebas se almacenan en línea. Esto puede suceder de manera no intencionada. Una solución es cerrar completamente los benchmarks, pero esto depende de la confianza en los organizadores, lo cual puede ser complicado. Otras opciones incluyen actualizar los benchmarks con nuevos datos o generarlos dinámicamente usando modelos.

Capacidades de Juego de Roles

Hay una creciente investigación sobre qué tan bien los modelos de lenguaje pueden jugar roles. Muchos servicios comerciales se desarrollan utilizando estas habilidades, como Character.ai y Chai. También hay esfuerzos académicos para crear sistemas similares con recursos abiertos, como PIPPA, ChatHaruhi entre otros.

Evaluación de Juego de Roles

Varios benchmarks existentes evalúan habilidades de juego de roles, incluyendo ECHO y PersonaGym. PersonaGym es similar a nuestro trabajo en que genera preguntas basadas en el contexto y el personaje que se representa. Otro trabajo relacionado es RPBench-Auto, que tiene una estructura similar a la nuestra pero compara modelos lado a lado con una línea de base.

Evaluación de Múltiples Modelos

Los autores de PoLL recogen evaluaciones de varios modelos de lenguaje de una manera similar a nuestro enfoque. Sus hallazgos sugieren que usar múltiples modelos para la evaluación puede mejorar la correlación con calificaciones humanas.

Definiciones de Rol

Nuestra configuración incluye tres roles principales: jugador, interrogador y juez, inspirados en la prueba de Turing. Sin embargo, nuestro método tiene algunas diferencias en el número de jugadores, objetivos y la forma en que se utilizan los interrogadores y Jueces.

  1. Jugador: Asume un personaje específico basado en una hoja de personaje.
  2. Interrogador: Actúa como un usuario dentro de una situación o hacia un objetivo.
  3. Juez: Evalúa las respuestas del jugador según criterios establecidos.

Los roles se asignan a través de una mezcla de prompts del sistema y del usuario. En sistemas que carecen de prompts específicos, toda la orientación se proporciona en el prompt del usuario.

Esta configuración es intencionadamente asimétrica, ya que los usos típicos de los modelos de juego de roles también son asimétricos. Sin embargo, podría ajustarse para simetría al dar descripciones de personajes tanto al jugador como al interrogador.

Sistema de Puntuación

Utilizamos un enfoque de puntuación de un solo punto sin ejemplos de referencia o pares. El juez examina las respuestas basándose en tres criterios principales:

  • Consistencia del Personaje: Qué tan bien las respuestas del jugador coinciden con la descripción del personaje.
  • Valor de Entretenimiento: Qué tan atractivas y entretenidas son las respuestas.
  • Fluidez del Lenguaje: La calidad del lenguaje utilizado, asegurándose de que no haya errores.

También verificamos si el jugador se niega a responder. Se le pide al modelo que explique sus puntuaciones con citas de la conversación antes de finalizarlas.

Metodología

Versión 1: Interrogador y Juez Combinados

En la primera versión, los roles de interrogador y juez se combinaron. Este modelo recibió la hoja de personaje del jugador, el contexto de la situación y los criterios de evaluación. Evaluó la última respuesta del jugador mientras generaba el siguiente mensaje del usuario.

Elegimos el modelo claude-3-5-sonnet para este rol basado en su rendimiento en tareas de escritura creativa. Cada criterio se calificó en una escala de 10 puntos.

Versión 2: Roles Separados y Evaluación de Múltiples Modelos

Reconociendo las limitaciones de la primera versión, creamos una segunda versión que separa los roles de interrogador y juez. Esto aborda problemas clave:

  • Emulación Realista de Usuarios: Los usuarios a menudo no tienen información completa sobre el personaje, así que el interrogador no debería recibir detalles completos.
  • Eficiencia de Costos: Un modelo menos costoso puede reemplazar al interrogador ya que su tarea es más simple que juzgar.
  • Estrategias de Decodificación Personalizadas: Se pueden aplicar diferentes estrategias a cada rol para optimizar el rendimiento.

También encontramos que usar múltiples modelos para la evaluación mejoró la precisión. En esta configuración, utilizamos Claude 3.5 Sonnet y GPT-4o como jueces, mientras que GPT-4o Mini sirvió como interrogador.

Esta versión emplea una escala Likert de 5 puntos, lo que facilita la alineación con las evaluaciones humanas.

Correlación con Anotaciones Humanas

Aseguramos que los jueces propuestos se alinearan bien con las evaluaciones humanas. Creamos 64 conversaciones para cada uno de los 16 modelos en ruso, muestreando 250 y 265 casos para inglés y ruso, respectivamente, y calificándolos manualmente. Un único anotador trabajó en esto, por lo que no informamos sobre el acuerdo entre múltiples anotadores.

Calculamos la correlación de Spearman entre las evaluaciones automatizadas y las calificaciones humanas basadas en las diferentes configuraciones. Este método de correlación fue elegido porque las escalas diferían entre versiones.

El proceso de evaluación es eficiente, costando menos de $3 por modelo, incluso mientras el juez evalúa las respuestas en detalle. Dado que el juez anota cada turno, el número total de anotaciones supera las 64. Buscamos mantener el tamaño bajo para controlar tiempo y costos.

Al seleccionar personajes y escenarios, buscamos representar una variedad de fuentes como juegos, series de TV, películas y libros.

Tanto los modelos de lenguaje como los humanos tienden a favorecer salidas más largas. Usamos una penalización de longitud para ajustar este sesgo, calculando puntuaciones que consideran la longitud de los mensajes del jugador.

Las puntuaciones de correlación de Spearman para diferentes versiones se pueden encontrar en las tablas respectivas, mostrando correlaciones superiores a 0.3 para la mayoría de los criterios entre versiones.

La única excepción notable fue la puntuación de fluidez del lenguaje en inglés, probablemente debido al estatus no nativo del anotador. La mayoría de los modelos se desempeñaron bien en esta área, mientras que los resultados para ruso fueron notablemente más fuertes.

Después de promediar las puntuaciones de dos modelos, la correlación superó 0.64 para ambos idiomas, lo que fue mejor que cualquier puntuación de modelo único, confirmando la efectividad de nuestro enfoque de múltiples modelos.

Limitaciones

Si bien esta investigación introduce una nueva manera de evaluar modelos de lenguaje, existen algunas limitaciones. El tamaño de la muestra de 64 conversaciones por modelo podría afectar la solidez de nuestros hallazgos. Depender de un solo anotador humano también plantea preguntas sobre la confiabilidad de los datos. Además, nuestros criterios de evaluación pueden no capturar todas las complejidades de las habilidades de juego de roles.

A pesar de estos desafíos, esperamos que este trabajo sentará las bases para futuros benchmarks que evalúen diferentes habilidades de los modelos de lenguaje. Creemos que el futuro de las evaluaciones radica en las interacciones entre modelos, ya que ya sobresalen en muchas tareas y pueden seguir mejorando a través de la colaboración.

Agradecimientos

Nos gustaría agradecer a Vladislav Janvarev por sus contribuciones al proyecto y a Denis Kanaev por revisar el texto.

Clasificaciones

Proporcionamos clasificaciones para modelos en ruso e inglés basadas en puntuaciones normalizadas por longitud.

Parámetros de Muestreo

Usamos parámetros de muestreo similares para la mayoría de los jugadores, ajustando según sea necesario para modelos específicos.

Se proporciona un ejemplo detallado de la descripción del personaje y la situación.

Conclusión

Este artículo describe nuestro trabajo en un nuevo benchmark para evaluar modelos de lenguaje de juego de roles. Al combinar la emulación de usuarios con criterios de evaluación rigurosos, buscamos mejorar el proceso de evaluación y permitir una mejor interacción en conversaciones dinámicas.

Artículos similares