Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Evaluación del seguimiento de instrucciones secuenciales en LLMs

Un nuevo punto de referencia evalúa qué tan bien los modelos de lenguaje siguen múltiples instrucciones en secuencia.

― 5 minilectura


Nuevo benchmark de LLMNuevo benchmark de LLMreveladoseguir instrucciones complejas.Evaluando la capacidad de la IA para
Tabla de contenidos

Seguir múltiples instrucciones es una habilidad clave para los modelos de lenguaje de gran tamaño (LLMs). Sin embargo, evaluar esta habilidad presenta desafíos, incluidas las conexiones poco claras entre las instrucciones, el efecto del orden de las instrucciones en el rendimiento y la falta de tareas que se puedan verificar objetivamente.

Para abordar estos desafíos, presentamos un estándar destinado a probar qué tan bien los modelos pueden manejar tareas que requieren seguir pasos en secuencia. En nuestro estándar, la efectividad de completar todas las instrucciones se puede verificar observando solo la última tarea. Esto permite una evaluación exhaustiva en cuatro tareas: Modificación de texto, respuesta a preguntas, Matemáticas y seguimiento de reglas de seguridad.

Desafíos en la Evaluación del Seguimiento de Instrucciones

Los métodos actuales para evaluar LLMs a menudo se centran en instrucciones individuales o carecen de coherencia al involucrar múltiples pasos. Esto puede dificultar la evaluación del rendimiento general de un modelo. Otro problema es que el orden en el que se dan las instrucciones puede afectar la forma en que un modelo responde, lo que puede distorsionar los resultados. Finalmente, muchas tareas de evaluación no se prestan fácilmente a una verificación clara.

Para superar estos problemas, nuestro estándar enfatiza el seguimiento secuencial de instrucciones (SIFo). En este enfoque, cada paso está vinculado al anterior, lo que lleva a una evaluación basada solo en la instrucción final. Este diseño ayuda a garantizar que las instrucciones fluyan lógicamente y reduce el sesgo introducido por su orden.

Tareas en el Estándar SIFo

Modificación de Texto (TM)

Esta tarea examina la capacidad del modelo para cambiar texto. Requiere insertar, reemplazar o eliminar palabras en un contexto especificado. El conjunto de datos para esta tarea se crea utilizando artículos de Wikipedia e incluye de 3 a 6 instrucciones diferentes para cada muestra.

Respuesta a Preguntas (QA)

La tarea de QA prueba la comprensión del lenguaje. El modelo debe primero recuperar información de un contexto para responder a una pregunta, luego ajustar el contexto según esa respuesta. Esto añade capas de complejidad y requiere que el modelo procese múltiples instrucciones en un orden lógico.

Matemáticas

En la tarea de matemáticas, los modelos resuelven una secuencia de problemas, donde cada uno depende de la respuesta al anterior. Esta estructura asegura que la lógica de los pasos anteriores se mantenga a lo largo del proceso.

Cumplimiento de Reglas de Seguridad

Esta tarea implica un escenario donde el modelo tiene que seguir instrucciones de seguridad específicas. Los comandos dependen de cambios previos en permisos o reglas, lo que añade una capa de complejidad que debe ser navegado correctamente para mantener la precisión.

Hallazgos de la Evaluación de LLMs

Evaluamos una variedad de LLMs bien conocidos en nuestro estándar. Nuestros resultados indican que los modelos más grandes y desarrollados más recientemente tienen un mejor rendimiento en las tareas SIFo en comparación con sus pares más pequeños y antiguos. Sin embargo, todos los modelos enfrentaron dificultades para seguir secuencias de instrucciones, destacando áreas para mejorar su robustez.

Tendencias de Rendimiento

A través de todas las tareas, notamos un descenso constante en el rendimiento a medida que aumentaba la complejidad de las tareas. Esto fue más evidente entre los modelos de código abierto, que lucharon significativamente con las tareas, especialmente en los pasos finales. En contraste, los modelos de código cerrado más avanzados mostraron una mejor estabilidad, aunque aún enfrentaron desafíos para mantener la precisión a través de múltiples pasos.

Diferencias en el Rendimiento de Tareas

Nuestra evaluación reveló diferentes niveles de rendimiento en las diversas tareas SIFo. Los modelos tuvieron un rendimiento relativamente bueno en tareas de matemáticas y seguridad, mientras que tuvieron más dificultades con la modificación de texto y las tareas de revisión de conocimientos en la sección de QA. Estas disparidades sugieren que, si bien los modelos muestran fortalezas en ciertas áreas, necesitan mejorar en otras.

Conclusión

Hemos introducido SIFo como un estándar para evaluar cuán efectivamente los LLMs pueden seguir instrucciones de manera secuencial. Al centrarnos en tareas que están lógicamente conectadas y son verificables objetivamente, podemos evaluar mejor las capacidades de los modelos de lenguaje modernos. Nuestros hallazgos enfatizan la necesidad de mejorar las habilidades de seguimiento de instrucciones en general, especialmente a medida que miramos hacia futuros avances en el modelado del lenguaje.

Trabajo Futuro

Hay potencial para expandir el estándar SIFo e incluir tareas y desafíos adicionales. Esto podría llevar a una evaluación más completa de las habilidades de seguimiento de instrucciones secuenciales en los LLMs.

Esperamos que este estándar contribuya a una comprensión más profunda de cómo los LLMs pueden manejar conjuntos de instrucciones complejas y guíe el desarrollo de modelos más capaces en el futuro.

Fuente original

Título: The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Resumen: Following multiple instructions is a crucial ability for large language models (LLMs). Evaluating this ability comes with significant challenges: (i) limited coherence between multiple instructions, (ii) positional bias where the order of instructions affects model performance, and (iii) a lack of objectively verifiable tasks. To address these issues, we introduce a benchmark designed to evaluate models' abilities to follow multiple instructions through sequential instruction following (SIFo) tasks. In SIFo, the successful completion of multiple instructions is verifiable by examining only the final instruction. Our benchmark evaluates instruction following using four tasks (text modification, question answering, mathematics, and security rules), each assessing different aspects of sequential instruction following. Our evaluation of popular LLMs, both closed-source and open-source, shows that more recent and larger models significantly outperform their older and smaller counterparts on the SIFo tasks, validating the benchmark's effectiveness. All models struggle with following sequences of instructions, hinting at an important lack of robustness of today's language models.

Autores: Xinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke

Última actualización: 2024-10-03 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.19999

Fuente PDF: https://arxiv.org/pdf/2406.19999

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares