Evaluación de texto con plantillas de instrucciones: un estudio
Un estudio sobre el uso de plantillas de indicaciones para evaluar la traducción automática y la resumificación.
― 6 minilectura
Tabla de contenidos
- ¿Qué Estamos Estudiando?
- Hallazgos de Nuestro Estudio
- Trabajo Relacionado
- Diferentes Técnicas de Indicación
- Estabilidad de las Indicaciones
- Cómo Probamos las Indicaciones
- Métricas de Evaluación
- Resumen de Resultados
- Contribuciones Clave
- Limitaciones del Estudio
- Consideraciones Éticas
- Conclusión
- Fuente original
- Enlaces de referencia
Los grandes modelos de lenguaje (LLMs) han cambiado la forma en que trabajamos con el procesamiento del lenguaje natural (NLP). Pueden aprender de ejemplos en contexto, lo que les ayuda a evaluar el texto generado por máquinas. Esto es especialmente útil cuando los recursos son limitados o cuando no hay mucho tiempo para las evaluaciones. En este artículo, discutiremos un estudio a gran escala de diferentes métodos de indicación para métricas utilizadas en Traducción automática y resumido.
¿Qué Estamos Estudiando?
Hemos desarrollado un sistema llamado PrExMe para explorar varias plantillas de indicaciones. Una indicación es una forma de pedir al modelo un tipo específico de respuesta. En nuestro estudio, analizamos más de 700 plantillas de indicaciones diferentes para ver qué tan bien funcionaron al evaluar textos en dos áreas principales: traducción automática y resumido. Al realizar esta gran comparación, buscamos lograr dos objetivos:
- Hacer un análisis comparativo de qué tan bien rinden los LLMs de código abierto recientes como Métricas de Evaluación.
- Ver qué tan estables o variables eran los resultados con diferentes estrategias de indicación.
Hallazgos de Nuestro Estudio
Nuestros hallazgos muestran que, si bien algunas indicaciones conducían a resultados consistentes, otras eran sensibles a pequeños ajustes. Por ejemplo, algunos modelos preferían dar etiquetas textuales al calificar textos generados, mientras que otros optaban por puntuaciones numéricas. Cambiar la solicitud de resultados de una escala de "0 a 100" a un rango de "-1 a +1" alteró significativamente la clasificación de los textos evaluados.
Trabajo Relacionado
En los últimos años, ha habido un aumento en el uso de LLMs para medir la calidad de los textos generados. La mayoría de los trabajos existentes se han centrado en modelos ajustados, lo que significa que fueron entrenados específicamente para rendir bien en ciertas tareas. Sin embargo, nuestro estudio se dirige a modelos de código abierto y se basa únicamente en cómo las indicaciones pueden guiar a estos modelos para producir evaluaciones sin entrenamiento adicional.
Diferentes Técnicas de Indicación
Existen varias técnicas para crear indicaciones en nuestro estudio. Algunos de los métodos destacados incluyen:
- Indicación Zero-Shot: Este método permite que el modelo brinde una respuesta sin ejemplos.
- Cadena de Pensamiento (CoT): Esta técnica anima al modelo a razonar paso a paso antes de proporcionar una respuesta.
- Indicaciones que Inducen Emociones: Estas indicaciones están diseñadas para hacer que el modelo considere emociones al responder, lo que puede afectar su evaluación de los textos generados.
Estabilidad de las Indicaciones
Incluso con una variedad de indicaciones, encontramos que algunas eran más estables que otras. La estabilidad significa que la efectividad de una indicación no cambia mucho cuando alteramos otros aspectos, como el conjunto de datos o el modelo utilizado. Al analizar cómo se desempeñaron estas indicaciones en diferentes escenarios, pudimos identificar qué indicaciones produjeron consistentemente resultados sólidos.
Nuestras investigaciones mostraron que los modelos específicos que utilizamos también tenían preferencias. Por ejemplo, algunos modelos se desempeñaron mejor con puntuaciones numéricas, mientras que otros fueron más efectivos con etiquetas textuales.
Cómo Probamos las Indicaciones
Diseñamos un conjunto de pruebas que involucró dos fases principales:
- Fase Uno: Evaluamos todas las 720 combinaciones de indicaciones utilizando un conjunto de datos de entrenamiento. Esto nos permitió reducir las mejores indicaciones.
- Fase Dos: Probamos las indicaciones seleccionadas en conjuntos de datos completos para verificar su generalizabilidad, es decir, queríamos ver si todavía se desempeñarían bien fuera del conjunto de entrenamiento.
Métricas de Evaluación
Para medir qué tan bien funcionaron nuestras indicaciones, utilizamos diferentes métodos estadísticos para ver qué tan de cerca se alineaban las puntuaciones del modelo con los juicios humanos. Las métricas clave que utilizamos incluyeron:
- Correlación de Kendall: Esto mide qué tan bien las clasificaciones del modelo se alinean con las clasificaciones basadas en juicios humanos.
- Correlaciones de Spearman y Pearson: Estas son otras formas de medidas estadísticas que ayudan a comparar las clasificaciones.
Resumen de Resultados
En general, diferentes modelos se desempeñaron de manera variable en las tareas. Para las tareas de traducción automática, métricas dedicadas como XComet, que están específicamente entrenadas para estas evaluaciones, mostraron un rendimiento más fuerte en comparación con los modelos que probamos. Sin embargo, nuestros LLMs demostraron versatilidad, ya que también podían manejar tareas de resumido de manera efectiva.
Contribuciones Clave
A través de nuestro trabajo, destacamos la importancia de la construcción de indicaciones y cómo impacta significativamente el rendimiento de las métricas basadas en LLM. Proporcionamos información sobre qué indicaciones tendieron a ofrecer los mejores resultados y dimos recomendaciones para futuras evaluaciones en este ámbito.
Limitaciones del Estudio
Si bien nuestro estudio es extenso, tiene limitaciones. A pesar de evaluar una gran variedad de indicaciones, existen muchas más posibilidades que aún no hemos examinado. Además, el proceso de selección para las mejores indicaciones se basó en puntuaciones máximas en lugar de puntuaciones medianas, lo que puede pasar por alto algunas opciones estables. La investigación futura debería considerar una escala más grande de experimentos y más dimensiones de técnicas de indicación.
Consideraciones Éticas
Al utilizar modelos para evaluar textos generados, existe el riesgo de evaluaciones incorrectas o "alucinaciones", donde el modelo podría generar información engañosa. Sin embargo, creemos que nuestro trabajo puede ayudar a desarrollar enfoques más confiables y reducir tales riesgos.
Conclusión
Este estudio presenta PrExMe, una exploración integral de plantillas de indicaciones para métricas de evaluación de código abierto en generación de lenguaje natural. Evaluamos más de 700 plantillas diferentes y proporcionamos valiosos conocimientos y recomendaciones para mejorar la robustez de estas métricas. Al hacerlo, establecimos una comprensión fundamental de las mejores prácticas para utilizar LLMs en la evaluación de textos generados y abrimos la puerta a una mayor investigación en esta área.
Título: PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation
Resumen: Large language models (LLMs) have revolutionized NLP research. Notably, in-context learning enables their use as evaluation metrics for natural language generation, making them particularly advantageous in low-resource scenarios and time-restricted applications. In this work, we introduce PrExMe, a large-scale Prompt Exploration for Metrics, where we evaluate more than 720 prompt templates for open-source LLM-based metrics on machine translation (MT) and summarization datasets, totalling over 6.6M evaluations. This extensive comparison (1) benchmarks recent open-source LLMs as metrics and (2) explores the stability and variability of different prompting strategies. We discover that, on the one hand, there are scenarios for which prompts are stable. For instance, some LLMs show idiosyncratic preferences and favor to grade generated texts with textual labels while others prefer to return numeric scores. On the other hand, the stability of prompts and model rankings can be susceptible to seemingly innocuous changes. For example, changing the requested output format from "0 to 100" to "-1 to +1" can strongly affect the rankings in our evaluation. Our study contributes to understanding the impact of different prompting approaches on LLM-based metrics for MT and summarization evaluation, highlighting the most stable prompting patterns and potential limitations.
Autores: Christoph Leiter, Steffen Eger
Última actualización: 2024-11-17 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.18528
Fuente PDF: https://arxiv.org/pdf/2406.18528
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://nl2g.github.io/
- https://github.com/Gringham/PrExMe
- https://huggingface.co/Open-Orca/OpenOrca-Platypus2-13B/tree/main
- https://huggingface.co/NousResearch/Nous-Hermes-13b
- https://huggingface.co/TheBloke/Platypus2-Instruct-GPTQ
- https://huggingface.co/Unbabel/XCOMET-XXL
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GPTQ
- https://huggingface.co/Unbabel/TowerInstruct-13B-v0.1
- https://huggingface.co/facebook/bart-large-cnn
- https://github.com/google-research/mt-metrics-eval
- https://github.com/features/copilot