Evaluando la Resumición Automática con el Conjunto de Datos GUMSum
Un nuevo conjunto de datos mejora las pruebas de herramientas de resumido automático para claridad y fiabilidad.
― 7 minilectura
Tabla de contenidos
La resumificación automática es una forma de acortar textos mientras se mantienen las ideas principales. Herramientas recientes han hecho avances en la creación de Resúmenes claros y legibles. Sin embargo, a veces generan información falsa, tienen problemas con contenido que no es noticias, y no siempre funcionan como resúmenes adecuados. Este texto presenta un nuevo conjunto de datos diseñado para probar qué tan bien estas herramientas pueden resumir diferentes tipos de contenido escrito y hablado en inglés.
¿Qué es GUMSum?
GUMSum es un conjunto de datos más pequeño que contiene resúmenes bien elaborados en 12 categorías diferentes, incluyendo varios formatos escritos y hablados. El objetivo es crear resúmenes que sean Precisos, confiables y que no agreguen detalles extra. El conjunto de datos busca abordar el tema de “Chequeo de Realidad” proporcionando una forma más confiable de evaluar la calidad del resumen.
Características del Conjunto de Datos
Los resúmenes en GUMSum tienen reglas específicas a seguir. Los resúmenes deben ser informativos, representar con precisión los textos originales y no incluir información inventada. Los autores se centraron en tres objetivos clave: Primero, los resúmenes deben sustituir la necesidad de leer el texto original; segundo, deben apegarse estrechamente a la redacción original; y tercero, deben evitar alucinaciones, lo que significa no agregar información que no esté presente en el texto.
El conjunto de datos se construyó utilizando 213 documentos que representan una amplia gama de géneros. Los resúmenes fueron creados por estudiantes en un curso específico, con pautas estrictas para asegurar la calidad y confiabilidad de los resúmenes. Cada resumen está diseñado para ser una oración larga, lo que ayuda a mantener un enfoque en la claridad y la concisión.
Importancia de Resúmenes de Calidad
En estudios anteriores, se ha definido que buenos resúmenes son claros, precisos y lógicos. Sin embargo, lo que significan estas características puede variar según el tipo de resumen que se necesite, ya sea para un tema específico o una visión general. El conjunto de datos GUMSum se enfoca en resúmenes de propósito general que son concisos y ayudan a los lectores a entender los puntos principales.
Para lograr esto, los resúmenes deben:
- Sustituir la lectura del texto completo
- Incluir información sobre los participantes, tiempo, lugar y manera de los eventos
- Estar escritos como oraciones completas
- Eliminar distracciones innecesarias
- Evitar mencionar detalles que no se encuentren en el texto original, incluso si parecen precisos
- No usar sinónimos que cambien el significado del texto original
Por ejemplo, si una historia habla de ladrones robando un banco, el resumen debería decir exactamente eso sin cambiar palabras ni agregar información que no esté en la historia.
Problemas con Herramientas de Resumificación Actuales
Las herramientas de resumificación existentes a menudo usan grandes Conjuntos de datos que no están específicamente diseñados para resúmenes de alta calidad. Muchos de estos conjuntos contienen textos que pueden ser incompletos o engañosos. También se centran principalmente en artículos de noticias, lo que limita su efectividad en otros tipos de escritura. Esta limitación llevó a la creación de GUMSum, que busca llenar el vacío proporcionando datos de acceso abierto que incluyen una variedad de géneros y siguen pautas de calidad estrictas.
Evaluación de Modelos de Resumificación
La efectividad de los modelos de resumificación actuales se probó utilizando GUMSum. Específicamente, se realizaron pruebas en varios sistemas diferentes, incluidos modelos supervisados y un modelo basado en prompts. Aunque los sistemas mostraron puntajes impresionantes en ciertos métricas, aún quedaron cortos en comparación con los resúmenes escritos por humanos. El análisis reveló diferencias significativas en calidad según el tipo de documento que se resumía.
Resultados de las Pruebas
Al examinar qué tan bien los sistemas produjeron resúmenes, quedó claro que los resúmenes escritos por humanos siempre superaron a los automatizados. A pesar de que algunas salidas de modelos tuvieron puntajes altos en ciertas áreas, a menudo lucharon con la precisión. Las evaluaciones humanas señalaron que muchos resúmenes generados por modelos no cumplían con los criterios establecidos para buenos resúmenes, como ser concisos o mantenerse fieles al texto original.
Los resultados de las pruebas mostraron que, aunque un modelo (GPT3) funcionó relativamente bien, también falló en igualar el rendimiento humano en varios tipos de texto. Notablemente, diferentes géneros presentaron desafíos únicos, siendo más difíciles los documentos que no eran noticias.
Estudio de Evaluación Humana
Para evaluar más a fondo los modelos de resumificación, se llevó a cabo una evaluación humana. Se asignó a estudiantes de posgrado la tarea de revisar documentos y crear sus propios resúmenes. Luego se les pidió que evaluaran tanto los resúmenes generados por humanos como los creados por los distintos sistemas.
Durante la revisión, se descubrió que los estudiantes preferían los resúmenes escritos por humanos por un amplio margen. Muchos indicaron que los resúmenes producidos por los sistemas automatizados eran menos efectivos y a menudo incluían errores o información adicional que no estaba en los textos originales. Esto destacó las limitaciones de los modelos actuales para producir resúmenes confiables y precisos.
Limitaciones de la Investigación Actual
Si bien los hallazgos del conjunto de datos GUMSum y el estudio de evaluación humana arrojan luz sobre el estado de la resumificación automática, aún hay limitaciones. El conjunto de datos es relativamente pequeño en comparación con otros utilizados para tareas de resumificación, lo que podría influir en los hallazgos generales. Además, el conjunto de datos GUMSum se centra en géneros específicos y no incluye una gama más amplia de tipos de texto u otros idiomas.
El estudio también señaló que, a medida que la tecnología de resumificación continúa evolucionando, los criterios para medir la calidad de los resúmenes también deberían actualizarse. La investigación futura debería explorar cómo se sostienen los resúmenes de una oración a través de diferentes géneros y si siempre serán adecuados para todos los tipos de documentos.
Conclusión
El desarrollo de GUMSum representa un paso hacia la comprensión y mejora de la calidad de la resumificación automática. El conjunto de datos y los resultados de las evaluaciones enfatizan la necesidad de prestar atención cuidadosa a los detalles y la importancia de crear resúmenes que sean precisos y libres de información falsa. A medida que los investigadores trabajan para mejorar las tecnologías de resumificación, GUMSum ofrece un recurso valioso para probar y refinar métodos, asegurando que los futuros resúmenes puedan satisfacer eficazmente las necesidades de los lectores en varios géneros.
Las ideas obtenidas de las evaluaciones humanas también indican que hay mucho espacio para crecer en este campo, apuntando a la necesidad de esfuerzos continuos para asegurar que la resumificación automática pueda ser tanto confiable como efectiva en la entrega de información de calidad.
Título: GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization
Resumen: Automatic summarization with pre-trained language models has led to impressively fluent results, but is prone to 'hallucinations', low performance on non-news genres, and outputs which are not exactly summaries. Targeting ACL 2023's 'Reality Check' theme, we present GUMSum, a small but carefully crafted dataset of English summaries in 12 written and spoken genres for evaluation of abstractive summarization. Summaries are highly constrained, focusing on substitutive potential, factuality, and faithfulness. We present guidelines and evaluate human agreement as well as subjective judgments on recent system outputs, comparing general-domain untuned approaches, a fine-tuned one, and a prompt-based approach, to human performance. Results show that while GPT3 achieves impressive scores, it still underperforms humans, with varying quality across genres. Human judgments reveal different types of errors in supervised, prompted, and human-generated summaries, shedding light on the challenges of producing a good summary.
Autores: Yang Janet Liu, Amir Zeldes
Última actualización: 2023-06-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.11256
Fuente PDF: https://arxiv.org/pdf/2306.11256
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/janetlauyeung/GUMSum4EVAL
- https://gucorpling.org/gum/
- https://wiki.gucorpling.org/en/gum/summarization
- https://huggingface.co/Yale-LILY/brio-xsum-cased
- https://wiki.gucorpling.org/gum/summarization
- https://cloud.google.com/compute/docs/gpus
- https://github.com/yixinL7/BRIO/blob/main/config.py
- https://beta.openai.com/examples/default-tldr-summary
- https://github.com/yixinL7/SimCLS