Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Avances en la Evaluación Automática para Sistemas de Diálogo

Esfuerzos para mejorar las métricas multilingües para sistemas de diálogo se mostraron en el reciente desafío.

― 11 minilectura


Desafío de Métricas paraDesafío de Métricas paraSistemas de Diálogosistemas de diálogo multilingües.Mejorando la evaluación automática en
Tabla de contenidos

El avance rápido en redes neuronales ha cambiado la forma en que vemos los Sistemas de Diálogo, que son los programas que permiten a las computadoras conversar con humanos. Sin embargo, este crecimiento también ha traído varios desafíos para evaluar automáticamente qué tan bien funcionan estos sistemas. Evaluar sistemas de diálogo de forma automática, especialmente en dominios abiertos donde la conversación puede ir a cualquier parte, es un reto constante para muchos investigadores. A pesar de los esfuerzos persistentes por mejorar la forma en que medimos el rendimiento de manera automática, ha habido pocos intentos de comprobar cómo funcionan estas mediciones en diferentes temas e idiomas. La mayoría de los estudios se han centrado principalmente en el idioma inglés.

La necesidad de herramientas de Evaluación Automática confiables es clara. Los investigadores quieren desarrollar Métricas que funcionen en varios temas, idiomas y aspectos del rendimiento. Uno de esos esfuerzos forma parte del 11º Desafío de Tecnología de Sistemas de Diálogo. Esta iniciativa tiene como objetivo fomentar la creación de herramientas de evaluación automática sólidas y Multilingües. Este artículo presenta los conjuntos de datos y modelos base ofrecidos a los participantes de este desafío y explica los resultados y presentaciones para dos tareas específicas.

Antecedentes

Con el surgimiento de modelos de lenguaje neuronales a gran escala, ha habido gran interés en los sistemas de diálogo, particularmente en dominios abiertos. Los investigadores han estado poniendo un esfuerzo significativo en hacer que estos sistemas sean más robustos, lo que significa que deben funcionar bien en diferentes temas y manejar diversas formas en que las personas expresan ideas similares. Esto puede incluir cosas como reformular una oración o traducirla a otro idioma.

La evaluación automática juega un papel crucial en acelerar el proceso de desarrollo de estos sistemas de diálogo. Los métodos tradicionales de evaluación a menudo se basan en comparar palabras, como las métricas BLEU y ROUGE. Estas métricas se centran principalmente en usar un conjunto de ejemplos de alta calidad, o "referencias doradas," para medir qué tan cerca está la salida del sistema de las respuestas esperadas. Desafortunadamente, estos métodos a menudo no se alinean bien con la forma en que los humanos evalúan el diálogo, especialmente porque puede haber innumerables respuestas válidas en un contexto de conversación.

Las métricas más recientes que se basan en modelos, como BERTscore, BLEURT, FED y MDD-Eval, aprovechan la gran capacidad de los modelos de lenguaje transformer preentrenados para evaluar la salida a un nivel más profundo. Algunas de estas métricas más nuevas ni siquiera necesitan referencias de alta calidad como entrada. Sin embargo, a pesar de mostrar más promesa que las métricas tradicionales basadas en palabras, todavía luchan por correlacionarse fuertemente con las evaluaciones humanas. Además, muchas de ellas tienden a centrarse solo en un aspecto particular del diálogo o están limitadas a temas específicos. Su efectividad también puede variar mucho dependiendo de los conjuntos de datos utilizados para el entrenamiento y la evaluación.

Debido a que faltan métodos de evaluación automática confiables, los investigadores a menudo tienen que confiar en evaluaciones humanas costosas y que consumen tiempo para analizar el rendimiento de sus modelos y compararlos con referencias establecidas. Además, vale la pena señalar que las métricas existentes no se han probado a fondo en entornos multilingües. Poder generalizar métricas a través de diferentes idiomas sería especialmente valioso, ya que permitiría el avance de sistemas de diálogo centrados en el inglés hacia contrapartes multilingües más capaces.

Desafortunadamente, hay una deficiencia en conjuntos de datos de diálogo de calidad para muchos idiomas más allá del inglés, especialmente para idiomas que tienen menos recursos disponibles. Para abordar este problema, los investigadores pueden aprovechar los avances recientes en traducción automática y técnicas de paráfrasis. Al utilizar servicios y modelos de alta calidad establecidos, pueden producir nuevos conjuntos de datos en varios idiomas y crear datos adicionales en el idioma original a través de métodos como la retrotraducción o la paráfrasis. Este trabajo tiene como objetivo mejorar la confiabilidad de las técnicas de evaluación existentes y arrojar luz sobre su rendimiento en diferentes situaciones.

Detalles de la Ruta

Este desafío se divide en dos tareas, que se explican en las secciones siguientes.

Tarea 1: Métricas Automáticas Multilingües

En esta primera tarea, se pide a los participantes que desarrollen métricas de evaluación automática efectivas para sistemas de diálogo que funcionen bien en un entorno multilingüe. Esto significa que deben desempeñarse de manera comparable en varios idiomas, incluidos el inglés, el español y el chino. Los participantes deben crear un solo modelo que pueda lograr una alta correlación con las evaluaciones humanas al evaluar diálogos multilingües.

Para hacer esto, se espera que los participantes utilicen modelos multilingües preentrenados, los entrenen para predecir varias métricas de calidad utilizando técnicas de auto-supervisión y posiblemente ajusten sus modelos en una parte de los datos de desarrollo. Luego se espera que prueben sus modelos tanto en los conjuntos de datos de desarrollo como en los de prueba, mostrando un rendimiento consistente en correlaciones con las evaluaciones humanas en los tres idiomas mencionados.

Tarea 2: Métricas de Evaluación Robusta

La segunda tarea se centra en desarrollar métricas robustas para evaluar diálogos en inglés que cumplan con las propiedades mencionadas anteriormente. Específicamente, estas métricas deberían funcionar bien al tratar con oraciones parafraseadas o retrotraducidas. El objetivo es que estas métricas mantengan el mismo nivel de rendimiento y correlación con los juicios humanos que tienen con las oraciones originales.

Para esta tarea, los participantes tienen acceso a los mismos conjuntos de datos que en la Tarea 1, pero evaluarán específicamente sus modelos en datos parafraseados y retrotraducidos. Los participantes crearán oraciones semánticamente similares utilizando técnicas como la retrotraducción y la paráfrasis.

Conjuntos de Datos

El desafío se basa en una selección de conjuntos de datos para proporcionar el material necesario para entrenar, desarrollar y probar las métricas propuestas. A continuación se ofrece un resumen de estos conjuntos de datos.

Conjuntos de Datos de Entrenamiento

Los datos de entrenamiento provienen de diversas fuentes, incluida una gran colección de conjuntos de datos de diálogo humano-humano que fueron preprocesados y puestos a disposición en un formato estándar. Este clúster de entrenamiento consiste en alrededor de 393,000 diálogos, que suman aproximadamente 3 millones de turnos de conversación. Una ventaja de este conjunto de datos es que ha sido retrotraducido múltiples veces utilizando un servicio de traducción de alta calidad.

Conjuntos de Datos de Desarrollo

Para la fase de desarrollo, se utilizan dos clústeres de conjuntos de datos:

  1. DSTC10: Este clúster incluye más de 35,000 anotaciones de nivel de turno que han sido traducidas al español y al chino y posteriormente retrotraducidas al inglés.
  2. CDIAL: Este conjunto de datos contiene diálogos de dominio abierto originalmente en chino, totalizando alrededor de 3,470 diálogos. Un subconjunto de estos diálogos fue anotado manualmente por investigadores.

Conjuntos de Datos de Prueba

Los conjuntos de datos de prueba incluyen nuevos datos de interacción humano-chatbot, divididos en varios idiomas (inglés, chino y español). El conjunto de datos de prueba en inglés incluye 2,000 turnos con conversaciones de varios chatbots. El conjunto de datos de prueba en chino comprende alrededor de 5,000 turnos, generados con chatbots adicionales. Finalmente, el conjunto de prueba en español consiste en 1,500 turnos tomados del anterior conjunto de datos DSTC10.

Anotaciones de Calidad

Para todos los conjuntos de datos, se proporcionaron anotaciones de calidad, incluidas evaluaciones de la calidad de traducción para cada oración. Las puntuaciones de estimación de calidad son importantes, ya que ayudan a los participantes a filtrar diálogos de baja calidad y reducir el posible ruido en sus sistemas de métricas.

Dimensiones de Evaluación

La evaluación de sistemas de diálogo puede tener en cuenta varios aspectos debido a su naturaleza multifacética. Las dimensiones elegidas para evaluar los modelos incluyen:

  • Pertinencia: ¿Es la respuesta adecuada dada lo que se dijo anteriormente en el diálogo?
  • Riqueza de Contenido: ¿Contiene la respuesta contenido informativo, con oraciones largas e incluye varias entidades y emociones?
  • Corrección Gramatical: ¿Está la respuesta libre de errores gramaticales y semánticos?
  • Relevancia: ¿La respuesta se mantiene en el tema respecto al diálogo en curso?
  • Coherencia: ¿Mantiene el sistema un buen flujo a lo largo de la conversación?
  • Compromiso/Simplicidad: ¿Muestra el sistema una personalidad que sea atractiva para el usuario?
  • Informatividad: ¿Proporciona información única y no genérica?
  • Calidad General: ¿Cuál es la calidad general y el nivel de satisfacción del diálogo?

Las evaluaciones tendrán en cuenta tanto las métricas a nivel de turnos como a nivel de diálogo para asegurar una comprensión amplia del rendimiento del sistema.

Resultados y Análisis

Para la Tarea 1, cuatro equipos participaron, presentando un total de 16 propuestas. A cada equipo se le pidió que proporcionara una breve descripción de su sistema, esbozando su enfoque y técnicas. A pesar de los diferentes niveles de rendimiento, algunos equipos lograron resultados prometedores que contribuyen al objetivo general de mejorar las métricas de evaluación automática.

Los equipos fueron clasificados en función de sus presentaciones, con puntuaciones específicas calculadas para evaluar qué tan cerca estaban sus resultados de las evaluaciones humanas. Los resultados de la primera tarea indicaron que, aunque algunos equipos se desempeñaron bien a nivel de turnos, nadie pudo superar al modelo base en lo que respecta a las métricas a nivel de diálogo.

Para la Tarea 2, un total de cinco equipos participaron con 21 presentaciones. Los equipos fueron encargados de crear métricas robustas específicamente para diálogos en inglés. Aquí, los resultados nuevamente mostraron variaciones en el rendimiento, con algunos equipos superando al modelo base mientras que otros no lo lograron.

Los resultados muestran que, aunque se ha avanzado, todavía hay mucho margen para mejorar las métricas de evaluación automática. Las puntuaciones de correlación promedio indicaron que muchos equipos aún quedaron por debajo de los niveles deseados, lo que sugiere el desafío continuo de desarrollar mecanismos de evaluación confiables.

Conclusión y Trabajo Futuro

Este artículo presentó una visión detallada de los esfuerzos por mejorar las métricas de evaluación automática para sistemas de diálogo de dominio abierto, destacando las divisiones en tareas y discusiones en torno a la evaluación multilingüe. Fue evidente a partir de las presentaciones y resultados que, aunque se ha logrado un progreso considerable, persisten desafíos. El deseo de métricas que puedan evaluar con precisión el diálogo en diferentes temas y la necesidad de un rendimiento robusto en contextos multilingües siguen siendo áreas clave para la exploración futura.

Los planes para trabajos futuros incluyen aumentar el tamaño de los conjuntos de datos, mejorar los modelos base e incorporar más dimensiones de evaluación. Ampliar el número de idiomas cubiertos también será un enfoque para que más investigadores puedan participar y contribuir con sus ideas. Mejorar la calidad de las paráfrasis y traducciones generadas también será prioritaria, asegurando que los avances en los sistemas de diálogo continúen progresando de manera efectiva.

Fuente original

Título: Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4

Resumen: The advent and fast development of neural networks have revolutionized the research on dialogue systems and subsequently have triggered various challenges regarding their automatic evaluation. Automatic evaluation of open-domain dialogue systems as an open challenge has been the center of the attention of many researchers. Despite the consistent efforts to improve automatic metrics' correlations with human evaluation, there have been very few attempts to assess their robustness over multiple domains and dimensions. Also, their focus is mainly on the English language. All of these challenges prompt the development of automatic evaluation metrics that are reliable in various domains, dimensions, and languages. This track in the 11th Dialogue System Technology Challenge (DSTC11) is part of the ongoing effort to promote robust and multilingual automatic evaluation metrics. This article describes the datasets and baselines provided to participants and discusses the submission and result details of the two proposed subtasks.

Autores: Mario Rodríguez-Cantelar, Chen Zhang, Chengguang Tang, Ke Shi, Sarik Ghazarian, João Sedoc, Luis Fernando D'Haro, Alexander Rudnicky

Última actualización: 2023-09-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.12794

Fuente PDF: https://arxiv.org/pdf/2306.12794

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares