Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Interacción Persona-Ordenador

Automatizando la Evaluación de Chatbots para Mejores Interacciones

Un nuevo marco evalúa el rendimiento de los chatbots analizando la calidad de la interacción social.

― 6 minilectura


Evaluando chatbots deEvaluando chatbots demanera automáticaefectiva.interacciones con chatbots de maneraUn nuevo método para evaluar las
Tabla de contenidos

A medida que la tecnología conversacional crece en popularidad, la gente interactúa cada vez más con Chatbots. Aunque estas interacciones pueden ser interesantes, también pueden representar riesgos para el bienestar social y mental de los usuarios si la tecnología no se gestiona bien. Por eso, es esencial desarrollar formas efectivas de evaluar qué tan bien rinden los chatbots en las conversaciones. Los métodos actuales para evaluar chatbots a menudo se centran en medidas objetivas de rendimiento, pero pasan por alto cómo se sienten los usuarios con estas interacciones. Además, muchos métodos de Evaluación requieren mucha participación humana, lo que los hace difíciles de escalar.

Para mejorar el proceso de evaluación, proponemos un nuevo marco que utiliza modelos de lenguaje avanzados para evaluar automáticamente a los chatbots. Este enfoque permite un sistema de evaluación completamente automatizado y se alinea mejor con cómo los humanos perciben sus interacciones con los chatbots.

La Importancia de la Evaluación

Los chatbots están diseñados para tener conversaciones que se sientan naturales. Cuando los usuarios interactúan con estos sistemas, esperan que se sigan las normas sociales. Si un chatbot actúa de manera inapropiada, puede llevar a experiencias negativas para los usuarios. Así que evaluar el comportamiento del chatbot es esencial antes de que estos sistemas se hagan ampliamente disponibles.

En el pasado, evaluar chatbots dependía en gran medida de las evaluaciones humanas, pero este método es lento y consume muchos recursos. Aunque han surgido métodos de evaluación automáticos, a menudo todavía requieren algo de entrada humana. Además, estos métodos evalúan principalmente a los chatbots en función de qué tan precisamente o fluidamente responden a ciertos mensajes. Sin embargo, los usuarios generalmente participan en conversaciones más largas, lo que significa que la experiencia general se moldea por varios factores, no solo por respuestas individuales.

Nuestro Enfoque: Un Nuevo Marco

Para cerrar esta brecha, presentamos un nuevo marco que evalúa automáticamente las habilidades conversacionales de los chatbots, centrándose en las Interacciones sociales. Este marco tiene dos pasos principales. Primero, recoge registros de chat haciendo que el chatbot interactúe con un Modelo de Lenguaje que actúa como compañero de conversación. Luego, utiliza el mismo modelo de lenguaje para evaluar la calidad de estas conversaciones en función de los registros de chat generados.

En el primer paso, condicionamos el modelo de lenguaje para asumir un rol social específico durante la interacción. Este método ayuda a crear diálogos más realistas. Para el segundo paso, experimentamos con diferentes formas de pedir al modelo de lenguaje que dé calificaciones de evaluación. Encontramos que agregar ejemplos e instrucciones mejora significativamente su rendimiento en la evaluación de las capacidades sociales de los chatbots.

Resultados de Conjuntos de Datos Derivados de Humanos

Nos enfocamos en chatbots empáticos, donde la comprensión emocional es vital en las conversaciones. Usamos un conjunto de datos que incluye interacciones entre humanos y chatbots empáticos. En este conjunto de datos, los participantes humanos interactúan con chatbots asumiendo roles distintos: el "orador" comparte emociones, mientras que el "escucha" debe responder de manera empática. Cada conversación se califica en varias cualidades, como cortesía y Empatía. Analizamos si nuestro modelo de lenguaje puede imitar efectivamente el discurso humano, usando clasificaciones de emociones e intenciones para evaluar sus respuestas.

Nuestro análisis muestra que los patrones de diálogo generados por nuestro sistema se parecen mucho a los de las conversaciones humanas, lo que indica que nuestro método puede proporcionar información valiosa sobre el rendimiento de los chatbots.

Proceso de Evaluación

Una vez que generamos los registros de chat, pasamos al paso de evaluación para puntuar estas conversaciones. Exploramos tanto enfoques de cero disparos como de pocos disparos, donde el primero le pide al modelo de lenguaje que evalúe el rendimiento sin ejemplos, mientras que el segundo le da algunos ejemplos relevantes. Para mejorar la efectividad de nuestras evaluaciones, incorporamos instrucciones específicas que informan al modelo de lenguaje sobre qué cualidades buscar.

Después de procesar los registros de chat, agregamos las puntuaciones individuales de las conversaciones para desarrollar un ranking general para cada chatbot. Este ranking ayuda a identificar qué chatbot tiene mejor rendimiento según criterios de evaluación similares a los humanos.

Generalización a Otros Conjuntos de Datos

Para probar qué tan bien se puede aplicar nuestro marco de evaluación a diferentes contextos, usamos otro conjunto de datos que presenta una variedad de interacciones humano-bot. Este conjunto de datos está menos enfocado en el comportamiento social, pero ofrece un rico conjunto de conversaciones con calificaciones de calidad de conversación.

Adaptamos nuestra estrategia de indicaciones para ajustarla a este nuevo conjunto de datos, manteniendo un marco de evaluación robusto. Los resultados muestran que nuestro modelo puede generalizar efectivamente a diferentes escenarios conversacionales, logrando una mayor correlación con las evaluaciones humanas que los métodos de evaluación existentes.

Conclusiones

Nuestra técnica de evaluación propuesta ha demostrado ser útil tanto para crear registros de chat realistas para interacciones de chatbots como para ofrecer evaluaciones de rendimiento confiables. Esto marca un paso significativo hacia la automatización del proceso de evaluación para chatbots sociales.

Una conclusión clave es la importancia de usar modelos de lenguaje avanzados para evaluar los matices sociales en las conversaciones. Al hacer que estos modelos asuman varios roles sociales y proporcionarles instrucciones detalladas, podemos lograr una alineación más cercana con el juicio humano.

De cara al futuro, más investigación podría examinar la aplicación de este marco en varios contextos conversacionales más allá de la empatía y explorar el uso de modelos de lenguaje de código abierto.

Reconocemos la necesidad de conjuntos de datos adicionales para calibrar nuestro enfoque de evaluación para otros fenómenos sociales, como la efectividad del humor o la presencia de lenguaje tóxico en las conversaciones.

En resumen, hemos introducido un marco prometedor para evaluar chatbots sociales que aprovecha los modelos de lenguaje para sintetizar diálogos atractivos y evaluar el rendimiento sin necesidad de una intervención humana extensa. Esta innovación representa un gran avance en nuestra capacidad para asegurar que los chatbots involucren a los usuarios de manera segura y efectiva.

Fuente original

Título: Approximating Online Human Evaluation of Social Chatbots with Prompting

Resumen: As conversational models become increasingly available to the general public, users are engaging with this technology in social interactions. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This highlights the need for scalable and robust evaluation metrics for conversational chatbots. Existing evaluation metrics aim to automate offline user evaluation and approximate human judgment of pre-curated dialogs. However, they are limited in their ability to capture subjective perceptions of users who actually interact with the bots and might not generalize to real-world settings. To address this limitation, we propose an approach to approximate online human evaluation leveraging large language models (LLMs) from the GPT family. We introduce a new Dialog system Evaluation framework based on Prompting (DEP), which enables a fully automatic evaluation pipeline that replicates live user studies and achieves an impressive correlation with human judgment (up to Pearson r=0.95 on a system level). The DEP approach involves collecting synthetic chat logs of evaluated bots with an LLM in the other-play setting, where the LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best performing prompts, which contain few-shot demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.

Autores: Ekaterina Svikhnushina, Pearl Pu

Última actualización: 2023-08-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.05253

Fuente PDF: https://arxiv.org/pdf/2304.05253

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares