Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Avances en chatbots multimodales

Un nuevo chatbot combina imágenes y texto para mejorar las interacciones con los usuarios.

― 9 minilectura


Desarrollo de ChatbotsDesarrollo de ChatbotsMultimodalesconversaciones más interesantes.Integrando imágenes y texto para
Tabla de contenidos

El objetivo de la inteligencia artificial es imitar la inteligencia humana, lo que incluye reconocer varios tipos de información, charlar con otros y generar nuevas ideas. Los primeros sistemas de IA se enfocaban en tareas separadas en áreas como visión, sonido, lenguaje y espacio. Recientemente, los investigadores han comenzado a combinar estas áreas para crear sistemas que puedan procesar entradas de más de una fuente.

Este trabajo tiene como objetivo crear un chatbot que pueda tener conversaciones con los usuarios mientras comparte imágenes relevantes. La gente suele charlar enviando mensajes y fotos en aplicaciones de chat populares. En una interacción típica, una persona puede enviar una foto relacionada con lo que está hablando. Este proyecto se centra en construir un chatbot que pueda hacer lo mismo.

Trabajo Anterior

Varios estudios han intentado desarrollar formas para que las imágenes y el diálogo trabajen juntos. Un área de investigación se llama diálogo basado en imágenes. Aquí, la tarea es crear respuestas a preguntas sobre ciertas imágenes. Sin embargo, esta tarea no es suficiente para un chatbot que necesita tener conversaciones abiertas sobre cualquier tema, no solo aquellos vinculados a imágenes.

Otra área es el diálogo aumentado por imágenes, donde los sistemas generan respuestas basadas en los contextos del diálogo, ya sea que se compartan imágenes o no. Sin embargo, los métodos anteriores no satisfacían completamente las necesidades de un chatbot efectivo. Algunos sistemas lograron clasificar y recuperar imágenes, pero no generaron respuestas, lo cual es esencial para un chatbot. Otros usaron generadores de respuestas que solo consideraban el texto anterior, lo que llevaba a respuestas que a veces contradecían las imágenes.

El sistema de chatbot propuesto aquí incluye un modelo de imagen y un Modelo de Diálogo. Cada modelo debe entender tanto texto como imágenes para proporcionar interacciones coherentes. El modelo de imagen recupera imágenes relevantes, mientras que el modelo de diálogo genera respuestas apropiadas.

Sistema Propuesto

El sistema de chatbot propuesto sigue un proceso de tres pasos para involucrar a los usuarios de manera efectiva.

Primero, el chatbot toma tanto el historial de conversación (los mensajes intercambiados hasta ahora) como una colección de imágenes. Clasifica todas las imágenes según qué tan bien coinciden con el contexto de la conversación. Si la imagen más relevante supera un cierto nivel, se elige como la mejor opción.

En segundo lugar, el chatbot usa el historial de conversación y la imagen seleccionada para crear una respuesta. Si el sistema no encuentra una buena coincidencia de imagen, utiliza la última imagen compartida en su lugar. Si no se han compartido imágenes, se usa una imagen de marcador de posición de ceros. El chatbot crea una respuesta basada en el historial de conversación, la imagen y las partes ya generadas de la respuesta.

Finalmente, el chatbot envía la respuesta y cualquier imagen recuperada al usuario. Para futuras interacciones, se almacenan los últimos mensajes e imágenes como referencia.

Recuperador de Imágenes

Arquitectura del Modelo

El recuperador de imágenes consta de dos componentes principales: un codificador de imágenes y un codificador de texto. El codificador de imágenes procesa imágenes en representaciones, mientras que el codificador de texto hace lo mismo con el historial del diálogo.

El codificador de imágenes utilizado en este proyecto es un Transformador de Visión (ViT). Los ViT son particularmente buenos para manejar tareas de imágenes procesando pequeños parches de imágenes. El codificador de texto se basa en BERT, que destaca en entender el lenguaje al considerar las relaciones entre todos los tokens en una oración.

Entrada y Salida

Para el codificador de imágenes, las imágenes se redimensionan a tamaños estándar, mientras que el codificador de texto procesa el historial de diálogo en un formato específico. Durante el entrenamiento, el modelo trabaja con pares de imágenes y diálogos. El proceso de entrenamiento implica comparar las combinaciones verdaderas de imágenes y diálogos contra combinaciones aleatorias incorrectas.

Durante la evaluación, el recuperador de imágenes clasifica todas las imágenes en respuesta a un fragmento de diálogo e identifica la mejor coincidencia según su similitud.

Generador de Respuestas

Arquitectura del Modelo Unimodal

Para generar respuestas basadas solo en texto, el sistema utiliza un modelo llamado GPT-2. Este modelo se centra en generar texto prediciendo la siguiente palabra en una oración en función de las palabras que vinieron antes. También se incluye una variante llamada DialoGPT, que ha sido optimizada para tareas de diálogo.

Arquitectura del Modelo Multimodal

Para generar respuestas basadas en entradas de texto y de imagen, se emplea el modelo VisionEncoderDecoder. Esta arquitectura permite combinar un codificador de imágenes ViT con un decodificador de texto para producir respuestas coherentes que sean relevantes tanto para la conversación como para la imagen.

Entrada y Salida

La entrada al codificador de imágenes implica imágenes redimensionadas, mientras que el decodificador de texto procesa el historial de diálogo y la respuesta generada. La salida es una respuesta generada que busca alinearse tanto con la imagen como con la conversación en curso.

Descripción del Conjunto de Datos

El conjunto de datos utilizado en este proyecto se llama PhotoChat. Este conjunto de datos incluye conversaciones en las que un participante comparte una imagen en algún momento. Las conversaciones suelen abarcar temas casuales y tienen alrededor de 12 intercambios.

El conjunto de datos fue recopilado por trabajadores externos, que charlaron libremente usando imágenes seleccionadas aleatoriamente. Estas imágenes cubren temas comunes como personas, comida y animales. El objetivo de usar este conjunto de datos es entrenar y evaluar el chatbot de manera efectiva.

Preprocesamiento de Datos

Para preparar el conjunto de datos PhotoChat para el entrenamiento y la evaluación, se tomaron varios pasos. Las imágenes se almacenaron como URLs, y se eliminaron las imágenes que ya no eran accesibles. El conjunto de datos se formateó para permitir que el chatbot manejara conversaciones sin problemas, incluyendo modificar cómo se comparten y emparejan las imágenes con el diálogo.

Métodos de Evaluación

Evaluación Automática

El proceso de evaluación incluye varias métricas automáticas para evaluar el rendimiento del recuperador de imágenes y del generador de respuestas. Para el recuperador de imágenes, se miden métricas como Recall y Rank Recíproco Medio (MRR). Recall indica cuán a menudo aparece la imagen correcta entre las imágenes recuperadas, mientras que MRR evalúa el rango promedio de la imagen correcta.

Para los generadores de respuestas, se utilizan métricas como Perplejidad, BLEU y Distinct. La Perplejidad mide qué tan probables son las respuestas generadas, mientras que BLEU mide la similitud entre las respuestas generadas y las reales. Distinct evalúa la diversidad de las respuestas.

Evaluación Humana

Además de la evaluación automática, se realiza una evaluación humana para validar el rendimiento del sistema. Trabajadores externos interactúan con el chatbot y proporcionan comentarios sobre varios aspectos de la conversación, incluyendo fluidez, coherencia, atractivo y humanidad.

Resultados

Rendimiento del Recuperador de Imágenes

El rendimiento del recuperador de imágenes se evaluó en función de las métricas mencionadas anteriormente. Se probaron varias configuraciones de modelos, cada una con diferentes arquitecturas y números de parámetros. En general, los modelos mostraron resultados prometedores, logrando puntajes competitivos en métricas como Recall y MRR.

Rendimiento del Generador de Respuestas

Se realizaron evaluaciones similares para los generadores de respuestas. Los generadores multimodales generalmente superaron a los modelos unimodales, mostrando mejores puntajes en Perplejidad, BLEU y Distinct. Esto indica que incorporar imágenes en el proceso de generación de respuestas resulta en capacidades de modelado de lenguaje mejoradas.

Resultados de la Evaluación Humana

Los evaluadores humanos calificaron a los chatbots en diferentes métricas. En general, todos los sistemas demostraron fluidez y coherencia similares, pero el chatbot que entendió tanto imágenes como texto logró puntuaciones más altas en atractivo. Estos resultados sugieren que usar imágenes junto con el diálogo aumenta la participación del usuario durante las conversaciones.

Limitaciones y Trabajo Futuro

Si bien este proyecto logró avances en la creación de un chatbot multimodal, hay varias limitaciones. El actual sistema de recuperación de imágenes depende de un conjunto fijo de imágenes, que puede no incluir siempre opciones relevantes para cada conversación. El trabajo futuro podría enfocarse en expandir el conjunto de imágenes o integrar una función de generación de imágenes en línea.

Otra limitación es que el generador de respuestas actualmente solo puede manejar una imagen a la vez. Mejorar el sistema para procesar múltiples imágenes en un diálogo crearía una interacción más dinámica. Además, el chatbot no puede recibir imágenes de los usuarios, limitando el potencial para experiencias más interactivas.

Por último, mejorar la comprensión del contexto y las respuestas similares a las humanas del sistema mejoraría su rendimiento general. Modelos más avanzados capaces de mantener mejor el historial de conversaciones abordarían algunas de las deficiencias observadas en coherencia y atractivo.

Conclusión

Este trabajo representa un paso significativo en el desarrollo de chatbots de IA que aprovechan tanto imágenes como texto para interacciones más parecidas a las humanas. Al integrar modelos avanzados de aprendizaje profundo para la recuperación de imágenes y la generación de respuestas, el chatbot demuestra el potencial de crear conversaciones atractivas y dinámicas. La investigación y mejoras continuas pueden refinar aún más estos sistemas, allanando el camino para compañeros de IA más interactivos y capaces.

Fuente original

Título: Building Multimodal AI Chatbots

Resumen: This work aims to create a multimodal AI system that chats with humans and shares relevant photos. While earlier works were limited to dialogues about specific objects or scenes within images, recent works have incorporated images into open-domain dialogues. However, their response generators are unimodal, accepting text input but no image input, thus prone to generating responses contradictory to the images shared in the dialogue. Therefore, this work proposes a complete chatbot system using two multimodal deep learning models: an image retriever that understands texts and a response generator that understands images. The image retriever, implemented by ViT and BERT, selects the most relevant image given the dialogue history and a database of images. The response generator, implemented by ViT and GPT-2/DialoGPT, generates an appropriate response given the dialogue history and the most recently retrieved image. The two models are trained and evaluated on PhotoChat, an open-domain dialogue dataset in which a photo is shared in each session. In automatic evaluation, the proposed image retriever outperforms existing baselines VSE++ and SCAN with Recall@1/5/10 of 0.1/0.3/0.4 and MRR of 0.2 when ranking 1,000 images. The proposed response generator also surpasses the baseline Divter with PPL of 16.9, BLEU-1/2 of 0.13/0.03, and Distinct-1/2 of 0.97/0.86, showing a significant improvement in PPL by -42.8 and BLEU-1/2 by +0.07/0.02. In human evaluation with a Likert scale of 1-5, the complete multimodal chatbot system receives higher image-groundedness of 4.3 and engagingness of 4.3, along with competitive fluency of 4.1, coherence of 3.9, and humanness of 3.1, when compared to other chatbot variants. The source code is available at: https://github.com/minniie/multimodal_chat.git.

Autores: Min Young Lee

Última actualización: 2023-04-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.03512

Fuente PDF: https://arxiv.org/pdf/2305.03512

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más del autor

Artículos similares