Présentation de MMSMR : Un nouveau jeu de données pour évaluer les chatbots
Le dataset MMSMR vise à améliorer l'évaluation des conversations de chatbots avec des réponses humaines variées.
― 6 min lire
Table des matières
- Le Défi de l'Évaluation des Dialogues
- Ce Qu'on a Fait
- Contexte et Travaux Associés
- Création du Jeu de Données
- Évaluation de la Performance des Modèles
- Entraînement des Modèles de Dialogue
- Évaluation et Annotations Humaines
- Insights sur la Diversité des Références
- Conclusion
- Source originale
- Liens de référence
On a créé un nouveau jeu de données appelé MMSMR, ça veut dire Massively Multi-System Multi-Reference. Ce jeu de données est conçu pour améliorer la façon dont on mesure et évalue les Conversations dans les systèmes de dialogue, comme les chatbots. L'objectif, c'est de rendre plus facile la compréhension de leur capacité à communiquer avec les gens.
Le Défi de l'Évaluation des Dialogues
Évaluer à quel point un chatbot est bon pour discuter, c'est pas simple. Les méthodes actuelles correspondent souvent pas à ce que les gens pensent vraiment. On veut trouver une meilleure approche. Un gros problème, c'est que beaucoup de méthodes d’évaluation utilisent seulement une réponse de référence par question. Ça peut poser problème parce qu'il peut y avoir plusieurs bonnes Réponses à la même question.
Pour y remédier, on a créé un jeu de données qui inclut plein de réponses faites par des humains pour chaque question. En faisant ça, on espère avoir une image plus claire de la performance d'un chatbot.
Ce Qu'on a Fait
On a entraîné 1 750 chatbots différents et on les a testés avec notre nouveau jeu de données et un autre jeu bien connu appelé DailyDialog. On a collecté plein de réponses à différents prompts, puis on a évalué la performance des chatbots selon divers critères.
Nos principales contributions sont :
- On a créé un nouveau jeu de données pour évaluer les conversations avec des prompts tirés de matériel pour enseigner l'anglais comme langue seconde.
- On a rassemblé plusieurs réponses de référence générées par des humains pour ces prompts.
- On a entraîné et publié les résultats de plusieurs modèles pour voir comment différents chatbots se comportaient.
- On a mis à disposition toutes les données nécessaires pour que d'autres puissent faire des recherches sans avoir à entraîner de nouveaux modèles.
Contexte et Travaux Associés
On est pas les premiers à étudier comment évaluer les chatbots en utilisant plusieurs références. Des travaux précédents ont montré que l’utilisation de plus d’une référence peut améliorer la connexion entre les Métriques d'évaluation automatiques et les opinions humaines. Beaucoup de chercheurs ont essayé différentes méthodes pour évaluer les chatbots avec à la fois des références humaines et automatiques.
Mais la plupart des études se concentraient sur des Jeux de données avec très peu de systèmes de dialogue et n'utilisaient pas assez de références multiples.
Création du Jeu de Données
Pour créer notre jeu de données, on a collecté 3 500 nouvelles conversations multi-tours d'un site dédié à l'enseignement de l'anglais. On a demandé à des travailleurs sur une plateforme de tâches de fournir entre deux et cinq réponses pour différentes conversations. Ça nous a aidés à rassembler une gamme de réponses pour chaque prompt.
On a vérifié la qualité des réponses en mesurant leur diversité. La similarité moyenne entre les réponses est élevée, ce qui suggère que notre collection est variée. Cette diversité est essentielle pour évaluer la performance des chatbots, car utiliser uniquement des réponses similaires ne serait pas efficace.
Évaluation de la Performance des Modèles
On voulait comprendre l'efficacité de différentes méthodes de scoring en les comparant à des Évaluations humaines. On a étudié diverses métriques pour voir comment elles correspondaient aux jugements humains.
Pour ce faire, on a mené plusieurs analyses :
- On a mesuré la corrélation entre les scores de différentes métriques et les évaluations humaines.
- On a observé comment différentes métriques pouvaient distinguer la performance de plusieurs modèles de chatbot.
- On a examiné de près comment la performance des métriques variait en les appliquant à des systèmes de chatbot bons et moins bons.
En utilisant plusieurs modèles, on a gagné des insights sur la performance des métriques d'évaluation lorsque des différences significatives de performance des chatbots apparaissaient.
Entraînement des Modèles de Dialogue
On a utilisé un cadre spécifique pour entraîner nos modèles de chatbot. Ça impliquait de définir des paramètres qui fonctionnent bien pour les traductions automatiques à faibles ressources. On a réalisé plusieurs tests avec des configurations différentes pour comprendre comment la performance des modèles changeait selon différents facteurs.
Dans le cadre de notre entraînement, on a utilisé diverses méthodes pour générer des réponses, comme la recherche gourmande et différentes stratégies d'échantillonnage. Ça nous a permis d'évaluer comment nos modèles pouvaient répondre dans des scénarios réels.
Évaluation et Annotations Humaines
Pour recueillir des évaluations humaines, on a organisé que des travailleurs fournissent des réponses aux prompts de conversation. Chaque conversation a reçu plusieurs réponses, ce qui nous a permis de collecter des retours sur la qualité des réponses.
Les travailleurs ont été rémunérés pour leur temps, et on a assuré la qualité des réponses en filtrant tout ce qui n'était pas unique ou utile.
Insights sur la Diversité des Références
En analysant les réponses à travers différents jeux de données, on a remarqué que les réponses avaient une grande diversité. La variété des réponses pour chaque prompt était essentielle pour une évaluation juste. Si toutes les réponses étaient trop similaires, les avantages d'utiliser plusieurs références diminueraient.
On a noté qu’au fur et à mesure que les travailleurs complétaient plus de tâches, ils avaient tendance à fournir moins de réponses uniques. C'est un point important à garder en tête lors de la planification des évaluations et de l'assurance qualité des données.
Conclusion
MMSMR est un gros pas en avant pour comprendre à quel point les chatbots peuvent tenir des conversations. En fournissant un jeu de données diversifié avec plusieurs références, on vise à améliorer le processus d'évaluation et à soutenir d'autres recherches sur les systèmes de dialogue.
Nos découvertes indiquent que l'utilisation de nombreuses références conduit à de meilleurs résultats d'évaluation, alignés plus étroitement avec les opinions humaines. Ce travail peut aider à s'assurer que les futurs chatbots sont plus efficaces pour engager des conversations significatives.
Au final, le développement de MMSMR ouvre de nouvelles possibilités pour les chercheurs cherchant à améliorer la façon dont on évalue les agents conversationnels. Avec des jeux de données solides, on peut travailler pour des systèmes qui communiquent de manière plus naturelle et efficace avec les utilisateurs.
Titre: How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation
Résumé: We release MMSMR, a Massively Multi-System MultiReference dataset to enable future work on metrics and evaluation for dialog. Automatic metrics for dialogue evaluation should be robust proxies for human judgments; however, the verification of robustness is currently far from satisfactory. To quantify the robustness correlation and understand what is necessary in a test set, we create and release an 8-reference dialog dataset by extending single-reference evaluation sets and introduce this new language learning conversation dataset. We then train 1750 systems and evaluate them on our novel test set and the DailyDialog dataset. We release the novel test set, and model hyper parameters, inference outputs, and metric scores for each system on a variety of datasets.
Auteurs: Huda Khayrallah, Zuhaib Akhtar, Edward Cohen, Jyothir S, João Sedoc
Dernière mise à jour: 2024-11-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.14533
Source PDF: https://arxiv.org/pdf/2305.14533
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.rong-chang.com
- https://github.com/facebookresearch/flores/tree/5696dd4ef07e29977d5690d2539513a4ef2fe7f0
- https://github.com/facebookresearch/ParlAI/tree/1e905fec8ef4876a07305f19c3bbae633e8b33af
- https://github.com/Shimorina/human-evaluation-datasheet/blob/main/sheet/markdown/human-evaluation-datasheet.md