Un nouveau standard pour évaluer les modèles de langage de jeu de rôle
Présentation d'un cadre innovant pour tester les interactions des modèles de langage dans des scénarios de jeu de rôle.
― 11 min lire
Table des matières
- Aperçu du Référentiel
- Contributions
- Travaux Connexes
- Évaluation Automatique
- Référentiels Multi-Tours
- Contamination des Données
- Capacités de Jeu de Rôle
- Évaluation du Jeu de Rôle
- Évaluation Multi-Modèle
- Définitions des Rôles
- Système de Notation
- Méthodologie
- Version 1 : Interrogateur et Juge Combinés
- Version 2 : Rôles Séparés et Évaluation Multi-Modèle
- Corrélation avec les Annotations Humaines
- Limitations
- Remerciements
- Classements
- Paramètres d'Échantillonnage
- Conclusion
- Source originale
- Liens de référence
On lance une nouvelle méthode pour tester à quel point les modèles de langage peuvent jouer des rôles dans des scénarios de jeu de rôle. Cette méthode permet aux modèles d'imiter les utilisateurs dans des Conversations avec plusieurs échanges, ce qui rend le tout plus dynamique. Notre approche a trois parties clés : un modèle de joueur qui prend un rôle de personnage, un modèle d'interrogateur qui agit comme un utilisateur, et un modèle de juge qui évalue la qualité de la conversation. On a fait des tests comparant les Évaluations automatisées avec des notes humaines réelles, montrant que notre méthode fonctionne bien. Cette recherche pose les bases d'une manière solide d'évaluer comment les modèles se débrouillent dans des situations interactives.
Les modèles de langage sont à la pointe du traitement du langage naturel depuis un moment, avec des versions avancées comme ChatGPT qui montrent leurs compétences en conversation.
Aperçu du Référentiel
On pense que la meilleure façon de juger la capacité d'un modèle de langage dans les conversations est par l'interaction directe. Mais souvent, les vraies personnes n'ont pas le temps de tester de nouveaux modèles, et beaucoup des référentiels actuels se concentrent juste sur des interactions à un seul tour. Ces référentiels traditionnels perdent aussi en fiabilité à cause de mélanges de données de test et d'entraînement. Notre article propose d'utiliser des modèles de langage pour simuler des utilisateurs dans des conversations de jeu de rôle plus longues et d’évaluer automatiquement les dialogues produits.
Notre méthode comprend trois parties clés : un modèle de joueur prenant un rôle de personnage, un modèle d'interrogateur imitant le comportement des utilisateurs, et un modèle de juge qui mesure la qualité de la conversation.
Contributions
- On propose un référentiel flexible pour vérifier à quel point les grands modèles de langage (LLMs) peuvent jouer des rôles.
- On réduit les biais d'un seul modèle en utilisant un système qui évalue plusieurs modèles en même temps.
- On valide notre référentiel en le comparant avec des évaluations humaines.
Tous les résultats, prompts et scripts sont disponibles en ligne. Le référentiel fonctionne aussi bien en anglais qu'en russe.
Travaux Connexes
Évaluation Automatique
Il existe une méthode appelée LLM-as-a-Judge qui utilise des modèles de langage puissants pour évaluer la performance au lieu de se fier uniquement aux humains. Les référentiels notables qui utilisent cette approche incluent AlpacaEval et BiGGen Bench. La force de ces référentiels vient de leur alignement étroit avec les évaluations humaines. Toutefois, ils utilisent un seul modèle comme juge, ce qui peut créer des biais, y compris ceux issus de l'auto-évaluation.
Référentiels Multi-Tours
La plupart des référentiels pour modèles de langage sont limités à des interactions à un seul tour, ce qui ne reflète pas l'utilisation réelle. Il existe quelques référentiels multi-tours, mais ils se concentrent souvent sur des compétences spécifiques et leurs méthodes d'évaluation peuvent différer de la manière dont les gens évaluent habituellement les modèles.
Contamination des Données
Un gros problème avec les référentiels publics existants est que les données de test fuient souvent dans les données utilisées pour entraîner les modèles. C'est difficile d'éviter cette contamination puisque beaucoup de tests sont stockés en ligne. Cela peut arriver sans le vouloir. Une solution serait de fermer complètement les référentiels, mais cela repose sur la confiance envers les organisateurs, ce qui peut être compliqué. D'autres options incluent la mise à jour des référentiels avec de nouvelles données ou leur génération dynamique à l'aide de modèles.
Capacités de Jeu de Rôle
Il y a une recherche croissante sur la façon dont les modèles de langage peuvent jouer des rôles. De nombreux services commerciaux sont développés grâce à ces capacités, comme Character.ai et Chai. Il y a aussi des efforts académiques pour créer des systèmes similaires avec des ressources ouvertes, comme PIPPA, ChatHaruhi et d'autres.
Évaluation du Jeu de Rôle
Plusieurs référentiels existants évaluent les compétences de jeu de rôle, y compris ECHO et PersonaGym. PersonaGym est similaire à notre travail car il génère des questions basées sur le contexte et le personnage joué. Un autre travail connexe est RPBench-Auto, qui a une structure similaire à la nôtre mais compare les modèles côte à côte à une base de référence.
Évaluation Multi-Modèle
Les auteurs de PoLL collectent des évaluations de divers modèles de langage d'une manière similaire à notre approche. Leurs résultats suggèrent que l'utilisation de plusieurs modèles pour l'évaluation peut améliorer la corrélation avec les évaluations humaines.
Définitions des Rôles
Notre configuration comprend trois rôles principaux : joueur, interrogateur et juge, inspirés par le test de Turing. Cependant, notre méthode présente des différences dans le nombre de joueurs, les objectifs et la façon dont les Interrogateurs et les Juges sont utilisés.
- Joueur : Prend un personnage spécifique basé sur une fiche de personnage.
- Interrogateur : Agit comme un utilisateur dans une situation ou vers un objectif.
- Juge : Évalue les réponses du joueur selon des critères définis.
Les rôles sont attribués par un mélange de prompts système et utilisateur. Dans les systèmes sans prompts spécifiques, toutes les indications sont fournies dans le prompt utilisateur.
Cette configuration est intentionnellement asymétrique, car les usages typiques des modèles de jeu de rôle sont aussi asymétriques. Mais ça peut être ajusté pour une symétrie en donnant des descriptions de personnages à la fois au joueur et à l'interrogateur.
Système de Notation
On utilise une approche de notation à un seul point sans exemples de référence ou paires. Le juge examine les réponses selon trois critères principaux :
- Cohérence du Personnage : À quel point les réponses du joueur correspondent à la description du personnage.
- Valeur de Divertissement : À quel point les réponses sont engageantes et divertissantes.
- Fluidité Linguistique : La qualité du langage utilisé, en s'assurant qu'il n'y a pas d'erreurs.
On vérifie aussi si le joueur refuse de répondre. On demande au modèle d'expliquer ses scores avec des citations de la conversation avant de les finaliser.
Méthodologie
Version 1 : Interrogateur et Juge Combinés
Dans la première version, les rôles d'interrogateur et de juge étaient combinés. Ce modèle a reçu la fiche de personnage du joueur, le contexte de la situation et les critères d'évaluation. Il évaluait la dernière réponse du joueur tout en générant le prochain message utilisateur.
On a choisi le modèle claude-3-5-sonnet pour ce rôle en fonction de ses performances dans des tâches d'écriture créative. Chaque critère était noté sur une échelle de 10 points.
Version 2 : Rôles Séparés et Évaluation Multi-Modèle
Reconnaissant les limites de la première version, on a créé une deuxième version qui sépare les rôles d'interrogateur et de juge. Cela résout des problèmes clés :
- Émulation Réaliste de l'Utilisateur : Les utilisateurs n'ont souvent pas toutes les informations sur le personnage, donc l'interrogateur ne devrait pas avoir tous les détails.
- Efficacité Coût : Un modèle moins coûteux peut remplacer l'interrogateur puisque sa tâche est plus simple que celle du juge.
- Stratégies de Décodage Sur Mesure : Différentes stratégies peuvent être appliquées à chaque rôle pour optimiser les performances.
On a aussi constaté que l'utilisation de plusieurs modèles pour l'évaluation améliorait la précision. Dans cette configuration, on a utilisé Claude 3.5 Sonnet et GPT-4o comme juges, tandis que GPT-4o Mini servait d'interrogateur.
Cette version utilise une échelle de Likert à 5 points, ce qui facilite l'alignement avec les évaluations humaines.
Corrélation avec les Annotations Humaines
On a veillé à ce que les juges proposés s'alignent bien avec les évaluations humaines. On a créé 64 conversations pour chacun des 16 modèles en russe, échantillonnant 250 et 265 cas pour l'anglais et le russe, respectivement, et en les notant manuellement. Un seul annotateur a travaillé là-dessus, donc on ne rapporte pas d'accord entre plusieurs annotateurs.
On a calculé la corrélation de Spearman entre les évaluations automatisées et les notes humaines en fonction des différentes configurations. Cette méthode de corrélation a été choisie car les échelles différaient selon les versions.
Le processus d’évaluation est efficace, coûtant moins de 3 $ par modèle, même si le juge évalue les réponses en détail. Comme le juge annotate chaque tour, le nombre total d'annotations dépasse 64. On a cherché à garder la taille raisonnable pour contrôler le temps et les coûts.
En sélectionnant des personnages et des scénarios, on a voulu représenter une variété de sources comme des jeux, des séries TV, des films et des livres.
Tant les modèles de langage que les humains ont tendance à favoriser les sorties plus longues. On a utilisé une pénalité de longueur pour ajuster ce biais, en calculant des scores qui tiennent compte de la longueur des messages du joueur.
Les scores de corrélation de Spearman pour les différentes versions peuvent être trouvés dans les tableaux respectifs, montrant des corrélations supérieures à 0,3 pour la plupart des critères à travers les versions.
La seule exception notable était le score de fluidité linguistique en anglais, probablement dû au statut non natif de l'annotateur. La plupart des modèles se sont bien débrouillés dans ce domaine, tandis que les résultats pour le russe étaient remarquablement plus forts.
Après avoir moyenné les scores de deux modèles, la corrélation a dépassé 0,64 pour les deux langues, ce qui était mieux que n'importe quel score de modèle individuel, confirmant l'efficacité de notre approche multi-modèle.
Limitations
Bien que cette recherche introduise une nouvelle façon d'évaluer les modèles de langage, quelques limitations existent. La taille de l'échantillon de 64 conversations par modèle pourrait affecter la solidité de nos résultats. Se fier à un seul annotateur soulève aussi des questions sur la fiabilité des données. De plus, nos critères d'évaluation peuvent ne pas capturer toutes les complexités des compétences de jeu de rôle.
Malgré ces défis, on espère que ce travail ouvrira la voie à de futurs référentiels qui évaluent différentes capacités des modèles de langage. On croit que l'avenir des évaluations réside dans les interactions entre les modèles, car ils excellent déjà dans de nombreuses tâches et peuvent continuer à s'améliorer grâce à la collaboration.
Remerciements
On voudrait remercier Vladislav Janvarev pour ses contributions au projet et Denis Kanaev pour sa relecture.
Classements
On fournit des classements pour les modèles en russe et en anglais basés sur des scores normalisés par longueur.
Paramètres d'Échantillonnage
On a utilisé des paramètres d'échantillonnage similaires pour la plupart des joueurs, en ajustant si nécessaire pour des modèles spécifiques.
Un exemple détaillé de description de personnage et de situation est fourni.
Conclusion
Cet article décrit notre travail sur un nouveau référentiel pour évaluer les modèles de langage en jeu de rôle. En combinant l'émulation des utilisateurs avec des critères d'évaluation rigoureux, on vise à améliorer le processus d'évaluation et à permettre de meilleures interactions dans des conversations dynamiques.
Titre: PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
Résumé: We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.
Auteurs: Ilya Gusev
Dernière mise à jour: 2024-09-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.06820
Source PDF: https://arxiv.org/pdf/2409.06820
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/IlyaGusev/ping_pong_bench/
- https://ilyagusev.github.io/ping_pong_bench/
- https://character.ai/
- https://huggingface.co/Gryphe/MythoMax-L2-13b
- https://huggingface.co/anthracite-org/magnum-v2-123b
- https://boson.ai/rpbench-blog/
- https://eqbench.com/judgemark.html
- https://eqbench.com/creative_writing.html
- https://vsegpt.ru/