Un nouveau standard pour évaluer les modèles de langage de jeu de rôle

Table des matières

Aperçu du Référentiel
Contributions
Travaux Connexes
Définitions des Rôles
Système de Notation
Méthodologie
Corrélation avec les Annotations Humaines
Limitations
Remerciements
Classements
Paramètres d'Échantillonnage
Conclusion
Source originale
Liens de référence

On lance une nouvelle méthode pour tester à quel point les modèles de langage peuvent jouer des rôles dans des scénarios de jeu de rôle. Cette méthode permet aux modèles d'imiter les utilisateurs dans des Conversations avec plusieurs échanges, ce qui rend le tout plus dynamique. Notre approche a trois parties clés : un modèle de joueur qui prend un rôle de personnage, un modèle d'interrogateur qui agit comme un utilisateur, et un modèle de juge qui évalue la qualité de la conversation. On a fait des tests comparant les Évaluations automatisées avec des notes humaines réelles, montrant que notre méthode fonctionne bien. Cette recherche pose les bases d'une manière solide d'évaluer comment les modèles se débrouillent dans des situations interactives.

Les modèles de langage sont à la pointe du traitement du langage naturel depuis un moment, avec des versions avancées comme ChatGPT qui montrent leurs compétences en conversation.

Aperçu du Référentiel

On pense que la meilleure façon de juger la capacité d'un modèle de langage dans les conversations est par l'interaction directe. Mais souvent, les vraies personnes n'ont pas le temps de tester de nouveaux modèles, et beaucoup des référentiels actuels se concentrent juste sur des interactions à un seul tour. Ces référentiels traditionnels perdent aussi en fiabilité à cause de mélanges de données de test et d'entraînement. Notre article propose d'utiliser des modèles de langage pour simuler des utilisateurs dans des conversations de jeu de rôle plus longues et d’évaluer automatiquement les dialogues produits.

Notre méthode comprend trois parties clés : un modèle de joueur prenant un rôle de personnage, un modèle d'interrogateur imitant le comportement des utilisateurs, et un modèle de juge qui mesure la qualité de la conversation.

Contributions

On propose un référentiel flexible pour vérifier à quel point les grands modèles de langage (LLMs) peuvent jouer des rôles.
On réduit les biais d'un seul modèle en utilisant un système qui évalue plusieurs modèles en même temps.
On valide notre référentiel en le comparant avec des évaluations humaines.

Tous les résultats, prompts et scripts sont disponibles en ligne. Le référentiel fonctionne aussi bien en anglais qu'en russe.

Travaux Connexes

Évaluation Automatique

Il existe une méthode appelée LLM-as-a-Judge qui utilise des modèles de langage puissants pour évaluer la performance au lieu de se fier uniquement aux humains. Les référentiels notables qui utilisent cette approche incluent AlpacaEval et BiGGen Bench. La force de ces référentiels vient de leur alignement étroit avec les évaluations humaines. Toutefois, ils utilisent un seul modèle comme juge, ce qui peut créer des biais, y compris ceux issus de l'auto-évaluation.

Référentiels Multi-Tours

La plupart des référentiels pour modèles de langage sont limités à des interactions à un seul tour, ce qui ne reflète pas l'utilisation réelle. Il existe quelques référentiels multi-tours, mais ils se concentrent souvent sur des compétences spécifiques et leurs méthodes d'évaluation peuvent différer de la manière dont les gens évaluent habituellement les modèles.

Contamination des Données

Un gros problème avec les référentiels publics existants est que les données de test fuient souvent dans les données utilisées pour entraîner les modèles. C'est difficile d'éviter cette contamination puisque beaucoup de tests sont stockés en ligne. Cela peut arriver sans le vouloir. Une solution serait de fermer complètement les référentiels, mais cela repose sur la confiance envers les organisateurs, ce qui peut être compliqué. D'autres options incluent la mise à jour des référentiels avec de nouvelles données ou leur génération dynamique à l'aide de modèles.

Capacités de Jeu de Rôle

Il y a une recherche croissante sur la façon dont les modèles de langage peuvent jouer des rôles. De nombreux services commerciaux sont développés grâce à ces capacités, comme Character.ai et Chai. Il y a aussi des efforts académiques pour créer des systèmes similaires avec des ressources ouvertes, comme PIPPA, ChatHaruhi et d'autres.

Évaluation du Jeu de Rôle

Plusieurs référentiels existants évaluent les compétences de jeu de rôle, y compris ECHO et PersonaGym. PersonaGym est similaire à notre travail car il génère des questions basées sur le contexte et le personnage joué. Un autre travail connexe est RPBench-Auto, qui a une structure similaire à la nôtre mais compare les modèles côte à côte à une base de référence.

Évaluation Multi-Modèle

Les auteurs de PoLL collectent des évaluations de divers modèles de langage d'une manière similaire à notre approche. Leurs résultats suggèrent que l'utilisation de plusieurs modèles pour l'évaluation peut améliorer la corrélation avec les évaluations humaines.

Définitions des Rôles

Notre configuration comprend trois rôles principaux : joueur, interrogateur et juge, inspirés par le test de Turing. Cependant, notre méthode présente des différences dans le nombre de joueurs, les objectifs et la façon dont les Interrogateurs et les Juges sont utilisés.

Joueur : Prend un personnage spécifique basé sur une fiche de personnage.
Interrogateur : Agit comme un utilisateur dans une situation ou vers un objectif.
Juge : Évalue les réponses du joueur selon des critères définis.

Les rôles sont attribués par un mélange de prompts système et utilisateur. Dans les systèmes sans prompts spécifiques, toutes les indications sont fournies dans le prompt utilisateur.

Cette configuration est intentionnellement asymétrique, car les usages typiques des modèles de jeu de rôle sont aussi asymétriques. Mais ça peut être ajusté pour une symétrie en donnant des descriptions de personnages à la fois au joueur et à l'interrogateur.

Système de Notation

On utilise une approche de notation à un seul point sans exemples de référence ou paires. Le juge examine les réponses selon trois critères principaux :

Cohérence du Personnage : À quel point les réponses du joueur correspondent à la description du personnage.
Valeur de Divertissement : À quel point les réponses sont engageantes et divertissantes.
Fluidité Linguistique : La qualité du langage utilisé, en s'assurant qu'il n'y a pas d'erreurs.

On vérifie aussi si le joueur refuse de répondre. On demande au modèle d'expliquer ses scores avec des citations de la conversation avant de les finaliser.

Méthodologie

Version 1 : Interrogateur et Juge Combinés

Dans la première version, les rôles d'interrogateur et de juge étaient combinés. Ce modèle a reçu la fiche de personnage du joueur, le contexte de la situation et les critères d'évaluation. Il évaluait la dernière réponse du joueur tout en générant le prochain message utilisateur.

On a choisi le modèle claude-3-5-sonnet pour ce rôle en fonction de ses performances dans des tâches d'écriture créative. Chaque critère était noté sur une échelle de 10 points.

Version 2 : Rôles Séparés et Évaluation Multi-Modèle

Reconnaissant les limites de la première version, on a créé une deuxième version qui sépare les rôles d'interrogateur et de juge. Cela résout des problèmes clés :

Émulation Réaliste de l'Utilisateur : Les utilisateurs n'ont souvent pas toutes les informations sur le personnage, donc l'interrogateur ne devrait pas avoir tous les détails.
Efficacité Coût : Un modèle moins coûteux peut remplacer l'interrogateur puisque sa tâche est plus simple que celle du juge.
Stratégies de Décodage Sur Mesure : Différentes stratégies peuvent être appliquées à chaque rôle pour optimiser les performances.

On a aussi constaté que l'utilisation de plusieurs modèles pour l'évaluation améliorait la précision. Dans cette configuration, on a utilisé Claude 3.5 Sonnet et GPT-4o comme juges, tandis que GPT-4o Mini servait d'interrogateur.

Cette version utilise une échelle de Likert à 5 points, ce qui facilite l'alignement avec les évaluations humaines.

Corrélation avec les Annotations Humaines

On a veillé à ce que les juges proposés s'alignent bien avec les évaluations humaines. On a créé 64 conversations pour chacun des 16 modèles en russe, échantillonnant 250 et 265 cas pour l'anglais et le russe, respectivement, et en les notant manuellement. Un seul annotateur a travaillé là-dessus, donc on ne rapporte pas d'accord entre plusieurs annotateurs.

On a calculé la corrélation de Spearman entre les évaluations automatisées et les notes humaines en fonction des différentes configurations. Cette méthode de corrélation a été choisie car les échelles différaient selon les versions.

Le processus d’évaluation est efficace, coûtant moins de 3 $ par modèle, même si le juge évalue les réponses en détail. Comme le juge annotate chaque tour, le nombre total d'annotations dépasse 64. On a cherché à garder la taille raisonnable pour contrôler le temps et les coûts.

En sélectionnant des personnages et des scénarios, on a voulu représenter une variété de sources comme des jeux, des séries TV, des films et des livres.

Tant les modèles de langage que les humains ont tendance à favoriser les sorties plus longues. On a utilisé une pénalité de longueur pour ajuster ce biais, en calculant des scores qui tiennent compte de la longueur des messages du joueur.

Les scores de corrélation de Spearman pour les différentes versions peuvent être trouvés dans les tableaux respectifs, montrant des corrélations supérieures à 0,3 pour la plupart des critères à travers les versions.

La seule exception notable était le score de fluidité linguistique en anglais, probablement dû au statut non natif de l'annotateur. La plupart des modèles se sont bien débrouillés dans ce domaine, tandis que les résultats pour le russe étaient remarquablement plus forts.

Après avoir moyenné les scores de deux modèles, la corrélation a dépassé 0,64 pour les deux langues, ce qui était mieux que n'importe quel score de modèle individuel, confirmant l'efficacité de notre approche multi-modèle.

Limitations

Bien que cette recherche introduise une nouvelle façon d'évaluer les modèles de langage, quelques limitations existent. La taille de l'échantillon de 64 conversations par modèle pourrait affecter la solidité de nos résultats. Se fier à un seul annotateur soulève aussi des questions sur la fiabilité des données. De plus, nos critères d'évaluation peuvent ne pas capturer toutes les complexités des compétences de jeu de rôle.

Malgré ces défis, on espère que ce travail ouvrira la voie à de futurs référentiels qui évaluent différentes capacités des modèles de langage. On croit que l'avenir des évaluations réside dans les interactions entre les modèles, car ils excellent déjà dans de nombreuses tâches et peuvent continuer à s'améliorer grâce à la collaboration.

Remerciements

On voudrait remercier Vladislav Janvarev pour ses contributions au projet et Denis Kanaev pour sa relecture.

Classements

On fournit des classements pour les modèles en russe et en anglais basés sur des scores normalisés par longueur.

Paramètres d'Échantillonnage

On a utilisé des paramètres d'échantillonnage similaires pour la plupart des joueurs, en ajustant si nécessaire pour des modèles spécifiques.

Un exemple détaillé de description de personnage et de situation est fourni.

Conclusion

Cet article décrit notre travail sur un nouveau référentiel pour évaluer les modèles de langage en jeu de rôle. En combinant l'émulation des utilisateurs avec des critères d'évaluation rigoureux, on vise à améliorer le processus d'évaluation et à permettre de meilleures interactions dans des conversations dynamiques.

Un nouveau standard pour évaluer les modèles de langage de jeu de rôle

Présentation d'un cadre innovant pour tester les interactions des modèles de langage dans des scénarios de jeu de rôle.

Aperçu du Référentiel

Contributions

Travaux Connexes

Évaluation Automatique

Référentiels Multi-Tours

Contamination des Données

Capacités de Jeu de Rôle

Évaluation du Jeu de Rôle

Évaluation Multi-Modèle

Définitions des Rôles

Système de Notation

Méthodologie

Version 1 : Interrogateur et Juge Combinés

Version 2 : Rôles Séparés et Évaluation Multi-Modèle

Corrélation avec les Annotations Humaines

Limitations

Remerciements

Classements

Paramètres d'Échantillonnage

Conclusion

Liens de référence

Sujets référencés

Un nouveau standard pour évaluer les modèles de langage de jeu de rôle

Présentation d'un cadre innovant pour tester les interactions des modèles de langage dans des scénarios de jeu de rôle.

#Aperçu du Référentiel

#Contributions

#Travaux Connexes

#Évaluation Automatique

#Référentiels Multi-Tours

#Contamination des Données

#Capacités de Jeu de Rôle

#Évaluation du Jeu de Rôle

#Évaluation Multi-Modèle

#Définitions des Rôles

#Système de Notation

#Méthodologie

#Version 1 : Interrogateur et Juge Combinés

#Version 2 : Rôles Séparés et Évaluation Multi-Modèle

#Corrélation avec les Annotations Humaines

#Limitations

#Remerciements

#Classements

#Paramètres d'Échantillonnage

#Conclusion

Liens de référence

Sujets référencés

Aperçu du Référentiel

Contributions

Travaux Connexes

Évaluation Automatique

Référentiels Multi-Tours

Contamination des Données

Capacités de Jeu de Rôle

Évaluation du Jeu de Rôle

Évaluation Multi-Modèle

Définitions des Rôles

Système de Notation

Méthodologie

Version 1 : Interrogateur et Juge Combinés

Version 2 : Rôles Séparés et Évaluation Multi-Modèle

Corrélation avec les Annotations Humaines

Limitations

Remerciements

Classements

Paramètres d'Échantillonnage

Conclusion