Évaluer les compétences sociales des agents conversationnels
Un nouveau critère évalue comment les agents de jeu de rôle interagissent socialement.
― 8 min lire
Table des matières
- Introduction à RoleInteract
- Importance de l'Interaction Sociale
- Construction de RoleInteract
- Le Rôle des Niveaux Individuel et de Groupe
- Profils de Personnages
- Méthodes de Construction de Dialogues
- Conception de Questions pour l'Évaluation
- Validation de l'Ensemble de Données
- Paramètres d'Évaluation
- Découvertes et Résultats
- Capacités de Mémoire des Agents
- Impact des Dynamiques de Groupe
- Préférences Sociales et Comportement de Groupe
- Conclusion
- Travaux Futurs
- Exemples de RoleInteract
- Utilisation de l'Ensemble de Données et Éthique de la Recherche
- Le Rôle de la Recherche Continue
- Source originale
- Liens de référence
Les récentes avancées en intelligence artificielle ont conduit au développement d'agents conversationnels capables de jouer différents personnages. Ces agents peuvent imiter des personnalités et des comportements variés, les rendant plus humains durant les conversations. Cependant, une grande partie des recherches passées s'est concentrée sur l'amélioration de leur capacité à tenir des conversations et à représenter précisément leurs personnages, sans évaluer leur aptitude à interagir socialement.
Introduction à RoleInteract
Pour combler cette lacune, une nouvelle référence d'évaluation appelée RoleInteract a été introduite. RoleInteract est conçu pour évaluer comment les agents conversationnels jouent des rôles interagissent socialement, tant au niveau individuel qu'en groupe. Il contient un large ensemble de données tirées de diverses sources, y compris des livres, des films et d'autres médias. Cet ensemble de données englobe 500 personnages différents, ainsi que plus de 6 000 questions et 30 800 tours de conversation.
Importance de l'Interaction Sociale
L'interaction sociale est un aspect essentiel de la communication humaine. Tout comme les gens ajustent leur comportement en fonction du contexte social d'une conversation, les agents jouant des rôles devraient être capables d'évaluer leur comportement lorsqu'ils interagissent avec des utilisateurs ou d'autres agents. Cette évaluation doit se faire à la fois au niveau individuel-comment un agent comprend son personnage et ses émotions-et au niveau de groupe, impliquant les dynamiques des conversations avec plusieurs agents.
Construction de RoleInteract
La création de RoleInteract a impliqué plusieurs étapes. D'abord, des profils pour une grande variété de personnages ont été collectés à partir de sources en ligne. Après avoir rassemblé ces profils, des scènes de dialogue ont été créées en utilisant des modèles de langage avancés pour garantir que les conversations paraissaient naturelles. La dernière étape impliquait des contrôles de qualité rigoureux pour s'assurer que les conversations et les questions étaient cohérentes et significatives.
Le Rôle des Niveaux Individuel et de Groupe
Au niveau individuel, les agents doivent démontrer une intelligence sociale. Cela inclut la compréhension des traits uniques de leur personnage, l'expression appropriée des émotions et le souvenir des conversations passées. D'autre part, le niveau de groupe exige que les agents adaptent leur comportement en fonction des dynamiques sociales du groupe. Par exemple, ils peuvent devoir agir comme des leaders, des médiateurs ou simplement des participants aux discussions.
Profils de Personnages
Chaque profil de personnage contient des informations détaillées sur le style, les connaissances, les émotions et les préférences sociales du personnage. Les profils ont été créés pour assurer la diversité entre les différents types de personnalité. Cette diversité permet une évaluation plus large de la manière dont les agents peuvent s'adapter et répondre dans diverses situations sociales.
Méthodes de Construction de Dialogues
Le dialogue utilisé dans RoleInteract a été construit en utilisant quatre méthodes :
Extraction de Dialogues d'Oeuvres Existantes : Des dialogues de haute qualité ont été extraits de romans et de scénarios pour maintenir l'authenticité.
Interactions Utilisateurs : Des conversations entre utilisateurs et agents jouant des rôles sur des plateformes en ligne ont été collectées pour refléter des interactions du monde réel.
Jeu de Rôle avec des Modèles AI Généraux : Des modèles AI généraux ont interagi avec des utilisateurs dans des tâches de jeu de rôle, permettant ainsi la génération de dialogues diversifiés.
Création Automatisée de Dialogues Internes : Des modèles AI généraux ont joué à la fois le rôle de l'utilisateur et celui du personnage dans des dialogues internes, générant une grande quantité de données efficacement.
Conception de Questions pour l'Évaluation
Un aspect clé de RoleInteract est les questions conçues pour évaluer les agents sur différents fronts. Cela inclut l'évaluation de leur auto-conscience, de leur perception émotionnelle, de leur mémoire de conversation et de leurs préférences sociales.
Auto-Conscience : Les questions portent sur la capacité d'un agent à comprendre son personnage et à maintenir une cohérence dans son style de parole et ses connaissances.
Perception Émotionnelle : Cela inclut l'évaluation de la capacité des agents à interpréter les indices émotionnels dans les conversations.
Mémoire de Conversation : Les agents sont testés sur leur capacité à se souvenir des parties antérieures de la conversation et à maintenir la cohérence.
Préférences Sociales : Cet aspect examine comment les agents incarnent des comportements sociaux qui correspondent à leurs profils de personnage, que ce soit dans des contextes positifs, neutres ou négatifs.
Validation de l'Ensemble de Données
Pour garantir la qualité de l'ensemble de données RoleInteract, un processus de validation a été mis en œuvre. Cela a impliqué des étapes de pré-validation comme la vérification de l'exactitude des profils de personnages et s'assurer que les dialogues étaient fluides et fidèles au personnage. La phase de post-validation a impliqué plusieurs examinateurs évaluant les questions pour confirmer leur validité et leur pertinence.
Paramètres d'Évaluation
RoleInteract offre une plateforme pour évaluer divers modèles de langage grand public, qu'ils soient open-source ou closed-source. La référence permet aux chercheurs d'évaluer la performance de ces modèles dans différents scénarios d'interaction sociale.
Découvertes et Résultats
Les premières évaluations utilisant RoleInteract ont indiqué que, bien que de nombreux agents performent bien dans des tâches individuelles, ils ont souvent des difficultés avec les interactions de groupe. Cela met en lumière la complexité des dynamiques sociales que les agents doivent naviguer. Plus précisément, la performance varie considérablement selon la nature et la complexité des interactions de groupe.
Capacités de Mémoire des Agents
La mémoire est cruciale pour les agents jouant des rôles. L'évaluation révèle qu'avec l'augmentation de la durée de la conversation, de nombreux agents montrent une baisse de performance. Cela montre que les agents ont souvent du mal à maintenir le contexte dans des conversations plus longues, mettant en lumière un domaine à améliorer.
Impact des Dynamiques de Groupe
La complexité des dynamiques de groupe joue un rôle significatif dans la manière dont les agents interagissent. L'évaluation des agents sous différentes tailles de groupe a montré qu'à mesure que le nombre de participants augmente, les agents tendent à moins bien performer. Cela implique que les agents jouant des rôles doivent développer de meilleures capacités pour gérer des environnements sociaux complexes.
Préférences Sociales et Comportement de Groupe
Les agents sont également évalués sur la manière dont leurs préférences sociales influencent leurs interactions en groupe. Ceux avec des préférences neutres ou négatives ont souvent montré une baisse de performance lorsqu'ils interagissent dans des groupes avec différentes dynamiques, un phénomène connu sous le nom de dérive de préférence. En revanche, les agents avec des préférences sociales positives ont tendance à maintenir une performance plus cohérente à travers diverses dynamiques de groupe.
Conclusion
RoleInteract représente une avancée significative dans l'évaluation des Interactions sociales des agents conversationnels jouant des rôles. Bien que le cadre d'évaluation soit complet, il expose également plusieurs limitations et domaines à explorer davantage. Les résultats soulignent l'importance d'améliorer les capacités sociales de ces agents, en particulier dans des contextes de groupe, pour créer des interactions plus engageantes et réalistes.
Travaux Futurs
Le développement de RoleInteract ouvre la voie à de futures recherches, y compris l'amélioration de la compréhension des dynamiques sociales dans les conversations et le perfectionnement des capacités des agents à gérer des interactions de groupe complexes. De plus, élargir la gamme de personnages et de scénarios sociaux aidera à créer une référence plus robuste pour évaluer l'intelligence sociale des agents conversationnels.
Exemples de RoleInteract
Pour illustrer comment RoleInteract fonctionne, plusieurs exemples montrent des interactions spécifiques et des évaluations de différents personnages. Chaque exemple met en avant comment les agents affichent la personnalité de leur personnage, réagissent aux signaux sociaux et se souviennent des dialogues précédents, fournissant une image claire de leurs capacités sociales dans des environnements de jeu de rôle.
Utilisation de l'Ensemble de Données et Éthique de la Recherche
L'ensemble de données de RoleInteract est destiné uniquement à des fins de recherche. Toutes les données collectées ont été soumises à des vérifications approfondies pour s'assurer qu'elles ne contiennent aucun contenu sensible ou inapproprié. Les chercheurs utilisant cet ensemble de données doivent se conformer à des directives spécifiques qui protègent l'intégrité des données et son utilisation prévue.
Le Rôle de la Recherche Continue
À mesure que le domaine de l'IA conversationnelle progresse, l'évaluation continue des agents jouant des rôles devient essentielle. En perfectionnant continuellement les méthodes de mesure de l'interaction sociale, les chercheurs peuvent favoriser le développement d'agents qui non seulement conversent mais s'engagent aussi de manière significative dans des contextes sociaux. Cela améliorera considérablement l'expérience utilisateur et élargira les applications des agents conversationnels dans divers domaines.
Titre: SocialBench: Sociality Evaluation of Role-Playing Conversational Agents
Résumé: Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce SocialBench, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on SocialBench confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/SocialBench.
Auteurs: Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou
Dernière mise à jour: 2024-08-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.13679
Source PDF: https://arxiv.org/pdf/2403.13679
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/X-PLUG/RoleInteract
- https://beta.character.ai
- https://www.fandom.com
- https://api.minimax.chat/
- https://npc.baichuan-ai.com/index
- https://help.aliyun.com/zh/dashscope/developer-reference/api-details
- https://xingchen.aliyun.com/