Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

Évaluer l'intelligence sociale dans les modèles de langage

Cette étude évalue à quel point les modèles de langage comprennent les situations sociales en utilisant un jeu.

― 8 min lire


Intelligence Sociale dansIntelligence Sociale dansles Modèles de Langagede langage.des dynamiques sociales par les modèlesLa recherche examine la compréhension
Table des matières

Les grands modèles de langage (LLMs) sont des programmes informatiques capables de comprendre et de créer du texte semblable à celui des humains. Ils ont montré qu'ils pouvaient imiter la façon dont les humains interagissent dans des situations sociales. Cependant, de nombreuses études sur ces modèles ont utilisé des tests simples qui ne capturent pas complètement à quel point ils comprennent les situations sociales. Cet article présente une nouvelle méthode pour évaluer l'intelligence sociale des LLMs en examinant comment ils gèrent les intentions dans un cadre ludique.

Comprendre l'intelligence sociale

L'intelligence sociale inclut la capacité d'une personne à comprendre et à gérer ses propres actions et celles des autres. Cela implique souvent quatre composantes principales :

  1. Conscience situationnelle : Cela signifie remarquer et comprendre ce qui se passe autour de soi.
  2. Auto-régulation : C'est contrôler ses propres pensées, sentiments et actions pour atteindre ses objectifs.
  3. Connaissance de soi : C'est savoir qui l'on est, ses émotions, ses motivations et ses désirs.
  4. Théorie de l'esprit (ToM) : Cela implique de comprendre ce que les autres pensent et ressentent.

Pour évaluer ces quatre composantes, nous avons conçu un jeu où les joueurs doivent naviguer dans des situations sociales, analyser les intentions et interagir de manière significative.

Le jeu Avalon

Nous avons choisi le jeu Avalon pour notre étude. Avalon est un jeu de déduction sociale où les joueurs prennent des rôles de personnages loyaux ou maléfiques. Les joueurs loyaux visent à réussir dans leurs quêtes, tandis que les joueurs maléfiques cherchent à saboter ces efforts. Le jeu repose beaucoup sur la conversation et la stratégie, ce qui en fait un excellent choix pour évaluer l'intelligence sociale.

Configuration du jeu

Dans le jeu, cinq à dix joueurs participent, et chaque tour implique plusieurs actions : résumer les actions passées, discuter des stratégies, voter sur les propositions d'équipe et exécuter des quêtes. Le discours de chaque joueur aide à révéler ses intentions, et nous utilisons ces moments comme des opportunités pour évaluer leur intelligence sociale.

Évaluation de l'intelligence sociale

L'évaluation est structurée autour de quatre domaines clés de l'intelligence sociale.

Conscience situationnelle : sélection des intentions

Les joueurs doivent choisir des intentions en fonction de ce qui se passe dans le jeu. Nous évaluons s'ils sélectionnent des intentions qui ont du sens compte tenu du contexte. Par exemple, si aucune quête n'a échoué, alors choisir une intention de questionner pourquoi un joueur n'a pas voté est déraisonnable.

Auto-régulation : suivi des intentions

Cela implique d'évaluer à quel point les joueurs s'en tiennent à leurs intentions choisies dans leurs actions et leurs discours. Les joueurs doivent exprimer leurs intentions clairement et de manière significative. Nous examinons à la fois leurs processus de pensée et leurs réponses verbales.

Connaissance de soi : résumé des intentions

Dans ce domaine, nous évaluons à quel point les joueurs peuvent expliquer leurs propres intentions. Cela nécessite qu'ils articulent ce qu'ils visent à faire pendant le jeu et pourquoi ces intentions sont importantes.

Théorie de l'esprit : deviner les intentions

On demande aux joueurs de prédire les intentions des autres en fonction de leurs discussions et actions. C'est particulièrement difficile, car cela nécessite une compréhension profonde des interactions sociales et la capacité d'interpréter ce que les autres pourraient penser.

Résultats expérimentaux

Nous avons mené des expériences avec GPT-3.5 et GPT-4, deux modèles bien connus. Dans ces expériences, nous avons joué plus de 40 parties et observé comment les modèles se comportaient dans les différentes dimensions de l'intelligence sociale.

Aperçu des résultats

  1. Sélection des intentions : Les deux modèles ont bien performé en sélectionnant des intentions appropriées avec des précisions autour de 87-89 %. Cela montre qu'ils pouvaient saisir la situation en cours de manière efficace.

  2. Suivi des intentions : En exécutant leurs intentions, les modèles ont eu des difficultés. Ils ont obtenu des scores plus bas, indiquant que, bien qu'ils puissent choisir des intentions, ils ont du mal à suivre avec des actions claires et pertinentes.

  3. Résumé des intentions : Les capacités des modèles à résumer leurs propres intentions variaient. Les résultats ont montré que GPT-4 a mieux performé que GPT-3.5, mettant en avant sa capacité à articuler clairement ses intentions.

  4. Théorie de l'esprit : Les deux modèles ont sous-performé dans la compréhension des intentions des autres. Cela suggère que, bien qu'ils puissent saisir leurs propres actions, ils trouvent beaucoup plus difficile de déchiffrer les perspectives des autres dans un contexte social.

Évaluations centrées sur les intentions

Nos évaluations sont conçues autour des intentions et de leurs liens avec les quatre composantes de l'intelligence sociale. Chacune de ces composantes est essentielle pour une communication efficace et pour s'adapter aux dynamiques des interactions sociales.

Évaluation de la conscience situationnelle

La première étape consiste à évaluer à quel point les modèles peuvent sélectionner des intentions en fonction de leur prise de conscience de l'état du jeu en cours. Cela implique de vérifier si les intentions s'alignent sur les faits établis et les rôles que les joueurs sont censés jouer.

Évaluation de l'auto-régulation

Ensuite, nous observons comment les modèles expriment leurs intentions choisies. Cela nécessite qu'ils relient leurs pensées à leurs expressions verbales tout en s'assurant qu'ils ont un plan claire et valide. Leur discours devrait refléter leurs intentions, et nous mesurons cela à l'aide d'une échelle de notation.

Mesure de la connaissance de soi

Pour évaluer la connaissance de soi, nous analysons à quel point les modèles peuvent articuler leurs motivations et intentions. Cela offre un aperçu de leurs processus internes et nous aide à comprendre comment les modèles se perçoivent lors du jeu.

Évaluation de la théorie de l'esprit

Les évaluations de la théorie de l'esprit demandent aux modèles de faire des suppositions éclairées sur les intentions des autres joueurs. Cela implique d'interpréter le contexte et d'appliquer un raisonnement pour prédire ce que les autres pourraient faire ou penser.

Aperçus des performances au jeu

Notre configuration expérimentale a révélé des informations notables sur la façon dont les joueurs se sont comportés dans le jeu Avalon. En examinant les taux de victoire et les résultats des quêtes, nous comprenons comment l'intelligence sociale des joueurs influence le succès global du jeu.

Analyse des taux de victoire

Nous avons mesuré le pourcentage de jeux gagnés par chaque camp. Le camp loyal subit souvent des désavantages en raison de son information limitée, ce qui rend leur succès plus difficile malgré une intelligence sociale supérieure.

Métriques d'engagement dans les quêtes

Nous avons également regardé combien de fois les joueurs étaient inclus dans des quêtes, ce qui reflète leur participation active et leur engagement dans le jeu. La dynamique de la sélection des équipes a encore mis en avant les stratégies employées par les joueurs.

Précision dans la sélection des équipes

Examiner la précision de la sélection des équipes fournit des informations sur la façon dont les joueurs ont proposé des stratégies efficaces en fonction de leurs rôles. Ce facteur démontre l'importance de la sélection des intentions pour atteindre les objectifs du jeu.

Taux d'assassinat de Merlin

La capacité des joueurs maléfiques à identifier Merlin, le leader du camp loyal, offre des aperçus critiques sur la manière dont les joueurs utilisent leurs compétences dans des contextes de déduction sociale.

Défis et limitations

Bien que notre étude fournisse des informations précieuses, elle présente également des limitations.

  1. Concentration étroite : Nous nous sommes concentrés exclusivement sur quatre composantes de l'intelligence sociale, laissant d'autres domaines importants inexplorés. Les études futures pourraient explorer de manière plus approfondie des aspects comme l'adaptabilité et la créativité.

  2. Coût de l'évaluation : Une grande partie de notre étude reposait sur l'annotation humaine, ce qui peut être coûteux en ressources. Cela met en avant le besoin de méthodes plus efficaces dans les recherches futures.

  3. Limitations des modèles : L'évaluation était limitée à GPT-3.5 et GPT-4. Bien que ces modèles soient avancés, d'autres modèles pourraient offrir des aperçus différents sur l'intelligence sociale.

Conclusion

Notre recherche met en lumière comment les LLMs se comportent dans des jeux de déduction sociale comme Avalon, en utilisant la compréhension des intentions comme un moyen d'évaluer leur intelligence sociale. Bien que les modèles excellent dans certains domaines, ils rencontrent également des défis notables, notamment en ce qui concerne la compréhension des perspectives des autres. Ce travail ouvre la voie à une exploration plus approfondie dans le domaine de l'intelligence sociale et des LLMs, fournissant un cadre pour de futures évaluations qui pourraient conduire à de meilleurs résultats dans les interactions homme-machine.

Source originale

Titre: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context

Résumé: Large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth and validity of the analysis. In this paper, we developed a novel framework, InterIntent, to assess LLMs' social intelligence by mapping their ability to understand and manage intentions in a game setting. We focus on four dimensions of social intelligence: situational awareness, self-regulation, self-awareness, and theory of mind. Each dimension is linked to a specific game task: intention selection, intention following, intention summarization, and intention guessing. Our findings indicate that while LLMs exhibit high proficiency in selecting intentions, achieving an accuracy of 88%, their ability to infer the intentions of others is significantly weaker, trailing human performance by 20%. Additionally, game performance correlates with intention understanding, highlighting the importance of the four components towards success in this game. These findings underline the crucial role of intention understanding in evaluating LLMs' social intelligence and highlight the potential of using social deduction games as a complex testbed to enhance LLM evaluation. InterIntent contributes a structured approach to bridging the evaluation gap in social intelligence within multiplayer games.

Auteurs: Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao

Dernière mise à jour: 2024-11-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.12203

Source PDF: https://arxiv.org/pdf/2406.12203

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires