Évaluation des grands modèles de langage dans des environnements multi-agents
Nouveau standard évalue les compétences des LLMs à interagir avec plusieurs agents.
― 16 min lire
Table des matières
- Aperçu des Grands Modèles de Langage
- Présentation du Nouveau Benchmark
- Aperçu Détail du Benchmark
- Aperçu des Environnements de Jeu
- Construction du Benchmark
- Métriques d'Évaluation
- Analyse des Environnements de Jeu
- TicTacToe
- ConnectFour
- Texas Hold’em
- Undercover
- Bargain
- Enchère Scellée de Premier Prix
- Hanabi
- Configuration Expérimentale
- Résultats Principaux
- Évaluation des Compétences des LLM
- Compréhension Spatiale
- Planification Stratégique
- Communication
- Modélisation des Opposants
- Raisonnement Numérique
- Évaluation des Risques
- Collaboration en Équipe
- Recherche Connexe
- Conclusion
- Considérations Éthiques
- Conception de Prompt Détail pour les Environnements de Jeu
- Études de Cas et Analyse des Erreurs
- Source originale
- Liens de référence
Les derniers développements des grands modèles de langage (LLMs) montrent qu'ils peuvent fonctionner comme des agents indépendants avec une intelligence semblable à celle des humains. Cependant, les tests actuels utilisés pour évaluer ces agents LLM s'appuient souvent sur des ensembles de données fixes, qui peuvent ne pas donner une image complète en raison de fuites de données ou se concentrent uniquement sur des situations à agent unique. Cette approche ignore les défis rencontrés lors des interactions entre plusieurs agents. Il y a un besoin d’un benchmark complet qui mesure les compétences variées des agents LLM dans des environnements dynamiques et multi-agents.
Pour répondre à cette lacune, nous présentons un nouveau cadre qui est facile à développer pour tester les capacités des LLM dans différents scénarios de jeu. Ce cadre comprend sept environnements de jeu uniques qui évaluent des compétences essentielles pour les agents LLM. Ces compétences incluent le raisonnement spatial, la planification stratégique, le raisonnement numérique, l'évaluation des risques, la communication, le Modélisation des adversaires et la collaboration en équipe. Nous avons effectué des tests approfondis et des Évaluations humaines en utilisant différentes tailles et types de LLM. Les résultats montrent que les LLM ont encore beaucoup à faire en matière de développement, en particulier dans la modélisation des adversaires et la collaboration en équipe. Nous espérons que ce cadre guidera la recherche future axée sur l'amélioration de ces compétences dans les LLM, menant à des applications plus pratiques dans des environnements actifs et multi-agents. Le code et les données seront partagés publiquement.
Aperçu des Grands Modèles de Langage
Les avancées récentes dans les grands modèles de langage (LLMs) ont grandement influencé le traitement du langage naturel (NLP) grâce à leurs capacités impressionnantes dans différentes tâches sans avoir besoin d'un entraînement spécifique. Les LLM ne se contentent pas de bien comprendre et de générer du texte complexe, mais montrent également une remarquable capacité à s'adapter à de nouvelles situations avec juste quelques indices. Ces caractéristiques inspirent les chercheurs à considérer les LLM comme des agents autonomes capables d'aider dans des tâches complexes du monde réel comme le développement de logiciels et l'intégration d'informations.
Pour mieux évaluer les compétences requises des LLM en tant qu'agents, les chercheurs se concentrent sur la création de scénarios pour évaluer à quel point les LLM performent sous diverses conditions. Par exemple, certains benchmarks ont été développés pour examiner la performance des LLM dans des domaines comme la génération de code et le raisonnement dans des situations de jeu. Malgré ces efforts, il y a des limites aux benchmarks existants. D'abord, les ensembles de données statiques utilisés dans les tests peuvent entraîner des problèmes tels que des fuites de données et du surajustement, car les LLM pourraient avoir déjà rencontré ces données lors de l'entraînement. Deuxièmement, les méthodes d'évaluation actuelles qui se concentrent uniquement sur des scénarios à agent unique négligent les interactions complexes qui se produisent lorsque plusieurs agents opèrent dans un environnement partagé.
Présentation du Nouveau Benchmark
Pour combler ces lacunes, nous proposons un benchmark d'évaluation dynamique conçu spécifiquement pour les interactions multi-agents. Ce benchmark propose sept types différents d'environnements de jeu dynamiques et multi-agents. Par exemple, l'environnement de jeu de poker Texas Hold'em génère une nouvelle main pour chaque partie, augmentant la complexité à chaque tour, réduisant le risque de fuite de données. Dans l'environnement Undercover, les agents LLM doivent identifier le joueur "sous couverture" lors de la communication, permettant d'évaluer leurs compétences en communication et en modélisation des adversaires.
À travers ces environnements, nous pouvons évaluer en profondeur les compétences des LLM, telles que la compréhension de l'espace, la planification stratégique, le raisonnement numérique, l'évaluation des risques, la communication efficace, la modélisation des adversaires et la collaboration en équipes dans un cadre multi-agents dynamique.
Pour obtenir une évaluation plus précise de la performance des LLM dans ces environnements, nous avons adopté un système de notation qui aide à évaluer d'autres métriques au-delà du taux de victoire de base, comme le niveau de compétence par rapport aux autres agents. Cela permet de mieux comprendre la performance dans différents scénarios et contre divers adversaires.
Nous avons réalisé des expériences complètes et des évaluations humaines impliquant 14 LLM différents. Les résultats ont mis en évidence une marge d'amélioration substantielle en matière de compétences de collaboration en équipe et de modélisation des adversaires parmi les LLM dans des environnements multi-agents. Nous espérons que ce benchmark inspirera des recherches futures visant à renforcer les capacités fondamentales dans des environnements multi-agents, favorisant l'utilisation plus large des agents LLM dans des applications réelles.
Aperçu Détail du Benchmark
Dans cette section, nous fournissons un regard approfondi sur le nouveau benchmark, qui comprend sept environnements de jeu distincts, des métriques d'évaluation et des méthodologies d'évaluation.
Aperçu des Environnements de Jeu
Chaque environnement de notre benchmark nécessite que les LLM utilisent un ensemble unique de compétences pour surmonter les défis efficacement. Par exemple, dans l'environnement Undercover, les LLM doivent démontrer une gamme de compétences, y compris la modélisation des adversaires, la communication efficace et la collaboration en équipe. Manquer même une de ces capacités pourrait mener à un échec dans cet environnement.
Construction du Benchmark
Pour garantir l'utilisabilité et l'évolutivité, nous avons construit le benchmark en utilisant une plateforme existante comme fondation. Cela permet à d'autres chercheurs d'intégrer facilement de nouveaux environnements dans ce cadre. En respectant des spécifications d'interface définies, ils peuvent ajouter sans difficulté d'autres environnements pour évaluer les capacités des LLM. Chaque environnement fournit des prompts qui expliquent les règles du jeu et offrent des modèles pour guider les agents LLM à travers le gameplay. Ces prompts incluent l'état du jeu, des données historiques et des actions potentielles, créant une expérience de jeu structurée pour les agents LLM.
Métriques d'Évaluation
Dans cette section, nous décrivons les métriques d'évaluation utilisées dans le benchmark et comment elles se comparent aux métriques de recherche précédentes. Notre système de notation évalue les niveaux de compétence de plusieurs agents dans des environnements compétitifs, contrairement aux métriques statiques, indépendantes des adversaires, utilisées dans des études antérieures. Ce système prend en compte les victoires, les défaites et la qualité du gameplay tout en tenant compte des disparités de compétence entre les joueurs. Gagner contre des adversaires très compétents rapporte plus de points que de gagner contre des adversaires moins compétents, permettant ainsi une évaluation plus précise des véritables capacités d'un agent dans un environnement multi-agents.
Analyse des Environnements de Jeu
TicTacToe
TicTacToe est un jeu de stratégie classique impliquant deux agents LLM qui prennent des tours pour marquer une grille 3x3. Un joueur gagne en alignant trois marques en ligne-horizontalement, verticalement ou diagonalement. Si tous les espaces sont remplis sans gagnant, la partie se termine par un match nul. Ce jeu teste les LLM sur la planification stratégique et le raisonnement spatial. Nous utilisons des systèmes de notation pour évaluation.
ConnectFour
ConnectFour est un jeu de société plus compliqué utilisant une grille 6x7. Ici, deux agents LLM alternent la sélection de colonnes avec des espaces vides. L'objectif est de connecter quatre de leurs jetons horizontalement, verticalement ou diagonalement. Ce jeu évalue également les capacités de planification stratégique et de raisonnement spatial. Le même système de notation s'applique à ce jeu.
Texas Hold’em
Texas Hold'em est un jeu de cartes bien connu. Chaque partie se joue entre deux agents LLM. Les joueurs commencent avec deux cartes privées et cherchent à constituer la meilleure main de cinq cartes en utilisant celles-ci et des cartes communautaires révélées par étapes. Ce jeu nécessite diverses compétences, y compris le raisonnement numérique, la modélisation des adversaires et l'évaluation des risques. Le système de notation est utilisé pour évaluation.
Undercover
Dans le jeu de société Undercover, les joueurs sont divisés en rôles d'agent sous couverture et non sous couverture, chacun recevant des mots secrets différents mais similaires. Les joueurs fournissent des indices sur leurs mots pendant une phase de communication, suivie d'un tour de vote pour identifier le joueur sous couverture. Ce jeu teste les capacités des agents LLM en communication, modélisation des adversaires et collaboration en équipe. La performance est mesurée par le taux de victoire de chaque LLM jouant comme l'agent sous couverture.
Bargain
Dans le jeu Bargain, deux agents LLM doivent négocier comment allouer un pool d'objets, chaque objet ayant des valeurs inconnues pour les deux agents. L'objectif est de parvenir à un accord. Gagner se produit lorsqu'un agent maximise la valeur totale des objets obtenus. Ce jeu évalue les capacités de raisonnement numérique, de communication et de modélisation des adversaires.
Enchère Scellée de Premier Prix
Dans ce scénario d'enchère, deux agents LLM soumettent des offres sans connaître celles de l'autre. L'enchérisseur le plus élevé gagne, et l'objectif est de déterminer une offre optimale qui équilibre le fait de gagner l'enchère et de ne pas surpayer. Ce jeu évalue les compétences en raisonnement numérique et en modélisation des adversaires sur la base des récompenses moyennes gagnées.
Hanabi
Hanabi est un jeu de cartes coopératif où deux agents LLM ne peuvent voir que les cartes de l'autre. Les joueurs utilisent des jetons d'information pour révéler des cartes, défausser des cartes pour obtenir plus de jetons, et jouer des cartes dans un ordre spécifié pour construire des feux d'artifice. Ce jeu nécessite la collaboration d'équipe, la planification stratégique et le raisonnement numérique. Les points moyens gagnés lors de la mise en place réussie des feux d'artifice servent de métriques d'évaluation.
Configuration Expérimentale
Lors de nos expériences, nous avons utilisé différentes tailles et types de LLM en appelant directement les API des modèles fermés et en déployant des modèles open-source localement. Pour garantir des résultats cohérents, nous avons réglé la température de tous les modèles à zéro. Dans la plupart des environnements, nous avons effectué plusieurs tests jusqu'à ce que les évaluations des modèles se stabilisent, avec plus de 50 parties jouées par environnement et modèle. Pour le jeu Undercover, nous avons joué 100 parties avec chaque LLM jouant sous couverture contre plusieurs agents non sous couverture.
Résultats Principaux
Les résultats suivants illustrent les scores relatifs de 14 LLM différents à travers les sept environnements, révélant des informations clés :
Les modèles LLM plus grands ont montré des améliorations notables en termes de performance. Les modèles avec environ 70 milliards de paramètres ont obtenu une moyenne de 82.87, tandis que ceux avec 30 milliards et 10 milliards de paramètres ont atteint des scores de 80.68 et 71.05, respectivement. Le gain de performance en augmentant la taille du modèle de 10 milliards à 30 milliards était plus grand que de 30 milliards à 70 milliards.
Certains modèles ont affiché des résultats inattendus dans des environnements spécifiques. Par exemple, la performance d'un modèle a considérablement chuté dans le jeu Undercover par rapport à un homologue plus petit, s'écartant des tendances habituelles.
Des déficiences de performance ont été notées dans des environnements axés sur Bid et Hanabi, où les LLM ont eu du mal, en particulier les modèles plus petits confrontés à des défis de raisonnement numérique et de modélisation des adversaires.
Il y avait une distinction claire entre la performance de GPT-4 et celle des autres modèles, GPT-4 obtenant les meilleurs résultats dans toutes les tâches évaluées.
Évaluation des Compétences des LLM
Compréhension Spatiale
Pour évaluer la compréhension spatiale, nous avons mené des jeux d'auto-joueur avec différents LLM, en suivant leurs taux de victoires et la fréquence des mouvements illégaux. Lorsque les indices positionnels ont été supprimés, les hallucinations ont augmenté de 59,5%, tandis que les taux de victoire ont chuté en moyenne de 38,3%. Cela indique que les LLM luttent pour comprendre les arrangements spatiaux sans orientation explicite.
Planification Stratégique
Nous avons développé une fonction de notation spécifique pour l'environnement ConnectFour afin d'évaluer les compétences de planification stratégique parmi les LLM. Lors de batailles aléatoires, les LLM avec plus de paramètres ont systématiquement obtenu de meilleurs résultats, tandis que les modèles plus petits échouaient souvent à faire des décisions stratégiques efficaces.
Communication
Dans des jeux comme Undercover, nous avons analysé la précision des indices donnés par les LLM durant le jeu. Bien que les LLM excellent à donner des indices, ils peinent à interpréter efficacement les indices des autres, menant à des erreurs fréquentes dans la compréhension de Communications complexes.
Modélisation des Opposants
Dans le jeu Undercover, les LLM devaient déduire les mots secrets des autres en fonction de leurs indices. Les résultats ont montré que seul GPT-4 pouvait s'identifier de manière cohérente comme étant sous couverture, démontrant des compétences analytiques supérieures par rapport aux autres modèles.
Raisonnement Numérique
Dans les scénarios d'enchères, les LLM plaçaient généralement des enchères dépassant des niveaux optimaux, reflétant des difficultés à comprendre l'équilibre entre gagner et surenchérir. De nombreux modèles avaient tendance à placer des enchères élevées sans tenir suffisamment compte de leurs évaluations réelles.
Évaluation des Risques
Dans l'environnement Texas Hold'em, nous avons observé que les LLM faisaient preuve de prudence dans l'évaluation des risques, optant pour des stratégies conservatrices, tandis que GPT-4 démontrait une capacité d'évaluation robuste, choisissant stratégiquement des actions à haut risque au bon moment.
Collaboration en Équipe
Dans Hanabi, les LLM avaient tendance à surutiliser certaines actions requises pour le travail d'équipe, échouant souvent à partager des informations efficacement, ce qui a finalement entravé leur succès collectif dans la réalisation des feux d'artifice.
Recherche Connexe
À mesure que les LLM évoluent, les pratiques d'évaluation traditionnelles peuvent limiter leur performance. De nouveaux benchmarks visent à examiner les LLM sous divers angles, y compris l'adaptabilité, les applications réelles et la collaboration. De nombreuses études se concentrent sur le traitement des LLM en tant qu'agents mais manquent souvent les complexités inhérentes aux scénarios multi-agents. Notre recherche cherche à offrir une image plus claire de la façon dont les LLM performent dans des environnements plus compliqués et dynamiques.
Conclusion
Dans ce travail, nous avons introduit un benchmark visant à évaluer les diverses compétences des agents LLM dans des environnements dynamiques et multi-agents. Nos résultats ont montré que bien que les LLM démontrent des compétences dans certains domaines, des faiblesses significatives ont été identifiées dans le raisonnement spatial, la modélisation des adversaires et la collaboration en équipe. Améliorer la performance des agents LLM reste un défi qui nécessite une exploration plus approfondie. Nous encourageons les chercheurs futurs à utiliser notre benchmark pour évaluer une gamme plus large de scénarios, améliorant finalement le potentiel des LLM.
Considérations Éthiques
Il existe d'importantes questions éthiques entourant les agents LLM, en particulier en ce qui concerne l'utilisation responsable et le potentiel d'abus. À mesure que les LLM prennent des rôles décisionnels plus importants, la responsabilité devient une préoccupation vitale. Assurer que leur déploiement s'aligne sur des lignes directrices éthiques nécessitera des cadres robustes et un suivi pour éviter des applications contraires à l'éthique.
Conception de Prompt Détail pour les Environnements de Jeu
Dans cette section, nous présentons des prompts détaillés conçus pour chaque environnement de jeu dans notre benchmark. Ces prompts sont essentiels pour guider les agents dans leurs interactions, similaires aux paramètres utilisés dans l'apprentissage par renforcement.
Prompt Système : Ceci donne des directives au LLM sur son rôle et les règles du jeu, aidant à façonner son comportement dans l'environnement.
Prompt d'Observation : Cela inclut les informations d'état nécessaires pour que les agents comprennent la situation actuelle, telles que les actions des adversaires, l'état du jeu et les actions disponibles.
Prompt d'Action : Ces prompts guident les agents vers le choix de leurs actions et incluent des prompts de raisonnement supplémentaires pour stimuler les processus de pensée.
Avec ces prompts structurés, les agents peuvent s'engager avec succès dans chaque jeu et prendre des décisions efficaces.
Études de Cas et Analyse des Erreurs
Dans cette partie, nous fournissons des études de cas qui illustrent comment les LLM ont pris des décisions dans des environnements spécifiques et mettent en lumière des erreurs courantes.
Par exemple, durant ConnectFour, les modèles plus petits faisaient parfois des mouvements contre-productifs qui aidaient involontairement leur adversaire. Même des modèles plus grands comme GPT-4 ont parfois raté des occasions de maximiser leurs récompenses, ce qui suggère que les LLM peuvent ne pas comprendre pleinement les stratégies de jeu malgré leurs capacités avancées.
De plus, dans le jeu Undercover, un agent a eu du mal à interpréter les indices correctement, ce qui a conduit à des votes erronés pour les agents sous couverture. En revanche, GPT-4 a réussi à analyser la situation et à adapter sa stratégie pour éviter d'être détecté.
En conclusion, à travers l'analyse de divers environnements de jeu et des comportements spécifiques des LLM, notre recherche révèle à la fois le potentiel et les limites des LLM dans des interactions complexes et dynamiques. Comprendre ces défis est essentiel pour de futurs avancées dans la technologie LLM.
Titre: LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments
Résumé: Recent advancements in large language models (LLMs) have revealed their potential for achieving autonomous agents possessing human-level intelligence. However, existing benchmarks for evaluating LLM Agents either use static datasets, potentially leading to data leakage or focus only on single-agent scenarios, overlooking the complexities of multi-agent interactions. There is a lack of a benchmark that evaluates the diverse capabilities of LLM agents in multi-agent, dynamic environments. To this end, we introduce LLMArena, a novel and easily extensible framework for evaluating the diverse capabilities of LLM in multi-agent dynamic environments. LLMArena encompasses seven distinct gaming environments, employing Trueskill scoring to assess crucial abilities in LLM agents, including spatial reasoning, strategic planning, numerical reasoning, risk assessment, communication, opponent modeling, and team collaboration. We conduct an extensive experiment and human evaluation among different sizes and types of LLMs, showing that LLMs still have a significant journey ahead in their development towards becoming fully autonomous agents, especially in opponent modeling and team collaboration. We hope LLMArena could guide future research towards enhancing these capabilities in LLMs, ultimately leading to more sophisticated and practical applications in dynamic, multi-agent settings. The code and data will be available.
Auteurs: Junzhe Chen, Xuming Hu, Shuodi Liu, Shiyu Huang, Wei-Wei Tu, Zhaofeng He, Lijie Wen
Dernière mise à jour: 2024-02-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.16499
Source PDF: https://arxiv.org/pdf/2402.16499
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://pettingzoo.farama.org/content/environment_creation/
- https://pettingzoo.farama.org/environments/classic/tictactoe/
- https://pettingzoo.farama.org/environments/classic/connect_four/
- https://pettingzoo.farama.org/environments/classic/texas_holdem_no_limit/
- https://en.wikipedia.org/wiki/First-price_sealed-bid_auction
- https://www.latex-project.org/help/documentation/encguide.pdf