Avancées dans les agents autonomes augmentés par LLM
Un aperçu des agents autonomes augmentés par LLM et leur développement.
― 7 min lire
Table des matières
- C'est quoi les agents autonomes augmentés par LLM ?
- Différentes approches et frameworks
- Le besoin de comparaison et d'évaluation
- Complexité des tâches
- Concevoir des architectures d'agents
- Le framework BOLAA
- Évaluation dans des environnements réels
- Résultats et observations
- Tâches de raisonnement de connaissance
- Conclusion et travail futur
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) ont montré un super succès dans diverses tâches. Ça a suscité un intérêt pour l'utilisation de ces modèles afin de créer ce qu'on appelle des agents autonomes augmentés par LLM (LAAs). Un LAA peut générer des actions et interagir avec son environnement en fonction de ses expériences passées. Cependant, la recherche dans ce domaine est encore nouvelle, et il reste plein de questions sans réponses.
C'est quoi les agents autonomes augmentés par LLM ?
Les LAAs sont conçus pour accomplir des tâches souvent complexes. Ils peuvent analyser des interactions passées, ce qui les aide à prendre de meilleures décisions à l'avenir. Par exemple, si on donne une tâche à un LAA, il peut regarder les étapes qu'il a déjà prises et utiliser cette info pour décider quoi faire ensuite. Mais bon, on ne sait pas encore comment construire et optimiser ces agents efficacement.
Différentes approches et frameworks
Différents frameworks ont été développés pour créer des LAAs. Des exemples notables incluent BabyAGI, qui gère des tâches avec un système d'IA, et AutoGPT, qui permet au LLM d'exécuter des actions via une API. Ces frameworks montrent comment les LAAs peuvent gérer des tâches qui nécessitent de la prise de décision et du raisonnement.
Cependant, le design de ces agents n'est pas uniforme. Certains LAAs s'appuient sur des exemples prédéfinis pour guider leurs actions, tandis que d'autres ajoutent des étapes supplémentaires pour la planification et le raisonnement. Cette incohérence met en lumière le besoin de recherches complètes dans ce domaine.
Le besoin de comparaison et d'évaluation
Un gros défi est le manque de compréhension claire sur les architectures et LLMs qui fonctionnent le mieux ensemble. Certains agents utilisent divers modèles pour différentes tâches, tandis que d'autres adoptent une approche universelle. Ça nous amène à l'importance de l'évaluation de performance. Des comparaisons complètes des LAAs peuvent aider à identifier les combinaisons et stratégies les plus efficaces.
Récemment, des chercheurs ont commencé à benchmarker les LAAs les uns contre les autres, mais beaucoup ne prennent toujours pas en compte comment différentes architectures fonctionnent avec divers LLMs.
Complexité des tâches
Au fur et à mesure que les tâches deviennent plus compliquées, il peut être nécessaire d'utiliser plusieurs agents pour les aborder. Certaines études ont montré que séparer le raisonnement et l'action peut aider les LAAs à devenir plus efficaces. Par exemple, quand il s'agit de naviguer dans un environnement web, un agent pourrait se concentrer sur l'interaction avec les éléments cliquables, tandis qu'un autre pourrait gérer la recherche d'infos.
Cette séparation des responsabilités peut améliorer la performance globale du système LAA, mais il reste encore beaucoup à apprendre sur la meilleure façon d'orchestrer plusieurs agents pour des tâches complexes.
Concevoir des architectures d'agents
Un examen approfondi du design des différentes architectures LAA révèle qu'elles tombent généralement dans quelques catégories. Un type est le LAA zéro-shot, qui utilise un LLM pour générer des actions directement à partir de prompts. Un autre est le LAA auto-réfléchi, qui incorpore une étape de raisonnement avant d'exécuter des actions. Le LAA ReAct va encore plus loin en utilisant des exemples pour améliorer la prise de décision.
En plus de ces architectures solo, une nouvelle approche multi-agents est en cours de développement. Cette approche se concentre sur comment plusieurs LAAs peuvent travailler ensemble pour accomplir une tâche plus efficacement. Le concept de "contrôleur" est introduit, qui gère les interactions entre divers petits agents.
Le framework BOLAA
BOLAA signifie Benchmarking et Orchestration des Agents Autonomes Augmentés par LLM. C'est un modèle qui permet à plusieurs LAAs de travailler ensemble efficacement. Le contrôleur dans le modèle BOLAA décide quel agent utiliser pour une tâche spécifique et leur permet de communiquer. En divisant les tâches entre des agents spécialisés, BOLAA vise à améliorer la performance dans des situations complexes.
Le framework BOLAA inclut un pool d'agents, chacun spécialisé dans un type d'action, leur permettant de travailler sur différentes parties d'une tâche en même temps. Par exemple, un agent pourrait être dédié à la recherche d'informations, tandis que d'autres se concentrent sur la prise d'actions basées sur ces données.
Évaluation dans des environnements réels
Pour évaluer l'efficacité des LAAs, deux environnements clés ont été utilisés : WebShop et HotPotQA. L'environnement WebShop simule une expérience de shopping en ligne, nécessitant des agents qu'ils interagissent avec divers produits basés sur les instructions de l'utilisateur. HotPotQA implique de répondre à des questions complexes nécessitant du raisonnement sur plusieurs sources d'information.
La performance des agents dans ces environnements peut être mesurée selon la précision avec laquelle ils complètent les tâches. Des métriques comme les scores de récompense et les taux de rappel aident à évaluer l'efficacité d'un LAA à générer des actions et des solutions correctes.
Résultats et observations
En testant diverses architectures LAA, il a été constaté que BOLAA surpasse régulièrement les autres, surtout en utilisant des LLMs performants. Ça montre que l'orchestration de petits agents spécialisés peut être plus efficace que d'utiliser un seul agent plus gros pour des tâches complexes.
De plus, les résultats ont montré que la meilleure performance venait souvent de l'association d'un LLM spécifique avec la bonne architecture. Par exemple, certains modèles excellaient dans la génération d'actions basiques, tandis que d'autres se débrouillaient mieux lorsqu'il s'agissait de planifier des actions à l'avance.
Étonnamment, varier la complexité des tâches n'a pas toujours conduit à des résultats moins bons. Dans certains cas, une complexité plus élevée a permis aux agents de prendre de meilleures décisions grâce à plus de contexte fourni.
Tâches de raisonnement de connaissance
La performance des LAAs dans des tâches de raisonnement de connaissance a aussi été évaluée dans l'environnement HotPotQA. Ici, il a été noté que l'utilisation d'exemples few-shot améliorait significativement les performances d'un agent. Cependant, des étapes de planification avant une interaction pouvaient entraîner des inexactitudes, soulignant l'importance du raisonnement sensible au contexte.
La taille du LLM a également joué un rôle crucial, car les modèles plus grands avaient tendance à mieux performer dans les tâches de raisonnement. Les résultats ont confirmé que, bien que la longueur du contexte et la flexibilité soient importantes, la capacité de raisonnement fondamentale du modèle est primordiale.
Conclusion et travail futur
Le paysage des agents autonomes augmentés par LLM est riche et varié, avec encore beaucoup d'architectures et de stratégies à explorer. Le framework BOLAA offre une approche prometteuse pour organiser plusieurs agents afin d'aborder des tâches complexes. Au fur et à mesure que la recherche continue, on espère en apprendre davantage sur la meilleure façon d'utiliser les LLMs dans ces systèmes.
Les plans futurs incluent l'amélioration de la capacité du module contrôleur afin qu'il puisse gérer de manière autonome la sélection et la communication d'agents. L'objectif n'est pas seulement de peaufiner les architectures existantes, mais aussi d'élargir la gamme de tâches et d'environnements considérés pour l'évaluation.
Titre: BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
Résumé: The massive successes of large language models (LLMs) encourage the emerging exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to generate actions with its core LLM and interact with environments, which facilitates the ability to resolve complex tasks by conditioning on past interactions such as observations and actions. Since the investigation of LAA is still very recent, limited explorations are available. Therefore, we provide a comprehensive comparison of LAA in terms of both agent architectures and LLM backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs such that each labor LAA focuses on one type of action, \textit{i.e.} BOLAA, where a controller manages the communication among multiple agents. We conduct simulations on both decision-making and multi-step reasoning environments, which comprehensively justify the capacity of LAAs. Our performance results provide quantitative suggestions for designing LAA architectures and the optimal choice of LLMs, as well as the compatibility of both. We release our implementation code of LAAs to the public at \url{https://github.com/salesforce/BOLAA}.
Auteurs: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
Dernière mise à jour: 2023-08-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.05960
Source PDF: https://arxiv.org/pdf/2308.05960
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.