MMAU Benchmark : Évaluer les compétences des modèles de langue
Un aperçu détaillé du benchmark MMAU pour les modèles de langage.
― 6 min lire
Table des matières
- Capacités dans MMAU
- Compréhension
- Raisonnement et Planification
- Résolution de problèmes
- Auto-Correction
- Construction de Dataset
- Données d'Utilisation d'Outils
- Tâches dans l'Utilisation d'Outils
- Benchmarking d'Utilisation d'Outils
- Analyse de Problèmes
- Science des Données et Apprentissage Automatique
- Génération de Code de Bout en Bout et QA
- QA à partir du Code Oracle
- Codage de Niveau Concours
- Tâche Standard E2E
- Planner-Shift et Solver-Shift
- Mathématiques
- Tâche Standard E2E
- Comprehend+
- Conclusion
- Source originale
- Liens de référence
Le benchmark MMAU est un moyen d'évaluer les compétences des grands modèles de langage (LLMs). Il se concentre sur la capacité de ces modèles à réaliser des tâches clés comme Comprendre, raisonner, planifier, résoudre des problèmes, s'auto-corriger et gérer différents types d'entrées (comme des images et du texte).
Dans le benchmark, "En." signifie entremêlé, et "Dis." signifie démêlé. Chaque domaine est testé différemment pour voir comment le modèle gère chaque tâche.
Capacités dans MMAU
MMAU examine plusieurs compétences importantes qu'un agent intelligent devrait avoir.
Compréhension
La compréhension est une compétence de base nécessaire à tout agent intelligent. Dans MMAU, la compréhension d'un agent est évaluée en regardant :
- Suivre des instructions complexes
- Comprendre l'intention de l'utilisateur
- Lire et interpréter des statistiques
- Ancrer des informations visuelles
Raisonnement et Planification
Le raisonnement et la planification montrent comment un agent pense et tire des conclusions logiques. Ces compétences sont souvent combinées avec d'autres capacités, ce qui complique leur étude séparée.
Pour y remédier, MMAU utilise une tâche appelée planner-shift. Cette tâche divise le raisonnement et la planification en deux étapes. Dans la première étape, un planificateur crée un plan de haut niveau pour résoudre un problème sans révéler la réponse finale. Dans la deuxième étape, un solveur utilise ce plan et le problème original pour trouver la solution. Ce dispositif permet une évaluation claire des compétences en raisonnement et en planification.
Résolution de problèmes
La résolution de problèmes mesure à quel point un agent peut exécuter un plan. Pour évaluer cela, MMAU utilise une tâche nommée solver-shift, qui a également deux étapes. Cependant, cette fois, le planificateur reste le même, tandis que différents solveurs sont utilisés pour voir comment ils peuvent résoudre le problème.
Auto-Correction
L'auto-correction est une autre compétence vitale pour un agent intelligent. Elle montre à quel point un agent peut repérer des erreurs et apprendre à les corriger. Dans MMAU, cette compétence est testée à travers des tâches spécifiques d'auto-correction dans divers domaines.
Construction de Dataset
MMAU nécessite des sources de données à la fois larges et profondes pour évaluer les agents avec précision. Le dataset est créé à partir de diverses sources, y compris :
- Des données d'utilisation d'outils en interne pour des tâches spécifiques.
- Des données de Kaggle, transformées pour des tâches spécifiques.
- Des problèmes de concours de programmation d'un dataset dédié.
- Des problèmes mathématiques d'une autre source spécialisée.
Chacune de ces sources de données a été soigneusement sélectionnée et adaptée pour les tâches de MMAU.
Données d'Utilisation d'Outils
Pour les tâches d'utilisation d'outils, des données sont générées à partir de scénarios où les utilisateurs interagissent avec un agent via des requêtes. Cela implique de suivre les appels de fonction et les réponses.
Le dataset comprend à la fois des conversations à une étape et multi-étapes. Chaque conversation est conçue pour suivre un modèle d'interaction standardisé, permettant d'évaluer les réponses du modèle.
Tâches dans l'Utilisation d'Outils
Benchmarking d'Utilisation d'Outils
Dans cette tâche, les agents sont testés dans un environnement interactif. Au lieu d'interactions en temps réel, les réponses du modèle sont évaluées en fonction des fonctions et des paramètres attendus.
Analyse de Problèmes
Cette tâche consiste à fournir une énoncé de problème avec des cas de test. L'agent doit prédire les résultats pour ces cas de test. Si le modèle comprend parfaitement les instructions et l'intention, il devrait donner les bonnes prédictions selon sa compréhension.
Science des Données et Apprentissage Automatique
Pour les tâches de science des données et d'apprentissage automatique, un dataset de conversations de style notebook Python a été créé. Ces conversations incluent des demandes d'utilisateur pour la génération de code, menant à des résultats à la fois textuels et visuels.
Génération de Code de Bout en Bout et QA
Dans ce cadre, le modèle doit générer du code et répondre à des questions basées sur ce code. Cela évalue la capacité globale du modèle.
QA à partir du Code Oracle
Dans cette tâche, l'accent est mis sur la compréhension des informations textuelles et visuelles séparément de la génération de code. La sortie oracle est obtenue en exécutant le code correct, ce qui est utilisé pour que le modèle réponde aux questions.
Codage de Niveau Concours
Pour les concours de codage, des problèmes de programmation spécifiques ont été sélectionnés. Le modèle est évalué par la façon dont il résout ces problèmes.
Tâche Standard E2E
Dans cette tâche, le modèle est confronté à différents défis de codage. Le succès de ses solutions est évalué par la qualité du code contre des cas de test prédéfinis.
Planner-Shift et Solver-Shift
Ces tâches mesurent séparément les compétences en planification et en résolution de problèmes du modèle, assurant une compréhension claire de chaque capacité sans interférence des autres.
Mathématiques
Le domaine des mathématiques se concentre sur une collection de problèmes mathématiques soigneusement choisis. Ceux-ci couvrent un large éventail de sujets, y compris le calcul, la géométrie et les statistiques.
Tâche Standard E2E
Cette tâche utilise une méthode spécifique pour générer des réponses tout en mesurant la précision comme un indicateur clé.
Comprehend+
Une nouvelle tâche nommée Comprehend+ a été développée pour évaluer la compréhension sans interférence d'autres compétences. Cette tâche présente des problèmes qui sont plus faciles mathématiquement mais complexes dans leur formulation.
Conclusion
MMAU est un benchmark complet conçu pour évaluer les capacités essentielles des modèles de langage à travers diverses tâches. En décomposant chaque compétence et en les évaluant indépendamment, il offre une image plus claire de la façon dont ces agents peuvent fonctionner dans différents scénarios. La conception soignée des tâches et la construction du dataset garantissent que l'évaluation est approfondie, permettant une meilleure compréhension des capacités des agents intelligents.
Titre: MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
Résumé: Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including Tool-use, Directed Acyclic Graph (DAG) QA, Data Science and Machine Learning coding, Contest-level programming and Mathematics, and covers five essential capabilities: Understanding, Reasoning, Planning, Problem-solving, and Self-correction. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/tree/main/docs/research/mmau.
Auteurs: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
Dernière mise à jour: 2024-08-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.18961
Source PDF: https://arxiv.org/pdf/2407.18961
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.