Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

MMAU Benchmark : Évaluer les compétences des modèles de langue

Un aperçu détaillé du benchmark MMAU pour les modèles de langage.

― 6 min lire


MMAU : Modèles de LangageMMAU : Modèles de LangageDéchaînésagents IA de manière efficace.Évaluer les compétences de base des
Table des matières

Le benchmark MMAU est un moyen d'évaluer les compétences des grands modèles de langage (LLMs). Il se concentre sur la capacité de ces modèles à réaliser des tâches clés comme Comprendre, raisonner, planifier, résoudre des problèmes, s'auto-corriger et gérer différents types d'entrées (comme des images et du texte).

Dans le benchmark, "En." signifie entremêlé, et "Dis." signifie démêlé. Chaque domaine est testé différemment pour voir comment le modèle gère chaque tâche.

Capacités dans MMAU

MMAU examine plusieurs compétences importantes qu'un agent intelligent devrait avoir.

Compréhension

La compréhension est une compétence de base nécessaire à tout agent intelligent. Dans MMAU, la compréhension d'un agent est évaluée en regardant :

  • Suivre des instructions complexes
  • Comprendre l'intention de l'utilisateur
  • Lire et interpréter des statistiques
  • Ancrer des informations visuelles

Raisonnement et Planification

Le raisonnement et la planification montrent comment un agent pense et tire des conclusions logiques. Ces compétences sont souvent combinées avec d'autres capacités, ce qui complique leur étude séparée.

Pour y remédier, MMAU utilise une tâche appelée planner-shift. Cette tâche divise le raisonnement et la planification en deux étapes. Dans la première étape, un planificateur crée un plan de haut niveau pour résoudre un problème sans révéler la réponse finale. Dans la deuxième étape, un solveur utilise ce plan et le problème original pour trouver la solution. Ce dispositif permet une évaluation claire des compétences en raisonnement et en planification.

Résolution de problèmes

La résolution de problèmes mesure à quel point un agent peut exécuter un plan. Pour évaluer cela, MMAU utilise une tâche nommée solver-shift, qui a également deux étapes. Cependant, cette fois, le planificateur reste le même, tandis que différents solveurs sont utilisés pour voir comment ils peuvent résoudre le problème.

Auto-Correction

L'auto-correction est une autre compétence vitale pour un agent intelligent. Elle montre à quel point un agent peut repérer des erreurs et apprendre à les corriger. Dans MMAU, cette compétence est testée à travers des tâches spécifiques d'auto-correction dans divers domaines.

Construction de Dataset

MMAU nécessite des sources de données à la fois larges et profondes pour évaluer les agents avec précision. Le dataset est créé à partir de diverses sources, y compris :

  1. Des données d'utilisation d'outils en interne pour des tâches spécifiques.
  2. Des données de Kaggle, transformées pour des tâches spécifiques.
  3. Des problèmes de concours de programmation d'un dataset dédié.
  4. Des problèmes mathématiques d'une autre source spécialisée.

Chacune de ces sources de données a été soigneusement sélectionnée et adaptée pour les tâches de MMAU.

Données d'Utilisation d'Outils

Pour les tâches d'utilisation d'outils, des données sont générées à partir de scénarios où les utilisateurs interagissent avec un agent via des requêtes. Cela implique de suivre les appels de fonction et les réponses.

Le dataset comprend à la fois des conversations à une étape et multi-étapes. Chaque conversation est conçue pour suivre un modèle d'interaction standardisé, permettant d'évaluer les réponses du modèle.

Tâches dans l'Utilisation d'Outils

Benchmarking d'Utilisation d'Outils

Dans cette tâche, les agents sont testés dans un environnement interactif. Au lieu d'interactions en temps réel, les réponses du modèle sont évaluées en fonction des fonctions et des paramètres attendus.

Analyse de Problèmes

Cette tâche consiste à fournir une énoncé de problème avec des cas de test. L'agent doit prédire les résultats pour ces cas de test. Si le modèle comprend parfaitement les instructions et l'intention, il devrait donner les bonnes prédictions selon sa compréhension.

Science des Données et Apprentissage Automatique

Pour les tâches de science des données et d'apprentissage automatique, un dataset de conversations de style notebook Python a été créé. Ces conversations incluent des demandes d'utilisateur pour la génération de code, menant à des résultats à la fois textuels et visuels.

Génération de Code de Bout en Bout et QA

Dans ce cadre, le modèle doit générer du code et répondre à des questions basées sur ce code. Cela évalue la capacité globale du modèle.

QA à partir du Code Oracle

Dans cette tâche, l'accent est mis sur la compréhension des informations textuelles et visuelles séparément de la génération de code. La sortie oracle est obtenue en exécutant le code correct, ce qui est utilisé pour que le modèle réponde aux questions.

Codage de Niveau Concours

Pour les concours de codage, des problèmes de programmation spécifiques ont été sélectionnés. Le modèle est évalué par la façon dont il résout ces problèmes.

Tâche Standard E2E

Dans cette tâche, le modèle est confronté à différents défis de codage. Le succès de ses solutions est évalué par la qualité du code contre des cas de test prédéfinis.

Planner-Shift et Solver-Shift

Ces tâches mesurent séparément les compétences en planification et en résolution de problèmes du modèle, assurant une compréhension claire de chaque capacité sans interférence des autres.

Mathématiques

Le domaine des mathématiques se concentre sur une collection de problèmes mathématiques soigneusement choisis. Ceux-ci couvrent un large éventail de sujets, y compris le calcul, la géométrie et les statistiques.

Tâche Standard E2E

Cette tâche utilise une méthode spécifique pour générer des réponses tout en mesurant la précision comme un indicateur clé.

Comprehend+

Une nouvelle tâche nommée Comprehend+ a été développée pour évaluer la compréhension sans interférence d'autres compétences. Cette tâche présente des problèmes qui sont plus faciles mathématiquement mais complexes dans leur formulation.

Conclusion

MMAU est un benchmark complet conçu pour évaluer les capacités essentielles des modèles de langage à travers diverses tâches. En décomposant chaque compétence et en les évaluant indépendamment, il offre une image plus claire de la façon dont ces agents peuvent fonctionner dans différents scénarios. La conception soignée des tâches et la construction du dataset garantissent que l'évaluation est approfondie, permettant une meilleure compréhension des capacités des agents intelligents.

Source originale

Titre: MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

Résumé: Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including Tool-use, Directed Acyclic Graph (DAG) QA, Data Science and Machine Learning coding, Contest-level programming and Mathematics, and covers five essential capabilities: Understanding, Reasoning, Planning, Problem-solving, and Self-correction. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/tree/main/docs/research/mmau.

Auteurs: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang

Dernière mise à jour: 2024-08-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.18961

Source PDF: https://arxiv.org/pdf/2407.18961

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires