MMAU Benchmark : Évaluer les compétences des modèles de langue

Un aperçu détaillé du benchmark MMAU pour les modèles de langage.

2025-07-12T02:25:42+00:00 ― 6 min lire

Table des matières

Capacités dans MMAU
Compréhension
Raisonnement et Planification
Résolution de problèmes
Auto-Correction
Construction de Dataset
Données d'Utilisation d'Outils
Tâches dans l'Utilisation d'Outils
Benchmarking d'Utilisation d'Outils
Analyse de Problèmes
Science des Données et Apprentissage Automatique
Génération de Code de Bout en Bout et QA
QA à partir du Code Oracle
Codage de Niveau Concours
Tâche Standard E2E
Planner-Shift et Solver-Shift
Mathématiques
Tâche Standard E2E
Comprehend+
Conclusion
Source originale
Liens de référence

Le benchmark MMAU est un moyen d'évaluer les compétences des grands modèles de langage (LLMs). Il se concentre sur la capacité de ces modèles à réaliser des tâches clés comme Comprendre, raisonner, planifier, résoudre des problèmes, s'auto-corriger et gérer différents types d'entrées (comme des images et du texte).

Dans le benchmark, "En." signifie entremêlé, et "Dis." signifie démêlé. Chaque domaine est testé différemment pour voir comment le modèle gère chaque tâche.

Capacités dans MMAU

MMAU examine plusieurs compétences importantes qu'un agent intelligent devrait avoir.

Compréhension

La compréhension est une compétence de base nécessaire à tout agent intelligent. Dans MMAU, la compréhension d'un agent est évaluée en regardant :

Suivre des instructions complexes
Comprendre l'intention de l'utilisateur
Lire et interpréter des statistiques
Ancrer des informations visuelles

Raisonnement et Planification

Le raisonnement et la planification montrent comment un agent pense et tire des conclusions logiques. Ces compétences sont souvent combinées avec d'autres capacités, ce qui complique leur étude séparée.

Pour y remédier, MMAU utilise une tâche appelée planner-shift. Cette tâche divise le raisonnement et la planification en deux étapes. Dans la première étape, un planificateur crée un plan de haut niveau pour résoudre un problème sans révéler la réponse finale. Dans la deuxième étape, un solveur utilise ce plan et le problème original pour trouver la solution. Ce dispositif permet une évaluation claire des compétences en raisonnement et en planification.

Résolution de problèmes

La résolution de problèmes mesure à quel point un agent peut exécuter un plan. Pour évaluer cela, MMAU utilise une tâche nommée solver-shift, qui a également deux étapes. Cependant, cette fois, le planificateur reste le même, tandis que différents solveurs sont utilisés pour voir comment ils peuvent résoudre le problème.

Auto-Correction

L'auto-correction est une autre compétence vitale pour un agent intelligent. Elle montre à quel point un agent peut repérer des erreurs et apprendre à les corriger. Dans MMAU, cette compétence est testée à travers des tâches spécifiques d'auto-correction dans divers domaines.

Construction de Dataset

MMAU nécessite des sources de données à la fois larges et profondes pour évaluer les agents avec précision. Le dataset est créé à partir de diverses sources, y compris :

Des données d'utilisation d'outils en interne pour des tâches spécifiques.
Des données de Kaggle, transformées pour des tâches spécifiques.
Des problèmes de concours de programmation d'un dataset dédié.
Des problèmes mathématiques d'une autre source spécialisée.

Chacune de ces sources de données a été soigneusement sélectionnée et adaptée pour les tâches de MMAU.

Données d'Utilisation d'Outils

Pour les tâches d'utilisation d'outils, des données sont générées à partir de scénarios où les utilisateurs interagissent avec un agent via des requêtes. Cela implique de suivre les appels de fonction et les réponses.

Le dataset comprend à la fois des conversations à une étape et multi-étapes. Chaque conversation est conçue pour suivre un modèle d'interaction standardisé, permettant d'évaluer les réponses du modèle.

Tâches dans l'Utilisation d'Outils

Benchmarking d'Utilisation d'Outils

Dans cette tâche, les agents sont testés dans un environnement interactif. Au lieu d'interactions en temps réel, les réponses du modèle sont évaluées en fonction des fonctions et des paramètres attendus.

Analyse de Problèmes

Cette tâche consiste à fournir une énoncé de problème avec des cas de test. L'agent doit prédire les résultats pour ces cas de test. Si le modèle comprend parfaitement les instructions et l'intention, il devrait donner les bonnes prédictions selon sa compréhension.

Science des Données et Apprentissage Automatique

Pour les tâches de science des données et d'apprentissage automatique, un dataset de conversations de style notebook Python a été créé. Ces conversations incluent des demandes d'utilisateur pour la génération de code, menant à des résultats à la fois textuels et visuels.

Génération de Code de Bout en Bout et QA

Dans ce cadre, le modèle doit générer du code et répondre à des questions basées sur ce code. Cela évalue la capacité globale du modèle.

QA à partir du Code Oracle

Dans cette tâche, l'accent est mis sur la compréhension des informations textuelles et visuelles séparément de la génération de code. La sortie oracle est obtenue en exécutant le code correct, ce qui est utilisé pour que le modèle réponde aux questions.

Codage de Niveau Concours

Pour les concours de codage, des problèmes de programmation spécifiques ont été sélectionnés. Le modèle est évalué par la façon dont il résout ces problèmes.

Tâche Standard E2E

Dans cette tâche, le modèle est confronté à différents défis de codage. Le succès de ses solutions est évalué par la qualité du code contre des cas de test prédéfinis.

Planner-Shift et Solver-Shift

Ces tâches mesurent séparément les compétences en planification et en résolution de problèmes du modèle, assurant une compréhension claire de chaque capacité sans interférence des autres.

Mathématiques

Le domaine des mathématiques se concentre sur une collection de problèmes mathématiques soigneusement choisis. Ceux-ci couvrent un large éventail de sujets, y compris le calcul, la géométrie et les statistiques.

Tâche Standard E2E

Cette tâche utilise une méthode spécifique pour générer des réponses tout en mesurant la précision comme un indicateur clé.

Comprehend+

Une nouvelle tâche nommée Comprehend+ a été développée pour évaluer la compréhension sans interférence d'autres compétences. Cette tâche présente des problèmes qui sont plus faciles mathématiquement mais complexes dans leur formulation.

Conclusion

MMAU est un benchmark complet conçu pour évaluer les capacités essentielles des modèles de langage à travers diverses tâches. En décomposant chaque compétence et en les évaluant indépendamment, il offre une image plus claire de la façon dont ces agents peuvent fonctionner dans différents scénarios. La conception soignée des tâches et la construction du dataset garantissent que l'évaluation est approfondie, permettant une meilleure compréhension des capacités des agents intelligents.

MMAU Benchmark : Évaluer les compétences des modèles de langue

Capacités dans MMAU

Compréhension

Raisonnement et Planification

Résolution de problèmes

Auto-Correction

Construction de Dataset

Données d'Utilisation d'Outils

Tâches dans l'Utilisation d'Outils

Benchmarking d'Utilisation d'Outils

Analyse de Problèmes

Science des Données et Apprentissage Automatique

Génération de Code de Bout en Bout et QA

QA à partir du Code Oracle

Codage de Niveau Concours

Tâche Standard E2E

Planner-Shift et Solver-Shift

Mathématiques

Tâche Standard E2E

Comprehend+

Conclusion

Liens de référence

Sujets référencés

Plus d'auteurs

Articles similaires

MMAU Benchmark : Évaluer les compétences des modèles de langue

#Capacités dans MMAU

#Compréhension

#Raisonnement et Planification

#Résolution de problèmes

#Auto-Correction

#Construction de Dataset

#Données d'Utilisation d'Outils

#Tâches dans l'Utilisation d'Outils

#Benchmarking d'Utilisation d'Outils

#Analyse de Problèmes

#Science des Données et Apprentissage Automatique

#Génération de Code de Bout en Bout et QA

#QA à partir du Code Oracle

#Codage de Niveau Concours

#Tâche Standard E2E

#Planner-Shift et Solver-Shift

#Mathématiques

#Tâche Standard E2E

#Comprehend+

#Conclusion

Liens de référence

Sujets référencés

Plus d'auteurs

Articles similaires

Capacités dans MMAU

Compréhension

Raisonnement et Planification

Résolution de problèmes

Auto-Correction

Construction de Dataset

Données d'Utilisation d'Outils

Tâches dans l'Utilisation d'Outils

Benchmarking d'Utilisation d'Outils

Analyse de Problèmes

Science des Données et Apprentissage Automatique

Génération de Code de Bout en Bout et QA

QA à partir du Code Oracle

Codage de Niveau Concours

Tâche Standard E2E

Planner-Shift et Solver-Shift

Mathématiques

Tâche Standard E2E

Comprehend+

Conclusion