Nouveau benchmark d'évaluation pour les modèles multimodaux
Un nouveau critère vise à améliorer l'évaluation des modèles de langage multimodaux.
― 8 min lire
Table des matières
Les avancées récentes en technologie ont donné lieu au développement de Modèles de Langage Large Multimodaux (MLLMs), qui sont des systèmes informatiques conçus pour comprendre et produire à la fois des informations textuelles et visuelles. Ce domaine de recherche attire de plus en plus l'attention car ces modèles montrent un grand potentiel dans divers domaines, comme répondre à des questions liées à des images et des vidéos. Malgré leurs capacités, il faut encore des méthodes d'évaluation appropriées pour évaluer à quel point ces modèles peuvent comprendre et générer des réponses basées sur différents types d'entrées.
Besoin d'Évaluation
Pour évaluer efficacement les MLLMs, on doit créer des références qui fournissent des métriques claires pour la performance. Les références actuelles s'appuient sur des exemples limités ou des tests déjà développés qui ne mesurent pas adéquatement les capacités des modèles lors de la génération de réponses ouvertes. Par exemple, certains tests existants considèrent comme correctes les réponses qui correspondent exactement à la réponse attendue, ce qui peut être très limitant.
En conséquence, cela crée des défis pour comparer différents modèles et comprendre leurs forces et faiblesses. Une évaluation plus large et objective est nécessaire pour s'assurer que les chercheurs peuvent évaluer et comparer précisément les performances de ces modèles.
Présentation de SEED-Bench
Pour combler ces lacunes, on présente une nouvelle référence d'évaluation appelée SEED-Bench. Cette référence comprend 19 000 questions à choix multiples, soigneusement annotées par des humains. Elle couvre douze différentes façons d'évaluer à quel point ces modèles comprennent les images et les vidéos.
Le développement de SEED-Bench implique un processus détaillé pour générer des questions de haute qualité. On utilise des méthodes automatisées et une vérification humaine pour s'assurer que chaque question est significative et pertinente. Cela nous permet d'évaluer objectivement la performance des modèles, sans avoir besoin d'un apport humain ou d'une IA supplémentaire lors du processus d'évaluation.
Conception de SEED-Bench
SEED-Bench est construit avec un objectif clair d'évaluation complète sur plusieurs dimensions. Chaque question est conçue pour tester des aspects spécifiques de la compréhension liés à l'information visuelle. Les douze dimensions d'évaluation incluent divers niveaux de compréhension, à la fois spatiaux (liés aux images) et temporels (liés aux vidéos).
Pour les images, on recueille des informations en utilisant des modèles sophistiqués qui peuvent extraire des descriptions, identifier des objets et comprendre des éléments visuels. Pour les vidéos, on s'appuie sur des annotations humaines existantes pour capturer des actions et des changements dans le temps. Ce processus minutieux garantit que les questions générées sont stimulantes et perspicaces.
Dimensions d'Évaluation
SEED-Bench se concentre sur deux types principaux de compréhension : spatiale et temporelle.
Compréhension spatiale
Cela couvre à quel point un modèle peut interpréter et raisonner à propos des images. Ça inclut neuf domaines spécifiques :
- Compréhension de la Scène : Est-ce que le modèle peut saisir la scène globale dans une image ?
- Identité de l'Instance : Est-ce que le modèle peut identifier des objets spécifiques dans une image ?
- Attributs de l'Instance : Est-ce que le modèle peut décrire des attributs comme la couleur ou la forme ?
- Localisation de l'Instance : Est-ce que le modèle peut indiquer où se trouve un objet dans une image ?
- Comptage des Instances : Est-ce que le modèle peut compter le nombre d'objets présents ?
- Relation Spatiale : Est-ce que le modèle peut comprendre comment différents objets se rapportent les uns aux autres ?
- Interaction des Instances : Est-ce que le modèle peut reconnaître les interactions entre objets ou personnes ?
- Raisonnement Visuel : Est-ce que le modèle peut faire des déductions logiques basées sur l'information visuelle ?
- Compréhension du Texte : Est-ce que le modèle peut interpréter les éléments textuels présents dans l'image ?
Compréhension temporelle
Cela se concentre sur à quel point un modèle peut comprendre les informations vidéo, consistant en trois domaines :
- Reconnaissance d'Actions : Est-ce que le modèle peut identifier les actions qui se déroulent dans une vidéo ?
- Prédiction d'Actions : Est-ce que le modèle peut prévoir ce qui va se passer ensuite dans une vidéo en fonction de l'information précédente ?
- Compréhension des Procédures : Est-ce que le modèle peut comprendre et ordonner une série d'actions à partir de la vidéo ?
Génération de Questions et Réponses
Créer les questions pour SEED-Bench implique plusieurs étapes. D'abord, on recueille des informations visuelles à partir d'images et de vidéos. Ensuite, on utilise des modèles d'IA pour aider à générer des questions basées sur ces informations. Chaque question est accompagnée de quatre réponses possibles, dont une est correcte.
Pour éviter les questions qui peuvent être répondues correctement sans utiliser d'images, on filtre celles qui manquent de contexte visuel. Après ça, des annotateurs humains passent en revue les questions pour confirmer leur exactitude et les assigner à la dimension d'évaluation appropriée.
Sources de Données
Pour construire la référence, on utilise une gamme de jeux de données contenant des informations visuelles riches. Cela inclut des images avec des légendes descriptives et des vidéos annotées avec des actions. On s'assure que le jeu de données utilisé a suffisamment de détails et de variété pour créer des questions significatives qui mettent au défi les MLLMs.
Stratégie d'Évaluation
L'évaluation des modèles utilisant SEED-Bench suit une approche systématique. Au lieu de demander simplement aux modèles de choisir une lettre correspondant à leur réponse, on regarde à quel point il est probable qu'un modèle génère chaque option de réponse. La réponse avec la plus haute probabilité basée sur la compréhension du modèle est choisie comme sa prédiction. Cette méthode permet une évaluation plus précise des capacités des modèles et évite les biais basés sur l'ordre des réponses.
Résultats de l'Évaluation
Après avoir testé 18 modèles différents en utilisant SEED-Bench, on a observé divers niveaux de performance à travers les dimensions de compréhension spatiale et temporelle. Ces modèles incluent à la fois des architectures axées sur le langage et sur la vision.
Étonnamment, certains modèles ont montré de bonnes performances dans certains domaines, mais dans l'ensemble, beaucoup de MLLMs ont eu du mal à atteindre une haute précision à travers les dimensions. Par exemple, tandis que certains modèles performaient bien dans la compréhension globale des images, ils avaient du mal avec des détails plus fins, notamment dans la reconnaissance d'instances spécifiques et d'actions.
Conclusions de l'Évaluation
Performance Limitée : La plupart des modèles n'ont pas atteint plus de 50 % de précision sur de nombreuses dimensions d'évaluation.
Force dans la Compréhension Globale : Les MLLMs ont généralement fait mieux pour comprendre des contextes plus larges d'images comparés à des détails spécifiques des objets.
Meilleurs Performants : Des modèles comme InstructBLIP ont excellé dans plusieurs dimensions d'évaluation mais ont quand même rencontré des défis dans des domaines nécessitant une compréhension plus fine.
Difficultés dans la Reconnaissance de Texte : À part quelques modèles performants, beaucoup ont eu du mal à reconnaître les éléments textuels dans les images.
Difficultés de Compréhension Temporelle : Les ImageLLMs et VideoLLMs ont trouvé difficile de comprendre et de raisonner sur le timing et les séquences dans les vidéos.
Conclusion
SEED-Bench sert de référence complète pour évaluer les Modèles de Langage Large Multimodaux sur leurs capacités de compréhension générative. En fournissant un ensemble de questions bien structuré lié à des dimensions spécifiques de compréhension, on vise à faciliter de meilleures Évaluations de la performance des modèles et à faire avancer la recherche future.
À travers des mises à jour continues et des ajouts à SEED-Bench, on espère affiner le processus d'évaluation et approfondir nos connaissances sur comment ces modèles interprètent et interagissent avec des informations complexes. L'objectif ultime est d'améliorer les capacités des MLLMs et de contribuer à des avancées qui peuvent encore bénéficier à divers secteurs s'appuyant sur la compréhension visuelle et textuelle.
Titre: SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
Résumé: Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
Auteurs: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
Dernière mise à jour: 2023-08-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.16125
Source PDF: https://arxiv.org/pdf/2307.16125
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.