Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Calcul et langage

Repenser les méthodes d'évaluation pour les modèles multimodaux

Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.

― 8 min lire


Évaluer les modèlesÉvaluer les modèlesmultimodaux efficacementmultimodaux.vraie compréhension des modèlesDe nouvelles méthodes révèlent une
Table des matières

Les grands Modèles multimodaux (LMM) sont des outils avancés capables de comprendre et de raisonner avec du texte et des images. Ils sont souvent testés avec des Questions à choix multiples (QCM), où une question est associée à une image et plusieurs options de réponse. Cependant, beaucoup de tests utilisés pour évaluer ces modèles ont des biais qui influencent leurs résultats. Étonnamment, certains grands modèles de langage (LLM) qui ne peuvent pas traiter les images obtiennent quand même de bons résultats à ces tests, ce qui soulève des doutes sur la fiabilité de ces Évaluations.

Pour améliorer le processus de test et le rendre plus fiable, on introduit un nouveau référentiel conçu pour minimiser les erreurs et renforcer l'évaluation des LMM. Ce référentiel implique un processus soigné où des annotateurs humains ajoutent des questions supplémentaires liées à la perception et aux connaissances aux questions originales. Ces questions ajoutées aident à s'assurer que les modèles comprennent vraiment le sujet et ne se contentent pas de deviner.

Contexte

Les tests standardisés ont toujours été critiqués pour leur précision dans la mesure des compétences. Ce problème s'étend à l'évaluation des LMM, surtout avec des modèles populaires comme GPT4-o et Gemini-1.5. En général, ces évaluations incluent des QCM avec des images, des questions et des options de réponses. Elles sont plus faciles à utiliser que d'autres méthodes de test. Cependant, beaucoup de référentiels conçus pour les LMM contiennent un nombre significatif de QCM, ce qui soulève des inquiétudes quant au fait que ces évaluations reflètent vraiment les capacités des modèles, particulièrement en comparaison avec la Performance humaine.

Des recherches ont montré que les évaluations multimodales peuvent contenir des biais qui permettent aux LLM d'obtenir de bons résultats sans vraiment comprendre les questions. Par exemple, certaines études ont noté que les LLM réussissent bien même avec des informations visuelles limitées. Notre article se concentre sur trois référentiels multimodaux bien connus : MMMU, ScienceQA et MathVista.

Le problème avec les référentiels actuels

Nos études initiales ont révélé que les LLM pouvaient obtenir des scores élevés sur les référentiels existants sans avoir besoin de traiter des informations visuelles. Cela était souvent dû à des fuites de données, des éléments visuels non pertinents, ou simplement à de la chance. La petite différence de performance entre les LLM et les LMM indique que ces tests peuvent ne pas évaluer avec précision les capacités des modèles.

Un problème majeur identifié est la prévalence des erreurs de type I dans les évaluations. Cela se produit quand un modèle répond correctement sans vraiment saisir les concepts sous-jacents. Par exemple, un modèle pourrait être capable de calculer un degré pour un angle mais ne pas reconnaître le nom de l'angle dans une image donnée. Cela suggère un manque de compréhension globale.

Pour résoudre ces problèmes, nous proposons un nouveau référentiel qui évaluera plus précisément les capacités des modèles. Ce référentiel préserve la simplicité des évaluations QCM tout en intégrant des questions de perception et de connaissance pour améliorer la compréhension.

Le nouveau référentiel

Notre nouveau référentiel inclut une variété de questions conçues pour refléter les véritables capacités des modèles testés. Nous augmentons chaque question originale avec à la fois une question de perception et une question de connaissance, créant un ensemble de questions triplets. Ces questions triplets aideront à s'assurer que les modèles ne peuvent pas simplement deviner mais doivent démontrer une réelle compréhension.

En utilisant cette approche, notre objectif est de faciliter un système d'évaluation plus fiable qui peut distinguer la véritable compréhension d'une simple chance.

Méthodologie

Sources de données

Pour créer notre nouveau référentiel, nous avons utilisé trois ensembles de données d'évaluation multimodale bien établis : MMMU, ScienceQA et MathVista. Ces ensembles de données couvrent une gamme de sujets éducatifs et de niveaux, allant du collège à l'université.

Processus d'annotation

Notre processus d'annotation comprend plusieurs étapes pour garantir la qualité du nouvel ensemble de données :

  1. Revue des données : Les annotateurs se familiarisent d'abord avec les questions originales et les concepts qui les sous-tendent.
  2. Création de questions : Après avoir compris les questions originales, les annotateurs créent des questions de perception et de connaissance pertinentes pour la question originale.
  3. Vérification : Chaque triplet annoté passe par un processus de vérification, où des examinateurs indépendants vérifient les erreurs ou les incohérences logiques.

Cette méthode rigoureuse garantit que notre référentiel est à la fois précis et fiable.

Métriques d'évaluation

Pour notre référentiel, nous proposons deux principales métriques : la précision réelle (GA) et la précision moyenne (AA). La GA mesure si un modèle peut correctement répondre à toutes les trois questions d'un triplet, tandis que la AA calcule le score global sur toutes les questions.

De plus, nous évaluons la précision de perception (PA) et la précision de connaissance (KA) en fonction des questions ajoutées. L'écart de cohérence (CG) mesure combien la performance d'un modèle diffère entre la réponse à la question originale et aux questions ajoutées.

Configuration expérimentale

Dans notre évaluation, nous avons testé divers LLM et LMM sur les référentiels originaux et notre nouvelle méthode d'évaluation. Pour standardiser la sortie des modèles, nous avons utilisé un format de prompt fixe qui demandait aux modèles de fournir des réponses basées sur les options données.

Modèles évalués

Nous avons évalué un mélange de modèles open-source et de modèles propriétaires. Parmi les LLM, nous avons inclus des versions des séries Qwen et LLaMA, ainsi que des modèles d'API comme GPT-3.5-Turbo. Pour les LMM, nous avons testé des modèles comme LLaVA et MiniCPM, en plus de modèles propriétaires avancés comme GPT-4o.

Résultats et discussion

Analyse de performance

Nos résultats indiquent un écart de performance significatif entre les référentiels originaux et notre nouveau référentiel. Par exemple, nous avons observé que des modèles avancés pouvaient obtenir de bons scores dans les référentiels originaux mais voyaient leur performance chuter drastiquement lorsqu'ils étaient évalués avec notre méthode. Cela suggère que les référentiels originaux peuvent ne pas capturer pleinement les capacités des modèles.

Écart de cohérence

Les résultats ont également mis en évidence un écart de cohérence clair (CG) entre les LLM et les LMM. En général, les LLM ont affiché un CG plus important, indiquant qu'ils n'ont peut-être pas une compréhension cohérente du sujet. En revanche, les experts humains ont maintenu un CG plus petit, démontrant leur capacité à traiter avec précision à la fois les questions liées et les questions originales.

Cette différence souligne comment notre référentiel identifie efficacement les modèles qui comprennent vraiment le sujet par rapport à ceux qui comptent sur la chance ou le devinage.

Conclusion

Notre étude révèle les limites des référentiels multimodaux existants et propose une nouvelle méthode d'évaluation qui renforce la fiabilité des évaluations pour les LMM. En introduisant l'idée de triplets de questions composés de questions de perception et de connaissance, nous permettons une mesure plus précise des capacités d'un modèle.

Les résultats de nos expériences montrent non seulement que même des modèles multimodaux avancés ont du mal avec notre référentiel, mais soulignent également l'importance de raffiner les méthodes d'évaluation. Alors que la recherche continue dans ce domaine, notre référentiel proposé vise à faciliter des perspectives plus profondes sur les capacités des LMM et à guider les futurs développements dans ce domaine.

Directions futures

À l'avenir, nous recommandons d'explorer davantage pour améliorer le nouveau référentiel, y compris l'incorporation de sujets supplémentaires et de types de questions diversifiés. Des améliorations continues des processus d'annotation et des méthodologies contribueront également à des normes plus élevées dans l'évaluation des modèles multimodaux.

Nos découvertes encouragent davantage d'investigations sur les compréhensions multimodales, car elles jouent un rôle crucial dans le développement de modèles plus sophistiqués capables de simuler un raisonnement et une compréhension semblables à ceux des humains. L'objectif ultime est de créer des modèles qui non seulement performent bien lors des évaluations mais qui comprennent vraiment le monde qu'ils interprètent.

Source originale

Titre: MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

Résumé: Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises $2,138$ question triplets, totaling $6,414$ distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by $31.73\%$, compared to an average gap of $8.03\%$ in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by $23.09\%$, whereas the gap for previous benchmarks is just $14.64\%$). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.

Auteurs: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang

Dernière mise à jour: 2024-06-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.00468

Source PDF: https://arxiv.org/pdf/2407.00468

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires