Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes

Évaluation des modèles de langage avec un nouveau benchmark

Cet article présente une référence pour évaluer les modèles de langage large avec des tâches complexes.

― 8 min lire


Nouvelle référence pourNouvelle référence pourles modèles de languedes tests de questions complexes.Améliorer l'évaluation de l'IA grâce à
Table des matières

Introduction

Les récentes avancées dans les grands Modèles de langage qui comprennent à la fois le texte et les images ont mis en lumière le besoin de meilleures méthodes de test. La plupart des tests existants se contentent de regarder des images faciles et des textes courts, ce qui ne reflète pas les tâches réelles que ces modèles doivent gérer. Cet article présente un nouveau référentiel pour évaluer ces modèles, en se concentrant sur des tableaux et des images complexes tout en exigeant un texte plus long à analyser.

Le Nouveau Référentiel

Ce référentiel va aider à évaluer à quel point ces grands modèles de langage (souvent appelés MLLMs) peuvent gérer des tâches compliquées. Il propose un mélange de Questions, y compris celles nécessitant des réponses précises et d'autres permettant des réponses ouvertes. Avec plus de 18 000 questions, le référentiel couvre des tâches allant des calculs mathématiques à l'analyse d'images et au raisonnement à travers différents types de contenu.

Sous-ensembles Spéciaux

Pour rendre l'évaluation encore plus difficile, deux ensembles spécifiques de questions ont été créés. Un ensemble contient 500 questions difficiles, tandis que l'autre inclut plus de 4 500 éléments de connaissance externe. Les tests montrent que le meilleur modèle, GPT-4V, a obtenu 63,7 % sur le référentiel principal. D'autres modèles sont en retard, avec des scores variant entre 28,5 % et 55,3 %.

L'Objectif du Référentiel

Comprendre des informations complexes est vital dans de nombreux domaines, surtout en science. Les gens ne communiquent pas seulement avec des mots ; ils utilisent aussi des images, des diagrammes et des tableaux. Cela signifie que les modèles doivent apprendre à traiter et à créer des réponses à travers différents types de médias. Le nouveau référentiel se concentre sur ce besoin en fournissant un ensemble diversifié de questions, garantissant que les modèles peuvent être testés avec précision dans divers domaines.

Évaluation des Modèles

Les méthodes de test actuelles ont des limites. Elles supposent souvent que les questions n'ont qu'une seule réponse, ce qui n'aide pas à évaluer la véritable compréhension d'un modèle. Pour mieux challenger les MLLMs, un ensemble de données plus détaillé et varié est nécessaire. Les référentiels précédents n'ont pas pleinement capturé la complexité de la communication humaine dans des scénarios pratiques.

De plus, ce référentiel inclut une attention significative sur le contenu chinois, car de nombreux modèles sont désormais développés avec cette langue en tête. L'objectif est de créer un système d'évaluation complet qui teste les modèles sur leur capacité à gérer des problèmes difficiles dans une variété de contextes.

Collecte de Données et Assurance Qualité

Le référentiel consiste en un mélange de questions provenant de plusieurs sources, y compris du contenu éducatif et des quiz des diverses institutions éducatives de la Chine. Les données ont été soigneusement sélectionnées et annotées. Le processus de développement a impliqué la collecte de millions de questions brutes et leur affinement à travers plusieurs rondes de vérifications.

Sources de Données

Plus de 2,7 millions de questions ont été rassemblées à partir de différentes plateformes, y compris des examens des écoles secondaires et des matériaux de formation des meilleures universités. Un algorithme a été utilisé pour sélectionner un large éventail de types de questions et assurer une couverture riche des connaissances.

Processus et Annotation

Le processus a inclus plusieurs étapes pour garantir que chaque question est de haute qualité :

  1. Pré-traitement des Données : Les données brutes ont été nettoyées et converties au format markdown pour la cohérence. Cela a inclus l'utilisation d'outils pour convertir du texte de différents formats, comme HTML et des photographies.

  2. Annotation des Données : Des annotateurs qualifiés ont décomposé les questions en composants clairs et ont assuré l'exactitude de ce que chaque question demandait. Ils ont aussi formaté le tout pour que ce soit facile à lire pour les MLLMs.

  3. Post-traitement : Des stratégies ont été appliquées pour améliorer la diversité et le niveau de défi des questions. Cela a inclus changer les types de questions et fusionner ou modifier des questions pour augmenter la difficulté.

Types de Questions

Le référentiel comprend divers types de questions pour évaluer correctement les capacités des différents modèles :

  • Questions à Choix Multiples : Celles-ci peuvent avoir une ou plusieurs bonnes réponses, testant la capacité du modèle à sélectionner les bonnes options.

  • Questions à Compléter : Des réponses courtes sont requises, demandant des correspondances exactes pour que des points soient attribués.

  • Questions Ouvertes : Celles-ci nécessitent des réponses plus longues, permettant aux modèles de montrer leur capacité à générer des informations détaillées.

L'inclusion d'une telle variété garantit une évaluation complète de la performance du modèle.

Évaluation du Modèle

Une gamme de MLLMs de premier plan a été évaluée à l'aide de ce référentiel. Les résultats indiquent que bien que certains modèles fonctionnent bien, il y a encore un écart significatif par rapport à la compréhension humaine.

Mesures de Performance

La performance des modèles est évaluée sur la base de plusieurs critères, garantissant une image claire de leur gestion à travers différents types de questions :

  • Pour les questions à choix multiples, la précision est mesurée en fonction des bonnes réponses.

  • Pour les questions à compléter, seules les correspondances exactes comptent pour des points.

  • Les réponses ouvertes sont évaluées à l'aide d'un système de notation flexible basé sur la proximité avec les réponses idéales.

Les résultats montrent que la plupart des modèles performent mieux sur des questions simples mais ont du mal avec des formats plus complexes ou ouverts.

Aperçu des Résultats

Le meilleur performeur de l'évaluation, GPT-4V, n'a atteint que 63,7 % de précision, montrant qu'il y a un réel potentiel d'amélioration pour gérer des tâches complexes. Les modèles obtiennent généralement des scores plus bas sur les questions nécessitant un raisonnement détaillé ou des images, indiquant que ces domaines devront être plus ciblés dans le développement futur.

Importance des Images dans les Questions

Une analyse a montré que les images aident considérablement à répondre aux questions. Enlever les images des questions tend à réduire les scores, comme on l'a vu dans des tests où les modèles ont mieux performé lorsqu'ils avaient des indices visuels.

Comparaison de l'Utilisation des Images

  • Pour les images uniques, les modèles ont bénéficié d'un contexte supplémentaire, augmentant considérablement leurs Performances.

  • Dans les scénarios où plusieurs images étaient impliquées, le défi augmentait, seuls les meilleurs modèles parvenant à dépasser des niveaux de devinette basiques.

Leçons Tirées

À travers ces évaluations, il devient clair que bien que de nombreux modèles aient progressé, il reste encore beaucoup à faire pour améliorer leurs capacités. Les domaines clés à améliorer incluent le raisonnement logique, la compréhension croisée des modalités et les tâches de compréhension complexes.

Directions Futures

Il y a un besoin urgent d'élargir ces référentiels pour englober plus de types de questions et différents médias. Les améliorations futures pourraient inclure l'intégration de contenus audio ou vidéo, l'élargissement des sujets couverts, et même la traduction des questions existantes dans d'autres langues.

Expansion des Capacités

À mesure que la technologie continue d'évoluer, les méthodes de test de ces modèles devraient également évoluer. Incorporer plus de types de questions variés et améliorer les évaluations conçues pour des réponses ouvertes aidera à atteindre cet objectif.

Conclusion

L'introduction d'un nouveau référentiel pour évaluer les MLLMs marque une étape significative vers la compréhension et l'amélioration de la performance de ces modèles à travers différents types de tâches. En défiant les modèles existants de manière à ressembler à des scénarios du monde réel, il y a un potentiel considérable pour des avancées importantes dans l'intelligence artificielle. Des efforts continus dans le test et le raffinement des méthodes encourageront le développement de systèmes plus intelligents et plus capables, menant finalement à une meilleure intégration de l'IA dans la vie quotidienne.

Limitations

Bien que ce référentiel offre d'excellentes opportunités, il présente certaines limitations :

  1. Couverture Linguistique : Le focus principal est sur le chinois simplifié, avec des projets d'inclure des traductions à l'avenir. Cela limite l'applicabilité pour les modèles formés dans d'autres langues.

  2. Mesures d'Évaluation : Les normes d'évaluation strictes peuvent ne pas capturer pleinement les capacités d'un modèle, surtout dans des tâches plus complexes.

  3. Adaptation et Complexité : De nombreux modèles existent, et tous les tester peut être un défi. Encourager la communauté de recherche au sens large à utiliser ce référentiel peut aider à résoudre cela.

Le travail futur visera à adresser ces limitations tout en enrichissant davantage le référentiel pour englober encore plus de scénarios de test diversifiés.

Source originale

Titre: MULTI: Multimodal Understanding Leaderboard with Text and Images

Résumé: Rapid progress in multimodal large language models (MLLMs) highlights the need to introduce challenging yet realistic benchmarks to the academic community, while existing benchmarks primarily focus on understanding simple natural images and short context. In this paper, we present MULTI as a cutting-edge benchmark for evaluating MLLMs on understanding complex tables and images, and reasoning with long context. MULTI provides multimodal inputs and requires responses that are either precise or open-ended, reflecting real-life examination styles. MULTI includes over 18,000 questions and challenges MLLMs with a variety of tasks, ranging from formula derivation to image detail analysis and cross-modality reasoning. We also introduce MULTI-Elite, a 500-question selected hard subset, and MULTI-Extend, with more than 4,500 external knowledge context pieces. Our evaluation indicates significant potential for MLLM advancement, with GPT-4V achieving a 63.7% accuracy rate on MULTI, in contrast to other MLLMs scoring between 28.5% and 55.3%. MULTI serves not only as a robust evaluation platform but also paves the way for the development of expert-level AI.

Auteurs: Zichen Zhu, Yang Xu, Lu Chen, Jingkai Yang, Yichuan Ma, Yiming Sun, Hailin Wen, Jiaqi Liu, Jinyu Cai, Yingzi Ma, Situo Zhang, Zihan Zhao, Liangtai Sun, Kai Yu

Dernière mise à jour: 2024-02-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.03173

Source PDF: https://arxiv.org/pdf/2402.03173

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires