Évaluer les grands modèles de langage avec M3Exam
Un nouveau critère évalue les modèles de langage avec de vraies questions d'examen.
― 11 min lire
Table des matières
Ces dernières années, les grands modèles de langage (LLMs) ont fait d'énormes progrès dans des tâches liées à la compréhension et à la génération de texte. Ces modèles peuvent répondre à une variété de questions et produire des réponses de haute qualité. Alors que les LLMs sont de plus en plus utilisés dans des situations réelles, il devient essentiel d'évaluer correctement leur efficacité. Cette évaluation va au-delà de simplement vérifier à quel point ces modèles comprennent le langage ; elle nécessite également d'évaluer comment ils résolvent des problèmes complexes et appliquent des connaissances de différents domaines.
Le besoin de meilleures évaluations
Les approches de test standard pour les LLMs impliquent souvent des repères spécifiques adaptés à certaines tâches. Bien que ces repères puissent fournir des informations précieuses, ils peuvent ne pas suffire pour mesurer les capacités globales des LLMs. Beaucoup de repères se concentrent principalement sur l'anglais et ne tiennent pas compte des capacités d'un modèle dans d'autres langues. Comme les modèles peuvent communiquer dans plusieurs langues, ils doivent être testés dans diverses langues et cultures pour évaluer leur véritable potentiel.
De plus, de nombreuses évaluations actuelles n'incluent que des questions basées sur du texte. Cependant, les examens réels impliquent souvent des images, des diagrammes ou d'autres types d'informations visuelles. Cette omission peut conduire à une compréhension incomplète des capacités d'un modèle. De plus, les repères existants comprennent souvent des questions de niveaux mixtes, ce qui peut fausser les compétences des LLMs testés.
Présentation de M3Exam
Pour relever ces défis, nous présentons M3Exam, un nouveau repère conçu pour évaluer les LLMs dans un contexte multilingue, multimodal et multiniveau. M3Exam est unique car il collecte des questions provenant de véritables examens humains, offrant une évaluation plus précise de l'intelligence générale. Le repère a trois caractéristiques principales :
Multilinguisme : M3Exam inclut des questions de différents pays et nécessite des connaissances dans plusieurs langues et cultures. Cette caractéristique garantit que les modèles sont évalués sur leur capacité à traiter du texte dans différentes langues.
Multimodalité : Beaucoup de questions d'examen vont au-delà du texte et nécessitent la compréhension d'images ou de graphiques. En incorporant ce type de questions, M3Exam teste les modèles sur leur capacité à traiter l'information dans divers formats.
Structure multiniveau : M3Exam comporte des questions de trois étapes éducatives importantes : primaire, intermédiaire et secondaire. Cette diversité permet une évaluation approfondie de la capacité des modèles à gérer des questions de différents niveaux de difficulté.
Au total, M3Exam comprend plus de 12 300 questions dans neuf langues distinctes, dont environ 23 % nécessitent un traitement d'image pour répondre correctement.
Évaluation de la performance des modèles
Nous avons testé plusieurs des modèles de langage leaders sur le jeu de données M3Exam. Nos résultats ont révélé que même les modèles les plus performants, comme GPT-4, avaient des difficultés avec le texte multilingue, surtout dans les langues avec moins de ressources ou des scripts non latins. De plus, les modèles conçus pour gérer des questions multimodales n'ont pas bien réussi sur des tâches complexes nécessitant à la fois du texte et des images.
Cela suggère que M3Exam sert d'outil efficace pour comprendre les forces et les faiblesses des LLMs. En nous concentrant sur les capacités multilingues et multimodales, nous pouvons suivre comment ces modèles s'améliorent au fil du temps.
L'importance des questions d'examen
Les examens sont depuis longtemps utilisés pour mesurer l'intelligence humaine à divers niveaux éducatifs. Ils évaluent un large éventail de compétences, y compris la compréhension du langage, les connaissances du monde, la sensibilisation culturelle et le raisonnement logique. Comme les questions d'examen mélangent ces capacités, elles offrent un excellent moyen d'évaluer les LLMs.
Malgré la valeur d'utiliser des questions d'examen humaines, de nombreux repères existants ont encore des limitations. Par exemple, la plupart des évaluations se concentrent sur l'anglais, omettant des tests multilingues cruciaux. Cela est particulièrement important puisque de nombreux modèles sont utilisés dans des contextes globaux où plusieurs langues sont courantes.
Pour créer un repère robuste, M3Exam a été développé en gardant à l'esprit les principes suivants :
Évaluation multilingue
Évaluer comment les LLMs performe dans différentes langues, surtout celles avec moins de ressources, est vital. Cela signifie obtenir des données d'examen réelles de divers pays au lieu de simplement traduire des questions depuis l'anglais. Les données authentiques capturent le contexte culturel nécessaire pour comprendre les nuances du langage.
Évaluation multimodale
Les gens rencontrent souvent des problèmes qui nécessitent de traiter non seulement du texte, mais aussi des images ou de l'audio. Pour tester les capacités des LLMs dans ces domaines, M3Exam inclut des questions qui nécessitent une analyse d'image pour obtenir des réponses correctes. Cette approche multimodale garantit que les modèles sont évalués sur leur capacité à intégrer des informations provenant de divers formats.
Évaluation multiniveau
Les systèmes éducatifs à travers le monde segmentent souvent l'apprentissage en étapes. Évaluer les LLMs à l'aide de questions qui reflètent ces étapes offre des idées sur leurs capacités et le niveau de connaissance attendu à différents points de l'éducation.
Collecte de données pour M3Exam
Pour garantir une évaluation complète des modèles de langage, nous avons inclus neuf langues dans M3Exam. Ces langues ont été choisies pour leur diversité et leur importance à travers le monde. Les langues sélectionnées incluent l'anglais, le chinois, l'italien, le portugais, le vietnamien, le thaï, le swahili, l'afrikaan et le javanais.
Des locuteurs natifs de chaque langue ont été impliqués dans la collecte de documents d'examen officiels, en se concentrant principalement sur les examens de fin d'études pour les écoles primaires, intermédiaires et secondaires. L'objectif était de rassembler les examens les plus largement pris pour créer un jeu de données riche.
Assurer la qualité des données
De nombreux examens n'étaient disponibles que sous forme d'images ou dans des formats nécessitant un traitement spécial. Nous avons utilisé des technologies de reconnaissance optique de caractères (OCR) pour convertir ces images en texte modifiable. Après cette étape, des experts en langues ont passé en revue le texte pour corriger les erreurs et formater les données de manière uniforme.
Les questions étaient principalement à choix multiples, car ce format permet une évaluation automatisée plus facile. Nous avons exclu les questions ouvertes, mais adapté certaines questions formatées en formats à choix multiples. Les annotateurs ont également été instruits d'ajouter des informations contextuelles nécessaires pour répondre à certaines questions.
Pour les questions impliquant des images, nous avons assuré la clarté en indiquant où les images étaient nécessaires directement dans le texte. Cette méthode aide à maintenir une compréhension claire de la façon dont les composants visuels se rapportent aux questions basées sur le texte.
Statistiques clés de M3Exam
Le jeu de données M3Exam se compose de 12 317 questions réparties sur les neuf langues. Chaque question comprend un contexte, des réponses possibles, la réponse correcte et des informations méta comme la langue et le niveau éducatif. Les questions sont organisées en quatre catégories de sujets : langage, mathématiques, sciences sociales et sciences naturelles.
Les données ont été organisées pour s'assurer que divers sujets et niveaux de difficulté étaient représentés équitablement. Après avoir collecté les données, nous avons séparé une partie pour servir de données de développement pour des tests supplémentaires, tandis que les questions restantes étaient réservées pour une évaluation expérimentale.
Compilation des résultats
Pour évaluer l'efficacité de plusieurs LLMs, nous les avons testés sur le jeu de données M3Exam. Nous avons catégorisé les modèles en groupes texte seulement et multimodaux. Les modèles texte seulement comprenaient des modèles bien connus comme ChatGPT et Claude, tandis que les modèles multimodaux étaient sélectionnés en fonction de leurs capacités à gérer des questions mixtes texte et image.
Performance des modèles texte seulement
Lors de tests des modèles texte seulement sur M3Exam, nous avons constaté que la majorité performait en dessous des attentes, surtout sur les questions non anglaises. GPT-4 était le modèle phare, atteignant un taux de précision de 72,92 %. Cependant, il avait encore des difficultés avec des langues comme le javanais et le thaï.
Des modèles comme BLOOM, qui sont multilingues, ont mal performé, même pire que des devinettes aléatoires dans certains cas. Cela indique que bien qu'ils soient conçus pour traiter plusieurs langues, ils ne réussissent pas toujours dans des applications pratiques.
Performance des modèles multimodaux
Les modèles multimodaux que nous avons testés ont rencontré des défis considérables. Par exemple, BLIP-2 a obtenu moins de 50 % de précision sur l'ensemble du jeu de données. Tous ces modèles avancés avaient des difficultés à comprendre des images complexes et n'ont pas réussi à fournir un raisonnement précis lorsque plusieurs images étaient impliquées.
Observer ces résultats suggère que le jeu de données M3Exam présente un véritable défi pour les modèles multimodaux actuels par rapport à des tâches de questions visuelles plus simples. L'exigence d'analyser des images complexes tout en intégrant du texte ajoute des couches de difficulté que les modèles n'ont pas pu gérer efficacement.
Comprendre les tendances de performance
Fait intéressant, la performance des modèles sur M3Exam ne suivait pas la tendance attendue de précision décroissante avec l'augmentation des niveaux de difficulté. Typiquement, on s'attendrait à ce qu'un élève qui excelle à des niveaux éducatifs plus bas performe encore mieux à des niveaux plus élevés. Cependant, ce n'était pas le cas pour les LLMs, ce qui suggère des différences dans la façon dont les modèles apprennent par rapport à l'intelligence humaine.
Informations et directions futures
Les résultats de nos expériences révèlent les lacunes significatives dans les capacités des LLMs, notamment dans les contextes multilingues et multimodaux. Alors que les modèles continuent de se développer, il est crucial de peaufiner les mesures d'évaluation pour mieux comprendre leurs capacités et limitations.
Amélioration des capacités multilingues
Étant donné les défis observés avec des scripts non latins et des langues en manque de ressources, améliorer ces capacités devient une priorité. Alors que les LLMs s'intègrent de plus en plus dans des contextes mondiaux, il reste essentiel de s'assurer qu'ils peuvent comprendre et traiter une variété de langues.
Amélioration de la compréhension multimodale
Pour continuer à faire avancer les modèles multimodaux, des recherches supplémentaires sur leur compréhension des images complexes et l'intégration de données visuelles et textuelles sont nécessaires. De nouvelles méthodes de formation et des jeux de données qui mettent l'accent sur le raisonnement cross-modal pourraient conduire à des améliorations significatives.
Expansion des critères d'évaluation
Bien que M3Exam utilise principalement des questions à choix multiples, explorer d'autres formats de questions dans de futures itérations pourrait fournir une image plus complète des capacités des LLMs. De plus, développer des examens nécessitant une écriture créative pourrait mener à une meilleure compréhension des capacités de génération de langage d'un modèle.
Conclusion
M3Exam représente une avancée significative dans l'évaluation des LLMs grâce à une approche bien arrondie, multilingue, multimodale et multiniveau. Le jeu de données met en évidence les forces et faiblesses des modèles actuels. En se concentrant sur de vraies questions d'examen, il fournit une mesure plus précise de l'intelligence générale que les repères traditionnels. Alors que la technologie IA évolue, une évaluation continue et un perfectionnement de ces méthodes seront cruciaux pour s'assurer que les LLMs peuvent offrir des solutions fiables et efficaces dans des applications réelles.
Titre: M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models
Résumé: Despite the existence of various benchmarks for evaluating natural language processing models, we argue that human exams are a more suitable means of evaluating general intelligence for large language models (LLMs), as they inherently demand a much wider range of abilities such as language understanding, domain knowledge, and problem-solving skills. To this end, we introduce M3Exam, a novel benchmark sourced from real and official human exam questions for evaluating LLMs in a multilingual, multimodal, and multilevel context. M3Exam exhibits three unique characteristics: (1) multilingualism, encompassing questions from multiple countries that require strong multilingual proficiency and cultural knowledge; (2) multimodality, accounting for the multimodal nature of many exam questions to test the model's multimodal understanding capability; and (3) multilevel structure, featuring exams from three critical educational periods to comprehensively assess a model's proficiency at different levels. In total, M3Exam contains 12,317 questions in 9 diverse languages with three educational levels, where about 23\% of the questions require processing images for successful solving. We assess the performance of top-performing LLMs on M3Exam and find that current models, including GPT-4, still struggle with multilingual text, particularly in low-resource and non-Latin script languages. Multimodal LLMs also perform poorly with complex multimodal questions. We believe that M3Exam can be a valuable resource for comprehensively evaluating LLMs by examining their multilingual and multimodal abilities and tracking their development. Data and evaluation code is available at \url{https://github.com/DAMO-NLP-SG/M3Exam}.
Auteurs: Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing
Dernière mise à jour: 2023-11-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.05179
Source PDF: https://arxiv.org/pdf/2306.05179
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.