Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Présentation de BLUEX : Un jeu de données pour les modèles de langue portugais

BLUEX propose une riche ressource pour évaluer les modèles de langage en portugais avec des questions d'examen d'entrée.

― 8 min lire


Dataset BLUEX pour lesDataset BLUEX pour lesmodèles de langued'examen d'entrée.portugaise en utilisant des questionsÉvaluer des modèles de langue
Table des matières

Les modèles de langage (LMs) sont des outils utilisés pour gérer divers trucs de langue, comme traduire du texte et répondre à des questions. Récemment, pas mal d'études se sont penchées sur le test de ces modèles avec des examens standardisés. Bien qu'il y ait eu pas mal de recherches en anglais et dans d'autres langues, il y a pas beaucoup d'évaluations pour le portugais, même si c'est la cinquième langue la plus parlée au monde. La principale raison de ce manque, c'est l'absence de jeux de données de bonne qualité en portugais, ce qui complique la tâche des chercheurs pour évaluer combien bien les LMs fonctionnent dans cette langue.

Pour combler ce manque, BLUEX a été créé. Ce dataset est basé sur les examens d'entrée des meilleures universités du Brésil, UNICAMP et USP. Il inclut des questions de ces examens, avec des infos utiles pour tester les LMs sur différents sujets. En plus, BLUEX a un ensemble de nouveaux examens que de nombreux LMs populaires n'ont peut-être jamais vus. Le dataset donne aussi des détails sur où les images apparaissent dans chaque question, ce qui en fait une super ressource pour améliorer la compréhension et le raisonnement des modèles avec la langue et les images.

Contexte

Dernièrement, les modèles de langage ont montré des résultats prometteurs dans plein de défis liés aux langues. Ça inclut des tâches comme classer du texte, traduire des langues, et générer du nouveau texte. Les performances sur les tests standardisés sont particulièrement remarquables, car ces examens incluent souvent des questions difficiles qui nécessitent une bonne dose de connaissances spécifiques et de raisonnement logique. Par exemple, dans des tests avec GPT-4, il a été noté que ce modèle performait à un niveau proche de celui des candidats humains sur des évaluations de niveau supérieur.

Cependant, il y a eu peu de tests de modèles de langage en portugais. Ça vient en partie du nombre limité de jeux de données disponibles dans cette langue. L'absence de jeux de données de haute qualité complique le développement et l'évaluation de modèles fonctionnant avec le portugais. Pour y remédier, BLUEX a été créé, consistant en des questions des examens d'entrée des meilleures universités du Brésil. Ce dataset fournit une riche source de questions de niveau lycée, avec des notes sur différents sujets et les compétences spécifiques nécessaires pour y répondre correctement.

Aperçu du Dataset

BLUEX se compose de plus de 1 000 questions à choix multiples provenant des examens d'entrée donnés à UNICAMP et USP entre 2018 et 2023. Le processus de création de ce dataset a impliqué l'extraction automatique des questions et de leurs choix de réponses, ainsi que des images pertinentes, puis une vérification manuelle de chaque élément pour corriger les erreurs et ajouter des détails supplémentaires. Ça incluait des annotations sur l'emplacement des images dans les questions.

Ce que Signifient les Annotations

Le dataset a des annotations détaillées pour aider à comprendre ce que chaque question exige. Voici quelques annotations clés :

  • Connaissances Préalables (PRK) : Indique si la question nécessite des connaissances qui ne sont pas dans la question elle-même, comme la familiarité avec un auteur particulier ou une formule spécifique.
  • Compréhension Textuelle (TU) : Montre si comprendre un texte est nécessaire pour répondre à la question.
  • Compréhension d'image (IU) : Indique si le sens d'une image est important pour répondre à la question. Pas chaque question avec des images nécessite cette compréhension.
  • Raisonnement Mathématique (MR) : Indique si la question nécessite des compétences en mathématiques, comme des calculs.
  • Multilingue (ML) : Montre si la question exige des connaissances de plusieurs langues, comme tester les compétences en anglais parmi les locuteurs portugais.
  • Connaissance Brésilienne (BK) : Indique si la question implique la culture, l'histoire ou la géographie brésiliennes.
  • Sujets : Liste les sujets liés à la question, comme la Géographie ou la Physique.
  • Images Associées : Fournit une liste de toutes les images associées à la question.
  • Type Alternatif : Indique si les choix de réponses sont des textes ou des images.

Ces annotations aident les chercheurs à évaluer à quel point les modèles de langage comprennent et raisonnent en portugais.

Positionnement des Images

De nombreuses questions dans les examens nécessitent une compréhension des images, ce qui signifie qu'il y a besoin de modèles qui peuvent bien travailler avec le texte et les images. Actuellement, très peu de modèles peuvent faire ça efficacement, même s'il y a des recherches actives dans ce domaine. Donc, BLUEX peut être un outil crucial pour évaluer comment bien les futurs modèles peuvent gérer ces deux types d'informations.

Distribution du Dataset

BLUEX inclut des questions provenant de plusieurs matières communes dans l'éducation au lycée. Ces matières incluent les Mathématiques, la Physique, la Chimie, la Biologie, l'Histoire, la Géographie, l'Anglais, la Philosophie et le Portugais. Il y a aussi des questions qui couvrent plusieurs matières.

La plupart des questions nécessitent des connaissances spécifiques et la capacité de comprendre le texte. Environ 58% des questions n'incluent pas d'images, ce qui facilite l'évaluation des modèles sans la complexité ajoutée des images.

Évaluation de la Performance

Pour voir comment bien les modèles de langage performaient avec BLUEX, divers LMs ont été testés, allant en taille et complexité. Les tests consistaient à donner aux modèles une question d'exemple puis à leur demander de répondre à une question différente du dataset. L'exemple et la question testée provenaient de la même université mais d'années différentes.

Durant cette évaluation, les questions avec images n'étaient pas incluses puisque les modèles utilisés ne pouvaient traiter que du texte. Environ 638 questions ont été utilisées pour les tests, ce qui représente environ 60% du dataset.

Les résultats de performance ont montré comment différents modèles ont fait par rapport aux étudiants qui ont passé ces examens. Les résultats ont aussi fourni un aperçu de la performance des modèles dans des catégories spécifiques, comme le Raisonnement Mathématique et la Connaissance Brésilienne.

Parmi les modèles plus petits, un nommé Sabiá, qui a été spécifiquement entraîné en portugais, a mieux performé que les autres, approchant les scores moyens obtenus par les étudiants. Dans les modèles plus grands, LLaMA 65B a surpassé les autres et a atteint des niveaux de performance similaires à GPT-3.5-Turbo. Même si GPT-4 a été le meilleur performeur au total, il n'a pas atteint les scores moyens nécessaires pour passer la filière la plus compétitive, médecine.

Analyse de la Performance

Un examen plus approfondi de la façon dont les modèles ont géré différents types de questions a révélé que la plupart des modèles ont eu du mal avec les questions nécessitant un Raisonnement Mathématique. Même GPT-4, malgré sa performance au top, n'a réussi à obtenir que 44% de réponses correctes sur ces types de questions. En ce qui concerne les questions liées à la Connaissance Brésilienne, Sabiá s'est démarqué, surpassant les autres dans la catégorie des petits modèles grâce à son entraînement supplémentaire en portugais.

Les résultats ont montré qu'il y avait peu de variation entre les performances des modèles d'une année d'examen à l'autre. Cependant, en 2023, tous les modèles semblaient légèrement mieux performer, suggérant que les examens récents ont peut-être été plus faciles. Étant donné que les examens de 2023 viennent d'être passés, il est peu probable que les modèles aient mémorisé ces questions, ce qui indique qu'ils appliquaient efficacement ce qu'ils avaient appris.

Conclusion

Ce travail a introduit BLUEX comme une nouvelle ressource pour étudier à quel point les modèles de langage performent sur les examens d'entrée des universités au Brésil, particulièrement en portugais. Avec des annotations étendues pour diverses capacités à travers différents sujets, le dataset sert d'outil précieux pour les chercheurs cherchant à évaluer et améliorer les capacités des modèles de langage.

Pour l'avenir, il y a plein de pistes pour de nouvelles recherches. Par exemple, tester si utiliser plus d'exemples dans les prompts peut améliorer la performance des modèles serait intéressant. De plus, les modèles capables de traiter à la fois le texte et les images peuvent être évalués avec BLUEX, permettant aux chercheurs de voir comment bien ces modèles intègrent l'information visuelle et textuelle pour aborder des questions de niveau lycée.

Source originale

Titre: BLUEX: A benchmark based on Brazilian Leading Universities Entrance eXams

Résumé: One common trend in recent studies of language models (LMs) is the use of standardized tests for evaluation. However, despite being the fifth most spoken language worldwide, few such evaluations have been conducted in Portuguese. This is mainly due to the lack of high-quality datasets available to the community for carrying out evaluations in Portuguese. To address this gap, we introduce the Brazilian Leading Universities Entrance eXams (BLUEX), a dataset of entrance exams from the two leading universities in Brazil: UNICAMP and USP. The dataset includes annotated metadata for evaluating the performance of NLP models on a variety of subjects. Furthermore, BLUEX includes a collection of recently administered exams that are unlikely to be included in the training data of many popular LMs as of 2023. The dataset is also annotated to indicate the position of images in each question, providing a valuable resource for advancing the state-of-the-art in multimodal language understanding and reasoning. We describe the creation and characteristics of BLUEX and establish a benchmark through experiments with state-of-the-art LMs, demonstrating its potential for advancing the state-of-the-art in natural language understanding and reasoning in Portuguese. The data and relevant code can be found at https://github.com/Portuguese-Benchmark-Datasets/BLUEX

Auteurs: Thales Sales Almeida, Thiago Laitz, Giovana K. Bonás, Rodrigo Nogueira

Dernière mise à jour: 2023-07-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.05410

Source PDF: https://arxiv.org/pdf/2307.05410

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires