Évaluer les modèles de langue sur l'examen ENEM du Brésil
Cette étude évalue GPT-3.5 et GPT-4 sur l'examen d'entrée ENEM.
― 6 min lire
Table des matières
Les modèles de langage deviennent de plus en plus capables de gérer des tâches complexes. Cet article examine comment les modèles de langage récents, en particulier GPT-3.5 et GPT-4, se débrouillent sur l'Exame Nacional do Ensino Médio (ENEM), un examen d'entrée majeur utilisé par les universités brésiliennes. L'examen ENEM teste les étudiants sur divers sujets, y compris les langues, les sciences et les Mathématiques, ce qui en fait une tâche difficile pour ces modèles.
L'examen ENEM
L'ENEM se compose de questions à choix multiples et d'une dissertation. L'examen couvre quatre grandes zones : les langues et leurs technologies, les sciences humaines, les sciences naturelles et les mathématiques. Les étudiants doivent avoir une compréhension large de différents sujets et être capables d'intégrer des connaissances de ces domaines divers. Cela fait de l'examen une référence utile pour comprendre comment les modèles de langage peuvent faire face à des défis complexes et multidisciplinaires.
Aperçu des modèles de langage
Les modèles de langage sont un type d'intelligence artificielle qui peut analyser et générer du texte semblable à celui des humains. Les développements récents dans ce domaine montrent que ces modèles peuvent accomplir efficacement diverses tâches, y compris la traduction de langues, la synthèse de textes et la réponse à des questions. Cependant, une grande partie des recherches existantes s'est concentrée sur la performance de ces modèles en anglais, avec moins d'études sur leurs capacités en portugais. Cette étude vise à combler cette lacune en évaluant GPT-3.5 et GPT-4 sur l'examen ENEM.
Description du jeu de données
Pour cette évaluation, deux ensembles de données ont été utilisés : le ENEM Challenge et le jeu de données ENEM 2022. Le ENEM Challenge se compose de questions des examens de 2009 à 2017, tandis que le jeu de données ENEM 2022 contient les questions d'examen les plus récentes. Les deux ensembles de données ont été traités pour exclure les questions nécessitant l'interprétation d'images, d'équations mathématiques ou de symboles chimiques, afin de se concentrer sur la compréhension du texte et les questions de culture générale.
L'ensemble de données du ENEM Challenge contient 1754 questions, et après filtration, nous avons utilisé 916 questions. Le jeu de données 2022 contenait 118 questions après avoir appliqué des filtres similaires.
Conception des prompts pour les modèles de langage
Pour évaluer les modèles, trois types de prompts ont été conçus : zero-shot, few-shot et few-shot avec Chaîne de Pensée (CoT).
- Prompts zero-shot : le modèle reçoit une question sans aucun exemple préalable. Ce type est simple mais peut mener à des formats de réponse variés.
- Prompts few-shot : incluent quelques exemples pour guider le modèle sur la façon de répondre. Par exemple, des questions spécifiques ont été choisies pour présenter différents sujets et niveaux de difficulté.
- Prompts few-shot avec CoT : vont plus loin en demandant au modèle d'expliquer son raisonnement avant de donner une réponse finale. Cette méthode encourage le modèle à décomposer le problème en parties plus petites, rendant plus facile d'arriver à la bonne réponse.
Évaluation des performances
Les modèles ont été évalués sur les deux ensembles de données, en se concentrant sur leur capacité à répondre aux questions. Les résultats ont montré que GPT-4 a atteint une précision moyenne de 87 % sur l'examen 2022 en utilisant des prompts few-shot avec CoT, surpassant GPT-3.5 de manière significative.
Lorsque le modèle a répondu aux questions sans exemples, il a obtenu une précision plus faible, en particulier dans des domaines difficiles comme les mathématiques. Cependant, lorsque quelques exemples ont été fournis ou en utilisant les prompts CoT, la précision s'est améliorée de manière significative. Par exemple, dans le cas des questions de mathématiques, la performance a considérablement augmenté, montrant la valeur de l'approche CoT.
Répartition des résultats
Dans le jeu de données ENEM 2022, les modèles ont montré différents niveaux de précision selon le domaine :
- Langues et Codes : Les modèles se sont bien débrouillés dans l'ensemble, avec plusieurs questions donnant une haute précision.
- Sciences Humaines : Les modèles ont excellé, avec des taux de précision atteignant près de 95 % dans certains cas.
- Sciences Naturelles : La précision a varié, certaines questions étant plus difficiles que d'autres.
Implications
Les résultats de cette étude ont plusieurs implications. Tout d'abord, ils soulignent le potentiel des modèles de langage à aider les étudiants à comprendre des sujets complexes. La capacité de ces modèles à fournir des explications peut améliorer l'apprentissage en rendant des concepts difficiles plus clairs.
De plus, les résultats suggèrent que les modèles de langage peuvent être des outils efficaces dans les contextes éducatifs. Ils pourraient aider à créer des expériences d'apprentissage personnalisées en adaptant le contenu au rythme et aux styles d'apprentissage individuels.
La performance de GPT-4 indique qu'il peut fournir des réponses précises tout en donnant aux gens plus de compréhension sur le raisonnement derrière ces réponses. Cette transparence pourrait être bénéfique dans les salles de classe et d'autres environnements éducatifs.
Directions de recherche future
Il y a de nombreuses pistes pour de futures recherches basées sur les résultats de cette étude. Une direction pourrait impliquer le développement d'applications éducatives qui tirent parti des modèles de langage pour des expériences d'apprentissage personnalisées. Ces applications pourraient analyser les progrès d'un étudiant et adapter les questions et les sujets pour améliorer leur compréhension.
Un autre domaine d'exploration pourrait se concentrer sur la capacité des modèles de langage à générer leurs propres questions et à évaluer leur niveau de difficulté. Cette capacité permettrait de réaliser des tests adaptatifs, où les examens s'ajustent en temps réel pour correspondre aux capacités d'un étudiant.
En outre, l'incorporation de modèles multimodaux-ceux qui peuvent traiter à la fois du texte et des images-pourrait fournir une évaluation plus complète des capacités d'un étudiant. Cela aiderait à traiter des questions qui nécessitent une analyse visuelle, rendant les évaluations plus complètes.
Conclusion
L'évaluation de GPT-3.5 et GPT-4 sur l'examen ENEM fournit des insights précieux sur les capacités des modèles de langage dans des contextes éducatifs. Les résultats montrent que ces modèles peuvent efficacement aborder des questions complexes et multidisciplinaires. Avec davantage de recherches et de développements, ils ont un grand potentiel pour améliorer les expériences éducatives et promouvoir de meilleurs résultats d'apprentissage pour les étudiants.
En reconnaissant les forces et les faiblesses de ces modèles, les éducateurs et les chercheurs peuvent travailler pour créer des outils et des ressources plus efficaces qui répondent à des besoins d'apprentissage divers.
Titre: Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams
Résumé: The present study aims to explore the capabilities of Language Models (LMs) in tackling high-stakes multiple-choice tests, represented here by the Exame Nacional do Ensino M\'edio (ENEM), a multidisciplinary entrance examination widely adopted by Brazilian universities. This exam poses challenging tasks for LMs, since its questions may span into multiple fields of knowledge, requiring understanding of information from diverse domains. For instance, a question may require comprehension of both statistics and biology to be solved. This work analyzed responses generated by GPT-3.5 and GPT-4 models for questions presented in the 2009-2017 exams, as well as for questions of the 2022 exam, which were made public after the training of the models was completed. Furthermore, different prompt strategies were tested, including the use of Chain-of-Thought (CoT) prompts to generate explanations for answers. On the 2022 edition, the best-performing model, GPT-4 with CoT, achieved an accuracy of 87%, largely surpassing GPT-3.5 by 11 points. The code and data used on experiments are available at https://github.com/piresramon/gpt-4-enem.
Auteurs: Desnes Nunes, Ricardo Primi, Ramon Pires, Roberto Lotufo, Rodrigo Nogueira
Dernière mise à jour: 2023-03-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.17003
Source PDF: https://arxiv.org/pdf/2303.17003
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/piresramon/gpt-4-enem
- https://www.gov.br/inep/pt-br/areas-de-atuacao/avaliacao-e-exames-educacionais/enem
- https://collegereadiness.collegeboard.org/sat
- https://www.ime.usp.br/~ddm/project/enem
- https://platform.openai.com
- https://platform.openai.com/docs/model-index-for-researchers
- https://platform.openai.com/docs/models
- https://porumavidasimples.blogspot.com.br
- https://www.youtube.com/watch?v=gAvyffWAqxg
- https://g1.globo.com/educacao/enem/video/enem-2022-correcao-da-questao-de-filosofia-sobre-politica-e-linguagem-11122067.ghtml
- https://g1.globo.com/educacao/enem/video/enem-2022-correcao-da-questao-de-portugues-sobre-urgencia-emocional-11122141.ghtml
- https://descomplica.com.br/gabarito-enem/questoes/2022/segundo-dia/o-projeto-que-o-casal-devera-escolher-sera-o/