Améliorer le soutien aux étudiants avec un chatbot éducatif
Un nouveau chatbot aide les étudiants avec des questions à choix multiples en STEM.
― 8 min lire
Table des matières
Les grands modèles de langage (LLMs) ont montré beaucoup de promesses dans divers domaines, mais ils rencontrent des défis quand il s'agit de tâches nécessitant un raisonnement mathématique, surtout pour les questions à choix multiples (QCM). Pour surmonter ces défis, on a créé un chatbot éducatif destiné à aider les étudiants universitaires à traiter et comprendre les QCM dans des matières comme les maths, la physique et l'informatique. Notre approche consistait à ajuster des modèles spécifiques pour mieux correspondre aux préférences humaines et ensuite les tester pour choisir celui qui performait le mieux.
Dans notre étude, on a comparé deux modèles : Mistral-7B et LLaMa-3-8B. On a constaté que LLaMa-3-8B était mieux, ce qui nous a poussés à le choisir comme modèle de base. On a mis en place des techniques comme la Génération augmentée par récupération (RAG) pour améliorer l'exactitude et la Quantification pour rendre le modèle plus rapide et plus accessible pour les étudiants. Notre modèle quantifié a bien performé sur des tâches de raisonnement mathématique, avec des scores de 74,5 % sur le jeu de données GSM8K et de 30 % sur le jeu de données MATH. Bien que RAG n'ait pas amélioré les performances de notre modèle, la quantification a montré seulement une légère réduction des performances tout en offrant des gains d'efficacité significatifs.
Travaux Connus
La recherche sur les LLMs en tant que chatbots a énormément progressé récemment, surtout avec l'arrivée de modèles comme ChatGPT-3.5 et ChatGPT-4. Ces modèles ont été largement utilisés à des fins éducatives. Cependant, même s'ils excellent dans les tâches linguistiques, leur performance en raisonnement mathématique, particulièrement dans la réponse aux QCM, laisse à désirer. Les recherches précédentes ont souligné que les LLMs ont du mal à reconnaître les réponses incorrectes et oublient souvent leurs compétences linguistiques quand ils se concentrent sur des données mathématiques. Des stratégies de questionnement simples ne suffisent pas à régler ces problèmes à cause de la grande diversité des données impliquées.
Notre travail s'appuie sur les recherches existantes en ajustant les modèles LLaMa-3-8B et Mistral-7B sur des ensembles de données variés liés aux maths et aux sciences. On a également intégré une méthode appelée optimisation de préférence directe (DPO) pour aligner les réponses du modèle avec ce que les étudiants préfèrent. Inspirés par des méthodes vues dans des modèles comme InstructGPT, on a utilisé des données spécifiques pour améliorer la manière dont notre modèle génère des réponses.
Pour affiner notre modèle davantage, on a examiné RAG, une méthode qui combine des modèles génératifs avec une base de données de documents. Au départ, on a considéré des méthodes RAG avancées, mais finalement, on a opté pour une approche plus simple qui montrait quand même de bonnes performances.
Enfin, on a exploré des techniques de quantification pour réduire la charge computationnelle liée à notre chatbot, rendant son utilisation plus facile pour les étudiants sans compromettre la performance.
Approche du Problème
Notre approche a commencé par l'entraînement des deux modèles, Mistral-7B et LLaMa-3-8B, à l'aide d'un ajustement supervisé (SFT) et ensuite par la comparaison de leurs performances. Après avoir sélectionné LLaMa-3-8B pour ses résultats supérieurs, on a poursuivi notre stratégie d'entraînement. LLaMa-3-8B est un modèle de langage autorégressif, ce qui signifie qu'il génère du texte en prédisant le mot suivant basé sur les précédents. Il utilise une architecture de transformateur améliorée et intègre un entraînement supervisé avec un apprentissage par renforcement pour mieux s'aligner sur les préférences humaines.
Le processus d'entraînement a impliqué plusieurs étapes. D'abord, on a effectué SFT sur des ensembles de données spécialisés liés aux maths et aux sciences. Ensuite, on a appliqué DPO pour affiner en fonction des préférences indiquées par les étudiants. Enfin, on a évalué les performances du modèle en utilisant le jeu de données AQuA-RAT, qui contient des QCM liés aux STEM.
Alors que Mistral-7B a suivi un processus d'entraînement similaire, on s'est concentré sur LLaMa-3-8B à cause de ses résultats prometteurs.
Pipeline d'Entraînement
Le pipeline pour entraîner LLaMa-3-8B impliquait trois étapes principales : SFT, DPO et spécialisation QCM. On a commencé avec SFT sur divers ensembles de données de maths et de sciences, suivi de l'entraînement DPO où un groupe d'étudiants a donné des retours sur les réponses générées. Ces retours ont été utilisés pour aligner le modèle afin de produire des réponses préférées.
Pour évaluer comment le modèle fonctionnait, on l'a testé sur plusieurs ensembles de données comprenant des questions mathématiques complexes, des problèmes de mots de maths d'école primaire et des questions générales sur les STEM.
Création de Dataset
On a créé des ensembles de données spécialisés pour notre projet afin d'améliorer l'apprentissage du modèle. Le jeu de données SFT, nommé StemQA, comprend un mélange de questions de maths et de programmation. On a aussi développé un jeu de données DPO, StemDPO, qui se concentre sur l'alignement des sorties du modèle avec les préférences des étudiants. Enfin, on a créé un jeu de données nommé StemMCQ pour aider le modèle à se spécialiser dans les réponses aux QCM liés aux matières STEM.
Pour le jeu de données DPO, on a demandé aux étudiants de générer deux réponses : une meilleure et une légèrement moins préférée, afin qu'on puisse les comparer. Cela nous a aidés à comprendre quels types de réponses étaient privilégiées et a guidé les ajustements de notre modèle.
Processus d'Évaluation
Pour évaluer la performance de notre modèle, on a utilisé plusieurs étapes pour déterminer son efficacité à générer des réponses correctes et bien raisonnées. On a sélectionné des jeux de données de test spécifiques pour l'étalonner, incluant des questions mathématiques difficiles et des requêtes de culture générale. Notre principale métrique d'évaluation était l'exactitude, mesurant combien de réponses correctes le modèle a produites.
On a comparé les résultats de nos modèles entraînés avec ceux des modèles candidats, notant les améliorations et les domaines où le modèle pouvait encore progresser. On a utilisé différents GPU pour exécuter notre entraînement, assurant une gestion efficace des données.
Résultats
Les résultats de notre modèle étaient prometteurs. Il a atteint un score élevé sur le jeu de données GSM8K et a fait des progrès satisfaisants dans la gestion du jeu de données plus complexe MATH. Bien que les performances sur certains QCM aient peut-être été inférieures à celles attendues, elles restaient dans des limites acceptables compte tenu du niveau de difficulté de la tâche.
Avec notre modèle quantifié, on a pu maintenir la plupart de l'exactitude de l'original tout en le rendant plus efficace. Cependant, notre mise en œuvre de RAG n'a pas donné les améliorations escomptées, probablement à cause de la façon dont le contexte a été utilisé ou récupéré.
Considérations Éthiques
Notre projet a également pris en compte des dimensions éthiques liées à sa mise en œuvre. On reconnaît le besoin d'outils éducatifs accessibles à tous, y compris ceux qui parlent différentes langues ou utilisent des langues signées. Élargir les capacités de notre modèle pour gérer les langues à faibles ressources et l'adapter pour la communauté sourde est un aspect important pour le développement futur.
Il est crucial d'avoir des discussions sur les potentielles nuisances ou biais qui pourraient émerger de l'utilisation de modèles comme le nôtre. On prévoit d'inclure des lignes directrices et des méthodes pour réduire les impacts négatifs tout en s'assurant que notre chatbot reste un outil utile pour les étudiants.
Conclusion
En résumé, on a développé un chatbot éducatif axé sur l'aide aux étudiants avec les QCM STEM. Le modèle, basé sur LLaMa-3-8B, a été ajusté pour fonctionner efficacement avec des ensembles de données spécifiques visant à améliorer la performance en raisonnement mathématique.
Nos résultats indiquent qu'on est sur la bonne voie pour fournir une ressource éducative précieuse. Les efforts futurs se concentreront sur l'amélioration de l'exactitude, l'accommodement d'une plus large gamme de langues, y compris les langues signées, et la surveillance des biais potentiels dans les réponses du modèle. Le travail réalisé par notre équipe pose les bases d'un accès élargi aux ressources d'apprentissage et d'amélioration des résultats éducatifs pour les étudiants.
Titre: LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ
Résumé: Large Language Models (LLMs) often struggle with tasks requiring mathematical reasoning, particularly multiple-choice questions (MCQs). To address this issue, we developed LLaMa-SciQ, an educational chatbot designed to assist college students in solving and understanding MCQs in STEM fields. We begin by fine-tuning and aligning the models to human preferences. After comparing the performance of Mistral-7B and LLaMa-8B, we selected the latter as the base model due to its higher evaluation accuracy. To further enhance accuracy, we implement Retrieval-Augmented Generation (RAG) and apply quantization to compress the model, reducing inference time and increasing accessibility for students. For mathematical reasoning, LLaMa-SciQ achieved 74.5% accuracy on the GSM8k dataset and 30% on the MATH dataset. However, RAG does not improve performance and even reduces it, likely due to retriever issues or the model's unfamiliarity with context. Despite this, the quantized model shows only a 5% loss in performance, demonstrating significant efficiency improvements.
Auteurs: Marc-Antoine Allard, Matin Ansaripour, Maria Yuffa, Paul Teiletche
Dernière mise à jour: 2024-09-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.16779
Source PDF: https://arxiv.org/pdf/2409.16779
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.