Simple Science

La science de pointe expliquée simplement

# Physique # Enseignement de la physique

Le rôle de l'IA dans la correction des devoirs de physique

Cet article explore le potentiel de l'IA pour noter des problèmes de physique à l'université.

Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, Mario Campanelli

― 8 min lire


Évaluation par IA en Évaluation par IA en physique profs ? devoirs de physique aussi bien que les L'IA peut-elle vraiment noter des
Table des matières

Évaluer les travaux scolaires, c'est souvent comme essayer de sortir d'un labyrinthe les yeux bandés. Ça prend un temps fou et beaucoup de profs ont peur que leurs propres avis viennent se mêler au pot. Du coup, les étudiants doivent attendre longtemps pour récupérer leurs notes, et les retours qu'ils reçoivent ne les aident pas forcément à progresser.

Mais et si l'IA pouvait aider ? Cet article parle de comment utiliser l'IA, surtout des chatbots basés sur de grands modèles de langage (LLMs), peut changer la donne pour noter des Problèmes de physique à l'université. Imagine avoir un assistant super intelligent qui ne dort jamais et est toujours prêt à aider les étudiants à apprendre. Cet article examine à quel point ces outils IA peuvent noter des devoirs de physique par rapport aux profs humains.

L'influence croissante de l'IA

Ces dernières années, l'IA a envahi presque tous les domaines. Tout a commencé avec un chatbot appelé ChatGPT, développé par OpenAI, qui peut tenir des conversations écrites et semblait comprendre le langage humain d'une manière qu'on n'avait jamais vue avant. D'autres entreprises, comme Google et Meta, ont vite suivi le mouvement en créant leurs propres chatbots. Ces outils peuvent engager des conversations et réaliser des tâches ressemblant à celles des humains.

Les modèles plus récents, comme GPT-4 et d'autres, ont montré qu'ils pouvaient s'attaquer à des tâches humaines compliquées. Ils peuvent même travailler avec des images et des documents, pas seulement du texte, ce qui les rend encore plus utiles. L'émergence de ces modèles multimodaux a ouvert plein de possibilités en éducation, surtout dans des matières comme la physique.

Comment utiliser l'IA en éducation

Avant de plonger dans le vif du sujet, il faut mentionner que l'IA est utilisée dans l'éducation depuis un moment maintenant. Par exemple, il y a des systèmes de tutorat intelligents qui aident les étudiants à apprendre sans avoir besoin d'un prof tout le temps. Des études récentes ont montré comment ChatGPT peut aider avec des tâches comme résoudre des problèmes de physique. Cependant, on ne sait toujours pas assez sur comment ces modèles peuvent attribuer des notes.

Cet article se penche de plus près sur la façon dont les chatbots IA peuvent noter des problèmes de physique de premier cycle. De bonnes pratiques de notation sont super importantes pour les étudiants parce que les retours les aident à voir où ils doivent améliorer leur compréhension. La notation traditionnelle prend du temps et nécessite beaucoup d'efforts humains. Si on pouvait automatiser ce processus avec l'IA, ça pourrait libérer du temps pour les profs et donner aux étudiants des retours plus rapides et plus cohérents.

Noter avec des chatbots IA

Pour voir si l'IA peut gérer la notation, il est important de comprendre ce qui fait que ces chatbots fonctionnent. Ils utilisent de grands modèles de langage basés sur d'énormes quantités de données d'internet. Quand tu poses une question, ils te répondent en se basant sur des modèles qu'ils ont appris. Pour noter, ils doivent être formés à gérer efficacement les problèmes de physique.

Une étude a été réalisée pour voir à quel point différents modèles IA pouvaient non seulement noter mais aussi fournir des retours utiles. Les chercheurs ont examiné plusieurs modèles, dont GPT-4 et d'autres, pour voir lequel pouvait le mieux gérer des problèmes de physique classiques.

Comment fonctionne la notation IA

Dans un scénario typique, un étudiant soumet sa solution manuscrite à un problème de physique. Pour que l'IA comprenne ce que l'étudiant a écrit, l'écriture doit être convertie en un format numérique. Une fois numérisée, l'IA peut la lire, la comprendre et la noter.

Pour cette étude, les chercheurs ont scanné des réponses manuscrites en PDF, puis les ont transformées en un format que l'IA pouvait comprendre. Ils ont créé un ensemble de problèmes de physique couvrant la mécanique classique, la théorie électromagnétique et la mécanique quantique des cours universitaires. Un schéma de notation clair a été conçu pour guider à la fois l'IA et les correcteurs humains.

Création de problèmes et de Solutions en physique

Les chercheurs ont élaboré une variété de problèmes de physique, en s'assurant d'incorporer des calculs et des questions sous forme de texte. Par exemple, ils avaient des problèmes sur l'électrostatique et les circuits ainsi que des questions nécessitant des explications longues. L'idée était de simuler ce que les étudiants pourraient voir lors d'examens ou de quiz réels.

Pour éviter de demander à de vrais étudiants de résoudre les problèmes-car cela pourrait être compliqué avec le consentement-les chercheurs ont généré les réponses en utilisant l'IA elle-même. Trois solutions différentes ont été créées pour chaque problème, afin que l'IA puisse noter plusieurs tentatives pour plus de précision.

Notation : IA contre humains

Quand il a été temps de noter les solutions, les modèles IA ont été mis à l'épreuve de deux manières différentes. D'abord, ils ont noté "à l'aveugle", sans aucun schéma de notation, puis ils ont noté avec un schéma de notation pour voir à quel point la notation s'améliorait.

Pour la notation à l'aveugle, on a demandé à l'IA d'attribuer des notes et de fournir des retours uniquement en fonction de sa compréhension des réponses. Cela a naturellement conduit à des variations dans les notes parce que la notation de l'IA pouvait être un peu aléatoire. Pour la notation avec schéma, l'IA a eu une méthode structurée pour évaluer les solutions selon des critères spécifiques.

Comment les humains se prononcent

Pour comparer la performance de l'IA à la notation humaine, des correcteurs humains ont été appelés à évaluer le même ensemble de solutions de physique. Ils ont suivi le même schéma de notation pour garder les choses cohérentes. Chaque solution a été notée par plusieurs correcteurs humains, et leurs scores moyens ont été calculés pour voir à quel point l'IA était proche des notes humaines.

Il s'est avéré que la notation humaine était un peu plus stricte que celle de l'IA, souvent parce que l'IA négligeait des erreurs clés ou donnait trop de points. Cela a souligné que même si l'IA peut aider, compter uniquement sur elle pourrait mener certains étudiants à obtenir une note qu'ils n'ont pas vraiment méritée.

Tendances et observations

Quand les chercheurs ont tracé les résultats, ils ont remarqué quelques schémas. Des modèles comme Claude 3.5 Sonnet notaient beaucoup plus généreusement que les humains, tandis que GPT-4 offrait globalement une meilleure performance de notation en utilisant le schéma de notation.

Les retours fournis par l'IA variaient beaucoup aussi. Certains modèles donnaient des commentaires génériques comme "bon travail", même lorsque les réponses contenaient des erreurs. Les modèles plus avancés étaient un peu meilleurs pour identifier où les étudiants se trompaient mais avaient encore besoin d'amélioration pour pointer des erreurs spécifiques.

Rescaling des notes IA

Pour aider les notes IA à s'aligner plus étroitement avec les notes humaines, une technique appelée réévaluation des notes peut être utilisée. En ajustant les notes de l'IA en fonction de leurs performances par rapport aux notes humaines, un meilleur match peut être atteint. Cependant, cela n'élimine pas les incohérences dans le style de notation de l'IA.

La connexion entre notation et résolution de problèmes

Étonnamment, il a été constaté que la capacité de l'IA à bien noter était souvent liée à la façon dont elle résolvait les problèmes de physique au départ. Si l'IA avait des difficultés à résoudre un problème, elle aurait aussi du mal à attribuer des notes précises. Cette connexion suggère que si l'IA pouvait améliorer ses compétences en résolution de problèmes, ses capacités de notation s'amélioreraient probablement aussi.

Conclusion : La suite ?

En résumé, bien que l'IA ait le potentiel d'assister la notation en éducation physique, elle n'est pas encore prête à tout prendre en charge. L'étude a montré que même si l'IA peut noter plus vite, elle fait encore trop d'erreurs mathématiques. Cependant, en utilisant un schéma de notation, l'exactitude des notes s'améliore considérablement.

À mesure que l'IA continue d'évoluer, on espère que ces outils pourront être affinés pour offrir des Notations et des retours encore plus précis. En attendant, les profs feraient bien de garder leurs stylos de notation à portée de main juste au cas où !

Source originale

Titre: Using AI Large Language Models for Grading in Education: A Hands-On Test for Physics

Résumé: Grading assessments is time-consuming and prone to human bias. Students may experience delays in receiving feedback that may not be tailored to their expectations or needs. Harnessing AI in education can be effective for grading undergraduate physics problems, enhancing the efficiency of undergraduate-level physics learning and teaching, and helping students understand concepts with the help of a constantly available tutor. This report devises a simple empirical procedure to investigate and quantify how well large language model (LLM) based AI chatbots can grade solutions to undergraduate physics problems in Classical Mechanics, Electromagnetic Theory and Quantum Mechanics, comparing humans against AI grading. The following LLMs were tested: Gemini 1.5 Pro, GPT-4, GPT-4o and Claude 3.5 Sonnet. The results show AI grading is prone to mathematical errors and hallucinations, which render it less effective than human grading, but when given a mark scheme, there is substantial improvement in grading quality, which becomes closer to the level of human performance - promising for future AI implementation. Evidence indicates that the grading ability of LLM is correlated with its problem-solving ability. Through unsupervised clustering, it is shown that Classical Mechanics problems may be graded differently from other topics. The method developed can be applied to investigate AI grading performance in other STEM fields.

Auteurs: Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, Mario Campanelli

Dernière mise à jour: 2024-11-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.13685

Source PDF: https://arxiv.org/pdf/2411.13685

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires