IA Notation des Examens Écrits en Thermodynamique
Une étude sur le rôle de l'IA dans la notation des examens de thermodynamique révèle ses points forts et ses faiblesses.
― 8 min lire
Table des matières
- Le défi de l'écriture manuscrite
- L'IA dans l'éducation
- Méthodes de notation traditionnelles
- Le potentiel de l'IA pour la notation
- La mise en place de l'examen
- Problèmes dans l'examen
- Processus de notation
- Comprendre les grands modèles de langage
- Utilisation d'infrastructures cloud
- Structure de l'examen
- L'importance de la confidentialité
- Défis de la reconnaissance de caractères optiques
- Utilisation de l'IA pour la notation
- Différents workflows de notation
- Observations sur la notation
- Résultats de l'étude
- Recommandations pour les futurs examens
- Conclusion
- Source originale
Dans cette étude, on a regardé comment l'intelligence artificielle (IA) peut aider à noter des Examens écrits à la main en thermodynamique. On s'est concentré sur un examen important avec 252 Étudiants et quatre problèmes. Notre principal défi était de faire passer les réponses manuscrites dans un format que l'IA pouvait lire. On a aussi remarqué que la façon dont on a mis en place les critères de Notation influençait la performance de l'IA.
Le défi de l'écriture manuscrite
Un des plus gros obstacles était de rendre les réponses manuscrites lisibles par machine. Les étudiants ont souvent des styles d'écriture différents, et la manière dont ils écrivent peut compliquer la compréhension pour le logiciel. On a découvert que noter des réponses complexes, comme des dessins ou des diagrammes, était particulièrement difficile pour l'IA. Même si l'IA pouvait identifier les examens réussis, elle avait encore besoin de correcteurs humains pour ceux qui échouaient.
L'IA dans l'éducation
L'essor de l'IA a ouvert de nouvelles options pour l'éducation, notamment pour la notation. Comme les systèmes d'IA, comme les modèles de langage, peuvent analyser rapidement de grandes quantités de données, ils montrent un potentiel pour fournir des retours sur des réponses ouvertes. Dans des études précédentes, les systèmes d'IA ont montré une certaine concordance avec des correcteurs humains, mais ces études n'avaient pas capté toutes les complexités des examens réels.
Méthodes de notation traditionnelles
Traditionnellement, noter des examens en physique nécessite une analyse détaillée. Les enseignants évaluent les réponses finales et le processus que les étudiants suivent pour y arriver. Ça inclut l'évaluation de la logique, des concepts et des compétences mathématiques. Bien que les ordinateurs puissent aider à noter certaines réponses, le jugement humain est nécessaire pour des évaluations complètes, surtout quand les étudiants prennent des chemins différents pour résoudre un problème.
Le potentiel de l'IA pour la notation
L'IA pourrait offrir un moyen scalable de fournir des retours sur les copies d'examen. Des avancées récentes ont rendu possible pour les systèmes d'IA d'analyser les réponses des étudiants et de fournir des notes préliminaires ou des classifications. Cependant, il existe encore de nombreux défis, notamment en ce qui concerne la compréhension du texte manuscrit. On a exploré différentes façons d'utiliser l'IA pour la notation et on s'est concentré sur la performance de ces méthodes dans des situations réelles.
La mise en place de l'examen
L'examen de thermodynamique qu'on a étudié incluait des sujets standards comme l'énergie, l'entropie et l'enthalpie. Les étudiants avaient 15 minutes pour lire les problèmes et deux heures pour les compléter. Ils pouvaient utiliser des documents de référence et des calculatrices, et leurs réponses devaient être manuscrites. Avec 252 des 434 étudiants acceptant de participer, on a rassemblé un ensemble de données riche.
Problèmes dans l'examen
L'examen comportait quatre problèmes, chacun avec différentes parties. Le premier problème traitait du fonctionnement en régime permanent d'un réacteur. Le deuxième problème était axé sur le fonctionnement d'un moteur d'avion, tandis que le troisième impliquait un gaz chaud et un système solide-liquide. Le quatrième problème tournait autour d'un processus de lyophilisation pour la conservation des aliments. Chaque problème nécessitait des solutions détaillées de la part des étudiants, souvent avec des dérivations et des calculs.
Processus de notation
On a développé différents workflows pour la notation. La première étape consistait à scanner les examens et à les convertir dans un format que l'IA pouvait interpréter. On a utilisé des outils comme MathPix pour la reconnaissance de caractères optiques (OCR) afin de transformer l'écriture manuscrite en un format lisible par machine. Ensuite, on a employé un modèle de langage, GPT-4, pour analyser le texte noté.
Comprendre les grands modèles de langage
Les grands modèles de langage produisent des réponses basées sur des probabilités. Ils génèrent du texte en séquences, un peu comme les gens construisent des phrases. Cependant, les réponses peuvent varier énormément selon les paramètres, ce qui peut les rendre soit plus prévisibles, soit plus créatives-sans être nécessairement correctes. Pour cette étude, on a maintenu une approche standard mais ajustée pour des tâches spécifiques, comme la notation.
Utilisation d'infrastructures cloud
On a accédé aux modèles d'OpenAI via un service qui assurait que le traitement se faisait dans des centres de données suisses. Cette mise en place était cruciale pour maintenir la confidentialité des données et la fiabilité. On a évalué les examens selon différents critères pour garantir un processus de notation équitable et complet.
Structure de l'examen
Dans l'examen de thermodynamique, on a établi des paramètres pour guider la notation. Les étudiants devaient fournir des solutions claires et complètes, et chaque problème de l'examen était attribué à deux assistants pédagogiques pour assurer une notation rigoureuse. La notation était basée sur un système de points, avec des critères détaillés pour refléter une compréhension basique des sujets abordés.
L'importance de la confidentialité
Pour préserver la vie privée des étudiants, on a séparé les formulaires de consentement des soumissions d'examen. Cela a permis un processus de notation à l'aveugle, ce qui a aidé à éviter les biais. Cependant, cela a aussi introduit des complexités puisque les correcteurs n'étaient pas au courant des étudiants qui avaient consenti à participer à l'étude.
Défis de la reconnaissance de caractères optiques
Le processus OCR a présenté son propre lot de difficultés. Les étudiants ont écrit sur différents types de papier, certains décorés avec des logos et en-têtes qui compliquaient le processus de reconnaissance. La qualité de l'écriture manuscrite variait également énormément; certains étudiants écrivaient proprement, tandis que d'autres étaient plus difficiles à lire. Cette inconsistance a eu un impact sur la précision de la notation.
Utilisation de l'IA pour la notation
Après avoir converti les copies d'examen en un format lisible par machine, on a utilisé l'IA pour noter les réponses. Notre approche consistait à utiliser une grille de notation détaillée, qui attribuait des points pour chaque étape dans la réponse d'un étudiant. Ce niveau de détail a ajouté de la complexité au processus de notation et a parfois conduit à des erreurs.
Différents workflows de notation
On a exploré quatre workflows distincts pour la notation :
- Workflow 1 : Utilisait des grilles de notation détaillées.
- Workflow 2 : Notait par parties de problème, ce qui facilitait le suivi par l'IA.
- Workflow 3 : Évaluait les réponses en donnant une note totale pour l'ensemble du problème, ce qui réduisait la précision.
- Workflow 4 : Se concentrait uniquement sur le traitement sans grilles, ce qui entraînait une plus grande variabilité.
Le premier workflow entraînait souvent des erreurs de comptabilité, tandis que le deuxième montrait une meilleure corrélation entre la notation de l'IA et celle des humains. Chaque méthode avait ses forces et ses faiblesses, ce qui nous a conduit à des conclusions précieuses sur les capacités de l'IA.
Observations sur la notation
Quand on a noté les examens, on a constaté que les problèmes avec des diagrammes complexes étaient souvent mal compris par l'IA. Les descriptions faites par l'IA de ces réponses graphiques étaient vagues et ne pouvaient pas être considérées comme fiables pour une notation précise. Cependant, pour les dérivations mathématiques, l'IA montrait une promesse dans l'évaluation du travail des étudiants avec une précision raisonnable.
Résultats de l'étude
Dans l'ensemble, même si l'IA a fourni des résultats prometteurs pour identifier quels étudiants ont réussi, les outils n'étaient pas prêts à remplacer complètement les correcteurs humains. Les examens à enjeux élevés nécessitent toujours une supervision humaine pour garantir des évaluations équitables. L'IA avait du mal avec des cas complexes et nécessitait souvent une vérification sur les examens à faible score.
Recommandations pour les futurs examens
Pour améliorer le processus de notation dans les futurs examens, plusieurs changements pourraient être apportés :
- Utiliser du papier blanc pour minimiser la confusion pendant le processus OCR.
- Fournir des feuilles d'examen spécifiques avec des en-têtes clairs pour aider au traitement.
- Encourager les étudiants à écrire des réponses plus détaillées pour capturer leur processus de réflexion.
- Éviter d'utiliser des stylos qui biffent les erreurs ; ils compliquent la précision de l'OCR.
Conclusion
L'exploration de l'IA dans la notation des examens manuscrits de thermodynamique a révélé des idées précieuses sur son potentiel et ses limitations. Bien que l'IA puisse aider dans le processus de notation, il est clair que les évaluateurs humains restent essentiels. Les enseignements tirés de cette étude peuvent guider de futurs efforts en technologie éducative pour mieux intégrer l'IA dans les systèmes de notation, aidant à créer des processus d'évaluation plus efficaces et fiables.
En abordant les défis rencontrés et en mettant en œuvre des recommandations, on peut avancer vers une notation plus efficace qui profite aux étudiants et aux éducateurs à long terme.
Titre: Grading Assistance for a Handwritten Thermodynamics Exam using Artificial Intelligence: An Exploratory Study
Résumé: Using a high-stakes thermodynamics exam as sample (252~students, four multipart problems), we investigate the viability of four workflows for AI-assisted grading of handwritten student solutions. We find that the greatest challenge lies in converting handwritten answers into a machine-readable format. The granularity of grading criteria also influences grading performance: employing a fine-grained rubric for entire problems often leads to bookkeeping errors and grading failures, while grading problems in parts is more reliable but tends to miss nuances. We also found that grading hand-drawn graphics, such as process diagrams, is less reliable than mathematical derivations due to the difficulty in differentiating essential details from extraneous information. Although the system is precise in identifying exams that meet passing criteria, exams with failing grades still require human grading. We conclude with recommendations to overcome some of the encountered challenges.
Auteurs: Gerd Kortemeyer, Julian Nöhl, Daria Onishchuk
Dernière mise à jour: 2024-06-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.17859
Source PDF: https://arxiv.org/pdf/2406.17859
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.