# Informatique # Ordinateurs et société # Génie logiciel

Utiliser l'IA pour améliorer l'éducation en codage avec des données synthétiques

Des recherches montrent que les LLM peuvent générer du code synthétique utile pour l'enseignement.

Juho Leinonen, Paul Denny, Olli Kiljunen, Stephen MacNeil, Sami Sarsa, Arto Hellas

Jun 2, 2025 ― 8 min lire

Table des matières

Données Synthétiques et Grands Modèles de Langage
Création de Code Bogué Synthétique
Élargir les Horizons dans l'Éducation Informatique
L'Importance du Code Incorrect
Explorer les Stratégies de Prompting
Contexte et Collecte de Données
Contexte de la Programmation en C
Contexte de la Programmation en Dart
Demander aux Modèles
Analyse des Résultats
Résultats
L'Efficacité des Différents Prompts
Problèmes Communs
Conclusion : Qu'est-ce qui suit ?
Source originale
Liens de référence

Dans le monde de l'enseignement de l'informatique, avoir des données est aussi crucial que de savourer un bon café un lundi matin. C'est essentiel pour comprendre comment les étudiants apprennent, améliorer les systèmes de soutien et créer de meilleurs outils d'évaluation. Mais voilà le truc : peu de données sont partagées librement. Souvent à cause des règles de confidentialité et du stress de garder les identités des étudiants anonymes.

Données Synthétiques et Grands Modèles de Langage

Maintenant, il y a une bonne nouvelle à l'horizon ! Les grands modèles de langage (LLMs) comme GPT-4o pourraient être les super-héros dont on a besoin. Ces modèles peuvent générer de grandes quantités de données fausses mais réalistes qui préservent la vie privée des étudiants. Ce genre de données peut aider les chercheurs à aborder des problèmes dans l'éducation en informatique et à tester de nouveaux outils d'apprentissage sans risquer de révéler les secrets de qui que ce soit.

Création de Code Bogué Synthétique

Notre objectif était d'utiliser les LLMs pour créer des Soumissions de code boguées synthétiques pour les débutants en Programmation. On a comparé la fréquence d'échec de ces soumissions synthétiques par rapport aux soumissions réelles des étudiants de deux cours différents. L'idée était de voir à quel point les données synthétiques imitent l'expérience réelle des étudiants.

Les résultats ont montré que les LLMs peuvent créer du code synthétique qui n'est pas très différent des données réelles des étudiants en ce qui concerne la fréquence des échecs aux tests. Ça signifie que les LLMs pourraient être un outil précieux pour les chercheurs et les éducateurs, leur permettant de se concentrer sur l'enseignement tout en se souciant moins de la protection des données des étudiants.

Élargir les Horizons dans l'Éducation Informatique

Avec l'essor des LLMs, l'éducation en informatique change de manière inattendue. Ces modèles sont géniaux pour gérer des tâches de programmation simples et ont récemment montré leur capacité à aborder des problèmes plus complexes aussi. Même si c'est impressionnant qu'ils puissent générer des solutions correctes, ce qui est encore plus intéressant, c'est qu'ils pourraient aussi être utilisés pour créer du code incorrect de manière intentionnelle.

L'Importance du Code Incorrect

Produire du code incorrect peut sembler bizarre, mais cela a du potentiel. Le code erroné peut être utilisé dans des exercices de débogage, et la recherche montre que cela aide les étudiants à mieux apprendre. De plus, créer des ensembles mixés de code avec des solutions correctes et incorrectes pourrait aider les éducateurs à préparer de meilleurs ensembles de données pour évaluer le travail des étudiants.

Cependant, créer de tels ensembles de données est difficile. Beaucoup de ressources d'éducation à la programmation sont rares à cause de règles de confidentialité strictes. C'est là que les LLMs interviennent, offrant une solution nouvelle pour générer le genre de données que les chercheurs peuvent utiliser sans compromettre la vie privée de qui que ce soit.

Explorer les Stratégies de Prompting

Pour obtenir les meilleurs résultats des LLMs, nous avons examiné différentes stratégies pour leur demander de générer du code. Notre recherche s'est concentrée sur l'identification des prompts qui aideraient ces modèles à créer des soumissions de code ressemblant le plus à du travail d'étudiant réel.

Nous avons ciblé certains problèmes de programmation pour débutants afin de voir à quel point le code généré correspondait à ce que de vrais étudiants avaient fait. Cette étude a utilisé deux langages de programmation : C et Dart.

Contexte et Collecte de Données

Contexte de la Programmation en C

D'abord, nous avons rassemblé des données d'un cours d'introduction à la programmation en C de six semaines dans une université en Nouvelle-Zélande. Les étudiants ont travaillé sur des tâches de codage individuellement en laboratoire, recevant un retour immédiat d'un système automatisé. Après le cours, nous avons analysé les soumissions du projet final pour voir combien ont réussi tous les tests et combien ont échoué.

Contexte de la Programmation en Dart

Ensuite, nous avons examiné dix exercices d'une plateforme de cours en ligne d'une université en Finlande. Cela incluait à la fois des cours d'introduction et avancés, avec des tâches de programmation allant du simple au complexe. Nous avons collecté les soumissions pour obtenir des informations sur les performances des étudiants.

Demander aux Modèles

Quand nous avons demandé au LLM de générer du code incorrect, nous avons donné des instructions spécifiques pour s'assurer que les solutions générées contiendraient des erreurs. Nous ne voulions pas que les modèles produisent un code qui ne fonctionnerait tout simplement pas ; nous voulions un code qui avait presque l'air correct mais qui contenait quelques erreurs.

Nous avons créé trois types de prompts : un prompt simple, un autre incluant des cas de test spécifiques, et un troisième qui aidait le modèle à comprendre la fréquence des échecs des cas de test. Ces variations de prompts visaient à voir à quel point le modèle pouvait aligner ses résultats avec les erreurs réelles des étudiants.

Analyse des Résultats

Après avoir généré 1500 soumissions synthétiques, nous avons comparé les résultats. Nous avons particulièrement analysé la fréquence à laquelle chaque morceau de code a réussi ou échoué aux tests unitaires. Cette analyse nous a permis de mesurer les similitudes et les différences entre les soumissions réelles des étudiants et celles générées par le modèle.

Résultats

On a trouvé des tendances fascinantes. Pour certains exercices, le modèle avait du mal à générer des erreurs qui échouaient seulement partiellement aux tests. En revanche, les soumissions réelles des étudiants affichaient souvent des erreurs plus nuancées. Cela suggère que même si les LLMs peuvent générer du code défaillant, ils ne capturent pas toujours la subtilité des erreurs réelles des étudiants.

Étonnamment, en comparant les différentes stratégies de prompt, nous n'avons pas vu beaucoup de différence dans les résultats pour Dart. Ça signifie que peu importe comment on a demandé au modèle, les résultats étaient assez similaires. En revanche, pour C, différents prompts ont mené à des résultats variés, indiquant que le modèle pourrait avoir besoin de plus d'aide pour générer du code plus proche des soumissions réelles des étudiants.

L'Efficacité des Différents Prompts

Fait intéressant, les prompts qui fournissaient des informations au LLM sur les cas de test et les fréquences d'échec n'ont pas beaucoup amélioré la qualité du code généré pour Dart. Cependant, les mêmes prompts ont fait une différence notable pour les soumissions en C. Cela révèle que l'efficacité des stratégies de prompting peut dépendre du contexte de programmation particulier.

Problèmes Communs

Bien qu'on ait beaucoup appris sur la génération de code synthétique, on a rencontré quelques défis. Notre concentration sur le code incorrect nous a fait manquer l'opportunité de voir si le modèle pouvait aussi produire du code correct et réaliste. Comme beaucoup de soumissions d'étudiants passent tous les tests, notre recherche n'a abordé qu'une partie de leurs soumissions.

Un autre problème était que les tests pour certains exercices de Dart n'étaient pas très approfondis. Cela pourrait signifier que certains bogues n'ont pas été détectés par les tests, rendant notre analyse un peu incomplète.

Conclusion : Qu'est-ce qui suit ?

En résumé, notre recherche montre que l'IA générative peut créer des soumissions de code synthétiques qui ressemblent à de vraies erreurs d'étudiants, notamment concernant les échecs des cas de test. Ça ouvre des portes aux éducateurs pour utiliser des données synthétiques de différentes manières, comme pour préparer des exercices de débogage.

Cependant, on doit explorer davantage à quel point les LLMs peuvent imiter les subtilités du code des étudiants. Regarder la génération de code correct et d'autres facteurs qui rendent les soumissions réelles uniques offrira des insights plus profonds pour améliorer l'éducation informatique.

Avec les bonnes approches, on pourrait voir un avenir où les éducateurs utilisent la puissance de l'IA pour enrichir les expériences d'apprentissage des étudiants tout en gardant les secrets de chacun en sécurité. C'est un peu comme donner une baguette magique aux profs-fini les inquiétudes sur la confidentialité des données tandis qu'ils intègrent des tâches de codage générées par l'IA dans leurs classes !

Source originale

Titre: LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education

Résumé: There is a great need for data in computing education research. Data is needed to understand how students behave, to train models of student behavior to optimally support students, and to develop and validate new assessment tools and learning analytics techniques. However, relatively few computing education datasets are shared openly, often due to privacy regulations and issues in making sure the data is anonymous. Large language models (LLMs) offer a promising approach to create large-scale, privacy-preserving synthetic data, which can be used to explore various aspects of student learning, develop and test educational technologies, and support research in areas where collecting real student data may be challenging or impractical. This work explores generating synthetic buggy code submissions for introductory programming exercises using GPT-4o. We compare the distribution of test case failures between synthetic and real student data from two courses to analyze the accuracy of the synthetic data in mimicking real student data. Our findings suggest that LLMs can be used to generate synthetic incorrect submissions that are not significantly different from real student data with regard to test case failure distributions. Our research contributes to the development of reliable synthetic datasets for computing education research and teaching, potentially accelerating progress in the field while preserving student privacy.

Auteurs: Juho Leinonen, Paul Denny, Olli Kiljunen, Stephen MacNeil, Sami Sarsa, Arto Hellas

Dernière mise à jour: Oct 31, 2024

Langue: English

Source URL: https://arxiv.org/abs/2411.10455

Source PDF: https://arxiv.org/pdf/2411.10455

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Sujets référencés

Plus d'auteurs

Interaction homme-machine Améliorer la communication pour les enfants avec des dispositifs AAC

Une nouvelle méthode vise à rendre les affichages en grille plus faciles pour les jeunes utilisateurs.

Cynthia Zastudil, Christine Holyfield, June A. Smith

Jun 25, 2025 ― 6 min lire

Interaction homme-machine Améliorer les outils de communication avec des modèles d'IA

Cette étude examine comment utiliser l'IA pour améliorer les options de communication pour les affichages de scènes visuelles.

Cynthia Zastudil, Christine Holyfield, Christine Kapp

Jun 25, 2025 ― 8 min lire

Ordinateurs et société Créer des tutos efficaces pour la bioinformatique

Les tutoriels doivent répondre aux besoins variés des apprenants en éducation en bioinformatique.

Hannah Kim, Sergei L. Kosakovsky Pond, Stephen MacNeil

Jun 22, 2025 ― 7 min lire

Ordinateurs et société Utiliser l'IA pour un meilleur retour sur la programmation

Découvre comment les LLMs peuvent améliorer les retours de code pour les étudiants.

John Edwards, Arto Hellas, Juho Leinonen

Jun 1, 2025 ― 7 min lire

Génie logiciel Maîtriser la décomposition de programme pour les débutants

Apprends des techniques efficaces pour enseigner la décomposition de programmes aux débutants.

Georgiana Haldeman, Judah Robbins Bernal, Alec Wydra

May 23, 2025 ― 9 min lire

Génie logiciel Améliore les performances de ton site maintenant

Apprends des techniques clés pour améliorer la vitesse de chargement de ton site et l'expérience utilisateur.

Juho Vepsäläinen, Arto Hellas, Petri Vuorimaa

Mar 26, 2025 ― 7 min lire

Intelligence artificielle L'IA générative dans l'éducation : une épée à double tranchant

L'essor de l'IA dans l'apprentissage suscite un débat sur l'honnêteté académique et l'enseignement efficace.

Sebastian Gutierrez, Irene Hou, Jihye Lee

Mar 5, 2025 ― 8 min lire

Ordinateurs et société Briser les barrières linguistiques dans l'éducation à la programmation

Les outils d'IA aident les non-natifs à apprendre le code plus efficacement.

James Prather, Brent N. Reeves, Paul Denny

Feb 23, 2025 ― 8 min lire

Utiliser l'IA pour améliorer l'éducation en codage avec des données synthétiques

#Données Synthétiques et Grands Modèles de Langage

#Création de Code Bogué Synthétique

#Élargir les Horizons dans l'Éducation Informatique

#L'Importance du Code Incorrect

#Explorer les Stratégies de Prompting

#Contexte et Collecte de Données

#Contexte de la Programmation en C

#Contexte de la Programmation en Dart

#Demander aux Modèles

#Analyse des Résultats

#Résultats

#L'Efficacité des Différents Prompts

#Problèmes Communs

#Conclusion : Qu'est-ce qui suit ?