Simple Science

La science de pointe expliquée simplement

# Statistiques # Applications

Évaluer l'équité dans les examens des étudiants avec l'IRT

Cette analyse explore des méthodes d'évaluation équitables pour les groupes d'étudiants divers dans les grandes classes.

Achim Zeileis

― 7 min lire


L'équité dans les L'équité dans les évaluations des étudiants des examens entre différents groupes. Utiliser l'IRT pour analyser l'équité
Table des matières

Beaucoup de profs dans des matières comme les stats et les maths ont souvent des grosses classes avec des élèves venant de différents domaines comme le business, l'économie, les sciences sociales et la psycho. Pour évaluer la compréhension de ces élèves, les exams sont souvent en format QCM, ce qui permet de corriger rapidement grâce à des systèmes de scan ou en ligne. Même si analyser ces exams plus en profondeur serait super utile, c'est souvent pas fait. Une manière d'évaluer les questions d'exam et les compétences des élèves, c'est d'utiliser certains modèles statistiques appelés la théorie de réponse à l’item (IRT). Cette méthode peut aider à déterminer si les questions de l'exam sont justes pour tous les élèves et peut révéler si certaines questions sont plus faciles ou plus difficiles pour des groupes spécifiques.

Types d'Examens

Dans les grosses classes, les exams consistent souvent en questions fermées qui peuvent être corrigées automatiquement. Les types de questions courants sont les QCM ou QCU. Avec l'essor des plateformes d'éducation en ligne, différents types de questions ont aussi été adoptés, surtout à cause des récents événements comme la pandémie de Covid-19. En général, les scores sont attribués de manière binaire (juste ou faux), mais des points partiels pour des réponses partiellement correctes sont parfois donnés.

Analyse Traditionnelle des Examens

Traditionnellement, les résultats des exams sont résumés avec des statistiques simples comme le pourcentage d'élèves qui ont répondu correctement à chaque question. Cependant, il y a un intérêt croissant pour l'Analyse d'apprentissage. Ce domaine relie les résultats de différentes évaluations et prend en compte des infos supplémentaires sur les élèves, comme leurs parcours d'études et leurs connaissances antérieures, pour améliorer leur expérience d'apprentissage.

Dans certains endroits, l'utilisation d'évaluations psychométriques standardisées sur les résultats d'exam n'est pas encore courante. Mais certaines institutions ont commencé à appliquer ces méthodes pour obtenir des insights plus profonds sur les résultats des tests, en utilisant des modèles statistiques avancés.

Qu'est-ce que l'Invariance de Mesure en IRT ?

Les modèles IRT regardent comment les élèves se débrouillent sur les questions d'exam et visent à estimer le niveau de compétence de chaque élève ainsi que la difficulté de chaque question. Une idée clé dans ces modèles, c'est que les paramètres doivent rester constants pour tous les élèves ; sinon, les différences de performance ne peuvent pas être expliquées de manière fiable par la compétence que le modèle essaie de mesurer.

Les problèmes qui peuvent violer cette idée de paramètres constants incluent le fait d'évaluer plus d'une compétence sous-jacente ou d'avoir des questions qui sont plus faciles ou plus difficiles pour différents groupes d'élèves, même s'ils ont des compétences similaires.

Un Exemple de Jeu de Données

Dans notre analyse, on va utiliser des données collectées d'un cours de maths de première année destiné aux étudiants en business et en économie. Le cours a environ 600-1000 élèves en hiver et 200-300 en été. Les tests en ligne font souvent partie du cours, avec deux exams écrits.

L'examen de fin de semestre était composé de 13 questions à choix unique et a été passé par 729 des 941 élèves inscrits. Chaque question avait cinq réponses possibles, couvrant des sujets comme l'analyse, l'algèbre linéaire et les maths financières. En raison du grand nombre d'élèves, l'examen a été divisé en deux sessions.

Les réponses pour l'analyse traitent les réponses comme binaires (correct ou incorrect). Le jeu de données comprend des infos supplémentaires comme le groupe des élèves, le nombre de tests en ligne terminés, le genre, et le semestre.

Analyser les Résultats des Examens

En regardant les résultats, on peut créer des visualisations simples pour voir combien d'élèves ont répondu correctement à chaque question. Par exemple, la plupart des questions ont un taux de réponse correct entre 40% et 80%. Cependant, une question spécifique sur le calcul d'une intégrale n'a été correctement répondue que par 15% des étudiants.

Utiliser les Modèles IRT

Bien que l'analyse basique des réponses soit utile, l'IRT offre des moyens plus sophistiqués de comprendre les compétences des élèves et la difficulté des questions. L'idée derrière ce modèle est de relier les niveaux de compétence des élèves et les difficultés des questions par une relation mathématique.

Il existe plusieurs packages disponibles pour exécuter des modèles IRT dans le langage de programmation R, qui est couramment utilisé pour l'analyse statistique. Pour cette analyse, nous allons nous concentrer sur l'utilisation d'un package spécifique qui nous permet d'explorer en profondeur l'invariance de mesure.

Ajuster un Modèle IRT

Pour ajuster un modèle IRT, on peut utiliser les données de réponse collectées pendant l'examen. Le modèle aide à aligner les compétences des élèves avec les difficultés des questions. Il nécessite aussi une attention particulière sur comment estimer les paramètres, étant donné que le nombre d'élèves ou de questions peut augmenter énormément.

Dans notre cas, on peut ajuster un modèle à nos données d'examen, ce qui nous permet d'estimer comment chaque question a été perçue par des élèves avec différents niveaux de compétences. Visualiser ces paramètres peut nous aider à voir quelles questions étaient plus faciles ou plus difficiles pour certains groupes d'élèves.

Comparer les Groupes et DIF

Après avoir ajusté le modèle IRT, on peut comparer les résultats entre les groupes. Dans ce cas, on peut explorer si les élèves d'un groupe trouvent certaines questions plus difficiles que ceux d'un autre groupe. Si certaines questions sont significativement plus difficiles pour un groupe spécifique, ça pourrait indiquer que l'examen n'est pas entièrement juste.

Une manière d'évaluer ces différences est d'analyser les scores basés sur certaines caractéristiques comme le genre ou l'expérience précédente. Si on trouve des différences substantielles, ça soulève des questions sur l'équité de l'examen.

Détecter le Fonctionnement Différentiel des Items

La méthode de comparaison utilisée traditionnellement pourrait nécessiter des groupes pré-définis. Cependant, une approche plus récente permet de détecter les différences sans avoir à diviser les élèves en groupes spécifiques à l'avance. Cette technique se concentre sur l'analyse de la performance globale à travers différentes variables.

Par exemple, on peut examiner comment les scores des tests en ligne précédents influencent la performance des élèves à l'examen. En examinant diverses divisions basées sur cette variable, on peut identifier à quels points des différences significatives se produisent parmi les élèves.

Conclusion

Dans cette analyse, on a montré comment des modèles statistiques peuvent être appliqués pour mieux comprendre les résultats des examens. En utilisant des outils comme l'IRT et en se concentrant sur l'invariance de mesure, on peut évaluer si les exams sont justes pour tous les élèves. Cela améliore non seulement notre compréhension de l'efficacité de l'enseignement, mais aussi fournit des insights qui peuvent mener à des améliorations sur la manière dont les évaluations sont structurées dans les grands cours.

Source originale

Titre: Examining Exams Using Rasch Models and Assessment of Measurement Invariance

Résumé: Many statisticians regularly teach large lecture courses on statistics, probability, or mathematics for students from other fields such as business and economics, social sciences and psychology, etc. The corresponding exams often use a multiple-choice or single-choice format and are typically evaluated and graded automatically, either by scanning printed exams or via online learning management systems. Although further examinations of these exams would be of interest, these are frequently not carried out. For example a measurement scale for the difficulty of the questions (or items) and the ability of the students (or subjects) could be established using psychometric item response theory (IRT) models. Moreover, based on such a model it could be assessed whether the exam is really fair for all participants or whether certain items are easier (or more difficult) for certain subgroups of students. Here, several recent methods for assessing measurement invariance and for detecting differential item functioning in the Rasch IRT model are discussed and applied to results from a first-year mathematics exam with single-choice items. Several categorical, ordered, and numeric covariates like gender, prior experience, and prior mathematics knowledge are available to form potential subgroups with differential item functioning. Specifically, all analyses are demonstrated with a hands-on R tutorial using the psycho* family of R packages (psychotools, psychotree, psychomix) which provide a unified approach to estimating, visualizing, testing, mixing, and partitioning a range of psychometric models. The paper is dedicated to the memory of Fritz Leisch (1968-2024) and his contributions to various aspects of this work are highlighted.

Auteurs: Achim Zeileis

Dernière mise à jour: 2024-09-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.19522

Source PDF: https://arxiv.org/pdf/2409.19522

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires