Simple Science

La science de pointe expliquée simplement

# Statistiques # Applications

Améliorer l'équité dans les tests adaptatifs informatisés

Un nouveau cadre améliore la détection du fonctionnement différentiel des items dans les évaluations.

Dandan Chen Kaptur, Justin Kern, Chingwei David Shin, Jinming Zhang

― 10 min lire


L'équité dans les tests L'équité dans les tests adaptatifs l'évaluation de l'équité des articles. De nouvelles méthodes améliorent
Table des matières

Les tests adaptatifs informatisés (TAI) sont devenus super populaires pour évaluer les compétences ou les connaissances des gens. Un point important des TAI, c'est de s'assurer que les questions posées sont équitables, et c'est là qu'intervient le problème du fonctionnement différentiel des items (FDI). En gros, le FDI fait référence à des situations où différents groupes de candidats réagissent différemment à une question particulière, non pas à cause de leurs capacités, mais à cause d'autres facteurs liés à leur parcours, comme le genre ou la race. Comprendre et détecter le FDI est crucial pour garantir que les résultats des tests soient justes et valables pour tous les candidats.

Détecter le FDI dans les méthodes de test traditionnelles a été simple, mais ça devient complexe dans les TAI à cause de la façon dont les questions sont choisies en fonction du niveau de capacité de chaque candidat. Cette étude vise à voir comment on peut améliorer la détection du FDI dans les TAI en utilisant un cadre à deux niveaux qui prend mieux en compte les relations entre les candidats et les items auxquels ils répondent.

Importance de la détection du FDI

La détection du FDI est essentielle pour maintenir l'équité des tests. Si un groupe performe moins bien qu'un autre sur une question particulière, mais que cette différence n'est pas liée à leur réelle capacité, ça peut mener à des conclusions trompeuses sur la performance de ce groupe. Cette mauvaise représentation pourrait avoir de grosses conséquences dans les milieux éducatifs et professionnels.

Par exemple, si un test de maths inclut une question plus facile pour un genre à cause d'un contexte culturel plutôt que d'une capacité mathématique, alors les scores pourraient ne pas refléter fidèlement les vraies capacités de chaque groupe. Donc, détecter avec précision le FDI peut aider à s'assurer que tout le monde est évalué équitablement, peu importe d'où ils viennent.

Défis dans les TAI

Bien que les TAI soient conçus pour personnaliser l'expérience de test pour chaque individu, cette personnalisation crée des défis pour la détection du FDI. Dans les tests traditionnels, tous les candidats répondent aux mêmes questions, ce qui facilite la comparaison de leurs réponses. Cependant, dans un environnement TAI, chaque question est choisie en fonction des réponses précédentes du candidat, ce qui crée des Dépendances complexes entre les items.

En conséquence, les méthodes traditionnelles pour détecter le FDI peuvent ne pas bien fonctionner dans un contexte TAI parce qu'elles ne tiennent pas compte de ces dépendances. C'est un gros problème puisque la nature même des TAI signifie que les réponses à des questions antérieures influencent la sélection des suivantes. Ne pas prendre ça en compte dans l'analyse du FDI peut mener à des conclusions inexactes.

Cadre à deux niveaux proposé

Pour relever ces défis, on propose un cadre à deux niveaux qui intègre la modélisation multi-niveaux pour la détection du FDI dans les TAI. Cette approche reconnaît que les réponses des candidats ne sont pas indépendantes, car le choix d'une question est influencé par les réponses précédentes. En modélisant ensemble les réponses individuelles et les caractéristiques de groupe, on peut mieux évaluer si un item particulier fonctionne différemment entre les groupes démographiques.

Niveau 1 et Niveau 2

Dans notre cadre proposé, le premier niveau (Niveau 1) se concentre sur la réponse de l'individu aux items spécifiques. Il examine des facteurs comme la capacité du candidat et son appartenance à un groupe démographique particulier. D'un autre côté, le deuxième niveau (Niveau 2) prend en compte les groupes auxquels les individus appartiennent, nous permettant de voir comment ces groupes influencent les réponses des candidats.

Cette approche à deux niveaux nous permet de capturer la complexité des réponses dans les TAI, en mettant l'accent non seulement sur la performance individuelle, mais aussi sur la façon dont la dynamique des groupes peut affecter les résultats des tests.

Comprendre les estimations provisoires de capacité

Dans les TAI, la capacité d'un candidat est continuellement estimée au fur et à mesure qu'il progresse dans le test. Après chaque question, le système utilise ses réponses pour estimer sa capacité, ce qui influence la sélection des questions suivantes. Ce processus donne des Estimations de capacité provisoires, qui peuvent varier selon la performance du candidat.

Ces estimations provisoires jouent un rôle crucial dans la compréhension de la façon dont les items de test pourraient fonctionner différemment entre divers groupes. Lorsqu'on examine le FDI, il faut prendre en compte non seulement le score final de capacité, mais aussi ces estimations provisoires pour avoir une vue d'ensemble de la façon dont les items fonctionnent pour différentes populations.

Dépendances entre items et entre candidats

Les interactions entre les questions dans un TAI créent des dépendances qu'il faut prendre en compte lors de l'analyse du FDI. Lorsqu'une question est posée, les réponses précédentes influencent l'estimation actuelle de la capacité du candidat, ce qui peut créer des dépendances entre les items - c'est ce qu'on appelle la dépendance entre items.

De plus, ces dépendances peuvent également être observées entre les candidats, ce qu'on appelle la dépendance entre candidats. Cela signifie que les candidats ayant des estimations de capacité provisoires similaires répondront probablement de manière similaire à certains items, créant un schéma qui peut masquer de vraies différences dans le fonctionnement des items parmi différents groupes démographiques.

Effets nuisibles sur l'estimation du FDI

Lorsque des méthodes traditionnelles de FDI sont utilisées, elles se concentrent généralement uniquement sur les données au niveau individuel, ignorant les dynamiques de groupe plus larges. Cela peut mener à ce qu'on appelle des effets nuisibles, qui obscurcissent la véritable nature du FDI. Ces effets nuisibles surviennent lorsque les relations entre les candidats à un niveau macro influencent les réponses individuelles.

Pour atténuer ces problèmes, notre cadre à deux niveaux vise à éliminer ces effets nuisibles dans l'analyse en incluant à la fois les données individuelles et celles au niveau de groupe. Cette approche permet une analyse plus claire du FDI, rendant plus facile la détermination si un item de test fonctionne réellement différemment entre les groupes démographiques.

Méthodologie

Pour valider notre cadre à deux niveaux proposé, nous avons réalisé un exemple numérique et une simulation Monte Carlo. L'exemple numérique impliquait l'analyse du FDI lié au genre dans un ensemble de données TAI simulé. À partir de cet ensemble de données, nous avons tiré des enseignements sur la façon dont les estimations de capacité provisoires influencent les réponses aux items et sur la manière dont celles-ci pourraient être modélisées efficacement.

Exemple numérique

Dans l'exemple numérique, nous avons créé un ensemble de données TAI sans FDI présent, puis introduit des conditions pour examiner comment le modèle à deux niveaux fonctionne. En le comparant à des modèles traditionnels à un seul niveau, nous avons cherché à illustrer les avantages de prendre en compte les deux niveaux lors de l'analyse du FDI.

Simulation Monte Carlo

La simulation Monte Carlo nous a permis de reproduire différentes conditions de test pour évaluer la robustesse de notre modèle à deux niveaux. Nous avons comparé notre modèle à trois autres modèles utilisant des méthodes de détection traditionnelles. Chaque condition a été testée plusieurs fois pour garantir des résultats fiables.

Résultats

Conclusions de l'exemple numérique

Dans l'exemple numérique, nous avons constaté qu'utiliser notre cadre à deux niveaux produisait des estimations de FDI plus précises. En tenant compte à la fois des estimations de capacité provisoires et des données regroupées, notre modèle a évité des pièges courants rencontrés avec des approches à un seul niveau, comme des taux d'erreur de type I gonflés - cela se réfère à l'identification incorrecte d'un item comme ayant du FDI alors qu'il n'en a pas.

Nos résultats ont montré que la performance du modèle à deux niveaux était supérieure pour détecter le FDI, réussissant à l'identifier correctement dans des cas où les méthodes traditionnelles échouaient. Cette découverte suggère qu'incorporer les interdépendances des items et des profils de candidats est essentiel pour une évaluation juste.

Conclusions de la simulation Monte Carlo

La simulation Monte Carlo a confirmé les résultats de l'exemple numérique, montrant que notre modèle à deux niveaux contrôlait systématiquement les erreurs de type I et maintenait une forte puissance statistique. Dans divers scénarios de test, le modèle à deux niveaux a surpassé les méthodes traditionnelles, surtout lorsque les longueurs de test étaient plus longues et le taux d'exposition plus élevé.

Il est important de souligner que nos résultats mettent en évidence la nécessité d'une compréhension plus nuancée de la façon dont les facteurs interagissent dans les contextes TAI lors de l'évaluation du FDI. Les variations des réponses aux items entre les groupes étaient plus facilement modélisées et comprises grâce à notre cadre proposé.

Implications

Le cadre à deux niveaux pour détecter le FDI dans les TAI représente une avancée significative pour garantir l'équité dans les évaluations éducatives. En reconnaissant les dépendances et les complexités inhérentes aux TAI, cette approche permet une analyse plus rigoureuse de la façon dont différents groupes se comportent sur les items de test.

Étendre la recherche

De futures recherches peuvent s'appuyer sur nos résultats en testant le modèle à deux niveaux dans une variété de scénarios TAI réels. Cela aidera à affiner le modèle et à fournir des informations sur la façon dont différents paramètres influencent l'efficacité de la détection du FDI.

De plus, élargir le panel d'items utilisés dans l'analyse pourrait renforcer la robustesse des résultats du FDI. En s'assurant que le modèle prend en compte une plus grande variété d'items, les conclusions tirées sur le FDI seront plus complètes et applicables dans des contextes plus larges.

Conclusion

Comprendre et traiter le fonctionnement différentiel des items dans les tests adaptatifs informatisés est crucial pour maintenir l'équité et la validité des évaluations. Notre cadre à deux niveaux fournit une méthode prometteuse pour analyser le FDI en tenant compte des dépendances entre les candidats et les items.

En validant cette approche à travers des exemples numériques et des simulations Monte Carlo, nous avons démontré sa capacité supérieure à détecter le FDI avec précision. Alors que nous continuons à explorer ce modèle dans divers contextes éducatifs, cela aidera à s'assurer que tous les candidats sont évalués de manière équitable, peu importe leurs antécédents.

Articles similaires

Applications Améliorer la surveillance de la qualité de l'eau grâce à la détection d'anomalies

De nouvelles méthodes améliorent la précision de la surveillance de la qualité de l'eau en détectant les anomalies des capteurs.

Edgar Santos-Fernandez, Jay M. Ver Hoef, Erin E. Peterson

― 9 min lire