Simple Science

最先端の科学をわかりやすく解説

# 統計学 # アプリケーション

IRTを使った学生試験の公平性評価

この分析は、大きなクラスで多様な生徒グループに対する公正な評価方法を探っているよ。

Achim Zeileis

― 1 分で読む


学生の評価における公平性 学生の評価における公平性 ためにIRTを使う。 異なるグループ間の試験の公平性を分析する
目次

多くの先生たちは、統計や数学みたいな科目で、ビジネス、経済、社会科学、心理学など、いろんな分野から集まった学生が多い大きなクラスを持ってるよ。この学生たちの理解度を評価するために、試験は通常、選択肢のある形式で出されて、採点はスキャンやオンラインシステムでサクッとできるんだ。ただ、試験の分析をさらにやった方がいいのに、そういうことはあんまりされてないんだ。試験問題や学生の能力を評価する方法として、項目応答理論(IRT)という統計モデルを使うのが有効なんだ。このアプローチを使えば、試験の問題が全ての学生にとって公平かどうかを判断できるし、特定のグループにとって簡単な質問や難しい質問があるかどうかもわかるよ。

試験の種類

大きなクラスでは、試験は自動で採点できる閉じた質問が多いんだ。よく使われる質問は多肢選択肢や単一選択肢だよ。オンライン教育プラットフォームの普及のおかげで、最近のコロナ禍の影響もあって、いろんなタイプの質問が導入されてるんだ。通常、スコアはバイナリ(正解か不正解)で出されるけど、部分的に正しい答えには時々部分点が与えられることもあるよ。

従来の試験分析

従来は、試験結果を簡単な統計でまとめて、各質問に正解した学生の割合を見てたんだ。でも、学習分析への関心が高まってきてる。この分野は、いろんな評価の結果を結び付けて、学生の学習体験を向上させるために、学習背景や事前知識といった追加情報も考慮するんだ。

ある場所では、試験結果に対して標準化された心理測定を使うことはあんまり一般的じゃないけど、いくつかの機関はこれらの方法を使ってテスト結果をより深く理解しようと始めてるみたい。

IRTにおける測定不変性とは?

IRTモデルは、学生が試験の問題にどう取り組むかを見て、各学生の能力レベルや各問題の難易度を推定しようとするんだ。このモデルのキーアイデアは、全ての学生に対してパラメータが一定であるべきってことなんだ。そうじゃないと、性能の違いをモデルが測ろうとしている能力で信頼できるようには説明できないんだ。

この一定のパラメータのアイデアを壊す要因には、評価されるスキルが一つ以上あることや、似たような能力を持ってても、異なるグループの学生に対して問題が簡単すぎたり難しすぎたりすることが含まれるよ。

例のデータセット

私たちの分析では、ビジネスと経済の学生を対象にした1年生の数学コースから集めたデータを使うよ。このコースには冬学期に約600-1000人、夏学期に200-300人の学生が参加してるんだ。オンラインテストはコースの一部として行われ、二回の筆記試験もあるよ。

期末試験は13の単一選択肢の問題で構成されてて、登録された941人のうち729人が受験したんだ。各問題には5つの選択肢があって、分析、線形代数、金融数学みたいなテーマをカバーしてるよ。学生数が多いから、試験は二つのセッションに分かれて行われたんだ。

分析するための回答は、正解か不正解かのバイナリデータとして扱うよ。データセットには、学生のグループ、完了したオンラインテストの数、性別、学期といった追加情報も含まれてる。

試験結果の分析

結果を見てみると、各質問に正解した学生の数を視覚化して見ることができるよ。例えば、ほとんどの質問の正解率は40%から80%の間にあるんだけど、一つの具体的な質問、つまり積分を計算する問題では、正解した学生はたったの15%だったんだ。

IRTモデルの使用

回答の基本的な分析も役立つけど、IRTは学生の能力や問題の難易度を理解するためのもっと洗練された方法を提供してくれるよ。このモデルの背後にある考えは、学生の能力レベルと問題の難易度を数学的な関係で結びつけることなんだ。

IRTモデルを実行するためのパッケージはいくつかあって、統計分析に一般的に使われるRプログラミング言語で利用できるよ。この分析では、測定不変性を徹底的に探求できる特定のパッケージを使うことに焦点を当てるよ。

IRTモデルの適合

IRTモデルを適合させるためには、試験から集めた回答データを使うことができるよ。このモデルは、学生の能力と問題の難しさを関連付けるのに役立つんだ。また、パラメータを推定する方法についても注意深く考慮する必要があるんだ。学生や問題の数が大幅に増えることもあるからね。

私たちの場合、試験データにモデルを適合させることで、異なるスキルレベルの学生が各問題をどう感じたかを推定できるんだ。これらのパラメータを視覚化することで、特定の学生グループにとってどの質問が簡単だったり難しかったりしたかがわかるよ。

グループの比較とDIF

IRTモデルを適合させた後、グループ間で結果を比較できるよ。この場合、あるグループの学生が他のグループよりも特定の質問を難しいと感じているかを探ることができるんだ。もし特定の質問が特定のグループにとってかなり難しいなら、それは試験が完全に公平じゃないかもしれないってことを示すかもしれないよ。

これらの違いを評価する一つのアプローチは、性別や以前の経験といった特定の特徴に基づいてスコアを分析することだよ。もし重大な違いが見つかれば、それは試験の公平性について疑問を投げかけることになるんだ。

差別的項目機能の検出

従来使われていた比較方法は、事前に定義されたグループが必要だったかもしれないけど、最近のアプローチでは、学生を特定のグループに分ける必要がなくても違いを検出できるようになったよ。この技術は、異なる変数にわたる全体的なパフォーマンスを分析することに焦点を当ててるんだ。

例えば、以前のオンラインテストのスコアが学生の試験パフォーマンスにどう影響するかを見てみることができるよ。この変数に基づいてさまざまな分割を調べることで、学生間で重要な違いが生じるポイントを特定できるんだ。

結論

この分析では、統計モデルを使って試験結果をよりよく理解する方法を示してきたよ。IRTのようなツールを使って測定不変性に焦点を当てれば、試験が全ての学生にとって公平かどうかを評価できるんだ。これは、教育の効果を理解するのを深めるだけじゃなく、大規模なコースでの評価の構造を改善するための洞察も提供してくれるよ。

オリジナルソース

タイトル: Examining Exams Using Rasch Models and Assessment of Measurement Invariance

概要: Many statisticians regularly teach large lecture courses on statistics, probability, or mathematics for students from other fields such as business and economics, social sciences and psychology, etc. The corresponding exams often use a multiple-choice or single-choice format and are typically evaluated and graded automatically, either by scanning printed exams or via online learning management systems. Although further examinations of these exams would be of interest, these are frequently not carried out. For example a measurement scale for the difficulty of the questions (or items) and the ability of the students (or subjects) could be established using psychometric item response theory (IRT) models. Moreover, based on such a model it could be assessed whether the exam is really fair for all participants or whether certain items are easier (or more difficult) for certain subgroups of students. Here, several recent methods for assessing measurement invariance and for detecting differential item functioning in the Rasch IRT model are discussed and applied to results from a first-year mathematics exam with single-choice items. Several categorical, ordered, and numeric covariates like gender, prior experience, and prior mathematics knowledge are available to form potential subgroups with differential item functioning. Specifically, all analyses are demonstrated with a hands-on R tutorial using the psycho* family of R packages (psychotools, psychotree, psychomix) which provide a unified approach to estimating, visualizing, testing, mixing, and partitioning a range of psychometric models. The paper is dedicated to the memory of Fritz Leisch (1968-2024) and his contributions to various aspects of this work are highlighted.

著者: Achim Zeileis

最終更新: 2024-09-28 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.19522

ソースPDF: https://arxiv.org/pdf/2409.19522

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事