コンピュータ適応テストの公正さを向上させる
新しいフレームワークが評価における差別的項目機能の検出を強化する。
Dandan Chen Kaptur, Justin Kern, Chingwei David Shin, Jinming Zhang
― 1 分で読む
目次
コンピュータ適応型テスト(CAT)は、個人のスキルや知識を評価するために人気になってるよ。CATの重要な側面の一つは、公平性を確保することなんだけど、そこで差異項目機能(DIF)の問題が出てくるんだ。要するに、DIFは、異なるグループの受験者が特定の質問に対して異なる反応を示すことを指すんだけど、それは彼らの能力とは関係なく、性別や人種などのバックグラウンドに関連する他の要因によるものなんだ。DIFを理解し検出することは、すべての受験者に対してテスト結果が公平で妥当であることを保証するために重要なんだ。
伝統的なテスト方法ではDIFの検出は簡単だったけど、CATでは受験者の能力レベルに基づいて質問が選ばれるから、複雑になってる。この研究では、テストを受ける人と彼らが答える項目の関係をよりよく考慮するために、二階層のフレームワークを使ってDIFの検出を改善する方法を探ろうとしてるんだ。
DIF検出の重要性
DIF検出は、テストの公平性を維持するために不可欠だよ。もしあるグループが特定の質問で別のグループよりも悪い成績を取ったとしても、その違いが実際の能力に関連していなければ、そのグループのパフォーマンスに対して誤解を招くことになるんだ。この誤解は、教育や雇用の場面で大きな影響を与える可能性があるんだ。
例えば、数学のテストに、ある性別にとって文化的背景のせいで簡単な質問が含まれている場合、そのスコアは各グループの本当の能力を正確に反映しないかもしれない。だから、DIFを正確に検出することは、すべての人がそのバックグラウンドに関係なく公平に評価されることを確実にする手助けになるんだ。
CATにおける課題
CATは個々のテスト体験をカスタマイズするように設計されてるけど、このパーソナライズがDIF検出に対して課題を生んでる。伝統的なテストでは、すべての受験者が同じ質問に答えるから、彼らの反応を比較するのが簡単だった。しかし、CAT環境では、各質問は受験者の以前の回答に基づいて選ばれるので、テスト項目間に複雑な依存関係が生まれるんだ。
その結果、従来のDIF検出方法はCATの文脈ではうまくいかない可能性があるんだ。それは、これらの依存関係を考慮しないから。これは大きな問題で、CATの特性上、早い段階の質問への反応が後の質問の選択に影響を与えるからね。だから、DIF分析でこれを考慮しないと、不正確な結論に至る可能性があるんだ。
提案された二階層フレームワーク
これらの課題に対処するために、私たちはCATにおけるDIF検出のための多層モデリングを取り入れた二階層のフレームワークを提案するよ。このアプローチは、受験者が与えた反応が独立していないことを認識してるんだ。なぜなら、一つの質問の選択が以前の回答に影響されるから。個別の反応とグループ特性を一緒にモデル化することで、特定の項目がデモグラフィックグループ間で異なって機能するかどうかをより正確に評価できるんだ。
レベル1とレベル2
私たちの提案するフレームワークでは、第一レベル(レベル1)は特定の項目に対する個々の受験者の反応に焦点を当てているよ。受験者の能力や特定のデモグラフィックグループへの所属などの要因を見てる。一方、第二レベル(レベル2)は、個人が所属するグループを考慮して、これらのグループが受験者の反応にどのように影響するかを確認するんだ。
この二階層アプローチにより、CATにおける反応の複雑さを捉えられるんだ。個々のパフォーマンスだけじゃなく、グループのダイナミクスがテスト結果にどのように影響するかにも焦点を当ててるよ。
一時的能力推定の理解
CATでは、受験者の能力はテストを進めるにつれて継続的に推定されるんだ。各質問の後、システムは彼らの反応を使って能力を推定して、それが次の質問の選択に影響を与える。このプロセスが、一時的能力推定を生んで、受験者のパフォーマンスに基づいて変動するんだ。
これらの一時的推定は、異なるグループ間でテスト項目がどのように異なる機能を果たすかを理解する上で重要な役割を果たすんだ。DIFを見るときには、最終的な能力スコアだけでなく、これらの一時的推定も考慮する必要があるんだ。
項目間と受験者間の依存関係
CAT内の質問間の相互作用は、DIF分析の際に考慮すべき依存関係を生んでる。ある質問がされると、以前の回答が受験者の現在の能力推定に影響を与えるから、項目間に依存関係が生まれるんだ。これを項目間依存関係って呼ぶんだ。
さらに、これらの依存関係は受験者間でも観察されることがあって、これを受験者間依存関係って呼んでる。つまり、似たような一時的能力推定を持つ受験者は、特定の項目に対して似たように反応する傾向があるから、これが異なるデモグラフィックグループ間の項目機能の真の違いを隠すパターンを作ることになるんだ。
DIF推定に対する雑音効果
伝統的なDIF手法を使うと、通常は個人レベルのデータだけに焦点を当てて、より大きなグループダイナミクスを無視することが多いんだ。これが雑音効果と呼ばれるもので、DIFの真の性質を曖昧にするんだ。これらの雑音効果は、マクロレベルでの受験者間の関係が個々の反応に影響を与えるときに発生するんだ。
この問題を軽減するために、私たちの二階層フレームワークは、個人およびグループレベルデータの両方を含めることで、分析におけるこれらの雑音効果を取り除くことを目指してるんだ。このアプローチにより、DIFのよりクリーンな検討が可能になり、特定のテスト項目が本当にデモグラフィックグループ間で異なる機能を果たしているかを判断しやすくなるんだ。
方法論
私たちの提案した二階層フレームワークを検証するために、数値例とモンテカルロシミュレーションを実施したよ。数値例では、シミュレーションされたCATデータセットにおける性別関連のDIFを分析したんだ。このデータセットから、一時的能力推定が項目への反応に与える影響や、これを効果的にモデル化できる方法についての洞察を得たんだ。
数値例
数値例では、DIFが存在しないCATデータセットを作成してから、二階層モデルがどのように機能するかを調べるための条件を追加したんだ。これを伝統的な単一レベルモデルと比較することで、DIF分析の際に両方のレベルを考慮することの利点を示そうとしたんだ。
モンテカルロシミュレーション
モンテカルロシミュレーションでは、異なるテスト条件を再現して、二階層モデルの堅牢性を評価したんだ。私たちのモデルを伝統的な検出方法を使った他の3つのモデルと比較したよ。各条件は、信頼性のある結果を得るために何度もテストされたんだ。
結果
数値例の発見
数値例では、私たちの二階層フレームワークを使うことで、より正確なDIF推定が得られたんだ。私たちのモデルは、一時的能力推定とグループデータの両方を考慮することで、単一レベルアプローチでよく見られる過剰なタイプIエラー率を回避したんだ。つまり、実際にはDIFがないのに項目をDIFがあると誤って識別することを指すんだ。
私たちの結果は、二階層モデルがDIFを検出する際に優れており、従来の方法が失敗したケースでも正しく識別したことを示したんだ。この発見は、項目と受験者プロファイルの相互依存性を考慮することが、公平な評価にとって重要であることを示唆しているよ。
モンテカルロシミュレーションの発見
モンテカルロシミュレーションは、数値例の結果を確認するもので、私たちの二階層モデルが常にタイプIエラーをコントロールし、強い統計的パワーを維持していることを示したんだ。さまざまなテストシナリオにおいて、二階層モデルは特にテストの長さが長いときや露出率が高いときに、伝統的な方法よりも優れていたんだ。
重要なことに、私たちの結果は、DIFを評価する際のCAT環境における要因の相互作用をより深く理解する必要性を強調してるんだ。グループ間での項目反応の変動は、私たちの提案したフレームワークを通じてより容易にモデル化され、理解されるんだ。
意義
CATにおけるDIF検出のための二階層フレームワークは、教育評価における公平性を確保するための重要な進展を示してるよ。このアプローチによって、CATに内在する依存性や複雑さを認識し、異なるグループがテスト項目でどうパフォーマンスするかのより厳密な分析が可能になるんだ。
研究の拡張
今後の研究では、さまざまな実際のCATシナリオで二階層モデルを試して、モデルを洗練させたり、DIF検出の有効性に影響を与える異なるパラメータについての洞察を提供することができるよ。
さらに、分析に使う項目プールを拡大することで、DIF結果の堅牢性を向上させることができるんだ。モデルがより広範な項目を考慮することで、DIFに関する結論がもっと包括的で広い文脈に適用できるようになるんだ。
結論
コンピュータ適応型テストにおける差異項目機能を理解し対処することは、評価の公平性と妥当性を維持するために重要なんだ。私たちの二階層フレームワークは、受験者と項目間の依存関係を考慮することで、DIFを分析するための有望な方法を提供してるよ。
数値例とモンテカルロシミュレーションを通じてこのアプローチを検証することで、DIFを正確に検出する能力が優れていることを示したんだ。このモデルをさまざまな教育コンテキストで探求し続けることで、すべての受験者がそのバックグラウンドに関係なく公平に評価されるようにする手助けになるんだ。
タイトル: Dependencies in Item-Adaptive CAT Data and Differential Item Functioning Detection: A Multilevel Framework
概要: This study investigates differential item functioning (DIF) detection in computerized adaptive testing (CAT) using multilevel modeling. We argue that traditional DIF methods have proven ineffective in CAT due to the hierarchical nature of the data. Our proposed two-level model accounts for dependencies between items via provisional ability estimates. Simulations revealed that our model outperformed others in Type-I error control and power, particularly in scenarios with high exposure rates and longer tests. Expanding item pools, incorporating item parameters, and exploring Bayesian estimation are recommended for future research to further enhance DIF detection in CAT. Balancing model complexity with convergence remains a key challenge for robust outcomes.
著者: Dandan Chen Kaptur, Justin Kern, Chingwei David Shin, Jinming Zhang
最終更新: 2024-09-24 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.16534
ソースPDF: https://arxiv.org/pdf/2409.16534
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。