インテリジェントチュータリングシステムにおける学習者評価の強化
言語学習をより良くするための項目反応理論を使った評価の改善。
Jue Hou, Anisia Katinskaia, Anh-Duc Vu, Roman Yangarber
― 1 分で読む
学習者のスキルを評価することは、インテリジェント・チュータリング・システム(ITS)で重要なんだ。この評価は、学生がどれだけ進んでいるかを理解し、学ぶためのサポートを提供するのに役立つ。私たちは、コンピュータを使った言語学習における項目応答理論(IRT)に注目していて、これにより学生の能力をテストと練習の二つのシナリオで評価できる。
テストは多くのスキルをカバーして、学習者の熟練度の明確な見解を提供するけど、 exhaustive testingはいつも実用的じゃないから、長いテストを短く、より効率的な適応型テストに置き換えることを目指してる。広範なテストから集めたデータを使って、理想的でない状況でもIRTモデルをトレーニングして、この適応型テストを作るのを助けるんだ。私たちの仕事には、実際の学習者とのシミュレーションや実験が含まれ、この方法が効率的で正確であることを示している。
さらに、正式なテストなしで練習課題から学習者の能力を直接測定できるかどうかも考えてる。練習セッションから集めたデータをIRTモデルに適したフォーマットに変換して、課題を重要な言語概念に関連付けているんだ。
私たちは、何千人もの学生を含む大規模な研究からの結果を発表するよ。テストからの推定値と練習からの推定値を比較することで、IRTモデルが課題データを使用して学習者の能力を正確に評価できることがわかる。
インテリジェント・チュータリング・システム
ITSは学生の学習体験を個別化することを目指していて、いろんな教科で効果的だと証明されてる。この記事では、特にコンピュータ支援言語学習(CALL)の領域におけるインテリジェント・チュータリング・システムについて話すよ。私たちのCALLシステムでの実験は、通常の授業の外で学生の練習をサポートする方法を示してる。
スマートチューターは、学習者が独立して練習する時に手助けをするんだ。学生が講義に参加し、教師から学習資料を受け取る間に、このチューターは教室の外の時間を使ってスキルをさらに向上させる手助けをする。
ITSやCALLでの個別指導における重要な要件は、学習者の現在の熟達度を正確に評価することだ。この評価は二つの主要な目的を持っている。外部的には、学習者と教師にどのスキルが習得されたか、またはされていないかを伝えること、内部的には、練習中にどの課題を学習者に提示するべきかを決定すること。
最近接発展領域
最近接発展領域(ZPD)は、学習者が少し助けがあれば取り組めるスキルを指す。ZPDの外にあるスキルは、すでに習得済みか、今の学習者には難しすぎる。もしチューターが習得済みのスキルに焦点を当てすぎると、学習者は退屈するかもしれないし、逆に難しすぎるスキルに集中するとフラストレーションが溜まる可能性がある。どちらのシナリオも、やる気が低下し、ドロップアウトのリスクを高める。
だから、ITSはZPDを特定することに集中すべきで、課題が学習者の現在の熟達度にうまく合っていることを確認するのが大事。学習者の能力を正確に評価することがこのプロセスには重要なんだ。
学習の異なる文脈
私たちは、学習者がチューターとインタラクトする二つの主要な文脈を考えています:テストセッションと課題を使った練習セッション。私たちの学習フレームワークでは、三種類の評価を分析する予定だ:(A) exhaustive tests、(B)適応型テスト、(C)学習者が練習中に行った課題から派生した評価。
従来の exhaustive testingでは、学生が長い質問リストに答えることが含まれ、これが教師に学生の能力について詳しい情報を提供するけど、この方法には欠点もある。テスト環境が学生のパフォーマンスに影響を与えることがあるから、テストが学習者の実際の能力を正確に反映しない場合もある。代わりに、学生は本当のスキル習得のためではなく、テストの準備をするかもしれない。
加えて、テストは学習を促進しない。学習者は通常、回答に対する即時のフィードバックを受け取らない。一方で、課題は即時のフィードバックや助けになるヒントを提供して、学習者が自分で正しい答えを見つける手助けをする。
テストが冗長になることがあるから、特に学生が強い熟達度を示している場合、多くの簡単な質問はあまり役に立つ情報を得られない。より効率的なアプローチは、スキル間の相互関係に基づいて質問の順序を調整することだ。
私たちの何千人もの学習者を含む大規模な研究では、テストと課題からの重要なデータを収集しました。このデータは匿名化され、さらなる研究のためにコミュニティと共有される。両方の評価タイプで、言語教育の専門家によって設計された膨大な質問バンクを使用するよ。
課題による評価では、ユーザーがアップロードしたテキストを使って、私たちのシステムが教育専門家によって検証された言語概念に関連付けられた課題を生成できるようにするんだ。
評価の課題
利点があるにもかかわらず、評価は複雑になりがち。テストについては、よく設計されたものでも問題が起こることがある。長いテストはフラストレーションやストレスを引き起こすことがあるし、厳しい時間制限などのテスト環境がパフォーマンスを妨げ、学習者の実際の熟達度の歪んだ見方につながることがある。
これにより、不完全なデータを使用して効果的な評価モデルをトレーニングできるかどうかという疑問が生まれる。同様に、学習者の回答に基づいて信用や罰を割り当てる際には、課題の評価が複雑になることがある。簡単なテスト質問とは異なり、課題はしばしば複数のスキルに関連しているので、信用の割り当てが明確でないことがある。
項目応答理論(IRT)
項目応答理論(IRT)は、質問の難易度や学習者の熟達度を評価し比較するのに役立つ。心理的評価や医療テストなど、ITSを超えた設定でも特に有用だ。言語学習においても、IRTは学習者の能力を言語熟達度スケールにマッピングするのに適用される。
私たちは、正しい回答がある多肢選択式の質問に設計された3PLモデルを使用している。このモデルは、特定の能力を持つ学習者が質問に正しく答える可能性を判断するのに役立つ。IRTはまた、学習者の能力に関する情報の量を測る項目およびテスト情報関数も定義する。
IRTモデルは、学習者の能力に基づいて最も情報量の多い質問を適応的に選択できるようにして、適応テストプロセスの効果を検証するためにシミュレーションを行うんだ。これには、質問の選択と能力の推定を反復的に行い、妥当で効率的なテスト体験を確保することが含まれる。
シミュレーションの実施
私たちのシミュレーションでは、今後のテストのために学習者データでトレーニングされたIRTの効果を評価することを目指している。学習者の能力に基づいて質問を選択し、その応答を評価する構造化されたプロセスを使用している。このプロセスには、スリップ(ランダムな間違い)やエクスプロレーション(質問の難易度の意図的な変化)などの測定が含まれる。
これらの調整が適応テストプロセスに与える影響や、テストセッションを終了する際の基準について探求するよ。平均質問数や能力推定の正確さなど、さまざまな指標を評価して、私たちの手順の効果を測定する。
分析には、異なる初期応答が全体の評価にどう影響するかに焦点を当て、初期のスリップの影響を最小限に抑えるためにウォームアップフェーズを導入することが含まれる。
結果と発見
私たちのシミュレーションは、学生の能力を評価する上でのIRTの効果に関する重要な洞察を明らかにする。結果は、データ収集の初期の不完全性にもかかわらず、学習者のインタラクションから直接得られたパラメータが信頼できる評価を生成することを示している。
私たちは、IRTベースの評価が効率と正確性の面で従来の方法を上回ることを発見した。質問が多いほど、一般的にはより正確な予測が得られ、時間とともにデータが蓄積されると、評価はますます信頼性が高くなる。
さらに、課題データに基づいて学習者の熟達度をモデル化する能力が、従来のテスト方法から得られる評価と少なくとも同じくらい良いことを確認した。
結論と今後の方向性
要するに、学習者の熟達度を正確に評価することは、ITSにおける個別指導にとって重要だ。私たちの研究は、テスト環境でも課題設定でもIRTの効果を示している。このアプローチにより、より効率的で信頼性の高い評価が可能になり、最終的にはより適切に調整された教育体験につながる。
私たちは、従来のテストは学習プロセスの重要なポイントに最小限にしながら、課題による継続的な評価が学習者の進捗を十分に洞察できると提案する。つまり、学習者が課題に取り組むことで、通常のテストに伴うストレスなしに彼らのスキルの有効な評価を達成できるってこと。
私たちの発見は、適応型テストや課題データに基づく評価が言語学習者のために魅力的で効果的な学習環境を作り出す可能性を示唆している。データを集め続けることで、私たちはモデルを洗練させ、その正確性を向上させることを期待していて、より直感的で応答的な教育方法への道を開くんだ。
タイトル: Implicit assessment of language learning during practice as accurate as explicit testing
概要: Assessment of proficiency of the learner is an essential part of Intelligent Tutoring Systems (ITS). We use Item Response Theory (IRT) in computer-aided language learning for assessment of student ability in two contexts: in test sessions, and in exercises during practice sessions. Exhaustive testing across a wide range of skills can provide a detailed picture of proficiency, but may be undesirable for a number of reasons. Therefore, we first aim to replace exhaustive tests with efficient but accurate adaptive tests. We use learner data collected from exhaustive tests under imperfect conditions, to train an IRT model to guide adaptive tests. Simulations and experiments with real learner data confirm that this approach is efficient and accurate. Second, we explore whether we can accurately estimate learner ability directly from the context of practice with exercises, without testing. We transform learner data collected from exercise sessions into a form that can be used for IRT modeling. This is done by linking the exercises to {\em linguistic constructs}; the constructs are then treated as "items" within IRT. We present results from large-scale studies with thousands of learners. Using teacher assessments of student ability as "ground truth," we compare the estimates obtained from tests vs. those from exercises. The experiments confirm that the IRT models can produce accurate ability estimation based on exercises.
著者: Jue Hou, Anisia Katinskaia, Anh-Duc Vu, Roman Yangarber
最終更新: 2024-09-24 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.16133
ソースPDF: https://arxiv.org/pdf/2409.16133
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.coe.int/en/web/common-european-framework-reference-languages/
- https://www.latex-project.org/lppl.txt
- https://www.nature.com/nature-research/editorial-policies
- https://www.springer.com/gp/authors-editors/journal-author/journal-author-helpdesk/publishing-ethics/14214
- https://www.biomedcentral.com/getpublished/editorial-policies
- https://www.springer.com/gp/editorial-policies
- https://www.nature.com/srep/journal-policies/editorial-policies