GPT-4の自動採点における役割の評価
GPT-4は自動採点に期待されてるけど、いくつかの課題があるね。
― 1 分で読む
自動短答評価(ASAG)は、機械学習を使って学生が自分の言葉で書いた回答を採点する方法だよ。この方法は過去10年で開発されて、特に人間の採点者が不足している大きなクラスで、教師が学生の回答にフィードバックを提供するのを助けることを目的としてるんだ。いろんなモデルが作られて、そのパフォーマンスは時間とともに向上してきたんだ。最近では、大規模言語モデル(LLMs)という新しいタイプのモデルが登場した。このLLMは、インターネット上の大量のテキストで訓練されていて、各タスクごとに特別な訓練がなくても多くの仕事をこなせるんだ。
GPT-4が学生の回答をどれくらいうまく採点できるかを確認するために、SciEntsBankとBeetleという2つの一般的なデータセットを使って研究が行われた。研究者たちは、GPT-4が2つの主要なタスクでどう機能するかを見たんだ:参照回答に基づいて採点することと、参照なしで採点すること。結果として、GPT-4は古い特訓モデルと比べてまあまあの成績を出したけど、採点タスクに特化した訓練を受けたモデルにはかなわなかった。
学生にフィードバックを提供するのは学びにとって重要なんだけど、教師にとってはとても時間がかかることもあるんだ。この問題は大きなクラスで特に深刻で、選択肢問題や数値回答が主な評価手段となることが多い。AIを使って採点を手伝うことで、この制限が変わるかもしれなくて、これらの技術が教育、特に自由形式の回答の採点にどのように効果的に使用できるかに注目が集まってる。
ASAGにはいろんな方法があることを認識して、研究者たちはこれらのアプローチを分類して要約するために作業してきたんだ。最近では、人間が作った特徴を使うのではなく、大量のデータから表現を学ぶモデルを使うことに焦点が移った。ほとんどのASAGモデルはまだ採点タスクに特化して訓練されてるけど、GPT-4のような新しいLLMは、追加の訓練なしでうまく機能するように設計されてる。
この研究では、GPT-4の採点能力を評価するために2つの標準データセットを見た。一つは小学生向けの一般的な科学の質問をカバーし、もう一つは基本的な電気と電子に焦点を当ててる。採点プロセスでは、GPT-4は2つの方法でテストされた:まず、提供された参照回答に基づいて採点し、次に質問だけに基づいて採点して、モデルが外部の助けなしに学生の回答を判断する必要があったんだ。
各データセットには、質問、参照回答、学生の回答とその成績が含まれてた。回答は2つの異なるフォーマットを使って採点された。2方向フォーマットでは、モデルが回答を「正解」とラベル付けできるようにする必要があって、参照回答を正確に言い換えたものは「正解」とし、そうでないものは「不正解」にした。3方向フォーマットでは、参照回答と直接矛盾する回答のために「矛盾」と呼ばれる3番目のラベルが追加された。
採点プロセス中にいくつかのエラーが発生して、特定の学生の回答には成績が付かなかった。モデルのパフォーマンスを評価するために、精度、再現率、F1スコアが計算された。精度は、正解とマークされた回答のうち実際に正解だったものがどれくらいかを測り、再現率は実際の正解のうち正しく採点されたものがどれくらいかを見た。
結果を見たとき、GPT-4は2つのデータセットや異なる採点シナリオを通じてパフォーマンスにばらつきがあった。科学データセットの2方向タスクでは最高の結果を出したけど、3方向タスクでは矛盾する回答を識別するのに問題があった。一般的に、GPT-4のパフォーマンスは科学データセットの方が電子工学データセットよりも良かったんだ。
GPT-4を採点専用に特訓された古いモデルと比較したとき、競争はできたけど、これらのスペシャライズドモデルほど強くはなかった。もしGPT-4が過去の採点コンペティションのときに利用できたら、多くのモデルと対抗できただろうけど、ほとんどの特訓モデルはそのターゲット訓練のおかげで優位性を持っていた。
過去5年間で、深層学習に基づくモデルがASAGのようなタスクに対して人気を得てきた。これらのモデルは、古い方法よりも良いパフォーマンスを示すことが一般的だけど、訓練の仕方に依存してる。LLMは広範なデータセットで事前訓練されてるけど、その事前訓練の方法や範囲はモデルによって大きく異なることがある。
GPT-4が強力なパフォーマンスを示しているにもかかわらず、クラウドベースのモデルを採点に使うときのデータセキュリティやプライバシーに関する疑問があることも重要だ。この懸念は、特に学生の敏感な情報を扱う際に教育現場での使用を制限するかもしれない。
もう一つのモデル、Llama 2は、ローカルにインストールでき、追加の訓練を必要としない可能性がある代替案として提案されている。ただし、初期テストではLlama 2はGPT-4ほどのパフォーマンスを示さなかったということだ。
全体的に、一般的な用途のGPT-4は深く訓練されたモデルの結果を超えるわけではないけど、古い手作りの方法に対して同等の能力を示している。GPT-4の著しい強みは、タスク特有の訓練を必要としないことで、教育者がそのまま使えるという点だ。さらに、GPT-4は参照回答に依存せずに回答を採点できるので、教師にとって便利な機能なんだ。
特に柔軟な形式での書かれた回答の自動採点は、初等教育を超えて高等教育にも役立つ可能性がある。LLMの一般的な能力は、より高度な科目でも効果的に機能できることを示唆していて、詳細なフィードバックを提供する能力が、単純な正解/不正解のラベルを超えて学生の学びを向上させるかもしれない。
教育におけるAIの未来は期待が持てるけど、データ管理や特定の採点タスクに適応できるモデルが必要という課題も残ってる。要するに、GPT-4のようなLLMによるASAGの可能性は大きく、教育者が効果的な評価方法を維持しながら、もっと授業に集中できる新しい機会を提供してくれるんだ。
タイトル: Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading
概要: Automated Short Answer Grading (ASAG) has been an active area of machine-learning research for over a decade. It promises to let educators grade and give feedback on free-form responses in large-enrollment courses in spite of limited availability of human graders. Over the years, carefully trained models have achieved increasingly higher levels of performance. More recently, pre-trained Large Language Models (LLMs) emerged as a commodity, and an intriguing question is how a general-purpose tool without additional training compares to specialized models. We studied the performance of GPT-4 on the standard benchmark 2-way and 3-way datasets SciEntsBank and Beetle, where in addition to the standard task of grading the alignment of the student answer with a reference answer, we also investigated withholding the reference answer. We found that overall, the performance of the pre-trained general-purpose GPT-4 LLM is comparable to hand-engineered models, but worse than pre-trained LLMs that had specialized training.
著者: Gerd Kortemeyer
最終更新: 2023-09-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.09338
ソースPDF: https://arxiv.org/pdf/2309.09338
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。