Simple Science

最先端の科学をわかりやすく解説

# 物理学# 物理学教育

熱力学の手書き試験をAIが採点する

熱力学の試験におけるAIの採点役割に関する研究は、その強みと弱みを明らかにしている。

― 1 分で読む


熱力学の試験の採点における熱力学の試験の採点におけるAIを明らかにした。研究がAIの試験採点における可能性と限界
目次

この研究では、人工知能(AI)が熱力学の手書き試験の採点にどう役立つかを調べたよ。252人の学生と4つの問題がある大事な試験に注目したんだ。主な課題は、手書きの回答をAIが読める形式にすることだった。採点基準の設定がAIのパフォーマンスに影響を与えることも分かったよ。

手書きの課題

最大のハードルの一つは、手書きの回答を機械が読めるようにすることだった。学生はそれぞれ異なる書き方をするし、彼らの文字がソフトウェアに何を意味するかわかりにくくすることがある。複雑な回答、例えば図やダイアグラムを採点するのが特に難しかったな。AIは合格した試験を見分けられたけど、落ちた試験には人間の採点者が必要だった。

教育におけるAI

AIの台頭は教育に新しい選択肢をもたらした。AIシステム、例えば言語モデルは、大量のデータを早く分析できるから、オープンエンドの回答に対するフィードバックを提供する可能性がある。過去の研究では、AIシステムは人間の採点者といくつかの一致を見せたけど、本物の試験の複雑さを全て捉えてはいなかった。

従来の採点方法

物理の試験を採点するには、通常詳細な分析が必要だ。教師は最終的な回答と学生がそこに到達するまでのプロセスを評価する。論理、概念、数学的なスキルを評価することが含まれる。コンピュータは一部の回答の採点を手伝えるけど、学生が異なる解決法を取る場合には、人間の判断が必要だ。

採点におけるAIの可能性

AIは試験レポートにフィードバックを提供するスケーラブルな方法を提案できるかもしれない。最近の進歩によって、AIシステムが学生の回答を分析し、初期の成績や分類を提供することが可能になってきた。ただ、手書きのテキストを理解するにはまだ多くの課題が残っている。AIを採点に使うさまざまな方法を探求し、実際の状況でのパフォーマンスに焦点を当てた。

試験の設定

僕たちが調べた熱力学の試験には、エネルギー、エントロピー、エンタルピーなどの標準的なトピックが含まれていた。学生は問題を読むのに15分、解くのに2時間あった。参考資料や電卓の使用が許可され、回答は手書きでなければならなかった。434人中252人が参加に同意して、豊富なデータセットを集めた。

試験の問題

試験には4つの問題があり、それぞれ異なる部分を持っていた。1つ目は反応器の定常状態の操作に関する問題、2つ目は航空機エンジンの操作に関する問題、3つ目は熱いガスと固体液体システムに関する問題、4つ目は食品保存のための凍結乾燥プロセスに関する問題だった。各問題には詳細な解答が求められ、しばしば導出や計算を含む必要があった。

採点プロセス

さまざまな採点のワークフローを開発した。最初のステップは、試験をスキャンしてAIが解釈できる形式に変換することだった。MathPixのような光学文字認識(OCR)のツールを使って、手書きを機械が読める形式に変換した。その後、GPT-4という言語モデルを使って、採点されたテキストを分析した。

大規模言語モデルの理解

大規模言語モデルは、確率に基づいて応答を生成する。人間が文章を作るように、テキストをシーケンスで生成するんだ。ただ、設定によって応答が大きく変わることがあって、予測可能にしたり、創造的にしたりすることもできるけど、必ずしも正しいとは限らない。今回の研究では、標準的なアプローチを維持しつつ、採点のような特定のタスクに合わせて調整した。

クラウドインフラの活用

スイスのデータセンターで処理されるように、OpenAIのモデルにアクセスした。この設定はデータのプライバシーと信頼性を保つために重要だった。様々な基準に基づいて試験を評価し、公平で徹底した採点プロセスを確保した。

試験の構造

熱力学の試験では、採点をガイドするためにパラメータを設定した。学生は明確で包括的な解答を提供する必要があり、各試験問題には2人のティーチングアシスタントが割り当てられ、厳密な採点が行われた。採点はポイントシステムに基づき、基礎的な理解を反映するために詳細な基準が設定された。

プライバシーの重要性

学生のプライバシーを保つために、同意書を試験の提出物から分けた。これにより、盲目的な採点プロセスが可能になり、バイアスを避ける助けになった。ただ、これによって、採点者はどの学生が研究に参加する同意をしたか無知のままだったので、複雑さが生じた。

光学文字認識の課題

OCRプロセスは独自の困難を伴った。学生はさまざまな種類の紙に書いていて、一部はロゴやヘッダーで飾られていて認識プロセスが複雑になった。手書きの質も大きく異なり、きれいに書ける学生もいれば、読みづらい学生もいた。この不一致が採点の正確性に影響を与えた。

AIを使った採点

試験用紙を機械が読める形式に変換した後、回答を採点するためにAIを使った。僕たちのアプローチは、学生の回答の各ステップにポイントを割り当てる細かい採点基準を用いた。この細かい詳細が採点プロセスに複雑さを加えて、時々エラーを引き起こす原因になった。

異なる採点ワークフロー

採点のための4つの異なるワークフローを探求した:

  1. ワークフロー1: 詳細な採点基準を使った。
  2. ワークフロー2: 問題の部分ごとに採点してAIの追跡を容易にした。
  3. ワークフロー3: 問題全体に総合的な評価を与えて、正確性を減らした。
  4. ワークフロー4: 基準なしで処理に焦点を当てて、より大きな変動を引き起こした。

最初のワークフローは帳簿エラーを引き起こしやすかったが、2番目のワークフローはAIと人間の採点の相関が良かった。各方法には長所と短所があることが分かり、AIの能力について貴重な結論が得られた。

採点からの観察

試験を採点したとき、複雑な図がある問題はAIによく誤解された。AIのグラフィカルな応答の説明はあやふやで、正確な採点には信頼できなかった。ただ、数学的な導出の採点にはAIが合理的な正確さを示す可能性があった。

研究の結果

全体的に、AIはどの学生が合格したかを特定するのに期待できる結果を提供したけど、人間の採点者を完全に置き換えるにはまだ準備が整っていなかった。高リスクの試験は公平な評価を確保するために人間の監視が必要だ。AIは複雑なケースで苦労し、低得点の試験では確認が必要なことが多かった。

今後の試験への提言

今後の試験の採点プロセスを改善するために、いくつかの変更が考えられる:

  • OCRプロセスの混乱を最小限にするために平らな紙を使用する。
  • 処理を助けるために明確なヘッダーのある特定の試験用紙を提供する。
  • 学生が思考過程を捉えるために、より詳細な回答を書くように奨励する。
  • 誤りを消すために消しゴムのようなペンを使うのを避ける;OCRの正確さを複雑にするから。

結論

手書きの熱力学試験におけるAIの探求は、その可能性と限界について貴重な洞察をもたらした。AIは採点プロセスを支援できるが、人間の評価者が不可欠であることは明らかだ。この研究からの学びは、教育技術における今後の取り組みを導き、AIを採点システムにより良く統合し、より効果的で信頼できる評価プロセスを作る助けになる。遭遇した課題に対処し、提言を実施することで、学生と教育者の両方に利益をもたらす、より効率的な採点に向けて取り組むことができる。

オリジナルソース

タイトル: Grading Assistance for a Handwritten Thermodynamics Exam using Artificial Intelligence: An Exploratory Study

概要: Using a high-stakes thermodynamics exam as sample (252~students, four multipart problems), we investigate the viability of four workflows for AI-assisted grading of handwritten student solutions. We find that the greatest challenge lies in converting handwritten answers into a machine-readable format. The granularity of grading criteria also influences grading performance: employing a fine-grained rubric for entire problems often leads to bookkeeping errors and grading failures, while grading problems in parts is more reliable but tends to miss nuances. We also found that grading hand-drawn graphics, such as process diagrams, is less reliable than mathematical derivations due to the difficulty in differentiating essential details from extraneous information. Although the system is precise in identifying exams that meet passing criteria, exams with failing grades still require human grading. We conclude with recommendations to overcome some of the encountered challenges.

著者: Gerd Kortemeyer, Julian Nöhl, Daria Onishchuk

最終更新: 2024-06-25 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.17859

ソースPDF: https://arxiv.org/pdf/2406.17859

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事