Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 人工知能# 計算と言語

PythonコースにおけるGPTのパフォーマンス評価

研究によると、GPTはPythonプログラミングの評価で苦戦しているみたい。

― 1 分で読む


PythonプログラミングPythonプログラミングコースのGPTい。GPTはPythonの課題をクリアできな
目次

生成的事前学習トランスフォーマー(GPT)が、入門および中級のPythonプログラミングコースの評価を通過する能力が評価された。この技術の教育への利用が増える中で、演習を生成したりコードを説明したりするなどの潜在的な利点や、カンニングなどのリスクについて議論が交わされている。しかし、実際のプログラミングコースでのさまざまな評価に対して、これらのモデルがどれだけパフォーマンスを発揮できるかを徹底的に分析したものはなかった。

この評価では、GPTが3つのPythonコースでテストされた。評価は、コーディングを必要としないシンプルな選択肢問題(MCQ)から、複数のファイルを含む複雑なプログラミングプロジェクトまで多岐に渡った。合計で599の演習項目があった。また、GPTが自動採点システムからのフィードバックをどれだけ活用できるかも調査された。

結果として、現在のGPTモデルは、通常のPythonプログラミングコースで見られる全範囲の評価を通過することができなかった。入門レベルのモジュールでは70%未満の得点だった。ただし、これらのモデルを使用することで、入門および中級コースで合計スコアの55%以上を達成できる可能性があることが示された。GPTはフィードバックに基づいて答えを修正するなど多くの有用な能力を示したが、複雑な推論を必要とするタスクには苦労した。

これらの知見は、教師が評価を調整し、GPTが学習者を助けるのではなく完全な解決策を提供する方向に進むことができるようにする助けとなるかもしれない。

背景

GPTモデルが一貫した文章を書いたり質問に答えたりする能力への関心が高まっている。ChatGPTのようなモデルが導入されると、多くの機関が学生が課題に悪用することを恐れて、これらのツールへのアクセスをブロックする反応を示している。加えて、いくつかの大学の授業では、授業中に行うライティング課題を増やし、AIが生成したテキストの検出を検討している。

コーディングの教員たちは、これらの開発がもたらす可能性と課題を意識している。GPTのコンピュータープログラム生成能力は、OpenAIのCodexやGitHubのCopilotなどのコード生成ツールのリリースにつながった。これらのツールは学生が自由にアクセスできるため、特に魅力的だ。その結果、学生は課題に取り組む際にこれらを利用する可能性が高い。

GPTがフルのPythonプログラミングコースでさまざまな評価を通過できるかを理解するために、いくつかの研究質問が探られた。

関連研究

いくつかの研究では、GPTが異なる分野のMCQでどれだけうまく機能するかを調べている。さまざまな研究が異なる正確性を報告しており、あるモデルが特定の分野で優れている一方で、質問の種類によってパフォーマンスが大きく異なることが示唆されている。たとえば、Codexのようなモデルは特定のプログラミングタスクでテストされ、成功の範囲が示された。

さらに、高等教育におけるプログラミング課題でのコード生成ツールの効果に焦点を当てた研究が増えている。いくつかの研究は、これらのツールが役立つ一方で、効果的に機能するためには学生からのかなりの入力が必要であることを示唆している。特に教育の文脈で、これらの技術の長所と短所の探求が進行中である。

データ収集

GPTのパフォーマンスを分析するために、3つのPythonプログラミングコースから一連の評価が収集された。これらのコースは、初心者からより高度なプログラミング概念にまでわたっている。初心者コースはプログラミングの基礎を教えることを目指しており、中級コースではモジュールやファイル処理などのトピックを扱っている。3つ目のコースは実践的な経験と実際のアプリケーションに焦点を当てている。

この研究では、MCQやコーディングタスクを含む599の演習が収集された。初心者および中級コースでは形成的評価のためにMCQが使用され、実践的なコースでは学生が数日間にわたって個別に取り組むプロジェクトが採用された。それぞれのプロジェクトは自動採点され、即時のフィードバックが提供された。

方法論

GPTのMCQに対するパフォーマンスをテストするために、質問は1つずつ提出され、モデルの回答が正解と比較された。コーディングタスクもGPTに提出され、モデルは提供された指示に基づいて解決策を生成した。

この評価に使用されたモデルはtext-davinci-003で、以前のGPTモデルの進化版である。MCQに対しては、ランダム性を最小限に抑えて正確性を最大化するように設定が調整された。コーディングタスクについては、より広範な解決策を可能にし、回答の創造性を促すため柔軟なアプローチが取られた。

コーディングタスクでは、指示がモデルの入力制限に収まるようにセグメントごとに提供された。モデルが希望するスコアを達成できなかった場合、自動採点システムからのフィードバックに基づいてその応答が修正された。このプロセスは、モデルが満足のいくスコアに達するか、さらなる改善が見られなくなるまで続けられた。

結果

パフォーマンス結果は、text-davinci-003がMCQの64.3%に正しく回答したことを示しており、以前のモデルから大幅に改善された。しかし、これらの結果にもかかわらず、GPTは最終的にコースの評価を成功裏に完了することはできず、いくつかの分野で必要な基準を下回る得点をした。

初心者コースの1つでは、GPTは5つのテストのうちの1つしか合格できなかった。中級コースでは3つのテストに合格したが、最終評価を通過するには至らなかった。実践コース全体では、一部の単位で合格スコアを達成したが、最終的には全体のコース要件を満たすことができなかった。

興味深いことに、モデルのパフォーマンスには基本的なトピックと高度なトピックを扱う際の明確な区別は見られなかった。コードスニペットを含むMCQの正確性は、含まないものよりも低く、自然言語とコードの組み合わせがモデルにとっての課題であることを示唆している。

コーディングタスクを評価する際、GPTは多様な成功率を示した。複雑な出力形式やデバッグを必要とするタスクは特に難しかったが、基本的なプログラミング概念に焦点を当てたアクティビティはうまく処理された。全体として、タスクの深さがGPTの正しい解決策を提供する能力に影響を与えているようだった。

フィードバックの活用

研究では、GPTが自動採点者が提供するフィードバックをどれほどうまく適用できるかも調べた。多くの場合、モデルは直接的なフィードバックに基づいて解決策を改善することができ、その適応能力と学ぶ可能性を示した。しかし、多段階の推論を必要とするフィードバックはより問題が生じた。期待される出力と実際の出力を比較してアプローチを調整する必要がある場合、モデルはしばしば苦労した。

結論と今後の方向性

text-davinci-003の評価は、いくつかのPython評価で部分的なスコアを達成する能力を示した。しかし、これらのスコアはコースを通過する基準には達しなかったため、現在のモデルの限界が浮き彫りになった。特に、詳細な推論や多段階プロセスを必要とするタスクに関連する大きな課題が特定された。

これらの結果を踏まえて、教育者は強力なコード生成ツールの存在を考慮して、課題の構成方法を再考することを望むかもしれない。技術が進化する中で、プログラミング教育は単にコードを書くことに依存するのではなく、問題の定式化、デバッグ、批判的思考などの分野を強調する必要があるかもしれない。

この評価は貴重な知見を提供したものの、改善すべき点も明らかにした。将来の研究は、プロンプト技術の洗練、特定の質問がGPTにとってなぜより難しいのかの調査、AIツールをプログラミング教育に効果的に統合する方法の探求に焦点を当てることができるだろう。

オリジナルソース

タイトル: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?

概要: We evaluated the capability of generative pre-trained transformers (GPT), to pass assessments in introductory and intermediate Python programming courses at the postsecondary level. Discussions of potential uses (e.g., exercise generation, code explanation) and misuses (e.g., cheating) of this emerging technology in programming education have intensified, but to date there has not been a rigorous analysis of the models' capabilities in the realistic context of a full-fledged programming course with diverse set of assessment instruments. We evaluated GPT on three Python courses that employ assessments ranging from simple multiple-choice questions (no code involved) to complex programming projects with code bases distributed into multiple files (599 exercises overall). Further, we studied if and how successfully GPT models leverage feedback provided by an auto-grader. We found that the current models are not capable of passing the full spectrum of assessments typically involved in a Python programming course (55%) in introductory and intermediate courses alike. While the models exhibit remarkable capabilities, including correcting solutions based on auto-grader's feedback, some limitations exist (e.g., poor handling of exercises requiring complex chains of reasoning steps). These findings can be leveraged by instructors wishing to adapt their assessments so that GPT becomes a valuable assistant for a learner as opposed to an end-to-end solution.

著者: Jaromir Savelka, Arav Agarwal, Christopher Bogart, Yifan Song, Majd Sakr

最終更新: 2023-03-16 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2303.09325

ソースPDF: https://arxiv.org/pdf/2303.09325

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事