Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータと社会

プログラミング課題の一貫した採点の課題

研究によると、異なる評価者間でプログラミング課題の採点に大きな不一致があることがわかった。

Marcus Messer, Neil C. C. Brown, Michael Kölling, Miaojing Shi

― 1 分で読む


採点の不一致が明らかになっ採点の不一致が明らかになっな欠陥があることを明らかにした。研究がプログラミング課題の採点方法に深刻
目次

プログラミングの課題を一貫して採点することは、学生の学業や将来のキャリアにとってめっちゃ大事なんだ。学生が成績をもらうと、その後の勉強の進み具合や就職のチャンスに影響が出るからさ。小さなクラスだと、基本的に一人が課題を採点するから簡単なんだけど、大きなクラスだと複数の人が関わるから、成績の付け方にバラつきが出ちゃうことがあるんだよね。

この問題を解決するために、プログラミングの課題を採点した参加者のグループで研究が行われて、一貫性がどれくらいあるのかを見てみたんだ。いろんな人が同じ作品をどう採点してるかを調べることで、人による採点の信頼性について考えられるんだ。

採点の一貫性の影響

大学では、学生がもらう成績が大きな影響を持つよ。成績が良いか悪いかで、次の学年に進めるかどうかや、卒業後に雇用者からどう見られるかが変わってくる。特にコンピュータサイエンスの授業では学生が多いから、公正な採点が求められてる。

学生の作品を公平に評価するために、多くの先生がルーブリックを使ってる。これは課題の期待される基準を示したガイドラインなんだ。でも、複数の人が同じ作品を採点すると、ルーブリックの解釈にばらつきが出ることがあって、一貫性に欠ける原因になるんだよね。

大型プログラミングのコースでは、課題を採点するのにテクノロジーが使われることもあるよ。自動採点ツールは、特定の基準に基づいて一貫した結果を出すことができるけど、学生の作品の全体像を見逃しがちなんだ。特に可読性やコーディングスタイルのような要素を見落としやすいんだよね。

採点プロセス

人がプログラミングの課題をどれくらい一貫して採点するかを調べるために、28人の参加者が集まったんだ。それぞれの参加者は、入門コンピュータサイエンスの概念に焦点を当てた40のJava課題を採点したよ。課題は2つのラウンドに分けられて、時間経過による評価の変化を比較したんだ。

参加者は4人ずつのグループに分けられて、同じ課題セットを採点するように頼まれた。このアプローチで、研究者たちは異なるグループが同じ作品をどう評価したかを比較することで、採点プロセスの信頼性を測ったんだ。

研究中、参加者たちはコードの正確さ、書き方のエレガンス、可読性、学生が提供したドキュメンテーションなどの要素を考慮したよ。同じ基準をどれだけ一貫して適用したかを調べるために、研究者たちは各グループの信頼性スコアを計算したんだ。

研究結果

結果は心配なものでした。異なる採点グループ間の全体の一貫性は低かった。正確さに関しては、他のエレガンスや可読性のような分野と比べて、やや高い合意が見られたけど、全体的には受け入れ可能な合意レベルには達していなかったんだ。

面白いことに、個々の採点者は後から同じ課題を再度採点すると、一貫性がなくなってしまうことがわかった。このことは、同じ人でも気分や採点している環境によって、同じ作品に異なる成績を付ける可能性があるってことを示してるんだ。

採点の一貫性に影響を与える要因

採点の一貫性に影響するいくつかの要因が分析されたよ。それらには、採点が行われた環境、採点の時間帯、採点者の気分などが含まれてた。ほとんどの参加者は自宅など静かな環境で採点していて、集中する時間があるときはストレスが少なく感じると報告してたんだ。

でも、急かされたり他の学業のプレッシャーがあった人たちは、採点が悪化することに気づいてた。ある参加者は、その日の気分が採点に影響を与えることを認識してた。たとえば、疲れていたりイライラしていると、採点の決定に影響が出てしまうんだ。

経験の役割

採点者の経験レベルにはかなりの違いがあったよ。多くの参加者は以前は採点をしたことがなく、プログラミングの経験しかなかったんだ。少しでも採点経験のある人は、採点基準をより一貫して適用できるかもしれないって提案されたけど、データは prior の経験が一貫性を劇的に改善しないことを示してた。

一貫性のなさは特にエレガンスや可読性のような主観的な特性の採点で顕著で、好みが採点の不一致を引き起こすことがわかったんだ。

不一致な採点の結果

不一致な採点は学生にフラストレーションを引き起こすことがあるよ。学生が自分の成績を他の人と比べると、採点プロセスの公正さについて混乱することがあるんだ。同じような作品を提出した2人の学生が異なる成績をもらうと、不公平を感じることになる。

さらに、一貫性のない成績は学生の学位プログラムの進行を妨げることがある。もし学生が進級に影響する低い成績をもらったら、教育体験全体や将来のキャリアに悪影響を与えることになるんだ。

改善のための提案

この研究で分かった重大な問題を考えると、採点の方法には明確な影響があるよ。まず、課題を採点する人たちがルーブリックをより一貫して適用できるように、より効果的なトレーニングが必要なんだ。ワークショップを通じて、ティーチングアシスタントが採点ルーブリックをよりよく活用し、自分の主観的なバイアスに気づくことができるようになるかもしれない。

別の提案としては、採点の選択肢の数を減らすことで、採点プロセスを簡略化し、成績付けの不一致を最小限に抑えることができるかもしれない。

自動採点システムも可能性があるけど、コードの正確さを超えて学生の提出物の全体的な質を評価できるように、さらに開発が必要なんだ。

最後に、もっと多くの学校が自動化されたりAI駆動の採点システムを取り入れることを考える中で、これらのツールを人間の採点方法と比較する慎重な評価が必要だね。

結論

この研究の結果は、プログラミング課題の採点における深刻な問題を明らかにしてる。一貫性のない採点は、学生の学業やキャリアの機会に深刻な影響を与える可能性があるってことだ。採点技術や採点者へのトレーニング、そして技術の統合のためにもっと注意を払う必要があるんだ。

今後の研究は、この重要な分野を探求し続けて、採点がより信頼できて公正なものになるように努めるべきだよ。そうすることで、コンピュータサイエンスやその先の学生の教育体験を改善できるはずさ。

オリジナルソース

タイトル: How Consistent Are Humans When Grading Programming Assignments?

概要: Providing consistent summative assessment to students is important, as the grades they are awarded affect their progression through university and future career prospects. While small cohorts are typically assessed by a single assessor, such as the class leader, larger cohorts are often assessed by multiple assessors, which increases the risk of inconsistent grading. To investigate the consistency of human grading of programming assignments, we asked 28 participants to each grade 40 CS1 introductory Java assignments, providing grades and feedback for correctness, code elegance, readability and documentation; the 40 assignments were split into two batches of 20. In the second batch of 20, we duplicated one assignment from the first to analyse the internal consistency of individual assessors. We measured the inter-rater reliability of the groups using Krippendorf's $\alpha$ -- an $\alpha > 0.667$ is recommended to make tentative conclusions based on the rating. Our groups were inconsistent, with an average $\alpha = 0.2$ when grading correctness and an average $\alpha < 0.1$ for code elegance, readability and documentation. To measure the individual consistency of graders, we measured the distance between the grades they awarded for the duplicated assignment in batch one and batch two. Only one participant of the 22 who didn't notice that the assignment was a duplicate was awarded the same grade for correctness, code elegance, readability and documentation. The average grade difference was 1.79 for correctness and less than 1.6 for code elegance, readability and documentation. Our results show that human graders in our study can not agree on the grade to give a piece of student work and are often individually inconsistent, suggesting that the idea of a ``gold standard'' of human grading might be flawed, and highlights that a shared rubric alone is not enough to ensure consistency.

著者: Marcus Messer, Neil C. C. Brown, Michael Kölling, Miaojing Shi

最終更新: 2024-09-02 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.12967

ソースPDF: https://arxiv.org/pdf/2409.12967

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

ヒューマンコンピュータインタラクションデータビジュアライゼーションにおけるインタラクション作成の役割

インタラクティブ性が効果的なビジュアル技術を通じてデータ分析をどう向上させるかを学ぼう。

Hyemi Song, Sai Gopinath, Zhicheng Liu

― 1 分で読む