HumanEval

HumanEvalは、GPT-4みたいなコード生成モデルがどれくらいPythonコードを作れるかをテストするためのタスクのセットだよ。これには、難易度が異なる160の問題が含まれてる。

HumanEvalの主な目的は、ヒントや例なしでどれだけうまく動作するコードを生成できるかを見ること。これをゼロショットパフォーマンスって呼ぶんだ。このタイプのチャレンジに焦点を当てることで、HumanEvalはコード生成モデルの実際の能力を評価するのを助けてる。

このベンチマークは、これらのモデルがPythonコードを生成する際の進歩具合をはっきりと示すことを目指していて、同分野の他のモデルとのパフォーマンスを比較するのにも使われるんだ。