「水星」とはどういう意味ですか?
目次
水銀は、コード大型言語モデルが効率的に動くコードを作る能力を測るツールだよ。多くのテストがコードの正確さをチェックする一方で、水銀はコードがどれだけ速く効率よく動くかも見てるんだ。
Pythonで書かれた1,889のタスクがあって、それぞれに良いパフォーマンスがどういうものかを示す解決策があるんだ。これでコードが実行されるのにどれくらい時間がかかるかを分析できるんだよ。
水銀は「ビヨンド」っていう新しいスコアリングシステムを導入して、コードの正確さと効率の両方を測るんだ。トップモデルは従来の正確さスコアで約65%取れるけど、効率スコアは50%未満で物足りないんだ。つまり、これらのモデルは動くコードを書けるけど、必ずしもベストな方法ではないってこと。
研究によると、ダイレクト・プレファレンス・オプティマイゼーションっていう特定の方法が、他のトレーニング方法よりも効率を改善するんだって。これによって、今後コーディングプログラムをさらに良くする新しい可能性が広がるんだ。