言語モデルのベンチマーキン言語モデルのベンチマーキング新基準。研究におけるLLMパフォーマンステストの計算と言語科学研究のための言語モデルの評価仮説検定における大規模言語モデルを評価するための新しいベンチマーク。2025-07-21T19:52:24+00:00 ― 1 分で読む