言語モデルのベンチマーキン言語モデルのベンチマーキング新基準。研究におけるLLMパフォーマンステストの計算と言語科学研究のための言語モデルの評価仮説検定における大規模言語モデルを評価するための新しいベンチマーク。2025-07-21T19:52:24+00:00 ― 1 分で読む
Ap pWorld:Ap pWorld:AIの効率性テストトを評価する。複雑な現実のタスクを使ってAIエージェンソフトウェア工学Ap pWorldを紹介するよ: AIエージェントのための新しいテストプラットフォームだよ。Ap pWorldは、制御された環境でAIエージェントのためのリアルなタスクをシミュレートする。2025-07-06T14:22:00+00:00 ― 1 分で読む
AIと人間の好みAIと人間の好みする。AIを人間のニーズにもっと合うように調整計算と言語人間の好みにAIを合わせる直接的な好みの調整がAIの人間のニーズの理解をどう向上させるかを発見しよう。2025-01-30T22:36:18+00:00 ― 1 分で読む