MMAU:MMAU:言語モデルの解放する。AIエージェントのコア能力を効果的に評価人工知能MMAUベンチマーク:言語モデルのスキルを評価する言語モデルのためのMMAUベンチマークを詳しく見てみよう。2025-07-12T02:25:42+00:00 ― 1 分で読む
LLMにおけるツール使用評LLMにおけるツール使用評価処理のギャップを明らかにした。新しいフレームワークが言語モデルのツール計算と言語言語モデルにおけるツール使用の評価新しいフレームワークが、LLMが会話でツールをどれだけうまく使ってるかを評価するんだ。2025-06-30T13:55:42+00:00 ― 1 分で読む