新しいLLMベンチマークが新しいLLMベンチマークが発表されたよAIが複雑な指示に従う能力を評価する。計算と言語LLMにおける連続指示のフォローを評価すること新しいベンチマークが、言語モデルが複数の指示を順番にどれだけうまく処理するかを評価する。2025-07-22T21:32:54+00:00 ― 1 分で読む