MathBenchは、さまざまな教育段階でのLLMの数学能力を評価する。
― 1 分で読む
最先端の科学をわかりやすく解説
MathBenchは、さまざまな教育段階でのLLMの数学能力を評価する。
― 1 分で読む
DiveR-CTは、自動化されたレッドチームによる安全性評価を改善する。
― 1 分で読む
新しいアプローチがトランスフォーマーモデルを強化して、長文処理をより良くする。
― 1 分で読む
新しいベンチマークが、ビデオと言語のモデルが不正確さにどう対処するかを評価するよ。
― 1 分で読む
新しい方法がロボットがタスクのために正しく移動して方向を定めるのを助ける。
― 1 分で読む
この方法は、各推論ステップで検証を実施することで視覚的推論を強化する。
― 1 分で読む
メモリートークンを使ったフレームワークが、動画の理解とインタラクションを改善する。
― 1 分で読む