VLMは基本的なビジュアルVLMは基本的なビジュアルタスクに失敗するんだよね。てる。モデルは単純な形の識別やカウントに苦労し人工知能ビジョンランゲージモデルは基本的な視覚タスクで苦戦してるよ研究によると、VLMは人間に比べて簡単な視覚作業の精度が悪いんだって。2025-07-16T08:20:18+00:00 ― 1 分で読む