ビジョンランゲージモデルは基本的な視覚タスクで苦戦してるよ
研究によると、VLMは人間に比べて簡単な視覚作業の精度が悪いんだって。
― 1 分で読む
目次
画像も処理できる大規模言語モデルが人気になってきてるね。これらのモデルはテキストと画像を含むタスクを扱えるんだけど、私たちの研究によると、これらのモデルは人間が簡単にできる基本的な視覚タスクに苦しんでる。
私たちは特に4つの先進的なビジョン言語モデル(VLM)を調べて、7つのシンプルな視覚タスクでの能力をテストしたよ。タスクには、形が重なっているかどうかの識別、特定の形のカウント、丸で囲まれた文字の特定が含まれてたんだけど、複雑な場面でのパフォーマンスは良いのに、基本的なタスクではあまりうまくいかなかったんだ。
タスク概要
VLMが視覚情報をどれだけ見て理解できるかを評価するために、一連のタスクを作成したよ。タスクには人間の視覚テストでよく見られる円や線のようなシンプルな形が含まれてた。VLMがこれらの形を近くにあったり重なっているときに認識できるかを確認したかったんだ。
タスクには以下が含まれてた:
- 2つの線の交点をカウントすること。
- 2つの円が重なっているか触れているかを判断すること。
- 単語の中でどの文字が丸で囲まれているかを特定すること。
- 重なった形、例えば円や五角形をカウントすること。
- 一つの正方形が他の正方形の中に含まれている場合のカウント。
- グリッド内の行と列をカウントすること。
- 地下鉄の地図内の単色の道を辿ること。
結果の概要
全てのタスクで、VLMの平均精度は58.57%だった。このパフォーマンスは、人間の期待される精度がほぼ100%であるのに対してかなり低いんだ。最も良い性能を示したモデルでも74.94%の精度しかなかった。
タスク1: 線の交点をカウント
このタスクでは、VLMが2本の線が交差する回数をカウントできるかどうかをテストしたよ。2つの線分を使った様々な画像を作成して、モデルに交差点を数えてもらったんだけど、結果はVLMの平均精度がわずか56.84%で、完璧には程遠かった。
タスク2: 2つの円
次に、モデルが2つの円が重なっているか触れているかを判断できるかを調べたよ。やっぱりVLMは苦戦して、最良の精度は92.78%だった。円が近くにあるときに間違った推測をしがちだった。
タスク3: 丸で囲まれた文字
このタスクでは、VLMが単語中のどの文字が丸で囲まれているかを特定できるかをテストしたよ。モデルは文字を単独で提示すると正確に読めたんだけど、丸が文字を覆うと苦戦した。平均精度は81.39%だった。モデルはよく、囲まれた文字の隣にある文字を推測してた。
タスク4: 重なった形をカウント
VLMは円や五角形のような重なった形をカウントするテストも受けたよ。この精度は大幅に低下して、重なった五角形のカウントではわずか30.99%しか達成できなかった。これは、重なった形を認識するのがこれらのモデルにとって難しいことを示している。
タスク5: ネストされた正方形をカウント
互いにネストされた正方形をカウントするように求められたとき、VLMは少し良くなったけど、それでも平均精度は73.29%だった。このタスクは、形のエッジが非常に近いときでも、たとえ重なっていなくても、モデルが形を追跡するのがどれほど難しいかを浮き彫りにしている。
タスク6: グリッドの行と列をカウント
次に、グリッド内の行と列の数をカウントするテストを行ったよ。行をカウントする平均精度は60.83%で、列をカウントするのは70.53%で少し良かった。ただ、どちらも人間が簡単に数えられるレベルには達していない。
タスク7: 単色の道を辿る
最後のタスクは、地下鉄の地図上で駅間の道をカウントすることだった。このタスクは、異なる道を認識して追跡する能力を評価する。VLMの平均精度はわずか42.06%で、道の数が増えるにつれてかなり苦労してた。
議論
私たちの結果は、人間がシンプルな視覚タスクを認識し処理する方法と、現在のVLMの能力の間に明確なギャップがあることを示している。これらのモデルは高度な言語タスクで優れていて、複雑な画像を分析できるんだけど、基本的な形を正確に識別したりカウントしたりするのは失敗している。
これは、VLMが人間と同じように画像を「見る」ことができていない可能性があることを示している。彼らのパフォーマンスは、形が密接に詰まっているときや重なっているときに混乱を引き起こす、視覚的な特徴を抽出するプロセスに依存していることを示唆している。
VLMを改善するには、現在の「遅延融合」方法ではなく、視覚情報とテキスト情報の「早期融合」を可能にする方法を開発する必要があるかもしれない。低レベルの視覚タスクに特化してVLMを訓練することで、彼らの全体的な視覚能力を向上させる手助けになるかもしれない。
結論
要するに、VLMは複雑な画像とテキストのタスクを扱う素晴らしい可能性を示しているけど、基本的な視覚タスクに関しては心配なパフォーマンスを示している。彼らは誰でも簡単にできるようなシンプルな識別やカウントタスクで苦しんでいる。
私たちの発見は、VLMが視覚情報をどのように処理しているかについて重要な疑問を提起していて、この分野でのさらなる研究の必要性を強調している。彼らの視覚能力を向上させることは、これらのモデルの実世界での応用パフォーマンスを向上させるために不可欠かもしれない。
タイトル: Vision language models are blind
概要: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.94% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io
著者: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
最終更新: 2024-07-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.06581
ソースPDF: https://arxiv.org/pdf/2407.06581
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://ctan.org/pkg/axessibility?lang=en
- https://www.springer.com/gp/computer-science/lncs
- https://vlmsareblind.github.io
- https://anonymous.4open.science/r/Benchmark-85F0
- https://github.com/anguyen8/vision-llms-are-blind
- https://platform.openai.com/
- https://aistudio.google.com
- https://claude.ai/
- https://x.com/xwang_lk/status/1797475354745197029
- https://platform.openai.com/docs/guides/vision
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/TouchingCircle/TwoTouchingCircles.ipynb
- https://docs.google.com/spreadsheets/d/1pIJFMrScC3EMjC4Vq1b60Rd5D_yIjoANtx1ii4kOgXQ/edit?gid=0#gid=0
- https://huggingface.co/BAAI/Bunny-v1_1-Llama-3-8B-V
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CircledWord/GenerateSamples.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/LineIntersection/2dline.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/NestedSquares/GenerateSamples.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CountingCircles/OlympicCircles.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CountingCircles/OlympicPentagons.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CountingRowsAndColumns/Grids.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/SubwayMap/SubwayMap.ipynb