物体属性マッチングのための視覚-言語モデルの改善
この記事では、物体や属性のマッチングを改善するためのビジョンと言語のモデルの強化について話してるよ。
― 1 分で読む
ビジョン・言語モデルは、コンピュータが画像や文章を理解するのを助けるツールだよ。このモデルは画像と言葉の両方を処理できるから、テキストの説明に基づいて適切な画像を見つけるのに役立つんだ。でも、シーンの中で物体とその特性(形や色など)を組み合わせる時、これらのモデルはしばしば苦戦するんだ。この記事では、これらのモデルを改善して、物体をその属性とよりうまく結びつけられるようにする方法について話すよ。
組み合わせ的推論の課題
人間の知性の大きな強みの一つは、物事の組み合わせやその詳細について考えられることなんだ。例えば、「丸い白いテーブル」というフレーズを聞くと、両方の属性を持つ特定のテーブルを思い浮かべることができるよ。対照的に、多くのビジョン・言語モデルは、物体とその属性をうまく組み合わせられないんだ。属性「丸い」を他の物体と混同するようなミスマッチがよく起きるんだ。
これらのモデルを評価するために、「属性でローカライズされたオブジェクトの組み合わせ」というテストを作ったよ。このテストは、モデルが物体とその特定の特徴を説明するテキストに画像をどれだけうまく一致させることができるかをチェックするんだ。
問題の検証
私たちは、主に2つのタイプのクエリに焦点を当てたよ:単一オブジェクトクエリと複数オブジェクトクエリ。単一オブジェクトクエリは、複数の属性を持つ1つのオブジェクトを含むもので、複数オブジェクトクエリは、それぞれ異なる属性を持ついくつかのオブジェクトを扱うよ。例えば、単一オブジェクトクエリは「四角い白い皿」とか、複数オブジェクトクエリは「茶色の木のテーブルの上にある四角い白い皿」って感じ。
私たちは、これらのモデルが気を散らすオプションに直面したとき、正しい画像を選ぶのが難しいことが多いとわかったんだ。例えば、「丸い白いテーブル」を正しく特定する代わりに、「丸い皿」をマッチさせてしまうことがあるんだ。
私たちのアプローチ
この種の推論にビジョン・言語モデルをうまく適応させるために、いくつかのテクニックをテストしたよ。私たちは、大規模データセットで既にトレーニングされた既存のモデルをファインチューニングすることに焦点を当てたんだ。目標は、属性を正しいオブジェクトと結びつける能力を向上させることだったんだ。
私たちは、有名な2つのモデル、CLIPとFLAVAを使って6つの異なるファインチューニング戦略を試したよ。これらのモデルは、さまざまなビジョンや言語に関連するタスクで効果的だと証明されていたから選んだんだ。
実験の結果
驚くことに、私たちの最良のファインチューニング方法は、151Mパラメータの小さなCLIPモデルが241Mパラメータの大きなFLAVAモデルと同じくらいの性能を発揮させることを可能にしたんだ。これは、モデルが画像とテキストの両方に同時に注意を払うことを可能にするシンプルな適応技術を使って達成されたんだ。
私たちが実装したファインチューニング戦略は軽量で、他の一般的な戦略(線形プロービングやプロンプティングなど)に比べてリソースが少なくて済んだよ。
ファインチューニング戦略
このモデルをファインチューニングするための特定の方法を探ったよ:
線形プロービング:これは、凍結された事前トレーニングされたモデルの上にシンプルな線形レイヤーをトレーニングする技術だよ。
プロンプトチューニング:この方法では、残りのモデルを変更せずに入力エンベディングを調整したよ。
フルファインチューニング:これは、モデルのすべてのパラメータを調整することを含んでいるよ。
後のレイヤーのファインチューニング:このアプローチでは、モデルの最後の数層だけを調整したよ。
予測のためのマルチモーダルアテンション:ここでは、画像がクエリにどれだけ合っているかを予測するためにアテンションメカニズムを使ったんだ。
私たちのマルチモーダルアダプター:この方法では、画像とテキストの特徴をより良く統合できる軽量なマルチモーダルエンコーダーを使ったよ。
これらの戦略をテストした後、マルチモーダルアダプターが他の戦略より優れていることがわかったよ、とくに難しいクエリに対してはね。
結果の評価
私たちの戦略の効果を評価するために、モデルが正しい画像を提供された説明にどれだけうまく一致させたかを測定したよ。平均適合率や精度といった指標を計算したんだ。
単一オブジェクトクエリでは、私たちのマルチモーダルアダプターは標準的な方法に比べて大幅な改善を示したよ。特に困難な気を散らす要素に対する処理が得意だったんだ。
複数オブジェクト設定では、私たちの調整がパフォーマンスを改善するのに役立ち、モデルがより複雑なシーンで物体の属性をうまく組み合わせることを学んだことを示しているよ。
応用シナリオ
属性を物体に正確に結びつける能力には、現実世界での影響があるよ。例えば、AIアシスタントが特定の指示に従うようにプログラムされることがあるんだ。「大きな暗い椅子の右にある小さな木のテーブルを掃除して」って言われたら、混乱せずに言及された物体を正しく特定する必要があるんだ。
関連研究
いくつかの研究がビジョンと言語の関係を探求してきたよ。多くは多様なクエリに対するモデルのロバスト性を改善する方法に焦点を当てているけど、私たちの研究は、より広い関係構成ではなく、特に属性と物体の結びつきをターゲットにしているところがユニークなんだ。
以前の研究の中には、モデルの構成的推論能力を調査したものもあって、しばしばパフォーマンスに制限があることがわかったんだ。私たちの仕事は、ビジョン・言語モデルにおける属性-物体の結びつきを厳密にテストして改善することで、このギャップを埋めようとしているんだ。
今後の方向性
私たちのモデル調整が改善をもたらしたものの、まだ探るべきことはたくさんあるよ。今後の研究では、関係やシーングラフ、カウントなどの他の構成的構造を掘り下げていくことができるんだ。
また、さまざまな状況や異なるタイプのデータで私たちのモデルがどれだけうまく機能するかを評価することも重要なんだ。これには、トレーニングデータのバイアスが異なるタスクでのパフォーマンスにどのように影響を与えるかを詳しく調べることが含まれるよ。
結論
要するに、私たちは視覚と言語モデルが物体をその属性と一致させる方法を改善するための新しいベンチマークとファインチューニング戦略を開発したんだ。私たちの発見は、戦略的な適応によって、既存のモデルがこの複雑なタスクをよりうまく実行できるようになることを示しているよ。
これから、私たちの研究がこの分野でさらなる研究の基盤となり、現実のシーンの複雑な詳細を理解し解釈できる強力なビジョン・言語モデルを生み出すことを願っているよ。
タイトル: COLA: A Benchmark for Compositional Text-to-image Retrieval
概要: Compositional reasoning is a hallmark of human visual intelligence. Yet, despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. To solve Cola, a model must retrieve images with the correct configuration of attributes and objects and avoid choosing a distractor image with the same objects and attributes but in the wrong configuration. Cola contains about 1.2k composed queries of 168 objects and 197 attributes on around 30K images. Our human evaluation finds that Cola is 83.33% accurate, similar to contemporary compositionality benchmarks. Using Cola as a testbed, we explore empirical modeling designs to adapt pre-trained vision-language models to reason compositionally. We explore 6 adaptation strategies on 2 seminal vision-language models, using compositionality-centric test benchmarks - Cola and CREPE. We find the optimal adaptation strategy is to train a multi-modal attention layer that jointly attends over the frozen pre-trained image and language features. Surprisingly, training multimodal layers on CLIP performs better than tuning a larger FLAVA model with already pre-trained multimodal layers. Furthermore, our adaptation strategy improves CLIP and FLAVA to comparable levels, suggesting that training multimodal layers using contrastive attribute-object data is key, as opposed to using them pre-trained. Lastly, we show that Cola is harder than a closely related contemporary benchmark, CREPE, since simpler fine-tuning strategies without multimodal layers suffice on CREPE but not on Cola. However, we still see a significant gap between our best adaptation and human accuracy, suggesting considerable room for further research.
著者: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
最終更新: 2023-11-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.03689
ソースPDF: https://arxiv.org/pdf/2305.03689
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。