新しいクラスのためのビジョン・ランゲージモデルの適応
新しい方法で、視覚と言語モデルの未知のクラスの認識が改善されたよ。
Zhengqing Gao, Xiang Ao, Xu-Yao Zhang, Cheng-Lin Liu
― 1 分で読む
新しいデータのクラスを認識するために機械学習モデルを適応させるのって難しいよね。ビジョン・ランゲージモデル(VLM)は、視覚とテキストを組み合わせたモデルの一種で、特に事前に特定のカテゴリを学習しなくても物事を認識するのが得意なんだ。このスキルのおかげで、新しいカテゴリが出現するかもしれないいろんなタスクに便利なんだ。
最近、研究者たちはこれらのモデルを特定のタスクに微調整する方法を探し始めたんだけど、期待できるアプローチの一つが「プロンプトチューニング」って呼ばれるもの。これは、広範囲な再学習をせずに短いコンテキストの手がかりを使うことで役に立つんだ。ただ、プロンプトチューニングはテスト時に新しいクラスを認識するのが苦手なことが多いんだ。具体的には、モデルが学習するプロンプトが手動で設定したプロンプトよりもパフォーマンスが落ちることがあるんだ。
背景
ビジョン・ランゲージモデルは、画像とテキストからの情報をつなげるために設計されていて、両方のモダリティが相互作用できる共有空間を通してこれを実現してる。VLMには主に2つの種類があって、1つは画像とテキストのために別々のエンコーダーを使うもので、もう1つは2つを1つのエンコーダーに統合するもの。どちらのアプローチもテキストと視覚の強みを活かすことを目指してる。
最近のVLMは、いろんなタスクにうまく機能する表現を学ぶことができることが示されてきた。主に2つの方法、コントラスト法と生成的目標を通じてパターンを認識するように訓練されてる。コントラスト法は、ペアになった画像とテキストを共有空間で近づけることに関係してるのに対し、生成的な方法は特定の入力に基づいて画像やテキストを作成したり予測したりすることに焦点を当ててる。
これらのモデルを使う上での課題は、訓練中に限られた数のクラスやカテゴリしか見ないことがある点で、テスト時に新しいクラスに直面するとよく苦労するんだ。それが研究者たちを、モデルがより一般化できるような異なる技術を試すことに向かわせてる。
プロンプトチューニングの方法
VLMを特定のタスクに適応させつつ広範な再学習を避けるために、プロンプトチューニングが効果的な戦略として出てきた。これにより、モデルはデータの小さなセットから学ぶことができて、全体のアーキテクチャを再構築する必要がなくなる。ただ、学習したプロンプトは利用可能な限られたデータにすぐに過剰適合することがあって、新しいクラスが現れたときにはパフォーマンスが悪くなることがある。
この問題に取り組むために、「Conditional Context Optimization(CoCoOp)」が開発された。これは、入力に基づいてコンテキストトークンを生成する軽量ネットワークを導入して、新しいカテゴリに適応する際のパフォーマンスを向上させる。CoCoOpのような進展にもかかわらず、知られているカテゴリに適応しつつ新しいものを認識できるバランスを見つけるのが依然として課題なんだ。
オープンクラスの課題
新しいクラスでモデルをテストすると、主に2つの観察が浮かび上がる。まず、トレーニングしたクラス(ベースクラス)と、見たことがないクラス(新しいクラス)との間にパフォーマンスの大きな差がしばしば出ること。次に、CoCoOpのような方法が新しいクラスに対するパフォーマンスを向上させることはできるけど、ベースクラスの精度を犠牲にすることがある。二つのバランスを取ることが、実際のシナリオでの効果的な展開にとって重要なんだ。
問題は知識の問題に例えられる。つまり、学習したプロンプトは特定のタスクに対して特有の知識を持つ傾向があって、手作りしたプロンプトはもっと一般的なんだ。目標は、両方のタイプの知識を使って全体的なパフォーマンスを向上させる方法を見つけることなんだ。
提案された方法
既存の方法の制限に対処するために、新しいアプローチが導入され、ビジョン・ランゲージモデルをオープンクラスに適応させることに焦点を当ててる。この戦略は、学習したプロンプトと手作りのプロンプトの両方の要素を統合してる。鍵となるアイデアは、新しいクラスの可能性に基づいて動的な重み付けを使用すること。これには、画像が既知のクラスまたは新しいクラスに属する可能性を示すスコアを計算し、これらのスコアを使ってプロンプトに重みを付けることが含まれる。
仕組み
提案された方法は2つのステージを利用する。最初のステージでは、モデルが学習したプロンプトと手作りのプロンプトを使用して入力画像を評価する。各画像が既知のクラス(ベースクラス)にどのくらい対応しているか、また新しいクラスに属する可能性がどのくらいあるかを示すスコアを計算する。
2番目のステージでは、スコアを重みとして使って各画像のための組み合わせプロンプトを形成する。計算されたスコアに基づいて、学習したプロンプトと手作りのプロンプトを動的にブレンドすることで、モデルは推論の準備が整う。この新しい組み合わせプロンプトは、画像のカテゴリに関する予測を行うために使用される。
実験と結果
この新しいアプローチの効果をテストするために、一連の実験が行われた。研究者たちは、一般的なオブジェクト分類、細分化された分類、シーン認識など、さまざまなデータセットに対してこの方法を評価した。提案された方法とCoOpやCoCoOpのような確立されたアプローチのパフォーマンスを比較すると、彼らの方法が他の方法を上回っていることがわかった。
他の方法との比較
比較すると、CoOpはベースクラスに対して強いパフォーマンスを示したけど、新しいクラスに対するパフォーマンスが大幅に落ちたことが分かった。これにより、ベースと新しいクラスの精度を評価したときのスコアが全体的に低くなってしまった。対照的に、新しい方法は良いバランスを保つことができ、新しいクラスが導入されたときのパフォーマンス損失を最小限に抑えることができた。
研究ではまた、アダプターチューニング方法が実際のシナリオでパフォーマンスが悪くなる傾向があることも確認されて、提案されたプロンプトチューニングアプローチは顕著な改善を示した。
さらなる分析
異なる側面が分析され、入力に依存しないプロンプトの融合の影響や、異なる数のサンプルでの方法のパフォーマンスが調査された。結果は、MCMスコアを重みとして使用する方が、一様なアプローチを使用するよりも効果的であることを示した。また、異なるアーキテクチャバックボーンがパフォーマンスに与える影響も評価された。
計算の温度もパフォーマンスに重要な役割を果たした。適度な温度設定が、クラス間の分離を改善することが観察された。
結論
この研究は、新しいクラスに直面したときにビジョン・ランゲージモデルの適応を改善する必要に応じたタイムリーな反応を強調している。提案された方法は、プロンプトチューニングの以前の制限に効果的に対処し、学習した知識と一般的な知識を組み合わせてパフォーマンスを向上させている。このアプローチは、精度を向上させるだけでなく、実際のシナリオでの機械学習モデルの適応に関するさらなる研究の道を開くものだ。
研究の結果は、異なるタイプの知識を統合する重要性を強調していて、現実世界のデータ分類タスクの動的な性質に簡単に適応できるモデルの必要性を示している。引き続き改善と適応を進めて、研究者たちはこの研究がビジョン・ランゲージモデルの分野とその応用における将来の研究を推進することを期待している。
タイトル: Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning
概要: Adapting pre-trained models to open classes is a challenging problem in machine learning. Vision-language models fully explore the knowledge of text modality, demonstrating strong zero-shot recognition performance, which is naturally suited for various open-set problems. More recently, some research focuses on fine-tuning such models to downstream tasks. Prompt tuning methods achieved huge improvements by learning context vectors on few-shot data. However, through the evaluation under open-set adaptation setting with the test data including new classes, we find that there exists a dilemma that learned prompts have worse generalization abilities than hand-crafted prompts. In this paper, we consider combining the advantages of both and come up with a test-time prompt tuning approach, which leverages the maximum concept matching (MCM) scores as dynamic weights to generate an input-conditioned prompt for each image during test. Through extensive experiments on 11 different datasets, we show that our proposed method outperforms all comparison methods on average considering both base and new classes. The code is available at https://github.com/gaozhengqing/TTPT
著者: Zhengqing Gao, Xiang Ao, Xu-Yao Zhang, Cheng-Lin Liu
最終更新: 2024-08-29 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.16486
ソースPDF: https://arxiv.org/pdf/2408.16486
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。