NegPrompt: OOD検出への新しいアプローチ
NegPromptは、分布外の画像を効果的に検出することで、画像分類を改善するんだ。
― 1 分で読む
目次
最近、機械が画像を認識する方法に大きな進展があったよ。従来の方法では、既知のカテゴリに属する画像(インディストリビューションやIDと呼ばれる)と、既知のカテゴリに属さない画像(アウトオブディストリビューションやOODと呼ばれる)を区別するのが難しかったんだ。これは重要なタスクで、システムが不慣れな画像を誤って馴染みのあるカテゴリとして分類しないようにするのに役立つから、エラーを防げるんだよ。
この分野の大きな目標の一つは、システムがOOD画像に遭遇したときのパフォーマンスを向上させることだよ。特に、これらの画像はモデルが訓練されたものとはかなり異なることが多いからね。この論文では、既存の方法の欠点に対処するOOD画像を検出する新しい方法を紹介するよ。
既存の方法の問題点
多くの既存の方法は特定の画像特徴に依存していたり、訓練中にOOD画像の例が必要だったりするんだ。これが原因で、システムがテスト中に未知の画像に直面すると問題が起こるんだよ。ID画像だけで訓練すると、これらのシステムはOOD画像をIDクラスに属すると誤って分類する習慣をつけてしまうことがあるんだ。これにより、モデルが自信を持って間違った分類をする高い数の偽陽性が発生しちゃう。
NegPromptの紹介
こうした課題に対処するために、NegPromptという方法を提案するよ。この方法は、特定のIDクラスに関連する否定的な意味を持つフレーズ、つまりネガティブプロンプトのセットを学習することで機能するんだ。このネガティブプロンプトを使うことで、モデルはID画像とOOD画像をより良く区別できるようになるんだ。NegPromptの魅力は、これらのプロンプトをID画像だけを使って学習するから、追加のOODデータは必要ないんだよ。
ネガティブプロンプトの学習
プロセスは、モデルが少数のID画像から学習してポジティブプロンプトを作り出すところから始まるよ。各ポジティブプロンプトは特定のクラスラベルとペアになってるんだ。ポジティブプロンプトが確立されたら、モデルは次にネガティブプロンプトを学ぶことができるんだ。これらのネガティブプロンプトは、IDクラスの反対の意味をキャッチするように設計されているよ。例えば、IDクラスが「猫」なら、ネガティブプロンプトは「猫じゃない」って感じになる。こうすることで、モデルはどんな画像が特定のクラスに属さないのかをより良く理解できるんだ。
新しいクラスへの移転可能性
NegPromptの大きな利点の一つは、学習した知識を未見のクラスに移転できること。つまり、モデルが限られた数のクラスで訓練されていても、全く新しいクラスに対しても良いパフォーマンスを発揮できるってこと。基盤となるモデルの一般化能力を利用することで、訓練中に使ったIDクラスが少なくても効果的なOOD検出が実現できるんだ。
方法の概要
NegPromptは、学習プロセス中に三つの主要な損失関数を用いて動作するよ。最初の損失関数は、学習したネガティブプロンプトをID画像から分離することに焦点を当ててる。二つ目の損失関数は、ネガティブプロンプトがポジティブプロンプトからあまり逸脱しないようにする。三つ目は、ネガティブプロンプトの多様性を促進すること。これらの損失を最小化することで、NegPromptはOOD画像とID画像を効果的に区別するネガティブプロンプトのセットを学習するんだ。
NegPromptの利点
私たちの実験の結果、NegPromptはOOD画像を検出する既存の方法と比べて大幅に優れていることがわかったよ。OODのインスタンスを特定する精度が高く、ID分類タスクでも強いパフォーマンスを維持してる。この組み合わせが重要で、システムが堅牢で正確であることを意味してるんだ。
広範なテスト
NegPromptの効果を検証するために、有名なImageNetベンチマークを使ってさまざまな実験を行ったよ。従来のOOD検出シナリオとハードなシナリオの両方で、私たちの方法をテストしたんだ。結果は、NegPromptが最新の方法と比較して常により良いパフォーマンスを示していることを示しているよ。これには、限られた数のクラスで訓練され、テスト中に全く未見のクラスに対処しなければならなかった場合も含まれるんだ。
他のアプローチとの比較
他の人気の方法と比較すると、NegPromptは軽量なデザインと効率性で際立ってるよ。多くの競合製品は、展開を複雑にする大規模な計算リソースや外部データセットを必要とする。一方、NegPromptは、訓練中にIDデータだけを必要とするから、実世界のアプリケーションにとって魅力的な選択肢になるんだ。
オープンボキャブラリーの能力
オープンボキャブラリータスクでうまく機能する能力も、NegPromptのもう一つの大きな利点だよ。モデルを訓練中に少数のIDクラスにしかさらさないことで、テスト時にはより広範囲のクラスを効果的に扱えるようになるんだ。この柔軟性は、新しいカテゴリが頻繁に出現する多くの実用的なシナリオで重要なんだ。
意義
こうした発見の意義は大きいよ。NegPromptのようなモデルが進化し続けることで、より多様なタスクに対応できる堅牢な画像認識システムへと道が開かれるんだ。OODサンプルを正確に検出できる能力は、分類能力を向上させるだけでなく、自動化システムへの信頼を築き、エラーの可能性を減らすことにもつながるんだ。
結論
要するに、NegPromptはOOD検出の分野での重要な進展を表しているんだ。ネガティブプロンプトを活用することで、外部データに頼ることなくIDとOOD画像を成功裏に区別することができるんだ。そのオープンボキャブラリーの能力によって、限られた訓練データでも効果的に機能することができるよ。画像認識技術が進化する中で、NegPromptのような方法は、よりスマートで信頼性の高いシステムの開発に重要な役割を果たすことになるだろうね。
タイトル: Learning Transferable Negative Prompts for Out-of-Distribution Detection
概要: Existing prompt learning methods have shown certain capabilities in Out-of-Distribution (OOD) detection, but the lack of OOD images in the target dataset in their training can lead to mismatches between OOD images and In-Distribution (ID) categories, resulting in a high false positive rate. To address this issue, we introduce a novel OOD detection method, named 'NegPrompt', to learn a set of negative prompts, each representing a negative connotation of a given class label, for delineating the boundaries between ID and OOD images. It learns such negative prompts with ID data only, without any reliance on external outlier data. Further, current methods assume the availability of samples of all ID classes, rendering them ineffective in open-vocabulary learning scenarios where the inference stage can contain novel ID classes not present during training. In contrast, our learned negative prompts are transferable to novel class labels. Experiments on various ImageNet benchmarks show that NegPrompt surpasses state-of-the-art prompt-learning-based OOD detection methods and maintains a consistent lead in hard OOD detection in closed- and open-vocabulary classification scenarios. Code is available at https://github.com/mala-lab/negprompt.
著者: Tianqi Li, Guansong Pang, Xiao Bai, Wenjun Miao, Jin Zheng
最終更新: 2024-04-04 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2404.03248
ソースPDF: https://arxiv.org/pdf/2404.03248
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。