トークンコントラストで弱教師ありセマンティックセグメンテーションを改善する
新しい方法が最小限のラベルを使ってセグメンテーションを強化し、WSSSの主要な問題に対処してるよ。
― 1 分で読む
目次
弱教師ありセマンティックセグメンテーション(WSSS)は、コンピュータビジョンにおける手法で、画像内の物体を最小限の情報、例えば画像全体にラベルを付けるだけで識別・分類するのに役立つんだ。このアプローチは、画像内の各ピクセルを完全に注釈するよりも安価で速いんだ。WSSSは通常、クラス活性化マップ(CAM)などの技術に依存していて、これは特定のクラスに対応する画像の領域を強調するものなんだけど、CAMはしばしば物体の一部を見逃しがちで、主に目立つ特徴に焦点を当てちゃうんだよね。
最近のVision Transformer(ViT)というモデルの発展は、セグメンテーションプロセスの改善に期待が持てるんだ。ViTは従来の方法とは違って、画像全体とその部分がどのように関係しているかを見るんだ。利点がある一方で、ViTはオーバースムージングのような問題を引き起こすこともあって、モデルが画像の異なる部分間の違いをぼやかしちゃうことがあるんだよね。それで、どこで一つの物体が終わり、別の物体が始まるかを判別しにくくなっちゃう。
この問題に対処するために、トークンコントラスト(ToCo)という新しいアプローチが提案されたんだ。この方法は、オーバースムージングの問題に対処しつつ、ViTの強みを活かしてWSSSのパフォーマンスを向上させることを目指してるんだ。
WSSSの問題を理解する
WSSSは弱いラベルに依存しているから、情報が限られているんだ。一般的に、CAMのような手法が最初の擬似ラベルを生成するんだけど、これがしばしば不完全なんだよね。CAMはしばしば物体の目立つ領域しか活性化できず、目立たない部分を見逃しちゃう。この制限は、従来の畳み込みネットワーク(CNN)がローカルな特徴に焦点を当てるからなんだ。
ViTは自己注意機構を使って画像の異なる部分間の関係を考慮できるから、この問題を改善する可能性があるんだけど、ViTが出力する結果は滑らかすぎることがあって、正確なセグメンテーションマップを生成する能力に悪影響を及ぼすことがあるんだ。
これがWSSSにとっての課題を生み出していて、ViTのポテンシャルを活かしつつその欠点を避ける解決策が必要なんだ。
提案された解決策:トークンコントラスト
トークンコントラスト(ToCo)は、パッチトークンコントラスト(PTC)とクラストークンコントラスト(CTC)の二つの主要なコンポーネントから成り立ってる。
パッチトークンコントラスト(PTC)
PTCはViTのオーバースムージング問題に立ち向かうことを目指してる。このアイデアは、ViTの中間層がある程度の多様性を維持できるってことなんだ。この知識を使って、PTCはトークンの最終表現をより正確な方向に導く手助けをするんだ。
PTCでは、補助的な分類層を追加して、中間層の一つからより正確なCAMを導出するんだ。出力内のトークンペアを比較して、同じクラスに属する場合はその類似性を強化し、そうでない場合は対照を持たせることで、PTCは画像内の異なる物体領域の違いを際立たせることができるんだ。これによって、物体領域をより正確に表現したCAMを生成するのが助けられるんだ。
クラストークンコントラスト(CTC)
CTCはクラストークンに焦点を当てて、より高次のセマンティクスをキャッチすることでPTCを補完するんだ。CTCでは、不確実性のある領域からローカル画像を切り取って、ポジティブとネガティブな表現を作成するんだ。ポジティブ画像は不確実な領域から、ネガティブ画像は背景として特定された領域から来るんだ。
グローバルクラストークンとローカルトークン間の一貫した表現を確立することで、CTCはさまざまな物体をより明確に識別するために必要な違いを強化するんだ。この一貫性は、モデルがCAM内のより関連性の高い物体領域を活性化させるのを促すんだ。
効果的なWSSSのためのモジュールの組み合わせ
PTCとCTCを組み合わせることで、ToCoはWSSSに必要な高品質な擬似ラベルを生成できるんだ。このプロセスは、まずViTから補助的なCAMを生成し、それをPTCとCTCのフレームワーク内で使って最終的なCAMの質を精緻にするところから始まるんだ。
トレーニング戦略
トレーニングプロセスでは、ピクセル適応型精緻化モジュール(PAR)を通じて擬似ラベルを精緻化することが含まれてるんだ。これによって、モデルが実際の物体境界によりよく合わせることができるようになるんだ。このアプローチは、セグメンテーションデコーダがしっかりと精緻化されたラベルを受け取ることを確保し、精度の向上に貢献するんだよね。
実験の設定
ToCoをテストするために、PASCAL VOCやMS COCOなどの有名なデータセットで実験が行われたんだ。目標は、ToCoの性能を既存の単一ステージおよび多段階WSSS手法と比較することで、特に画像レベルのラベルを使用するのに焦点を当ててるんだ。
データセット
PASCAL VOCデータセットはセグメンテーションタスクによく使われるんだ。さまざまな物体クラスが含まれているから、セグメンテーション精度を包括的に評価できるんだよね。MS COCOデータセットは、より多くの物体インスタンスを含んでいて、モデルの堅牢性を判断するための貴重なリソースなんだ。
パフォーマンスの評価
ToCoの効果を評価するために、実験では生成された擬似ラベルの質とセグメンテーション結果の精度が測定されたんだ。ToCoが画像内の異なる物体クラスをどれだけ良く識別できるかに焦点を当ててる。
結果
パフォーマンス指標は、ToCoが他の単一ステージ手法を大幅に上回り、多段階アプローチとも競争できることを示したんだ。結果は、PTCとCTCを一緒に使うことで、より効果的なセグメンテーションプロセスが可能になり、平均交差共通領域(mIoU)スコアが高くなることを示してる。
モジュールの分析
PTCとCTCは、ToCoの全体的な成功に対する各自の貢献度を評価されたんだ。結果は、ベースラインモデルがオーバースムージングに苦しんでいた一方で、PTCの導入がこの問題に効果的に対処し、生成されたCAMの質に改善が見られることを示したんだ。
CTCも重要な役割を果たしていて、ローカルとグローバルな画像の表現間の一貫性を高めることで、CAM内の全体的な物体活性化が向上したんだ。
ハイパーパラメータの分析
実験では、背景しきい値、温度ファクター、ロスウェイトなど、さまざまなハイパーパラメータの調整が行われ、モデルの性能に影響を与えたんだ。この詳細な分析によって、最良の結果を得るためのアプローチの微調整が可能になったんだよ。
結論
トークンコントラスト(ToCo)の導入は、弱教師ありセマンティックセグメンテーションを強化する革新的な方法を提供するんだ。パッチトークンコントラスト(PTC)とクラストークンコントラスト(CTC)を効果的に組み合わせることで、ViTにおけるオーバースムージングの問題に対処しつつ、その能力を最大限に引き出してる。実験結果はこの方法の効果的な点を確認していて、今後の研究に向けた有望な方向を示唆してるんだ。
ToCoは、少ない注釈に頼りつつセグメンテーション精度を向上させるための有力な候補で、コンピュータビジョンにおけるより効率的で実用的なアプリケーションの道を開くんだ。
タイトル: Token Contrast for Weakly-Supervised Semantic Segmentation
概要: Weakly-Supervised Semantic Segmentation (WSSS) using image-level labels typically utilizes Class Activation Map (CAM) to generate the pseudo labels. Limited by the local structure perception of CNN, CAM usually cannot identify the integral object regions. Though the recent Vision Transformer (ViT) can remedy this flaw, we observe it also brings the over-smoothing issue, \ie, the final patch tokens incline to be uniform. In this work, we propose Token Contrast (ToCo) to address this issue and further explore the virtue of ViT for WSSS. Firstly, motivated by the observation that intermediate layers in ViT can still retain semantic diversity, we designed a Patch Token Contrast module (PTC). PTC supervises the final patch tokens with the pseudo token relations derived from intermediate layers, allowing them to align the semantic regions and thus yield more accurate CAM. Secondly, to further differentiate the low-confidence regions in CAM, we devised a Class Token Contrast module (CTC) inspired by the fact that class tokens in ViT can capture high-level semantics. CTC facilitates the representation consistency between uncertain local regions and global objects by contrasting their class tokens. Experiments on the PASCAL VOC and MS COCO datasets show the proposed ToCo can remarkably surpass other single-stage competitors and achieve comparable performance with state-of-the-art multi-stage methods. Code is available at https://github.com/rulixiang/ToCo.
著者: Lixiang Ru, Heliang Zheng, Yibing Zhan, Bo Du
最終更新: 2023-03-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.01267
ソースPDF: https://arxiv.org/pdf/2303.01267
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。