自己出現トークンラベリングによる画像認識の改善
新しい方法がビジョントランスフォーマーの画像認識タスクでのパフォーマンスを向上させる。
― 1 分で読む
目次
最近、コンピュータービジョンモデルの新しいアプローチであるVision Transformers(ViTs)が注目を集めてる。これらのモデルは、画像認識に関するタスクで強力な性能を発揮してる。特に、Fully Attentional Network(FAN)というタイプのViTが、データ分布が変わるような難しいシナリオで優れた結果を出してる。この論文では、自己生成トークンラベリング(STL)という手法を導入してFANモデルを改善することに焦点を当ててる。
背景
Vision Transformers
Vision Transformersは、画像をパッチと呼ばれる小さなセクションに分解して分析するように設計されてる。各パッチは小さな画像のように扱われ、その内容を理解するためにラベルが付けられる。このラベリングプロセスは、モデルがより良く学ぶのを助け、画像内の異なるオブジェクトを認識するのをより効果的にしてる。
Fully Attentional Networks
FANは、特にトレーニングデータとは異なるデータに対して画像を認識するのに成功している特別なViTだ。このモデルは、入力画像のさまざまな特徴に注意を払うための高度な技術を使用しており、精度が向上する。
トークンラベリング
トークンラベリングは、画像全体のラベルだけでなく、画像のパッチにラベルを付ける技術。これにより、モデルは画像の特定の部分に関する情報を集めやすくなる。オブジェクトとその位置を特定するのに重要な役割を果たすんだ。
改善の必要性
FANモデルの性能は良いけど、成長の余地は常にある。この研究の主な目的は、他のモデルからの既存データに頼るのではなく、パッチ用の自己生成ラベルを使ってトレーニングプロセスを改善すること。これにより、画像認識に関するさまざまなタスクでより良いパフォーマンスが期待できる。
提案するアプローチ:自己生成トークンラベリング
我々の手法は、二段階のトレーニングプロセスを含む。最初のステップでは、画像のパッチにラベルを生成するラベラーモデルをトレーニングする。次のステップでは、これらのラベルと全体のクラスラベルを結合してメインモデルをトレーニングする。
ステップ1:トークンラベラーのトレーニング
最初のステップはFANトークンラベラーをトレーニングすること。ラベラーは、各パッチの内容を反映した意味のあるラベルを作成する責任がある。全体の画像ラベルに基づいてフィードバックを提供して、ラベラーがより良いトークンラベルを生成できるように監視する。
ステップ2:メインモデルのトレーニング
良質なラベルが得られたら、メインFANモデルのトレーニングに進む。このモデルは、パッチレベルのラベルと全体のクラスラベルを使って画像から学習する。ラベルの組み合わせがモデルのパフォーマンス向上に役立つ。
実験結果
アプローチを評価するために、有名なデータセットを使用して一連のテストを行った。画像分類、セマンティックセグメンテーション、オブジェクト検出などのタスクに焦点を当てた。STL手法を使ってトレーニングしたモデルは、従来の方法に比べて大幅な改善を示した。
画像分類
ImageNetなど、様々なデータセットでモデルをテストした。STL手法でトレーニングしたモデルは、画像レベルのラベルだけに依存したモデルよりもはるかに優れた成果を上げた。高い精度を達成し、分布外の例をより効果的に認識できた。
分布外の例に対する頑健性
我々のアプローチの興味深い点の一つは、その頑健性だ。STLでトレーニングしたモデルは、トレーニングデータに含まれない新しい例に直面した際にも強い能力を示した。この能力は、モデルがよく知らないデータに直面する現実のアプリケーションにとって重要だ。
他のタスクへの移転性
我々が行った改善は、画像分類だけでなく他のタスクにも役立った。例えば、セマンティックセグメンテーションに適用した際、ベースラインモデルに比べて結果が大幅に良化した。同様に、物体検出タスクでも良い結果を示し、STLのメリットは画像分類にとどまらないことが分かった。
詳細な分析
正確なトークンラベルの重要性
モデルの成功に寄与する重要な要素の一つはトークンラベルの正確さだ。各パッチが正確なラベルを持つことで、モデルは画像の詳細を学びやすくなり、全体的な性能が向上する。我々の実験では、より正確なラベルがモデルの分類能力に大きな影響を与えることを実感した。
データ拡張戦略
データ拡張は、現代の機械学習モデルのトレーニングにおいて重要な役割を果たす。トレーニング画像をさまざまな方法で変え、モデルを強化する。トークンラベラーのトレーニング中、我々は空間的データ拡張のみを使用し、ラベルの品質を保持しつつ、学生モデルが完全なデータ拡張を使用できるようにした。
ガンベルソフトマックスの役割
信頼性の高いトークンラベルを選択するために、ガンベルソフトマックスという技術を導入した。この方法により、モデルは高信頼のラベルに焦点を当て、低信頼のものを排除する。これにより、メインモデルが最良のラベルでトレーニングされることが確保され、再びパフォーマンス向上に貢献する。
異なるトークンラベラーの探求
実験では、異なるラベラーがパフォーマンスにどのように影響するかも検討した。さまざまな種類のトークンラベラーを使用することで柔軟性が得られ、より良い結果を得ることができることが分かった。小さなモデルも大きなラベラーから恩恵を受け、計算リソースの要求を少なくして効率的なトレーニングが可能になる。
可視化
モデルのパフォーマンスをよりよく理解するために、ラベラーが生成したトークンラベルを可視化した。これらの可視化は、ラベルが画像内のオブジェクトに適切に対応していることを示し、我々の手法が重要な特徴を捉えていることを確認した。
今後の方向性
我々の研究は有望な結果を示したが、まだ探求すべき領域はたくさんある。たとえば、モデルのパフォーマンスをさらに向上させる別のアーキテクチャや追加のデータタイプを調査することができる。また、我々のアプローチを他の機械学習戦略と組み合わせることで、さらに良い成果が得られるかもしれない。
結論
この研究は、自己生成トークンラベリングを用いてVision Transformersを改善する新しいアプローチを提案する。二段階のトレーニング手法がFANモデルのトレーニングを強化し、さまざまなタスクで優れた性能を実現する。頑健性と精度が向上した我々の手法は、コンピュータービジョン技術の進化に貴重な洞察を提供する。
タイトル: Fully Attentional Networks with Self-emerging Token Labeling
概要: Recent studies indicate that Vision Transformers (ViTs) are robust against out-of-distribution scenarios. In particular, the Fully Attentional Network (FAN) - a family of ViT backbones, has achieved state-of-the-art robustness. In this paper, we revisit the FAN models and improve their pre-training with a self-emerging token labeling (STL) framework. Our method contains a two-stage training framework. Specifically, we first train a FAN token labeler (FAN-TL) to generate semantically meaningful patch token labels, followed by a FAN student model training stage that uses both the token labels and the original class label. With the proposed STL framework, our best model based on FAN-L-Hybrid (77.3M parameters) achieves 84.8% Top-1 accuracy and 42.1% mCE on ImageNet-1K and ImageNet-C, and sets a new state-of-the-art for ImageNet-A (46.1%) and ImageNet-R (56.6%) without using extra data, outperforming the original FAN counterpart by significant margins. The proposed framework also demonstrates significantly enhanced performance on downstream tasks such as semantic segmentation, with up to 1.7% improvement in robustness over the counterpart model. Code is available at https://github.com/NVlabs/STL.
著者: Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez
最終更新: 2024-01-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2401.03844
ソースPDF: https://arxiv.org/pdf/2401.03844
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。