Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la segmentation sémantique faiblement supervisée avec le contraste des tokens

Une nouvelle méthode améliore la segmentation en utilisant un minimum d'étiquettes, répondant à des problèmes clés dans le WSSS.

― 7 min lire


Le contraste des tokensLe contraste des tokensrenforce la segmentation.supervisée.précision de la segmentation faiblementUne nouvelle méthode améliore la
Table des matières

La Segmentation sémantique faiblement supervisée (WSSS) est une méthode en vision par ordinateur qui aide les machines à identifier et classer des objets dans des images en utilisant un minimum d'infos, comme juste étiqueter l'image entière au lieu de chaque partie. Cette approche est moins coûteuse et plus rapide que d'annoter chaque pixel d'une image. WSSS s'appuie souvent sur des techniques comme la carte d'activation de classe (CAM), qui met en avant les zones d'une image correspondant à certaines classes. Cependant, la CAM rate souvent des parties d'objets parce qu'elle se concentre principalement sur les caractéristiques les plus visibles.

Des développements récents dans un modèle appelé Vision Transformer (ViT) montrent de bonnes promesses pour améliorer le processus de segmentation. ViT fonctionne différemment des méthodes traditionnelles en regardant l'image entière et comment ses parties se relient. Malgré ses avantages, ViT peut aussi créer des problèmes, comme le sur-lissage, où le modèle floute essentiellement les distinctions entre les différentes parties d'une image, rendant plus difficile de voir où un objet finit et un autre commence.

Pour régler ces soucis, une nouvelle approche appelée Token Contrast (ToCo) est introduite. Cette méthode vise à améliorer la performance de WSSS en s'attaquant au problème de sur-lissage tout en tirant parti des forces de ViT.

Comprendre les problèmes dans WSSS

WSSS s'appuie sur des étiquettes faibles, ce qui veut dire que l'info est limitée. En général, des méthodes comme la CAM génèrent les premières étiquettes pseudo, mais elles sont souvent défaillantes. La CAM peut fréquemment n'activer que les régions les plus proéminentes d'un objet, laissant de côté des parties moins visibles. Cette limitation vient surtout du fait que les réseaux de neurones convolutifs (CNN) traditionnels se concentrent sur des caractéristiques locales plutôt que sur l'image entière.

ViT, qui utilise l'auto-attention pour considérer les relations entre les différentes parties d'une image, a le potentiel d'améliorer cette problématique. Cependant, ViT génère des sorties qui peuvent devenir trop uniformes à cause de ses propriétés de lissage, ce qui peut nuire à la capacité de générer des cartes de segmentation précises.

Cela crée un défi pour WSSS qui nécessite une solution utilisant le potentiel de ViT tout en évitant ses inconvénients.

La solution proposée : Token Contrast

Token Contrast (ToCo) implique deux composants principaux : Patch Token Contrast (PTC) et Class Token Contrast (CTC).

Patch Token Contrast (PTC)

PTC vise à combattre le problème de sur-lissage de ViT. L'idée derrière ça, c'est que les couches intermédiaires dans le ViT peuvent maintenir un certain niveau de diversité. En utilisant cette connaissance, PTC peut aider à orienter la représentation finale des tokens dans une direction plus précise.

Dans PTC, une couche de classification auxiliaire est ajoutée pour dériver une CAM plus précise à partir d'une des couches intermédiaires. En comparant les paires de tokens dans la sortie et en renforçant leur similarité quand ils appartiennent à la même classe tout en les contrastant quand ce n'est pas le cas, PTC peut affiner les distinctions entre les différentes zones d'objet dans l'image. Cela aide à améliorer la sortie finale en créant une CAM qui représente plus précisément les régions d'objets.

Class Token Contrast (CTC)

CTC complète PTC en se concentrant sur les tokens de classe, qui capturent des sémantiques de niveau supérieur. Dans CTC, des images locales sont découpées à partir de régions qui contiennent des incertitudes sur les objets présents. Des représentations positives et négatives sont créées basées sur ces images locales, où les images positives viennent des régions incertaines et les négatives viennent des zones identifiées comme arrière-plan.

En établissant une représentation cohérente entre les tokens de classe globaux et les tokens locaux, CTC renforce aussi les distinctions nécessaires pour identifier plus clairement divers objets. Cette cohérence encourage le modèle à activer des zones d'objet plus pertinentes dans la CAM.

Combinaison des modules pour un WSSS efficace

En combinant PTC et CTC, ToCo peut produire des pseudo étiquettes de haute qualité nécessaires pour WSSS. Le processus commence par la génération de CAMs auxiliaires à partir du ViT, puis en les utilisant dans les cadres PTC et CTC pour affiner la qualité de la CAM finale.

Stratégie d'entraînement

Le processus d'entraînement implique le perfectionnement des pseudo étiquettes via un module de raffinement adaptatif par pixel (PAR). Cela permet au modèle de mieux s'aligner avec les véritables frontières des objets. Cette approche garantit que le décodeur de segmentation reçoit des étiquettes bien raffinées sur lesquelles s'entraîner, contribuant à une précision améliorée.

Configuration expérimentale

Pour tester ToCo, des expériences ont été menées sur des ensembles de données connus comme PASCAL VOC et MS COCO. L'objectif était de comparer la performance de ToCo par rapport aux méthodes WSSS à une seule étape et à plusieurs étapes existantes, en se concentrant spécifiquement sur l'utilisation d'étiquettes au niveau de l'image.

Ensembles de données

L'ensemble de données PASCAL VOC est couramment utilisé dans les tâches de segmentation. Il comprend une variété de classes d'objets, ce qui permet une évaluation complète de la précision de segmentation. L'ensemble de données MS COCO ajoute de la complexité avec son plus grand nombre d'instances d'objets, ce qui en fait une ressource précieuse pour juger de la robustesse du modèle.

Évaluation de la performance

Pour évaluer l'efficacité de ToCo, les expériences ont mesuré la qualité des pseudo étiquettes générées et l'exactitude des résultats de segmentation. L'accent était mis sur la capacité de ToCo à identifier les différentes classes d'objets dans les images.

Résultats

Les métriques de performance ont montré que ToCo a significativement surpassé d'autres méthodes à une étape et était compétitive avec des approches à plusieurs étapes. Les résultats indiquent que l'utilisation combinée de PTC et CTC permettait un processus de segmentation plus efficace, aboutissant à des scores d'intersection sur union moyenne (mIoU) plus élevés.

Analyse des modules

PTC et CTC ont tous deux été évalués pour leurs contributions individuelles au succès global de ToCo. Les résultats ont montré que, tandis que le modèle de base avait du mal avec le sur-lissage, l'introduction de PTC a efficacement résolu ce problème, menant à des améliorations observables de la qualité de la CAM générée.

CTC a également joué un rôle crucial en améliorant la cohérence entre les représentations des images locales et globales, ce qui a ensuite amélioré l'activation globale des objets dans la CAM.

Analyse des hyperparamètres

Les expériences ont inclus des ajustements à divers hyperparamètres, tels que les seuils d'arrière-plan, les facteurs de température et les poids de perte, qui ont influencé la performance du modèle. Cette analyse détaillée a permis de peaufiner l'approche pour obtenir les meilleurs résultats possibles.

Conclusion

L'introduction de Token Contrast (ToCo) présente une manière innovante d'améliorer la segmentation sémantique faiblement supervisée. En combinant efficacement Patch Token Contrast (PTC) et Class Token Contrast (CTC), elle s'attaque au problème de sur-lissage dans les ViTs tout en maximisant leurs capacités. Les résultats expérimentaux confirment l'efficacité de la méthode, suggérant une direction prometteuse pour la recherche future dans le domaine.

ToCo se présente comme un solide candidat pour améliorer la précision de segmentation tout en s'appuyant sur moins d'annotations, ouvrant la voie à des applications plus efficaces et pratiques en vision par ordinateur.

Source originale

Titre: Token Contrast for Weakly-Supervised Semantic Segmentation

Résumé: Weakly-Supervised Semantic Segmentation (WSSS) using image-level labels typically utilizes Class Activation Map (CAM) to generate the pseudo labels. Limited by the local structure perception of CNN, CAM usually cannot identify the integral object regions. Though the recent Vision Transformer (ViT) can remedy this flaw, we observe it also brings the over-smoothing issue, \ie, the final patch tokens incline to be uniform. In this work, we propose Token Contrast (ToCo) to address this issue and further explore the virtue of ViT for WSSS. Firstly, motivated by the observation that intermediate layers in ViT can still retain semantic diversity, we designed a Patch Token Contrast module (PTC). PTC supervises the final patch tokens with the pseudo token relations derived from intermediate layers, allowing them to align the semantic regions and thus yield more accurate CAM. Secondly, to further differentiate the low-confidence regions in CAM, we devised a Class Token Contrast module (CTC) inspired by the fact that class tokens in ViT can capture high-level semantics. CTC facilitates the representation consistency between uncertain local regions and global objects by contrasting their class tokens. Experiments on the PASCAL VOC and MS COCO datasets show the proposed ToCo can remarkably surpass other single-stage competitors and achieve comparable performance with state-of-the-art multi-stage methods. Code is available at https://github.com/rulixiang/ToCo.

Auteurs: Lixiang Ru, Heliang Zheng, Yibing Zhan, Bo Du

Dernière mise à jour: 2023-03-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.01267

Source PDF: https://arxiv.org/pdf/2303.01267

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires