Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancer la segmentation sémantique avec une supervision faible

Une nouvelle méthode améliore la segmentation avec des annotations minimales pour des classes non vues.

― 6 min lire


Percée en segmentationPercée en segmentationsémantiquesupervisées.tâches de segmentation faiblementLe nouveau modèle excelle dans les
Table des matières

La segmentation sémantique, c'est un domaine de la vision par ordinateur qui vise à catégoriser chaque pixel d'une image en classes spécifiques. Avec les avancées en apprentissage profond, plein de méthodes ont été développées pour améliorer les performances dans ce domaine. Traditioonnellement, ces méthodes demandent beaucoup d'annotations de pixels détaillées, ce qui peut coûter cher et prendre du temps à obtenir. En revanche, les humains peuvent reconnaître et identifier de nouveaux objets sans jamais les avoir vus avant, ce qui représente un défi pour les modèles artificiels.

La nouvelle approche se concentre sur la Segmentation sémantique à vocabulaire ouvert (OVSS), où l'objectif est de segmenter des objets que le modèle n'a pas appris, en utilisant moins d'annotations. C'est un peu comme les méthodes de segmentation zero-shot et few-shot, qui visent à ce que le modèle fonctionne avec peu ou pas de données d'entraînement pour de nouvelles classes. Cet article introduit un cadre unifié qui permet la segmentation sémantique en utilisant une Supervision faible, qui nécessite seulement des étiquettes d'image de base au lieu d'annotations détaillées de pixels.

Le défi de la segmentation traditionnelle

Les méthodes de segmentation sémantique traditionnelles dépendent énormément d'étiquettes de pixels détaillées. Collecter ces étiquettes pour chaque catégorie est souvent impraticable. Du coup, il y a un intérêt croissant à trouver des moyens pour que les modèles puissent généraliser leurs connaissances des classes vues aux classes non vues. Les modèles doivent être capables de bien performer sur de nouvelles classes avec peu ou pas de données d'entraînement.

Segmentation sémantique à vocabulaire ouvert

La segmentation sémantique à vocabulaire ouvert (OVSS) vise à répondre au besoin de méthodes d'annotation plus efficaces. Ce concept se concentre sur la segmentation d'objets arbitraires qui ne sont pas nécessairement présents dans les données d'entraînement. Ça inclut des tâches comme la segmentation zero-shot (ZSS) et la segmentation few-shot (FSS). La ZSS attend du modèle qu'il reconnaisse des classes nouvelles après avoir été entraîné sur un ensemble de classes connues, tandis que la FSS permet d'avoir quelques exemples des nouvelles classes pendant l'entraînement.

Supervision faible en segmentation

Les méthodes de segmentation faiblement supervisées tentent de soulager la tâche d'obtenir des annotations détaillées. Au lieu d'étiquettes de pixels, ces méthodes utilisent des étiquettes plus simples comme des tags d'image, des boîtes englobantes ou des griffonnages. L'idée est de fournir au modèle suffisamment d'infos pour apprendre des caractéristiques utiles sans nécessiter d'annotations extensives.

Cet article propose une nouvelle méthode de segmentation sémantique faiblement supervisée qui est plus efficace et pratique. En utilisant des étiquettes au niveau de l'image pour les classes vues et non vues, le modèle peut mieux généraliser et performer efficacement sur de nouvelles classes.

La méthode proposée

L'approche proposée s'appelle le Réseau de Segmentation Guidé par le Langage Faiblement Supervisé (WLSegNet). Ce réseau a plusieurs composants clés :

  1. Apprentissage de contexte : WLSegNet apprend des vecteurs de contexte qui aident à mapper les invites de classe aux caractéristiques de l'image. Ces vecteurs de contexte sont conçus pour éviter le surapprentissage sur les classes vues et améliorer les performances sur les classes non vues.

  2. Dissociation des tâches : La méthode sépare les tâches de segmentation faiblement supervisée et de segmentation zero-shot. Ça permet au modèle d'apprendre à partir des classes vues tout en étant capable de généraliser aux classes non vues.

  3. Apprentissage d'invite efficace : La méthode intègre une stratégie d'apprentissage d'invite consciente de l'instance moyenne, qui génère des invites capables de s'adapter à de nouvelles classes et de réduire le temps de calcul.

  4. Pas de réglage fin nécessaire : WLSegNet peut fonctionner sans réglage fin ou sans avoir besoin de jeux de données externes, ce qui le rend évolutif et plus accessible pour un usage pratique.

Configuration expérimentale

La méthode a été testée sur des ensembles de données couramment utilisés comme PASCAL VOC et MS COCO. Les expériences ont impliqué une évaluation des performances du modèle à l'aide de divers indicateurs couramment utilisés dans le domaine.

Ensembles de données

  • PASCAL VOC : Cet ensemble de données se compose d'images étiquetées contenant une variété de classes. Pour les expériences, certaines classes ont été utilisées pour l'entraînement tandis que d'autres ont été mises de côté pour les tests.

  • MS COCO : Semblable à PASCAL VOC, cet ensemble de données inclut un grand nombre d'images avec des annotations à travers plusieurs classes.

Indicateurs d'évaluation

Les performances de WLSegNet ont été comparées à celles des méthodes existantes grâce à plusieurs indicateurs d'évaluation. Ces indicateurs aident à quantifier à quel point le modèle performe dans l'identification et la segmentation des nouvelles classes.

Résultats des expériences

Les résultats ont montré que WLSegNet surpassait largement les méthodes faiblement supervisées existantes. Il a atteint une grande précision tant dans les réglages zero-shot que few-shot.

Segmentation Zero-Shot

Dans les réglages zero-shot, le modèle a pu segmenter des images en classes vues et non vues. L'évaluation a montré que WLSegNet pouvait identifier efficacement des classes nouvelles sans avoir été explicitement entraîné dessus.

Segmentation Few-Shot

Pour les tâches de segmentation few-shot, WLSegNet a très bien performé, même avec seulement quelques exemples des nouvelles classes. Il a également montré des améliorations significatives par rapport aux autres méthodes de référence.

Performance inter-ensembles de données

WLSegNet a aussi été testé sur différents ensembles de données et a maintenu une performance compétitive. Ça montre la capacité du modèle à s'adapter à différents ensembles de données, ce qui le rend polyvalent.

Analyse qualitative

Une inspection visuelle des masques segmentés a permis de voir comment la méthode performe en pratique. Les sorties de WLSegNet ont montré une segmentation claire et précise de divers objets, même dans des situations difficiles où d'autres méthodes peinaient.

Conclusion

En conclusion, le Réseau de Segmentation Guidé par le Langage Faiblement Supervisé (WLSegNet) propose une méthode précieuse pour la segmentation sémantique, surtout dans des contextes où les données étiquetées sont rares. La capacité de généraliser aux classes non vues tout en s'appuyant sur une supervision faible ouvre de nouvelles opportunités pour appliquer la segmentation sémantique dans des scénarios réels.

Ce travail ajoute non seulement à la connaissance dans le domaine mais sert aussi de base pour des recherches futures. En se concentrant sur des approches économes en données, l'objectif est de créer des modèles intelligents capables de bien performer sans le coût élevé des annotations extensives.

Source originale

Titre: A Language-Guided Benchmark for Weakly Supervised Open Vocabulary Semantic Segmentation

Résumé: Increasing attention is being diverted to data-efficient problem settings like Open Vocabulary Semantic Segmentation (OVSS) which deals with segmenting an arbitrary object that may or may not be seen during training. The closest standard problems related to OVSS are Zero-Shot and Few-Shot Segmentation (ZSS, FSS) and their Cross-dataset variants where zero to few annotations are needed to segment novel classes. The existing FSS and ZSS methods utilize fully supervised pixel-labelled seen classes to segment unseen classes. Pixel-level labels are hard to obtain, and using weak supervision in the form of inexpensive image-level labels is often more practical. To this end, we propose a novel unified weakly supervised OVSS pipeline that can perform ZSS, FSS and Cross-dataset segmentation on novel classes without using pixel-level labels for either the base (seen) or the novel (unseen) classes in an inductive setting. We propose Weakly-Supervised Language-Guided Segmentation Network (WLSegNet), a novel language-guided segmentation pipeline that i) learns generalizable context vectors with batch aggregates (mean) to map class prompts to image features using frozen CLIP (a vision-language model) and ii) decouples weak ZSS/FSS into weak semantic segmentation and Zero-Shot segmentation. The learned context vectors avoid overfitting on seen classes during training and transfer better to novel classes during testing. WLSegNet avoids fine-tuning and the use of external datasets during training. The proposed pipeline beats existing methods for weak generalized Zero-Shot and weak Few-Shot semantic segmentation by 39 and 3 mIOU points respectively on PASCAL VOC and weak Few-Shot semantic segmentation by 5 mIOU points on MS COCO. On a harder setting of 2-way 1-shot weak FSS, WLSegNet beats the baselines by 13 and 22 mIOU points on PASCAL VOC and MS COCO, respectively.

Auteurs: Prashant Pandey, Mustafa Chasmai, Monish Natarajan, Brejesh Lall

Dernière mise à jour: 2023-02-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.14163

Source PDF: https://arxiv.org/pdf/2302.14163

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires