Améliorer la segmentation sémantique faiblement supervisée avec CoSA
Une nouvelle méthode améliore la précision de la segmentation en utilisant des cartes d'activation de classe.
― 7 min lire
Table des matières
La Segmentation sémantique faiblement supervisée (WSSS) c'est une méthode qui sert à identifier et segmenter des objets dans des images sans avoir besoin de labels détaillés au niveau des pixels. À la place, ça utilise des formes de labels plus simples, comme des labels de classe qui indiquent juste quels objets sont présents dans une image. Cette approche réduit vachement le temps et l'effort nécessaires pour annoter des images.
Un moyen courant de générer des labels pour la segmentation, c'est les Cartes d'activation de classe (CAMs). Ces cartes montrent quelles parties d'une image sont les plus importantes pour reconnaître un objet. Mais parfois, les CAMs peuvent être incohérentes ou inexactes. Ça peut causer des soucis lors de l'entraînement des modèles de segmentation, car les cartes ne montrent pas toujours correctement les emplacements réels des objets.
Dans cet article, on te présente une nouvelle méthode appelée Co-training with Swapping Assignments (CoSA). Cette approche vise à améliorer la qualité des CAMs et rendre le processus de segmentation plus précis. CoSA permet l'entraînement simultané des modèles de segmentation et des CAMs, réduisant le besoin d'étapes de raffinement supplémentaires qui peuvent compliquer le processus d'entraînement.
Le Problème avec les Approches Actuelles
Beaucoup de méthodes existantes pour WSSS reposent sur plusieurs étapes : générer des CAMs, les raffiner, et entraîner le modèle de segmentation en utilisant ces cartes. Ce processus peut être lent et peut ne pas bien fonctionner dans toutes les situations parce qu'il nécessite souvent d'ajuster différents modèles à différentes étapes.
Les modèles à une seule étape, qui tentent de combiner toutes ces étapes en une, sont plus rapides mais en général, ils performent moins bien parce qu'ils ne peuvent pas optimiser les CAMs efficacement pendant l'entraînement. En conséquence, ces modèles nécessitent souvent des étapes de post-traitement supplémentaires pour améliorer la qualité des CAMs.
Les problèmes avec les CAMs incluent :
Activation Incohérente : Les CAMs peuvent varier en qualité selon les changements de l'image d'entrée, entraînant des représentations incohérentes du même objet.
Activation Inexacte : Les CAMs peuvent couvrir seulement certaines parties d'un objet, manquant des informations importantes ou incluant des zones de fond non pertinentes.
Ces problèmes expliquent pourquoi beaucoup de chercheurs se concentrent sur le raffinement des CAMs après leur création, mais cette étape supplémentaire peut limiter la flexibilité et la rapidité.
L'Approche CoSA
CoSA offre une nouvelle perspective sur ces défis en permettant aux CAMs d'être optimisées en temps réel pendant l'entraînement. Plutôt que d'avoir besoin de raffiner les CAMs séparément, CoSA intègre directement le processus de génération et d'utilisation des CAMs pour la segmentation dans un cadre cohérent.
CoSA est construit sur un modèle à deux flux composé de deux réseaux : le réseau d'affectation (AN) et le réseau en ligne (ON). Ces deux réseaux travaillent ensemble en échangeant des pseudo-labels. Le réseau d'affectation produit des pseudo-labels de CAM (CPL) et des pseudo-labels de segmentation (SPL). À leur tour, ces labels guident l'entraînement du réseau en ligne.
Innovations Clés
CAMs Guidés : CoSA inclut un mécanisme pour guider les CAMs pendant l'entraînement, leur permettant d'évoluer selon les Prédictions de segmentation. Ça donne des CAMs plus précises et cohérentes sans avoir besoin d'un processus de raffinement séparé.
Échange d'Affectations : L'utilisation de SPL et CPL permet aux deux réseaux de renforcer l'apprentissage l'un de l'autre. Les CAMs améliorent les prédictions de segmentation, tandis que les prédictions de segmentation améliorent la qualité des CAMs.
Pondération Adaptive : Cette technique ajuste l'importance des différents segments dans le processus d'entraînement selon leur fiabilité, estimée à l'aide d'une mesure d'incertitude. Cet ajustement dynamique améliore la performance globale de la segmentation.
Seuil Dynamique : Au lieu d'utiliser un seuil fixe pour séparer différentes régions dans une image, CoSA ajuste les seuils pendant l'entraînement pour mieux s'adapter aux prédictions évolutives du modèle.
Séparation Contrastive : Cette approche traite le problème de coexistence, où des objets similaires sont incorrectement fusionnés. En se concentrant sur des détails de bas niveau, CoSA peut différencier plus efficacement les classes qui se chevauchent.
Résultats Expérimentaux
CoSA a été testé sur des ensembles de données largement utilisés, y compris PASCAL VOC et MS-COCO, connus pour leur complexité et leur variété de classes d'objets. Les résultats montrent que CoSA surpasse les précédentes méthodes à une seule étape, atteignant une précision plus élevée dans la segmentation des objets dans les images.
Sur l'ensemble de données PASCAL VOC, CoSA a obtenu un score moyen d'Intersection over Union (mIoU) de 76,2 %, surpassant de loin le meilleur modèle existant à une seule étape. Sur COCO, il a également montré une amélioration marquée par rapport à d'autres méthodes, indiquant son efficacité à travers différents ensembles de données et tâches.
Impact des Composants
Les différents éléments de CoSA ont été examinés en détail pour comprendre leur contribution à la performance. Chaque composant, y compris les CAMs guidés, les échanges d'affectations, la Pondération Adaptative et le seuil dynamique, a été trouvé bénéfique pour les résultats. Notamment, la suppression d'un seul composant a conduit à une baisse de performance, soulignant l'importance de l'approche intégrée.
Visualisations et Comparaisons Qualitatives
Les évaluations visuelles des résultats ont montré que CoSA produit des segmentations plus claires. Comparé à d'autres méthodes à la pointe, CoSA a démontré une meilleure séparation entre les objets et les fonds. Il a géré efficacement les interactions entre les classes, ce qui est souvent un défi pour beaucoup de techniques existantes.
Par exemple, lors de la segmentation d'une personne tenant un objet, CoSA a réussi à segmenter à la fois la personne et l'objet distinctement, tandis que les méthodes traditionnelles avaient tendance à les fusionner en un seul segment. Cette capacité était particulièrement évidente dans des scènes complexes avec des objets qui se chevauchent ou une occlusion significative.
Conclusion
CoSA représente une avancée significative dans le domaine de la segmentation sémantique faiblement supervisée. En combinant les tâches de classification d'image et de segmentation dans un cadre unifié, ça atténue le besoin d'un raffinement extensif des CAMs. Les améliorations possibles grâce aux CAMs guidés, au seuil dynamique et à la pondération adaptative permettent des prédictions plus fiables dans la tâche de segmentation.
L'efficacité et l'efficacité de la méthode suggèrent qu'elle pourrait être applicable à diverses tâches en vision par ordinateur au-delà de la segmentation sémantique. Une exploration plus poussée de ces idées pourrait mener à des innovations plus larges dans le domaine, améliorant la façon dont les machines interprètent et segmentent les informations visuelles dans les images.
Titre: Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation
Résumé: Class activation maps (CAMs) are commonly employed in weakly supervised semantic segmentation (WSSS) to produce pseudo-labels. Due to incomplete or excessive class activation, existing studies often resort to offline CAM refinement, introducing additional stages or proposing offline modules. This can cause optimization difficulties for single-stage methods and limit generalizability. In this study, we aim to reduce the observed CAM inconsistency and error to mitigate reliance on refinement processes. We propose an end-to-end WSSS model incorporating guided CAMs, wherein our segmentation model is trained while concurrently optimizing CAMs online. Our method, Co-training with Swapping Assignments (CoSA), leverages a dual-stream framework, where one sub-network learns from the swapped assignments generated by the other. We introduce three techniques: i) soft perplexity-based regularization to penalize uncertain regions; ii) a threshold-searching approach to dynamically revise the confidence threshold; and iii) contrastive separation to address the coexistence problem. CoSA demonstrates exceptional performance, achieving mIoU of 76.2\% and 51.0\% on VOC and COCO validation datasets, respectively, surpassing existing baselines by a substantial margin. Notably, CoSA is the first single-stage approach to outperform all existing multi-stage methods including those with additional supervision. Code is avilable at \url{https://github.com/youshyee/CoSA}.
Auteurs: Xinyu Yang, Hossein Rahmani, Sue Black, Bryan M. Williams
Dernière mise à jour: 2024-07-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.17891
Source PDF: https://arxiv.org/pdf/2402.17891
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://ctan.org/pkg/pifont
- https://host.robots.ox.ac.uk:8080/anonymous/UEMZQP.html
- https://host.robots.ox.ac.uk:8080/anonymous/BWWBSW.html
- https://host.robots.ox.ac.uk:8080/anonymous/LGFR47.html
- https://host.robots.ox.ac.uk:8080/anonymous/GOZOHI.html
- https://host.robots.ox.ac.uk:8080/anonymous/4SW3UJ.html