Avancées dans les techniques de segmentation sémantique à quelques exemples
Une nouvelle approche améliore la segmentation avec un minimum de données.
― 6 min lire
Table des matières
Dans le domaine de la vision par ordinateur, surtout en segmentation sémantique, il y a une demande croissante pour reconnaître et classifier des images avec très peu d'exemples étiquetés. C'est important car obtenir des données étiquetées peut prendre beaucoup de temps et coûter cher. La segmentation sémantique en few-shot est une méthode qui essaie de résoudre ce problème en permettant aux modèles d'apprendre à partir de juste quelques images annotées. Cependant, les approches traditionnelles rencontrent des défis lorsqu'il s'agit de reconnaître à la fois des classes familières et peu familières en même temps, surtout dans un cadre généralisé.
Le défi de la segmentation sémantique few-shot généralisée
La segmentation sémantique few-shot généralisée (GFSS) représente une avancée par rapport aux méthodes précédentes en permettant la segmentation à la fois des classes connues et inconnues lors de l'évaluation. Alors que les approches antérieures s'appuyaient souvent sur des composants supplémentaires pour affiner leur concentration, elles avaient toujours du mal avec la division de représentation et le biais d'embedding. Cela signifie qu'elles pouvaient apprendre des classes connues, mais leur capacité à se généraliser aux classes inconnues était limitée.
Les problèmes principaux sont doubles : la séparation entre les représentations des classes connues et inconnues et une tendance à classer incorrectement de nouveaux cibles comme arrière-plan à cause des notions préconçues apprises des classes connues. Résoudre ces problèmes est crucial pour l'efficacité des modèles de segmentation en few-shot.
Solution proposée
Pour relever ces défis, une combinaison de deux stratégies - l'apprentissage par noyau prototypique et la perception ouverte de premier plan - a été développée.
Apprentissage par noyau prototypique
Cette approche implique de créer un ensemble de noyaux apprenables, qui gèrent les tâches de segmentation séparément pour chaque classe. En mettant à jour ces noyaux en fonction des caractéristiques extraites des images d'entrée, le modèle peut maintenir une représentation cohérente des classes connues tout en apprenant à partir de très peu d'exemples de classes inconnues. Chaque noyau est adapté pour mieux refléter les caractéristiques des échantillons qu'il traite, améliorant sa capacité à se généraliser.
Perception ouverte de premier plan
Complétant l'apprentissage par noyau, la perception ouverte de premier plan permet au modèle d'identifier les éléments de premier plan dans une image sans être limité à des classes spécifiques. Cela donne la capacité de détecter de nouveaux objets qui n'étaient pas dans l'ensemble d'entraînement, réduisant les chances de classer incorrectement de nouvelles cibles comme arrière-plan.
Cadre d'entraînement
Le cadre d'entraînement se compose de trois composants principaux :
Apprentissage par noyau prototypique (PKL) : Ce composant se concentre sur le raffinement des noyaux responsables de la segmentation. Il traite les images d'entrée et ajuste les noyaux en fonction de ce qu'il apprend, s'assurant qu'ils restent efficaces tant pour les classes connues qu'inconnues.
Perception contextuelle de premier plan (FCP) : Ce module est responsable de l'apprentissage du contexte dans les images qui aide à identifier les éléments de premier plan, ce qui est essentiel pour détecter de nouvelles classes.
Inférence basée sur le biais conditionnel (CBBI) : Ce composant regroupe les résultats des deux modules précédents pour faire des prédictions de segmentation finales. Essentiellement, il intègre les informations apprises pour améliorer la prise de décision lors de la classification des pixels dans une image.
Le processus d'apprentissage
Pendant l'entraînement, le modèle apprend à mettre à jour ses noyaux en fonction des caractéristiques des images d'entrée. Au fur et à mesure qu'il traite plus d'images, il devient meilleur pour segmenter les classes connues tout en apprenant à reconnaître les caractéristiques indicatives des classes inconnues. Cette double capacité est cruciale pour une segmentation efficace dans des scénarios réels, où de nouveaux objets apparaissent fréquemment.
Le modèle utilise également un lot d'images pendant l'entraînement pour simuler diverses situations. En mélangeant des échantillons de différentes classes, il apprend à mieux se généraliser à travers des situations diverses.
Évaluation des résultats
Les méthodes proposées ont été évaluées en utilisant des ensembles de données bien connus. En testant le modèle sur des images avec à la fois des classes familières et inconnues, il a été observé que l'approche intégrée a obtenu de meilleurs résultats par rapport aux méthodes antérieures. Les améliorations ne se limitaient pas à la segmentation des classes connues ; le modèle a également démontré une capacité significative à identifier de nouvelles classes.
Comparaison avec les méthodes existantes
Lorsqu'on le compare avec d'autres méthodes à la pointe de la technologie, l'approche proposée a systématiquement surpassé les autres à travers divers indicateurs. Elle a non seulement excellé dans l'identification des classes connues, mais a également montré une amélioration marquée dans la reconnaissance des classes nouvelles, ce qui est un aspect crucial de l'apprentissage few-shot généralisé.
Conclusion
En résumé, les avancées dans la segmentation sémantique few-shot généralisée promettent une performance améliorée dans les tâches de vision par ordinateur. En combinant l'apprentissage par noyau prototypique avec la perception ouverte de premier plan, le modèle peut efficacement séparer et généraliser entre les classes connues et inconnues. Cela mène à un système plus robuste capable de gérer les complexités des applications réelles où les données sont limitées.
À une époque où les modèles d'apprentissage automatique doivent s'adapter rapidement et efficacement, les techniques discutées offrent des outils précieux pour élargir les capacités des modèles de segmentation. La recherche continue et le raffinement dans ce domaine continueront d'améliorer la précision et l'applicabilité de la segmentation sémantique, la rendant plus efficace pour une large gamme de tâches dans divers domaines.
Titre: Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation
Résumé: Generalized Few-shot Semantic Segmentation (GFSS) extends Few-shot Semantic Segmentation (FSS) to simultaneously segment unseen classes and seen classes during evaluation. Previous works leverage additional branch or prototypical aggregation to eliminate the constrained setting of FSS. However, representation division and embedding prejudice, which heavily results in poor performance of GFSS, have not been synthetical considered. We address the aforementioned problems by jointing the prototypical kernel learning and open-set foreground perception. Specifically, a group of learnable kernels is proposed to perform segmentation with each kernel in charge of a stuff class. Then, we explore to merge the prototypical learning to the update of base-class kernels, which is consistent with the prototype knowledge aggregation of few-shot novel classes. In addition, a foreground contextual perception module cooperating with conditional bias based inference is adopted to perform class-agnostic as well as open-set foreground detection, thus to mitigate the embedding prejudice and prevent novel targets from being misclassified as background. Moreover, we also adjust our method to the Class Incremental Few-shot Semantic Segmentation (CIFSS) which takes the knowledge of novel classes in a incremental stream. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method performs better than previous state-of-the-art.
Auteurs: Kai Huang, Feigege Wang, Ye Xi, Yutao Gao
Dernière mise à jour: 2023-08-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.04952
Source PDF: https://arxiv.org/pdf/2308.04952
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.