Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Faire avancer l'adaptation de domaine open-set dans la segmentation sémantique

Une nouvelle approche améliore les performances de segmentation pour les classes connues et inconnues.

― 8 min lire


Améliorer la détectionAméliorer la détectiondes classes inconnueset inconnues.segmentation pour les classes connuesUne nouvelle méthode améliore la
Table des matières

Ces dernières années, le domaine de la vision par ordinateur a attiré beaucoup d'attention et s'est beaucoup développé, surtout pour des tâches comme la Segmentation sémantique. La segmentation sémantique consiste à classifier chaque pixel d'une image en différentes catégories, ce qui permet de comprendre la scène en détail. Cette technologie a plein d'applications, de la conduite autonome à la réalité augmentée. Mais souvent, ça demande beaucoup de données étiquetées, ce qui peut être cher et long à rassembler.

Pour faire face aux défis d'obtention de données étiquetées, les chercheurs se sont concentrés sur l'Adaptation de domaine non supervisée (UDA). L'UDA cherche à améliorer la performance d'un modèle sur un dataset cible non étiqueté en utilisant les connaissances d'un dataset source étiqueté. Les méthodes UDA traditionnelles supposent que les datasets source et cible partagent les mêmes catégories. Cependant, dans la réalité, cette supposition ne tient souvent pas, car de nouvelles catégories jamais vues peuvent apparaître dans le dataset cible.

Ça nous amène au concept d'adaptation de domaine en ensemble ouvert, où le but est d'adapter le modèle non seulement aux classes familières mais aussi d'identifier correctement les classes inconnues. Dans ce contexte, on essaie de proposer une nouvelle méthode qui détecte efficacement ces classes inconnues et prédit avec précision les classes connues.

Adaptation de Domaine en Ensemble Ouvert pour la Segmentation Sémantique

Le nouveau domaine de focus s'appelle Adaptation de Domaine en Ensemble Ouvert pour la Segmentation Sémantique (OSDA-SS). Dans l'OSDA-SS, on travaille avec un dataset source ayant des classes étiquetées et un dataset cible avec des classes connues et inconnues. Le principal défi réside dans la prédiction précise des frontières et des formes de ces classes inconnues, car les méthodes traditionnelles peinent souvent avec cette tâche.

On a identifié deux défis majeurs dans le cadre de l'OSDA-SS : d'abord, les méthodes UDA existantes échouent souvent à prédire avec précision les frontières des classes inconnues ; deuxièmement, elles ont tendance à avoir du mal à estimer correctement la forme de ces classes inconnues.

Pour relever ces défis, on introduit une stratégie qui se concentre à la fois sur la détection des frontières et la prise en compte des formes. Notre approche, appelée Boundary and Unknown Shape-Aware (BUS), inclut des techniques nouvelles pour identifier les frontières des classes connues et inconnues et améliorer la détection de la forme des classes inconnues.

Détection des Frontières

Un des aspects clés de notre méthode proposée est sa capacité à discerner les frontières. La détection précise des frontières est cruciale pour une segmentation efficace. On utilise des opérations morphologiques comme la dilatation et l'érosion pour améliorer les capacités du modèle dans ce domaine. En appliquant ces opérations, on crée des masques qui mettent en avant les classes communes près des frontières et les régions plus confiantes des classes privées.

Le masque de frontière est créé en soustrayant le masque original du masque dilaté, capturant les régions communes près des frontières. Le masque d'érosion, quant à lui, met en avant les zones plus sûres des classes privées.

Avec ces deux masques, on développe une nouvelle fonction de perte qui encourage le modèle à apprendre à la fois des zones fiables et des régions de frontière. Cette fonction de perte aide notre modèle à mieux distinguer entre les classes connues et inconnues près des frontières, ce qui est essentiel pour améliorer la performance globale de la segmentation.

Prise en Compte des Formes

En plus de la détection des frontières, notre approche met l'accent sur la compréhension de la forme des objets. Souvent, les modèles comptent beaucoup sur l'information de forme seule, ce qui peut causer de la confusion quand il s'agit d'objets de tailles variées. Pour résoudre ce problème, on introduit une méthode d'augmentation de données appelée OpenReMix.

OpenReMix consiste à redimensionner des classes du dataset source et à les intégrer à l'entraînement du dataset cible. En mélangeant des objets de différentes tailles, notre modèle apprend à s'adapter aux variations, améliorant ainsi sa capacité à prédire les formes des classes connues et inconnues de manière efficace.

Le processus de mélange des sources et cibles aide le modèle à mieux généraliser, garantissant qu'il peut gérer les changements de taille et de forme des objets tout en se concentrant sur la reconnaissance globale des classes.

Tirer Parti des Classes Inconnues

Une partie cruciale de notre travail est d'apprendre à partir des classes inconnues. Pendant l'entraînement de notre modèle, on utilise des pseudo-étiquettes générées à partir du dataset cible. Ces pseudo-étiquettes aident à définir quels objets sont connus et inconnus. En gérant soigneusement comment ces classes inconnues sont traitées, le modèle apprend à les rejeter plutôt qu'à les classifier à tort comme des classes connues.

Pour un entraînement efficace, on élargit la tête de classification du modèle pour accueillir les classes inconnues. En agissant ainsi, le modèle peut mieux gérer cette tête élargie durant le processus d'entraînement. Il apprend à partir du dataset cible en identifiant quels pixels correspondent aux classes connues tout en rejetant ceux appartenant aux classes inconnues.

Grâce à cette approche élargie, on améliore la capacité du modèle à séparer efficacement les classes connues des inconnues.

Expérimentations et Résultats

Notre méthode BUS proposée a subi des expérimentations approfondies pour valider son efficacité. On a comparé les performances de notre modèle avec les méthodes précédentes en utilisant divers benchmarks publics.

Dans nos évaluations, on s'est concentré sur des datasets représentant un mélange d'images synthétiques et réelles, surtout dans des scénarios de conduite autonome. Les datasets utilisés incluaient GTA5, SYNTHIA et Cityscapes, qui fournissent une gamme diverse de scénarios pour tester les capacités du modèle.

Métriques d'Évaluation

Pour l'évaluation, on a utilisé la Moyenne Harmoniques (H-Score), qui prend en compte la performance sur les classes connues et inconnues. Cette métrique est vitale car elle offre une meilleure compréhension de la performance globale du modèle, surtout pour identifier les classes inconnues.

Nos résultats ont indiqué que la méthode BUS a largement surpassé les méthodes précédentes, en particulier dans la détection des classes inconnues tout en maintenant une haute précision en segmentation des classes connues.

Amélioration de la Performance

Les expérimentations ont montré une amélioration marquée aussi bien de la précision globale de segmentation que de la capacité à identifier les classes inconnues. La méthode BUS a conduit à une forte hausse du H-Score comparé aux méthodes à l'état de l'art précédentes.

En particulier, nos améliorations ont permis au modèle d'atteindre de bons scores dans l'IoU des classes privées, ainsi qu'une augmentation notable dans le score mIoU pour les classes communes. Cela indique que notre approche a non seulement amélioré la reconnaissance des classes inconnues mais aussi renforcé la performance des classes connues.

Évaluation Qualitative

On a aussi effectué des évaluations qualitatives pour comparer visuellement la performance de notre méthode avec celle des approches existantes. Ces évaluations ont révélé que, tandis que d'autres méthodes avaient du mal à identifier efficacement les classes inconnues, notre approche BUS a excelle, surtout dans la différenciation des formes et des frontières.

Les résultats visuels ont mis en avant les forces du modèle dans des scénarios réels, montrant à quel point il pouvait segmenter des images avec précision malgré la présence de classes inconnues.

Conclusion

En conclusion, le travail présenté ici établit une nouvelle méthode pour gérer l'adaptation de domaine en ensemble ouvert dans la segmentation sémantique. Notre cadre BUS démontre comment se concentrer sur la détection des frontières et la prise en compte des formes peut grandement améliorer la performance des modèles de segmentation face aux classes inconnues.

Les évaluations approfondies confirment que notre approche est efficace dans des applications réelles, ouvrant la voie à de futurs développements dans le domaine. À mesure que la demande pour une technologie de segmentation d'image robuste augmente, notre travail offre d'importantes contributions à la création de modèles adaptables capables de relever les défis posés par les classes inconnues dans diverses tâches et industries.

À l'avenir, on voit un grand potentiel pour peaufiner et tester davantage notre méthode à travers des datasets divers, s'assurant qu'elle répond aux exigences évolutives des applications de vision par ordinateur.

Source originale

Titre: Open-Set Domain Adaptation for Semantic Segmentation

Résumé: Unsupervised domain adaptation (UDA) for semantic segmentation aims to transfer the pixel-wise knowledge from the labeled source domain to the unlabeled target domain. However, current UDA methods typically assume a shared label space between source and target, limiting their applicability in real-world scenarios where novel categories may emerge in the target domain. In this paper, we introduce Open-Set Domain Adaptation for Semantic Segmentation (OSDA-SS) for the first time, where the target domain includes unknown classes. We identify two major problems in the OSDA-SS scenario as follows: 1) the existing UDA methods struggle to predict the exact boundary of the unknown classes, and 2) they fail to accurately predict the shape of the unknown classes. To address these issues, we propose Boundary and Unknown Shape-Aware open-set domain adaptation, coined BUS. Our BUS can accurately discern the boundaries between known and unknown classes in a contrastive manner using a novel dilation-erosion-based contrastive loss. In addition, we propose OpenReMix, a new domain mixing augmentation method that guides our model to effectively learn domain and size-invariant features for improving the shape detection of the known and unknown classes. Through extensive experiments, we demonstrate that our proposed BUS effectively detects unknown classes in the challenging OSDA-SS scenario compared to the previous methods by a large margin. The code is available at https://github.com/KHU-AGI/BUS.

Auteurs: Seun-An Choe, Ah-Hyung Shin, Keon-Hee Park, Jinwoo Choi, Gyeong-Moon Park

Dernière mise à jour: 2024-05-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.19899

Source PDF: https://arxiv.org/pdf/2405.19899

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires