Avancer la segmentation sémantique avec une adaptation de domaine sans source
Une nouvelle méthode améliore la segmentation sémantique sans avoir besoin de données sources pendant l'adaptation.
― 6 min lire
Table des matières
La Segmentation sémantique, c'est une méthode en vision par ordinateur qui étiquette chaque pixel d'une image avec une catégorie spécifique. C'est super utilisé dans plein d'applications comme les voitures autonomes, le suivi d'objets, et la compréhension de scènes aériennes. Mais pour entraîner ces modèles, il faut beaucoup de données étiquetées, ce qui peut coûter cher et prendre du temps.
Un problème courant avec les modèles de segmentation sémantique, c'est qu'ils ne performent souvent pas bien quand le type de données qu'ils voient change avec le temps. Dans ce cas, il peut être nécessaire de réentraîner les modèles pour maintenir leurs performances. Pour régler ça, on peut utiliser une méthode appelée Adaptation de Domaine (AD). L'AD aide les modèles à mieux fonctionner sur de nouvelles données qui peuvent avoir l'air différentes de celles sur lesquelles ils ont été initialement entraînés.
Adaptation de Domaine
L'Adaptation de domaine non supervisée (ADNS) est un type d'AD qui aide les modèles à utiliser des infos d'un domaine source avec des données étiquetées pour bien fonctionner sur un domaine cible sans étiquettes. C'est particulièrement utile parce que labelliser des données peut coûter très cher. L'ADNS essaie de rendre les caractéristiques apprises à partir des données source et cible suffisamment similaires pour que le modèle puisse faire des prédictions précises sur les données cibles.
Il y a différentes méthodes pour l'ADNS. Certaines utilisent l'apprentissage adversarial, qui forme le modèle à tromper un discriminateur qui essaie de distinguer les images source et cible. D'autres essaient d'aligner directement les distributions des caractéristiques pour les rendre similaires.
Cependant, beaucoup de méthodes d’ADNS s’attendent à avoir accès en même temps aux données sources et cibles. Ça peut être un problème dans des situations réelles où la confidentialité des données ou des limitations de stockage empêchent un accès simultané. Par exemple, des données sensibles peuvent être stockées sur différents serveurs, rendant difficile d'accéder aux deux domaines en même temps.
Notre approche aborde ce problème en développant une méthode appelée adaptation sans source, qui ne nécessite pas d'accès aux données sources durant la phase d'adaptation. C'est super important pour les situations où la confidentialité des données est une préoccupation.
Approche Proposée
Notre solution introduit un nouvel algorithme conçu pour des tâches de segmentation sémantique où l'accès aux données sources originales n'est pas possible pendant l'adaptation. Au lieu de ça, on utilise une distribution interne apprise qui sert de substitut aux données sources. Cette distribution interne permet au modèle de mieux généraliser aux données cibles.
Le processus d'adaptation consiste à aligner les caractéristiques des données cibles avec cette distribution interne pour s'assurer que le modèle peut toujours performer avec précision. Pour créer cette distribution interne, on utilise un Modèle de Mélange de Gaussiennes (MMG), qui est un modèle statistique supposant que les données viennent d'un mélange de plusieurs distributions gaussiennes.
En utilisant cette approche, on peut entraîner un modèle sur le domaine source, créer une distribution de substitution, puis adapter le modèle pour travailler sur le domaine cible sans avoir besoin de réaccéder aux données sources.
Expériences
Pour tester notre méthode, on a réalisé des expériences avec des datasets populaires dans le domaine de la segmentation sémantique. Les datasets comprenaient GTA5, SYNTHIA et Cityscapes. GTA5 et SYNTHIA sont composés d'images créées par ordinateur, tandis que Cityscapes contient des images du monde réel provenant de villes européennes.
L'objectif était de voir à quel point notre méthode permet aux modèles de s'adapter quand les données sources ne sont plus disponibles. On a comparé notre technique avec plusieurs méthodes d'ADNS existantes, tant celles qui nécessitent l'accès aux données sources que celles sans source.
Détails de Mise en Œuvre
On a utilisé une architecture spécifique appelée DeepLabV3 pour notre modèle. L'entraînement a impliqué l'utilisation d'images et d'étiquettes sémantiques provenant du domaine source. Après l'entraînement, on a approximé la distribution source en utilisant le MMG et ensuite affiné le modèle pour qu'il fonctionne sur les données du domaine cible.
Les expériences étaient configurées pour évaluer la performance en termes de précision sur les tâches SYNTHIA vers Cityscapes et GTA5 vers Cityscapes. Chaque tâche testait la capacité du modèle à s'adapter d'images synthétiques vers des images réelles.
Résultats
Analyse de Performance
Nos résultats ont montré que même sans accès aux données sources, le modèle pouvait toujours maintenir une forte performance. Pour les deux tâches d'adaptation, notre méthode a surperformé beaucoup de techniques ADNS traditionnelles qui dépendent de l'accès aux données sources.
Bien que certaines méthodes ADNS plus récentes aient obtenu de meilleures performances, elles nécessitaient des régularisations supplémentaires qui n'étaient pas présentes dans notre approche. Notamment, notre méthode a excellé dans des catégories essentielles pour des applications comme la conduite autonome, montrant une performance robuste même dans des conditions difficiles.
Résultats Visuels
En plus des résultats quantitatifs, on a aussi fait des analyses qualitatives. On a généré des images segmentées avant et après l'adaptation et les avons comparées aux véritables annotations manuelles. Les résultats visuels indiquaient des améliorations notables en précision de segmentation pour des classes clés, soutenant l'efficacité de notre méthode.
Analyse de Sensibilité
On a aussi exploré à quel point notre méthode était sensible aux changements dans des paramètres clés. On a trouvé que la performance restait stable avec divers réglages des paramètres, affirmant la robustesse de l'approche. Le seuil de confiance utilisé lors de l'entraînement du MMG a un impact significatif sur la performance, avec des seuils plus élevés menant à une séparation plus claire entre les classes dans l'espace de caractéristiques latentes.
Conclusion
En résumé, on a présenté une nouvelle méthode pour adapter les modèles de segmentation sémantique à travailler efficacement sur de nouvelles données sans avoir besoin des données sources originales durant la phase d'adaptation. En utilisant une distribution interne approximée via un MMG, notre approche permet d'obtenir une performance robuste dans des applications réelles.
Nos expériences ont validé l'efficacité de cette méthode en comparaison avec des techniques existantes. Les travaux futurs exploreront l'extension de cette méthode à des situations où les domaines source et cible peuvent ne pas partager les mêmes catégories.
Titre: Online Continual Domain Adaptation for Semantic Image Segmentation Using Internal Representations
Résumé: Semantic segmentation models trained on annotated data fail to generalize well when the input data distribution changes over extended time period, leading to requiring re-training to maintain performance. Classic Unsupervised domain adaptation (UDA) attempts to address a similar problem when there is target domain with no annotated data points through transferring knowledge from a source domain with annotated data. We develop an online UDA algorithm for semantic segmentation of images that improves model generalization on unannotated domains in scenarios where source data access is restricted during adaptation. We perform model adaptation is by minimizing the distributional distance between the source latent features and the target features in a shared embedding space. Our solution promotes a shared domain-agnostic latent feature space between the two domains, which allows for classifier generalization on the target dataset. To alleviate the need of access to source samples during adaptation, we approximate the source latent feature distribution via an appropriate surrogate distribution, in this case a Gassian mixture model (GMM). We evaluate our approach on well established semantic segmentation datasets and demonstrate it compares favorably against state-of-the-art (SOTA) UDA semantic segmentation methods.
Auteurs: Serban Stan, Mohammad Rostami
Dernière mise à jour: 2024-01-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.01035
Source PDF: https://arxiv.org/pdf/2401.01035
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.