Cadre innovant pour les jeux de données de segmentation sémantique synthétique
Une nouvelle méthode génère des étiquettes détaillées pour la segmentation sémantique en utilisant des données synthétiques.
― 14 min lire
Table des matières
Préparer des données d'entraînement pour des modèles de vision profonde, c'est super compliqué et ça prend un temps fou. Les modèles génératifs se sont révélés être une bonne solution pour produire des données synthétiques. La plupart des modèles actuels donnent des étiquettes de catégorie pour les images, mais on introduit une nouvelle méthode pour créer des étiquettes détaillées au niveau des pixels pour la Segmentation sémantique en utilisant un modèle texte-à-image appelé Stable Diffusion (SD). En utilisant des prompts textuels spécifiques, on présente trois nouvelles techniques : appendage de prompt de classe, Attention croisée de prompt de classe, et exponentiation d’auto-attention. Ces techniques nous aident à créer des cartes de segmentation liées à des images synthétiques. Ces cartes servent de pseudo-étiquettes pour entraîner des segmentateurs sémantiques, ce qui veut dire qu'on peut zapper le boulot chiant de l'annotation pixel par pixel.
La tâche importante de la segmentation sémantique consiste à assigner une étiquette à chaque pixel dans une image. C'est crucial pour des domaines comme les voitures autonomes, la compréhension de scènes, et la reconnaissance d'objets. Cependant, un gros défi est le coût élevé de l'annotation manuelle. Étiqueter de gros ensembles de données avec des tags au niveau des pixels, c'est beaucoup de travail, ça prend du temps et nécessite beaucoup d'efforts humains.
Pour résoudre ce problème, on peut utiliser des modèles génératifs pour créer des ensembles de données avec des étiquettes au niveau des pixels. Des recherches passées ont utilisé des Réseaux Antagonistes Generatifs (GANs) pour produire avec succès des ensembles de données synthétiques pour la segmentation sémantique, réduisant ainsi le besoin d'annotation manuelle. Cependant, les GANs se concentrent surtout sur des images avec un ou deux objets et ne capturent pas les détails riches qu'on trouve dans des scènes du monde réel.
Une autre approche est d'utiliser des modèles de diffusion texte-à-image, qui ont montré un grand potentiel pour générer des images réalistes à partir de descriptions textuelles. Ces modèles sont uniques parce qu'ils peuvent générer des images basées sur des prompts textuels spécifiques qui décrivent les objets à inclure. En plus, ils utilisent des méthodes d’attention croisée et d’auto-attention qui guident le modèle à se concentrer sur des parties spécifiques de l'image, ce qui améliore l'exactitude du placement des objets.
En tirant parti de ces bénéfices des modèles de diffusion texte-à-image, des travaux précédents comme DiffuMask et DiffusionSeg ont créé des paires d'images synthétiques et leurs masques de segmentation. Par exemple, DiffuMask génère des images avec des prompts textuels simples comme "une photo d'un [nom de classe] [description de fond]." Pendant ce temps, DiffusionSeg vise à créer des ensembles de données synthétiques pour aider à identifier les objets importants dans une image. Bien que ces méthodes aient réussi à générer des images et leurs masques de segmentation, elles sont limitées à produire un seul masque d'objet par image.
Notre Approche
Dans ce travail, on introduit un nouveau cadre pour générer des ensembles de données de segmentation sémantique de haute qualité. Notre approche vise à créer des images réalistes représentant des scènes avec plusieurs objets tout en fournissant des masques de segmentation précis. Pour y parvenir, on présente deux techniques clés : l'ajout de prompt de classe pour favoriser la diversité dans les images générées, et l'attention croisée de prompt de classe pour diriger une attention précise à chaque objet dans une scène. On introduit aussi l'exponentiation d'auto-attention, une méthode qui utilise des cartes d'auto-attention pour améliorer la qualité de la segmentation. Enfin, on emploie les données générées pour entraîner un segmentateur sémantique en utilisant une fonction de perte qui prend en compte l'incertitude.
Pour évaluer la qualité de nos ensembles de données synthétiques, on développe deux ensembles de données de référence, synth-VOC et synth-COCO. Ces références sont construites sur des ensembles de données de segmentation sémantique populaires, PASCAL VOC et COCO, pour standardiser les prompts textuels utilisés et l'évaluation de la qualité de la segmentation.
Sur la référence synth-VOC, notre cadre atteint des résultats impressionnants, surpassant largement DiffuMask. Sur la référence synth-COCO, le modèle DeepLabV3 entraîné sur notre ensemble de données synthétiques obtient de bons résultats par rapport à un modèle entraîné sur de vraies images avec supervision complète.
En résumé, nos contributions incluent :
- Un cadre qui utilise efficacement un modèle de diffusion texte-à-image à la pointe pour créer des ensembles de données synthétiques avec des étiquettes au niveau des pixels.
- Un design simple et efficace pour les prompts textuels qui permet la génération d'images complexes et réalistes ressemblant à des scènes du monde réel.
- Une méthode directe qui utilise l'auto-attention et l'attention croisée pour atteindre une segmentation précise, améliorant la qualité et la fiabilité des ensembles de données générés.
- De nouvelles références synth-VOC et synth-COCO pour évaluer la performance de la synthèse d'ensembles de données de segmentation sémantique.
Travaux Connus
La segmentation sémantique est une tâche importante en vision par ordinateur, qui classe chaque pixel dans une image en une catégorie spécifique. Les approches courantes incluent des réseaux totalement convolutifs (FCN) et des modèles comme DeepLab et UNet. Récemment, les modèles basés sur des transformateurs ont attiré l'attention en surpassant les approches traditionnelles basées sur des convolutions.
Notre cadre se concentre sur la production d'ensembles de données synthétiques compatibles avec tout segmentateur sémantique, en utilisant spécifiquement DeepLabv3 et Mask2Former, qui sont largement utilisés.
Les modèles de diffusion texte-à-image ont transformé le domaine de génération d'images, progressant des méthodes conditionnelles basiques par classe à des techniques textuelles plus complexes. Des modèles comme GLIDE, Imagen, Dall-E, et Stable Diffusion excellent à produire des images contenant plusieurs objets interagissant, imitant plus fidèlement des scénarios du monde réel par rapport aux modèles génératifs antérieurs.
Les modèles de diffusion ont également montré leur force dans les tâches de segmentation sémantique, d'instance, et panoptique. En général, ils reposent sur des images d'entrée réelles pour l'entraînement, ce qui contraste avec notre cadre qui nécessite uniquement un SD pré-entraîné pour générer des segmentations sémantiques sans étiquettes.
Les Réseaux Antagonistes Generatifs (GANs) ont été utilisés pour créer des ensembles de données de segmentation synthétiques mais se concentrent souvent sur des images à objet unique et peuvent nécessiter des annotations de vérité terrain. En revanche, notre cadre est conçu pour produire des segmentations sémantiques pour des images plus complexes avec plusieurs objets interagissant, contournant ainsi le besoin d'intervention humaine.
Récemment, certaines approches concurrentes ont utilisé Stable Diffusion pour générer des segmentations d'objets sans annotations, mais elles se concentrent généralement sur un objet par image. Leur approche implique des prompts simples, tandis que notre cadre utilise des prompts textuels plus élaborés permettant à plusieurs objets de coexister et d’interagir.
Aperçu du Cadre
Notre cadre pour générer des ensembles de données synthétiques comprend trois étapes principales. D'abord, on définit les classes cibles et on génère des prompts textuels, qui peuvent provenir de légendes existantes ou de légendes générées par des modèles de langage. Dans la deuxième étape, on utilise ces prompts textuels en conjonction avec un modèle de Stable Diffusion pré-entraîné pour générer des images et leurs cartes d'attention correspondantes. La dernière étape consiste à entraîner un segmentateur sémantique avec les images et segmentations générées, en évaluant sa performance sur des ensembles de données standards.
Pour générer des prompts textuels efficaces pour Stable Diffusion, on peut utiliser de grands modèles de langage pour aider à créer des phrases qui décrivent les classes cibles. Pour les besoins d'évaluation, on se base sur des ensembles de données établis comme PASCAL VOC ou COCO pour créer des prompts fixes, menant à deux nouveaux ensembles de référence : synth-VOC et synth-COCO.
Pour l'ensemble de données COCO, on peut utiliser des légendes existantes. Cependant, pour PASCAL VOC, on génère des légendes en utilisant un modèle de légende d'images de pointe. On fait face à des défis avec les légendes, car elles peuvent ne pas utiliser les termes exacts ou manquer certaines classes, ce qui affecte le processus de génération.
Pour améliorer la qualité de nos prompts, on introduit une méthode qui ajoute des étiquettes de classe aux légendes, garantissant que toutes les classes cibles sont représentées. Cette méthode, appelée ajout de prompt de classe, assure des prompts diversifiés et précis.
Génération de Cartes de Segmentation
Notre générateur de segmentation est construit sur Stable Diffusion, utilisant ses couches d'attention pour créer des cartes de segmentation. Initialement, on encode le prompt textuel dans un embedding qui capture son contenu pendant que le modèle génère l'image. À chaque étape de génération, le modèle utilise une architecture UNet avec des couches d’auto-attention et d’attention croisée pour affiner la sortie.
Les couches d'auto-attention aident à améliorer les caractéristiques locales en reliant les positions au sein de l'image. Les couches d'attention croisée modélisent la connexion entre l'état latent et les tokens de prompts textuels, garantissant que le contenu est bien représenté dans l'image de sortie.
Pour se concentrer sur les étiquettes de classe dans la segmentation sémantique, on propose une méthode d'attention croisée de prompt de classe. On crée de nouveaux prompts textuels explicitement pour extraire des cartes d'attention croisée tout en gardant les prompts d'origine pour la génération d'images inchangés. Cela produit des cartes d'attention qui mettent en évidence les emplacements de classes d'objets spécifiques.
Cependant, les premières cartes d'attention croisée peuvent être grossières, donc on utilise les cartes d'auto-attention pour les affiner, améliorant ainsi l'exactitude de l'identification des emplacements d'objets.
Le masque final indique si un pixel appartient à une classe d'objet ou à l'arrière-plan. En utilisant des seuils spécifiques, on catégorise les pixels en fonction de leurs scores d'objectivité et détermine leurs étiquettes. Ce processus nous permet de tenir compte des masques incertains et d'améliorer la qualité globale de la segmentation.
Entraînement du Segmentateur Sémantique
Avec les images générées et les masques de segmentation en main, on entraîne un segmentateur sémantique en utilisant une fonction de perte sensible à l'incertitude. Cette méthode ignore la perte provenant des pixels incertains, ce qui aide à améliorer les performances de l'ensemble de données global.
Après l'entraînement, on utilise une approche d'auto-entraînement où le segmentateur crée ses propres prédictions sur les images sans tenir compte de l'incertitude. Le modèle final est ré-entraîné en utilisant ces nouvelles prédictions, renforçant encore ses capacités.
On évalue notre cadre sur les ensembles de données PASCAL VOC et COCO, qui sont largement utilisés pour des tâches de segmentation sémantique. L'ensemble de données VOC contient 20 classes d'objets et une classe d'arrière-plan, tandis que l'ensemble de données COCO a 80 classes d'objets et une classe d'arrière-plan. On effectue un examen minutieux de notre ensemble de données synthétiques à travers ces références, générant des ensembles de données équilibrés pour chaque classe.
Résultats
On présente les résultats quantitatifs de notre cadre, montrant une amélioration significative par rapport aux méthodes existantes. Sur la référence VOC, notre approche atteint un score moyen d'Intersection sur l'Union (mIoU) remarquable, surpassant clairement l'approche précédente de DiffuMask. La référence COCO montre également des améliorations comparables.
Nos résultats illustrent que bien que notre ensemble de données synthétique ne corresponde pas entièrement à la performance des véritables ensembles de données, il offre tout de même une alternative précieuse pour former des segmentateurs sémantiques. Bien qu'on observe des écarts de performance, particulièrement dans des ensembles de données plus complexes comme COCO, notre cadre ouvre la voie à de futures recherches visant à générer des ensembles de données plus raffinés avec des annotations de haute qualité.
Discussion
Bien que notre méthode soit efficace pour générer des ensembles de données synthétiques, il y a des limites à considérer. Notre dépendance à Stable Diffusion pour générer des images peut poser des défis, surtout lorsque les prompts comprennent plusieurs classes d'objets. Dans ces cas, le modèle peut sous-performer, entraînant des images qui ne montrent pas avec précision tous les objets demandés.
De plus, le biais présent dans l'ensemble de données d'entraînement utilisé pour Stable Diffusion est une considération cruciale. Cela peut conduire à des images générées reflétant ces biais, affectant la qualité globale de l'ensemble de données synthétique. Des recherches continues aideront à aborder ces problèmes, en se concentrant sur le développement de modèles génératifs plus équitables et en améliorant les performances dans des contextes variés.
En conclusion, on a présenté un nouveau cadre qui permet la génération d'ensembles de données de segmentation sémantique synthétiques avec des images de haute qualité et des annotations détaillées. Ce cadre montre des promesses, atteignant des scores mIoU substantiels sur des références établies malgré des défis dans des scénarios plus complexes. Les découvertes ici sont un pas en avant vers la création d'ensembles de données à grande échelle avec des étiquettes précises à travers des modèles génératifs.
Future Work
En regardant vers l'avenir, on vise à affiner encore notre cadre, en améliorant la qualité des images générées et des masques de segmentation. En explorant de meilleures méthodes pour imposer un guidage plus précis pendant le processus de génération d'images, on peut améliorer la capacité du modèle à représenter des scènes complexes avec plusieurs objets. Les travaux futurs analyseront également les impacts de diverses stratégies d'entraînement de modèle sur la qualité de l'ensemble de données, cherchant à combler l'écart de performance avec des ensembles de données réels.
Explorer des moyens d'intégrer des informations ou du contexte supplémentaires, comme des emplacements ou des arrangements d'objets, sera également précieux. La mise en œuvre de ces stratégies peut aider à minimiser les limitations rencontrées avec des objets chevauchants ou étroitement liés dans le processus de génération. En résumé, on envisage une amélioration continue et l'exploration de nouvelles approches dans ce domaine en plein essor de la génération d'ensembles de données synthétiques.
Titre: Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation
Résumé: Preparing training data for deep vision models is a labor-intensive task. To address this, generative models have emerged as an effective solution for generating synthetic data. While current generative models produce image-level category labels, we propose a novel method for generating pixel-level semantic segmentation labels using the text-to-image generative model Stable Diffusion (SD). By utilizing the text prompts, cross-attention, and self-attention of SD, we introduce three new techniques: class-prompt appending, class-prompt cross-attention, and self-attention exponentiation. These techniques enable us to generate segmentation maps corresponding to synthetic images. These maps serve as pseudo-labels for training semantic segmenters, eliminating the need for labor-intensive pixel-wise annotation. To account for the imperfections in our pseudo-labels, we incorporate uncertainty regions into the segmentation, allowing us to disregard loss from those regions. We conduct evaluations on two datasets, PASCAL VOC and MSCOCO, and our approach significantly outperforms concurrent work. Our benchmarks and code will be released at https://github.com/VinAIResearch/Dataset-Diffusion
Auteurs: Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen
Dernière mise à jour: 2023-11-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.14303
Source PDF: https://arxiv.org/pdf/2309.14303
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.