Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Multimédia

Designer de vêtements multimodal : Une nouvelle approche des images de mode

Un système qui génère des images de mode à partir de textes, croquis et poses.

― 11 min lire


Nouvelle ère dans leNouvelle ère dans ledesign de modecréativité technologique.Générer des images de mode grâce à la
Table des matières

Les designers de mode utilisent souvent des illustrations pour transmettre leurs idées et montrer comment les vêtements interagissent avec le corps humain. Pour faciliter ce processus, la vision par ordinateur peut améliorer le design de mode. Cet article parle d'un nouveau système appelé le Designer de Vêtements Multimodal. Il peut créer de nouvelles images de mode à partir de plusieurs entrées, comme des descriptions textuelles, des poses de corps humain et des croquis de vêtements.

Contexte

Les recherches actuelles en vision par ordinateur se concentrent surtout sur la reconnaissance des vêtements, la recherche de vêtements similaires et la possibilité d'essayer des vêtements virtuellement. Certains travaux ont été faits sur la génération d'images à partir de descriptions textuelles d'articles de mode. Cependant, les approches précédentes utilisaient surtout des méthodes appelées Réseaux Antagonistes Génératifs (GANs). Ces méthodes ont des limites et ne sont pas toujours efficaces pour créer des images de mode de haute qualité.

Récemment, une nouvelle approche appelée Modèles de diffusion a gagné en popularité grâce à leurs capacités de génération d'images performantes. Ces modèles fonctionnent en transformant progressivement une image de bruit aléatoire en une image claire à travers plusieurs étapes. Bien qu'ils aient rencontré un grand succès dans divers domaines, leur utilisation dans le design de mode est encore à ses débuts.

Le Nouveau Cadre

Le Designer de Vêtements Multimodal aborde la création d'images de mode d'une manière différente. Il combine plusieurs modes d'information pour guider le processus de génération. L'objectif est de conserver les caractéristiques uniques et la forme du corps du modèle tout en remplaçant le vêtement porté. Ainsi, les images générées restent fidèles au modèle original tout en intégrant de nouveaux styles de vêtements.

Le système commence avec un cadre basé sur des modèles de diffusion. Contrairement aux méthodes qui se concentrent uniquement sur les pixels, ce cadre fonctionne dans une version compressée de l'image. Cela le rend plus rapide et moins gourmand en ressources. Bien que cette approche soit capable de générer des images réalistes, elle a du mal à se concentrer sur les aspects humains et les multiples entrées guidantes.

Pour résoudre ce problème, le Designer de Vêtements Multimodal intègre divers types d'entrées. Il utilise des descriptions textuelles et des croquis de vêtements, ainsi que des informations de pose sur le modèle. Cela permet d'obtenir des représentations plus précises des vêtements et de leur ajustement sur le corps du modèle.

Amélioration des Ensembles de Données Existants

Un des défis pour développer ce cadre est le manque d'ensembles de données adaptés. Pour y remédier, les chercheurs ont élargi les ensembles de données de mode existants avec des informations supplémentaires. Deux ensembles de données – Dress Code et VITON-HD – ont été choisis à cet effet. De nouvelles annotations ont été ajoutées de manière semi-automatisée, notamment des descriptions textuelles et des croquis de vêtements.

Ces améliorations offrent une riche source de données multimodales pour entraîner le nouveau système. En conséquence, le Designer de Vêtements Multimodal peut créer des images qui sont non seulement réalistes mais aussi cohérentes avec les entrées fournies.

Méthodologie

L'objectif principal du Designer de Vêtements Multimodal est de générer une image de mode qui correspond à plusieurs entrées différentes. À partir d'une image du modèle, de ses informations de pose, d'une description textuelle du vêtement et d'un croquis, le système génère une nouvelle image qui conserve l'apparence du modèle tout en substituant les vêtements.

Le nouveau cadre peut facilement s'adapter à d'autres types d'informations si nécessaire, comme les textures de tissu ou des indices visuels supplémentaires. Cette flexibilité peut être bénéfique pour les développements futurs dans le design de mode et la génération d'images.

Conditionnement de la Carte de Pose

Dans les tâches d'inpainting classiques, l'objectif est de remplir certaines parties d'une image, ce qui peut impliquer de retirer ou de remplacer des objets. Dans ce cas, l'accent est mis sur le modèle humain. Le système vise à retirer le vêtement original tout en préservant l'identité du modèle. Pour améliorer le processus, une combinaison de points clés du corps et de boîtes englobantes est utilisée pour guider le remplacement du vêtement.

En intégrant ces informations de pose, le modèle peut mieux comprendre les caractéristiques physiques du modèle tout en permettant des designs de vêtements diversifiés. Des ajustements ont été apportés aux couches initiales du réseau pour accueillir des entrées supplémentaires liées aux points clés du corps sans avoir besoin de réentraîner tout le modèle depuis le début.

Intégration des Croquis de Vêtements

Le texte seul peut ne pas être suffisant pour transmettre des informations détaillées sur le design d'un vêtement. Dessiner des croquis peut ajouter des détails spatiaux que le texte peut ne pas inclure. En utilisant des croquis, le Designer de Vêtements Multimodal combine ces détails supplémentaires avec les descriptions textuelles pour créer des représentations plus précises des vêtements.

Les croquis aident à orienter le processus de génération, permettant au modèle de produire des images qui correspondent de près au design prévu. Cette approche améliore la qualité globale des articles de mode générés.

Le Processus d'Inpainting

Le système multimodal emploie une méthode unique pour atteindre ses objectifs. Il fusionne des techniques d'inpainting traditionnelles avec de nouvelles approches spécifiquement adaptées aux images de mode. En utilisant un processus en deux étapes, le modèle intègre des images masquées et des cartes de pose pour générer de nouveaux vêtements qui restent fidèles au modèle original.

Ce processus permet au modèle de maintenir l'identité de l'individu tout en appliquant de nouveaux designs de vêtements. De cette manière, le designer peut expérimenter différents styles et concepts visuels plus efficacement.

Collecte d'Ensembles de Données de Mode Multimodales

La mise en œuvre efficace du Designer de Vêtements Multimodal nécessite des ensembles de données de haute qualité enrichis d'informations multimodales. Pour cela, les chercheurs ont commencé avec des ensembles de données existants et les ont améliorés avec de nouvelles descriptions textuelles et croquis.

Le processus de préparation des données a impliqué la collecte de descriptions textuelles adaptées qui capturaient des attributs de vêtements importants sans trop de détails. Vu la taille des ensembles de données originaux, automatiser une grande partie du processus d'annotation était crucial pour rassembler efficacement les informations pertinentes.

Des groupes nominaux, qui sont de courtes phrases incluant un nom et ses descripteurs, ont été collectés à partir d'autres ensembles de données de mode pour garantir des descriptions significatives pour chaque vêtement.

Annotation Fine et Gros Grain

Deux phases d'annotation ont été réalisées : fine et gros grain. Pendant la phase fine, les chercheurs ont collecté manuellement des informations pour une grande partie de l'ensemble de données, garantissant une représentation précise. Cela impliquait de sélectionner les trois groupes nominaux les plus pertinents pour chaque vêtement parmi les 25 options générées automatiquement.

L'annotation gros grain a été réalisée ensuite pour couvrir les articles restants. Cela a impliqué d'utiliser les annotations fines pour attribuer automatiquement les trois groupes nominaux les plus pertinents au reste des vêtements. Cette méthode a permis d'échelonner efficacement l'ensemble de données.

Extraction de Croquis pour les Vêtements

Les croquis sont précieux pour fournir des détails que le texte peut ne pas capturer. Pour dériver des croquis pour les vêtements, un modèle de détection de contours pré-entraîné a été utilisé. Ce modèle détecte les contours dans les images et les convertit en formes ressemblant à des croquis, qui peuvent être utilisées pour l'entrée multimodale.

Pour l'ensemble de données apparié, les vêtements ont été segmentés directement à partir des images du modèle. Pour l'ensemble de données non apparié, un module de déformation a créé des formes de vêtements qui correspondaient à la pose du corps du modèle à travers une série de transformations.

Évaluation du Cadre

Pour évaluer l'efficacité du Designer de Vêtements Multimodal, plusieurs métriques d'évaluation ont été employées. Ces métriques aident à déterminer à la fois le réalisme des images générées et dans quelle mesure elles respectent les descriptions d'entrée.

Plusieurs métriques ont été utilisées pour évaluer les sorties, y compris la Distance Fréchet Inception (FID) et la Distance Inception Kernel (KID). Ces métriques aident à évaluer la qualité globale des images générées. De plus, une nouvelle métrique de distance de pose a été développée pour mesurer dans quelle mesure les poses des images générées s'alignent avec celles du modèle original, tandis qu'une métrique de distance de croquis a évalué à quel point la sortie respectait les directives de croquis.

Études Utilisateurs

Pour s'assurer que les sorties générées étaient non seulement techniquement solides mais aussi alignées avec les attentes des utilisateurs, des études utilisateurs ont été menées. Les participants ont évalué le réalisme des images et à quel point les images générées correspondaient aux multiples entrées fournies.

Les retours des utilisateurs ont mis en évidence les avantages du Designer de Vêtements Multimodal par rapport aux méthodes existantes. Ces évaluations ont fourni des informations précieuses sur les aspects du modèle qui fonctionnent efficacement et les domaines qui pourraient bénéficier d'améliorations.

Résultats et Réalisations

Le Designer de Vêtements Multimodal a montré des résultats prometteurs dans la génération d'images de mode de haute qualité basées sur plusieurs types d'entrées. La combinaison de descriptions textuelles, de croquis et de cartes de pose permet au système de produire des images qui sont cohérentes, réalistes et adaptées à des styles de vêtements spécifiques.

Il a également surpassé d'autres systèmes existants en termes de qualité d'image et de respect des conditions d'entrée. Les nouvelles métriques d'évaluation introduites pour cette recherche ont été essentielles pour comprendre et valider l'efficacité du nouveau cadre.

Limitations et Travaux Futurs

Malgré ses succès, le Designer de Vêtements Multimodal fait face à certains défis. Sa performance peut varier en fonction de la qualité des entrées de croquis. Si les croquis ne correspondent pas bien à la forme du corps du modèle, les images générées peuvent en souffrir.

Pour améliorer encore le système, des recherches continues pourraient explorer de meilleures façons de capturer et d'incorporer des croquis tout en expérimentant avec des entrées multimodales supplémentaires. Les développements futurs pourraient également envisager des moyens d'élargir la portée des ensembles de données et de raffiner le processus de génération pour une plus grande variété de styles de mode.

Conclusion

L'introduction du Designer de Vêtements Multimodal marque une étape significative à l'intersection de la mode et de la technologie. En utilisant efficacement plusieurs entrées pour créer des images de mode, ce cadre a le potentiel de transformer le processus de design pour les professionnels de la mode. Au fur et à mesure que le système continue d'évoluer, il pourrait mener à des options de mode plus personnalisées et diversifiées, permettant aux designers et aux consommateurs d'explorer de nouveaux chemins créatifs dans le monde de la mode.

Grâce à des évaluations rigoureuses et des études utilisateurs, le Designer de Vêtements Multimodal se démarque comme une solution innovante dans le domaine du design de mode, comblant le fossé entre créativité et avancée technologique.

Source originale

Titre: Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

Résumé: Fashion illustration is used by designers to communicate their vision and to bring the design idea from conceptualization to realization, showing how clothes interact with the human body. In this context, computer vision can thus be used to improve the fashion design process. Differently from previous works that mainly focused on the virtual try-on of garments, we propose the task of multimodal-conditioned fashion image editing, guiding the generation of human-centric fashion images by following multimodal prompts, such as text, human body poses, and garment sketches. We tackle this problem by proposing a new architecture based on latent diffusion models, an approach that has not been used before in the fashion domain. Given the lack of existing datasets suitable for the task, we also extend two existing fashion datasets, namely Dress Code and VITON-HD, with multimodal annotations collected in a semi-automatic manner. Experimental results on these new datasets demonstrate the effectiveness of our proposal, both in terms of realism and coherence with the given multimodal inputs. Source code and collected multimodal annotations are publicly available at: https://github.com/aimagelab/multimodal-garment-designer.

Auteurs: Alberto Baldrati, Davide Morelli, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara

Dernière mise à jour: 2023-08-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.02051

Source PDF: https://arxiv.org/pdf/2304.02051

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires