Présentation de la diffusion d'images conjointe pour la création d'images personnalisées
Une nouvelle méthode simplifie la génération d'images personnalisées à partir de texte.
― 11 min lire
Table des matières
- Défis actuels dans la génération d'images personnalisées
- Présentation de Joint-Image Diffusion
- Comment fonctionne le modèle
- Contributions clés
- Travaux connexes
- Génération de texte à image traditionnelle
- Méthodes de génération d'images personnalisées
- Création de jeux de données
- Processus de génération de données
- Architecture de Joint-Image Diffusion
- Couches d'auto-attention couplées
- Personnalisation de l'entrée comme inpainting
- Résultats expérimentaux
- Comparaisons visuelles
- Comparaisons quantitatives
- Discussion
- Limitations et travaux futurs
- Conclusion
- Source originale
- Liens de référence
Créer des images à partir de texte est un domaine en plein essor qui permet aux gens de réaliser des photos basées sur leurs idées ou descriptions. Cette technologie peut aider dans plusieurs domaines, de l'art au marketing. Cependant, quand il s'agit de personnaliser des images, comme faire des photos d'objets spécifiques appartenant à une personne, il y a eu des défis.
La plupart des méthodes actuelles demandent aux utilisateurs de peaufiner un modèle de génération d'images existant en utilisant leurs propres photos. Ça veut dire qu'ils doivent ajuster le modèle en fonction d'un ensemble d'images qu'ils fournissent. Malheureusement, ce processus peut être compliqué, prendre beaucoup de temps et nécessiter des ressources avancées que beaucoup d'utilisateurs n'ont pas.
Il y a eu une pression pour créer des moyens plus simples de personnaliser les images sans avoir à passer par cette étape de peaufine. Pourtant, les premières tentatives n'ont pas produit des résultats aussi bons que ceux qui impliquaient un peaufine.
Dans cet article, on vous présente une nouvelle méthode appelée Joint-Image Diffusion. Cette méthode donne aux utilisateurs un moyen de générer des images personnalisées tout en évitant le casse-tête du peaufine. En utilisant une approche spéciale pour entraîner le modèle, on peut apprendre à créer des images qui représentent fidèlement les entrées de l'utilisateur.
Défis actuels dans la génération d'images personnalisées
L'objectif principal de la génération d'images personnalisées est de créer des images variées d'un sujet spécifique tout en gardant ses caractéristiques visuelles intactes. La plupart des méthodes existantes y parviennent en peaufine un modèle pré-entraîné avec un ensemble d'images Personnalisé. Bien que cela soit efficace, ces méthodes ont des inconvénients importants.
D'abord, elles nécessitent beaucoup de ressources informatiques et de temps pour entraîner le modèle sur le nouveau jeu de données. De plus, ces processus ont souvent besoin de plusieurs images montrant le même sujet pour éviter que le modèle mémorise des détails spécifiques, ce qui peut limiter la diversité des images générées.
Pour résoudre ces problèmes, certains chercheurs ont travaillé sur des méthodes qui n'ont pas besoin de peaufine. En général, ces approches consistent à convertir des images de référence en une forme simplifiée connue sous le nom d'espace de caractéristiques. Cependant, cette conversion peut entraîner une perte d'informations visuelles importantes, particulièrement visible lorsque les objets sont inhabituels ou uniques.
Notre objectif avec cette nouvelle approche est de fournir un moyen de générer des images personnalisées sans avoir besoin d'ajustements complexes à un modèle pré-entraîné.
Présentation de Joint-Image Diffusion
Joint-Image Diffusion est conçu pour créer des images personnalisées en utilisant une méthode plus simple. L'idée principale est d'entraîner le modèle à apprendre le lien entre diverses paires texte-image qui partagent le même sujet. Pour ce faire, on crée un jeu de données d'images qui représentent toutes le même sujet dans différents contextes.
Pendant la phase d'entraînement, on génère un jeu de données en utilisant de grands Modèles de langage et des modèles de diffusion d'images pré-entraînés. Cela nous permet de créer une collection d'images où chaque ensemble contient des images du même sujet mais dans différentes scènes ou poses.
Comment fonctionne le modèle
Au moment des tests, le modèle peut prendre plusieurs invites textuelles, ce qui veut dire qu'il peut comprendre quels aspects différents inclure dans les images. En remplaçant les images de référence pendant le processus de création d'images, le modèle peut produire des images personnalisées basées sur n'importe quel nombre d'images de référence fournies par l'utilisateur.
Une des caractéristiques remarquables de notre modèle est qu'il n'a pas besoin d'entraînements coûteux ou de parties séparées à optimiser. Il peut également maintenir l'identité unique du sujet en utilisant plusieurs images de référence.
Contributions clés
Dans ce travail, on présente plusieurs contributions au domaine de la génération d'images personnalisées :
- On propose une nouvelle méthode qui permet la personnalisation sans avoir à peaufiner le modèle.
- On introduit une nouvelle approche pour créer des Jeux de données composés d'images partageant le même sujet.
- On conçoit une nouvelle architecture de modèle et des techniques d'échantillonnage qui améliorent la qualité des images générées.
Travaux connexes
Génération de texte à image traditionnelle
Ces dernières années, le domaine de la génération de texte à image a beaucoup progressé grâce à l'introduction de modèles de diffusion à grande échelle. Ces modèles utilisent un processus de raffinement progressif des images en fonction des invites textuelles.
Des modèles comme DALL-E2 et Imagen ont montré de grandes promesses dans la génération d'images haute résolution qui correspondent aux descriptions d'entrée. Ils emploient généralement deux modèles : un pour convertir les descriptions textuelles en représentations d'images et un autre pour affiner ces images en images finales.
Méthodes de génération d'images personnalisées
La génération d'images personnalisées peut être abordée de deux manières : via des méthodes de peaufine et des méthodes sans peaufine.
Méthodes de peaufine : Beaucoup de méthodes plus anciennes se concentraient sur l'ajustement de l'ensemble du modèle en utilisant un jeu de références. Par exemple, Dreambooth peaufine les poids du modèle en fonction d'images de référence, tandis que des méthodes comme CustomDiffusion se concentrent sur l'optimisation de quelques paramètres. Cependant, ces méthodes nécessitent souvent plusieurs images de référence et de longs temps d'entraînement, ce qui peut être pénible pour les utilisateurs.
Méthodes sans peaufine : Ces approches visent à minimiser les besoins en ressources en codant des images de référence dans un espace de caractéristiques compact. Cependant, elles ont souvent du mal à générer des images pour des sujets peu courants en raison de la perte d'information qui survient pendant le processus de codage.
Notre méthode aborde ces limitations en créant un nouveau modèle Joint-Image Diffusion qui contourne complètement l'étape de codage.
Création de jeux de données
Pour entraîner notre modèle efficacement, on a besoin d'un jeu de données où chaque échantillon est un ensemble d'images partageant un sujet commun. Les jeux de données existants manquent souvent de variété nécessaire pour un entraînement efficace.
Pour combler cette lacune, on a créé le jeu de données Synthetic Same-Subject. Ce jeu de données est composé d'images générées à l'aide de grands modèles de langage qui décrivent le même sujet dans divers contextes, augmentant ainsi la diversité et améliorant les résultats de formation.
Processus de génération de données
La création du jeu de données commence par une liste d'objets courants. Pour chaque objet, on génère une description à l'aide d'un modèle de langage. On entre ensuite cette description dans un modèle de génération d'images pré-entraîné pour créer une collection d'images du même sujet.
Pour augmenter la diversité du jeu de données, on applique également des techniques comme la détection d'objets et l'augmentation de l'arrière-plan. Cela nous permet de séparer les objets individuels de leurs arrière-plans et de modifier ces arrière-plans pour créer un ensemble d'images plus varié.
Architecture de Joint-Image Diffusion
Le modèle Joint-Image Diffusion intègre des techniques innovantes qui lui permettent de mieux générer des images personnalisées. En utilisant un mécanisme d'auto-attention couplé, le modèle peut analyser les relations entre diverses images au sein d'un ensemble d'échantillons.
Couches d'auto-attention couplées
Dans un mécanisme d'attention typique, le modèle examine les relations au sein d'une seule image. Dans notre approche, la couche d'auto-attention couplée permet au modèle de considérer les relations entre toutes les images d'un échantillon.
Cela signifie que, pendant l'entraînement, chaque image peut apprendre des caractéristiques des autres dans le même ensemble. Par conséquent, le modèle peut mieux capturer les détails visuels et la sémantique du sujet représenté.
Personnalisation de l'entrée comme inpainting
Pour aborder comment le modèle gère la personnalisation, on le considère comme une tâche d'inpainting. Étant donné quelques paires texte-image en référence, l'objectif est de générer de nouvelles images personnalisées en remplissant les vides dans un ensemble d'images jointes.
Au cœur de ce processus se trouve une couche d'entrée modifiée qui permet au modèle de prendre en compte les images de référence tout en générant de nouvelles images. Pendant l'entraînement, le modèle apprend à gérer à la fois les parties connues et manquantes de l'ensemble d'images jointes.
Résultats expérimentaux
On a mené des expériences pour évaluer l'efficacité de notre modèle Joint-Image Diffusion par rapport aux méthodes existantes. Tout au long des expériences, on a constaté que notre approche maintenait une grande fidélité aux images d'entrée, même pour des sujets inhabituels.
Comparaisons visuelles
En comparant notre méthode à d'autres modèles sans peaufine, on voit des avantages clairs dans la préservation des détails visuels et de l'identité du sujet. Pour des objets communs, des méthodes existantes comme BLIPD et ELITE peuvent produire des résultats comparables, mais elles ont du mal avec des sujets uniques, ne parvenant pas à capturer des caractéristiques distinctes.
En revanche, notre modèle peut générer efficacement des images qui respectent à la fois les images de référence et les invites textuelles. Cela démontre sa capacité à maintenir l'intégrité visuelle à travers divers contextes.
Comparaisons quantitatives
On a employé plusieurs métriques d'évaluation pour évaluer la performance de notre modèle. Ces métriques mesurent à quel point les images générées s'alignent bien avec à la fois les invites textuelles et les images de référence.
Les résultats montrent que notre modèle Joint-Image Diffusion surpasse significativement à la fois les modèles avec peaufine et ceux sans peaufine en maintenant la fidélité aux images de référence et en respectant les invites textuelles.
Discussion
Notre méthode offre une voie prometteuse pour la génération personnalisée de texte à image. En éliminant le besoin de peaufine et d'étapes de codage, on offre une approche qui est non seulement plus accessible mais aussi capable de produire des images de meilleure qualité.
Limitations et travaux futurs
Bien que notre méthode montre un grand potentiel, elle a encore des limites. Un défi est la nécessité de traiter toutes les images de référence pendant l'inférence, ce qui peut ralentir le processus lorsque plusieurs références sont impliquées.
Les efforts futurs pourraient impliquer de combiner notre approche avec des méthodes de peaufine lors du traitement de bases de données plus grandes. Cela pourrait aider à rationaliser le processus tout en profitant des capacités de génération personnalisée.
Conclusion
En résumé, le modèle Joint-Image Diffusion présente une solution innovante pour la génération personnalisée de texte à image. En utilisant une architecture unique et une stratégie de génération de données efficace, nous créons un système qui est à la fois efficient et capable de produire des résultats de haute qualité.
Nos résultats indiquent que cette méthode non seulement simplifie le processus de personnalisation mais améliore également la qualité des images générées, en faisant un outil précieux pour diverses applications dans des domaines créatifs.
À l'avenir, nous visons à explorer des techniques encore plus avancées pour améliorer encore la personnalisation et l'efficacité, en veillant à ce que cette technologie continue d'évoluer et de servir les utilisateurs de manière efficace.
Titre: JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation
Résumé: Personalized text-to-image generation models enable users to create images that depict their individual possessions in diverse scenes, finding applications in various domains. To achieve the personalization capability, existing methods rely on finetuning a text-to-image foundation model on a user's custom dataset, which can be non-trivial for general users, resource-intensive, and time-consuming. Despite attempts to develop finetuning-free methods, their generation quality is much lower compared to their finetuning counterparts. In this paper, we propose Joint-Image Diffusion (\jedi), an effective technique for learning a finetuning-free personalization model. Our key idea is to learn the joint distribution of multiple related text-image pairs that share a common subject. To facilitate learning, we propose a scalable synthetic dataset generation technique. Once trained, our model enables fast and easy personalization at test time by simply using reference images as input during the sampling process. Our approach does not require any expensive optimization process or additional modules and can faithfully preserve the identity represented by any number of reference images. Experimental results show that our model achieves state-of-the-art generation quality, both quantitatively and qualitatively, significantly outperforming both the prior finetuning-based and finetuning-free personalization baselines.
Auteurs: Yu Zeng, Vishal M. Patel, Haochen Wang, Xun Huang, Ting-Chun Wang, Ming-Yu Liu, Yogesh Balaji
Dernière mise à jour: 2024-07-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.06187
Source PDF: https://arxiv.org/pdf/2407.06187
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.