Améliorer la précision de la génération d'images à partir de texte
Une nouvelle méthode améliore la génération d'images à partir de texte en reliant correctement les entités et les modificateurs.
― 7 min lire
Table des matières
Les modèles de génération d'images qui utilisent du texte galèrent souvent à associer les mots dans le prompt avec les bons détails visuels dans les images créées. Par exemple, si tu demandes "un tournesol rose et un flamant jaune," le modèle pourrait créer un tournesol jaune et un flamant rose à la place. Cela arrive parce que le modèle ne capte pas comment les mots dans le prompt se relient aux éléments visuels de l'image.
Le Problème
Quand les utilisateurs donnent des prompts, ces prompts contiennent des Entités (comme "tournesol" et "flamant") et des modificateurs (comme "rose" et "jaune"). Le souci apparaît quand le modèle ne lie pas correctement ces entités à leurs modificateurs. Parfois, il confond quel modificateur va avec quelle entité, ou il peut complètement ignorer certains modificateurs.
Les modèles utilisent souvent des encodeurs de texte comme CLIP, qui ont du mal à capter la structure du langage. Par conséquent, le processus de génération peut passer à côté des connexions importantes entre les mots. Cela conduit à des sorties visuelles qui ne reflètent pas vraiment le texte fourni par les utilisateurs.
Solution Proposée
Pour résoudre ce problème, une nouvelle méthode est suggérée qui se concentre sur la compréhension de la structure du prompt texte. L'approche consiste à décomposer le prompt en ses entités et leurs modificateurs correspondants. Ensuite, pendant le processus de génération d'images, une fonction de perte spéciale aide à guider le modèle pour s'assurer que l'attention qu'il porte à différentes parties du prompt est bien alignée avec leur représentation visuelle dans l'image.
Cette méthode regarde les Cartes d'attention, qui montrent combien de focus chaque partie du modèle donne à différents mots pendant qu'il crée l'image. Pour améliorer la performance du modèle, elle promeut une forte connexion entre l'attention donnée aux entités et leurs modificateurs tout en réduisant l'attention portée aux mots non liés.
Mise en Œuvre
La méthode commence par utiliser un analyseur pour analyser le prompt texte, identifiant quels mots sont des entités et quels sont leurs modificateurs. Elle regroupe ces mots en groupes qui reflètent leurs connexions. Par exemple, si tu as "un chien noir et poilu," "chien" est l'entité, tandis que "poilu" et "noir" sont ses modificateurs.
Une fois que le modèle capte ces connexions, il utilise les cartes d'attention pendant le processus de génération d'images. Le modèle met à jour sa représentation latente, ce qui signifie qu'il ajuste sa compréhension interne de l'image qu'il est en train de créer. Cela se passe dans la première moitié du processus de génération, permettant au modèle de mieux se concentrer sur les bons attributs des bonnes entités.
Ensembles de Données
Pour évaluer la nouvelle méthode, plusieurs ensembles de données sont utilisés.
- ABC-6K : Cet ensemble de données inclut des prompts qui présentent des combinaisons naturelles d'entités et de modificateurs.
- Attend-and-Excite Dataset : Utilisé précédemment pour tester d'autres méthodes, cet ensemble de données comprend des prompts conçus pour défier les modèles à générer des images avec précision.
- Diverse Visual Modifier Prompts (DVMP) : Un nouvel ensemble de données créé pour inclure une riche variété d'entités et de modificateurs, rendant plus difficile pour les modèles de générer des images précises.
Utiliser ces ensembles de données permet une évaluation approfondie de la performance de la nouvelle approche en matière de liaison correcte des modificateurs à leurs entités correspondantes.
Évaluation
La qualité des images générées est évaluée grâce à des avis humains, où les évaluateurs comparent les images créées par différentes méthodes en fonction de leur correspondance avec les prompts et de leur attrait visuel global. Les évaluateurs reçoivent des instructions et des exemples de ce qui constitue un bon match et un mauvais match.
Résultats
En comparant la nouvelle méthode avec les modèles existants, les résultats montrent des améliorations significatives dans tous les ensembles de données. La méthode montre une augmentation marquée de la correspondance correcte entre les entités et les modificateurs, réduisant efficacement les problèmes courants liés à la génération d'images.
Dans les évaluations quantitatives, la nouvelle méthode a systématiquement surpassé d'autres approches. Les évaluations humaines ont révélé que les images produites par la nouvelle méthode étaient souvent jugées plus précises et visuellement attrayantes.
Analyse Qualitative
Des exemples visuels illustrent le succès de la nouvelle approche. Par exemple, dans les cas où les modèles existants ont généré des images qui ne correspondaient pas correctement aux couleurs ou aux attributs, la nouvelle méthode a maintenu des frontières plus claires entre les différentes entités. Cela a abouti à des images qui représentaient plus fidèlement les prompts initiaux.
Les problèmes courants auxquels les modèles existants font face incluent :
- Fuite sémantique : Où des attributs destinés à une entité s'appliquent par erreur à une autre.
- Négation d'attribut : Quand un modificateur est complètement ignoré dans l'image générée.
- Projection d'entité : Se produit lorsqu'un modificateur est traité comme une entité séparée, entraînant une mauvaise interprétation du prompt.
La nouvelle méthode aborde ces problèmes efficacement. En se concentrant sur le bon binding et l'interaction entre les mots et les visuels, elle minimise ce genre d'erreurs, produisant des images plus cohérentes et précises.
Importance des Fonctions de perte
Le succès de la méthode est fortement influencé par sa fonction de perte duale, qui inclut des composants à la fois positifs et négatifs. La perte positive garantit que l'attention d'un modificateur se recoupe significativement avec son entité liée, tandis que la perte négative décourage les fuites d'attention entre des mots non liés.
Dans des expériences qui ont isolé l'un ou l'autre composant de perte, il est devenu clair que les deux étaient nécessaires pour une performance optimale. En retirer un a conduit à des problèmes significatifs avec des liaisons incorrectes ou des fuites sémantiques.
Conclusion
Cette méthode souligne l'importance de comprendre la structure linguistique lors de la génération d'images à partir de texte. En se concentrant sur les relations entre entités et leurs modificateurs, elle améliore significativement la précision et la qualité de la génération d'images à partir de texte. En l'état, cette approche ouvre la voie à de futurs développements pour rendre les modèles de génération d'images plus fiables et fidèles aux intentions des utilisateurs.
Directions Futures
Les insights tirés de cette recherche suggèrent plusieurs pistes pour de futures explorations. Améliorer les techniques de parsing utilisées pour extraire les relations entre entités et modificateurs pourrait encore améliorer la performance. De plus, élargir les ensembles de données pour inclure une gamme encore plus large de modificateurs et d'entités permettra une meilleure formation et évaluation des modèles.
Des avancées dans ce domaine pourraient mener à des systèmes de génération d'images plus intuitifs et capables, facilitant la création de visuels qui s'alignent avec les descriptions des utilisateurs.
Titre: Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment
Résumé: Text-conditioned image generation models often generate incorrect associations between entities and their visual attributes. This reflects an impaired mapping between linguistic binding of entities and modifiers in the prompt and visual binding of the corresponding elements in the generated image. As one notable example, a query like "a pink sunflower and a yellow flamingo" may incorrectly produce an image of a yellow sunflower and a pink flamingo. To remedy this issue, we propose SynGen, an approach which first syntactically analyses the prompt to identify entities and their modifiers, and then uses a novel loss function that encourages the cross-attention maps to agree with the linguistic binding reflected by the syntax. Specifically, we encourage large overlap between attention maps of entities and their modifiers, and small overlap with other entities and modifier words. The loss is optimized during inference, without retraining or fine-tuning the model. Human evaluation on three datasets, including one new and challenging set, demonstrate significant improvements of SynGen compared with current state of the art methods. This work highlights how making use of sentence structure during inference can efficiently and substantially improve the faithfulness of text-to-image generation.
Auteurs: Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, Gal Chechik
Dernière mise à jour: 2024-01-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.08877
Source PDF: https://arxiv.org/pdf/2306.08877
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.