Réinventer l'art grâce aux techniques de transfert de style
Une nouvelle méthode transforme les styles artistiques en utilisant des images appariées.
― 8 min lire
Table des matières
La réinterprétation artistique consiste à créer une nouvelle version d'une œuvre d'art existante, en lui donnant un style unique. Cela pose la question : peut-on utiliser une paire d'Images pour apprendre à un programme informatique comment changer le style de nouvelles images ? On propose une nouvelle méthode qui apprend la différence de style à partir d'une seule œuvre jumelée, puis utilise ce style pour générer de nouvelles images.
Les méthodes actuelles apprennent souvent à reproduire une idée précise à partir de nombreuses images. Cependant, notre approche se concentre sur les différences de Styles entre deux images appariées. Cela nous permet de changer le style sans être bloqué sur le contenu spécifique des images. Pour réaliser cette tâche, on utilise une méthode spéciale qui garde le style et le contenu séparés. On ajuste la manière dont le programme traite les images, ce qui nous permet d’ajouter du style tout en conservant la forme d'origine de l'image.
L'Art de la Réinterprétation
L'art est souvent inspiré par des œuvres existantes, que ce soit une image ou une scène entière. Les artistes interprètent ces références à travers leurs propres styles. Un exemple célèbre est "Repetitions" de Van Gogh, où il a créé plusieurs versions des mêmes scènes, montrant sa touche expressive unique. Ces variations nous permettent d'examiner de près les styles et techniques utilisés par les artistes.
Notre but est de développer une méthode qui peut être personnalisée en utilisant seulement une paire d'images. Cette méthode apprend le style unique des images et l'applique à d'autres sans perdre la structure de base de l'original. Comparée aux techniques existantes, notre méthode sépare mieux le style et le contenu, ce qui donne des résultats plus fidèles à la structure originale tout en appliquant efficacement le style désiré.
Le Défi de la Personnalisation
Quand on pense à modifier des Modèles, beaucoup d'œuvres existantes se concentrent sur l'utilisation de plusieurs images d'un même concept pour affiner de grands modèles de génération de texte en image. Même si ces méthodes visent à apprendre des styles, elles rendent souvent les images générées trop similaires aux images d'entraînement, se concentrant trop sur des objets ou des mises en page spécifiques.
Avec notre méthode, on utilise des images appariées pour générer de nouvelles images qui respectent à la fois le contenu original et le nouveau style. C'est important parce qu'avec une seule image, il peut être difficile de voir les différences de style. Essentiellement, si on n'a qu'une seule image, on ne peut pas saisir complètement comment le style est affecté par le contenu. Donc, l'utilisation de paires rend le processus d'apprentissage plus efficace.
Apprendre à Partir de Paires d'Images
La méthode qu'on propose permet d'adapter un modèle de génération de texte en image pré-entraîné en utilisant juste une paire d'images. En séparant le style et le contenu, on peut appliquer le style appris à d'autres images tout en maintenant leur structure originale. Notre approche est plus efficace que les méthodes traditionnelles qui se basent uniquement sur des images de style.
En général, les modèles ont du mal à générer des structures cohérentes quand on les pousse avec un texte spécifique. Notre innovation fournit un moyen de garder la structure d'origine intacte tout en changeant de style, même quand les styles proviennent d'images totalement différentes. On a développé une technique d'entraînement qui utilise deux ensembles d'ajustements, l'un se concentrant sur le style et l'autre sur le contenu. Cette séparation aide à améliorer la capacité du modèle à intégrer le style sans compromettre le contenu.
Entraînement du Modèle
Pendant l'entraînement, on ajuste continuellement notre modèle en utilisant les deux ensembles de poids. L'objectif est de s'assurer que les poids de style apprennent à partir de l'image de style, tandis que les poids de contenu se concentrent sur l'image de contenu. En modélisant le contenu directement, on aide nos poids de style à extraire efficacement les différences de styles. Ce processus aide aussi à éviter de copier les traits de contenu dans le modèle de style, permettant de meilleurs résultats.
Pour améliorer davantage la séparation des styles et du contenu, on impose une relation entre les deux poids qui assure qu'ils restent distincts l'un de l'autre. Cet arrangement conduit à des améliorations de la qualité et de la sortie visuelle des images générées.
Orientation de Style en Pratique
On introduit une nouvelle technique appelée orientation de style qui agit comme un mécanisme de contrôle pendant le processus de génération d'images. Cette orientation intègre des ajustements stylisés dans notre modèle de génération, permettant à l'utilisateur de maintenir la structure d'origine tout en appliquant efficacement de nouveaux styles. Avec l'orientation de style, on assure une application fluide des changements esthétiques souhaités, améliorant la flexibilité et la capacité de notre modèle.
Notre principal objectif a été d'employer le dernier modèle de génération de texte en image et d'appliquer ces méthodes à une variété d'images, allant des portraits et des animaux aux paysages. En évaluant la performance du modèle, on peut clairement voir comment il préserve la structure tout en appliquant efficacement de nouveaux styles.
Évaluation de Notre Méthode
Pour mesurer l'efficacité de notre méthode, on la compare à plusieurs techniques existantes. Nos résultats montrent que notre approche mène à des variations d'images diversifiées tout en ressemblant de près aux styles qu'on veut reproduire. Dans nos évaluations, on a utilisé des paires d'images créées spécialement pour l'entraînement, puis on a testé nos résultats avec différentes paires.
Le jeu de données incluait plusieurs catégories comme des portraits, des paysages et des animaux. On a généré ces paires en appliquant différents styles à nos images originales afin qu'elles puissent être utilisées pour l'entraînement. Cette manière systématique de générer des paires d'images nous a aidés à créer une base solide pour comparaisons.
Apprentissage et Ajustement
Dans la comparaison, notre méthode surpasse clairement les approches de personnalisation traditionnelles. Alors que les méthodes standards perdent souvent de la diversité et deviennent trop similaires aux images d'entraînement, notre approche atteint une distance perceptuelle plus faible par rapport au style préféré tout en maintenant l'intégrité structurelle. Nos résultats valident qu'on peut produire des images avec des styles distincts provenant de différentes catégories, même lorsque cela diverge du contenu des images originales utilisées pour l'entraînement.
On a également mené des études de préférence utilisateur pour voir comment les individus réagissent aux images générées par notre méthode par rapport aux méthodes existantes. Les participants ont constamment préféré les images générées par notre technique, indiquant qu'elle répond à leurs attentes en matière de qualité esthétique et d'application de style.
Mélange de Styles
Un aspect excitant de notre méthode est la capacité de mélanger plusieurs styles provenant de différentes paires d'entraînement. En ajustant la force de chaque style, on offre un moyen flexible de transiter entre diverses influences artistiques. Ce mélange rend possible la création de sorties uniques qui combinent l'essence de plusieurs styles tout en conservant la représentation originale du contenu.
Malgré les succès, notre méthode a quelques limitations. Par exemple, quand on essaie de changer de style entre des catégories très différentes, nos résultats peuvent ne pas bien se transférer, affectant la qualité du résultat. De plus, comme notre processus nécessite du temps et de la puissance de calcul, des améliorations en efficacité pourraient grandement bénéficier à l'expérience et aux résultats globaux.
Conclusions et Travaux Futurs
En résumé, on a introduit une nouvelle façon de personnaliser les modèles de texte en image à partir de paires d'images uniques. En se concentrant sur la séparation des styles et du contenu grâce à des techniques d'entraînement dédiées, on peut atteindre un haut niveau de succès dans la génération d'images qui reflètent de nouveaux styles tout en maintenant les caractéristiques originales des images d'entrée.
Pour les futurs travaux, des améliorations pourraient se concentrer sur la capacité du modèle à adapter des styles à travers des catégories plus diversifiées, à augmenter la vitesse de traitement et éventuellement à explorer encore plus de façons créatives de mélanger les styles. Ce travail ouvre de nombreuses possibilités dans le domaine de la génération artistique, permettant des interprétations innovantes des styles et Contenus existants.
Titre: Customizing Text-to-Image Models with a Single Image Pair
Résumé: Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair.
Auteurs: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
Dernière mise à jour: 2024-10-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.01536
Source PDF: https://arxiv.org/pdf/2405.01536
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.