Ajustement de StyleGAN2 pour des images individuelles
Une méthode pour améliorer l'édition d'images avec StyleGAN2.
― 9 min lire
Table des matières
Créer des Images convaincantes avec des ordinateurs est devenu un domaine de recherche super populaire. Un des outils les plus connus dans ce domaine s’appelle StyleGAN2, qui génère des images ressemblant à de vraies photos. Mais pour modifier une vraie photo avec cet outil, il faut d’abord trouver une représentation spéciale de cette photo dans le système StyleGAN2. Cette représentation est cruciale parce qu'elle nous permet d'éditer l'image efficacement. Malheureusement, toutes les vraies photos n'ont pas une représentation correspondante dans StyleGAN2, ce qui veut dire qu'on doit parfois ajuster l'outil pour qu'il fonctionne.
Dans cet article, on présente une méthode qui peaufine StyleGAN2 pour des images individuelles. Cette méthode ajuste les paramètres du générateur pour améliorer la fidélité de la recréation d'une image donnée. On y arrive en utilisant des réseaux spéciaux qui se concentrent sur de petits changements à faire sur le générateur. Ces changements aident à maintenir la capacité du générateur à produire de bonnes images tout en permettant des ajustements précis pour la photo spécifiquement retravaillée.
Le Défi de la Génération d'Images
Avec l'essor des Réseaux Antagonistes Génératifs (GANs), il devient de plus en plus difficile de faire la différence entre des images réelles et celles créées par des ordinateurs. Même si les GANs peuvent créer des photos réalistes, ils manquent souvent de la capacité à contrôler des caractéristiques spécifiques dans les images générées. La famille de Générateurs StyleGAN se démarque parce qu'elle peut créer des images détaillées à partir de données d'entrée aléatoires. Mais quand il s'agit de vraies photos, il n'y a pas toujours un moyen direct de mapper ces images avec les données d'entrée que StyleGAN utilise.
Pour beaucoup d'applications pratiques, cette limitation pose un défi majeur. De nombreux chercheurs ont essayé d'améliorer la capacité à trouver la bonne entrée pour des images réelles afin de pouvoir les éditer plus efficacement. Cependant, ces méthodes ne sont pas parfaites, et les résultats diffèrent souvent des attentes des utilisateurs.
Techniques Actuelles
Les chercheurs ont développé différentes techniques pour aider à trouver des représentations d'images réelles dans le cadre de StyleGAN. Il y a deux principaux types de méthodes : celles qui ajustent les images une par une et celles qui utilisent des systèmes pré-entraînés pour modifier les images en fonction de l'entrée. Le premier type donne souvent de meilleurs résultats, mais cela prend généralement plus de temps que la seconde approche.
Notre méthode cherche à combiner les deux approches. Elle consiste à peaufiner le générateur StyleGAN pour une seule image tout en utilisant aussi des réseaux entraînables. Le rôle de ces réseaux est de décider comment les paramètres du générateur doivent changer en fonction de l'image à éditer. Comme ça, on peut faire des ajustements précis sans perdre la capacité globale du générateur à produire de bonnes images.
Composants Clés de Notre Approche
Un aspect central de notre méthode est d’utiliser de petits réseaux qui aident à modifier les paramètres du générateur principal. Au lieu de changer la structure globale du générateur, on fait seulement des petits ajustements sur des couches spécifiques. Ces modifications sont guidées par les changements antérieurs faits sur les paramètres du générateur, permettant des ajustements fins.
On introduit aussi une nouvelle façon d’évaluer à quel point on fait bien ces ajustements. On utilise une combinaison de différents termes de perte qui évaluent à quel point les images générées ressemblent aux images cibles. En utilisant des informations de divers réseaux pré-entraînés, on améliore encore la qualité des images générées.
Nos expériences montrent que notre méthode offre une amélioration notable par rapport aux techniques existantes. Non seulement elle produit des images plus précises, mais elle réussit aussi à préserver la capacité du générateur à faire des modifications sur d'autres images.
Recherche Connexe
Les Réseaux Antagonistes Génératifs (GANs) sont composés de deux parties : un générateur qui crée des images et un discriminateur qui les évalue. Cette configuration a mené à de nombreuses applications, comme générer des images claires, traduire des images d'une forme à une autre, et créer des visages réalistes.
Bien que les GANs puissent produire des images de haute qualité, prédire l'image finale à partir des données d'entrée reste un défi. Pour avoir plus de contrôle sur les résultats générés, les chercheurs ont expérimenté l’idée d’alimenter le système avec des informations supplémentaires pendant l’entraînement, mais ça nécessite plus de supervision.
D'autres stratégies se sont concentrées sur la gestion directe de l'espace de données d'entrée, permettant à différentes valeurs d'entrée de contrôler des caractéristiques spécifiques de l'image générée. Des études ont montré que des changements continus dans les données d'entrée entraînent des modifications graduelles dans l'image de sortie.
Le Processus d'Inversion
Pour modifier une vraie image en utilisant la représentation latente de StyleGAN, il faut identifier le bon point dans cet espace Latent. Ce processus peut être accompli par différentes méthodes, regroupées en trois grandes catégories : basées sur l’optimisation, basées sur des encodeurs, et des approches modifiant le générateur.
L’approche basée sur l’optimisation implique d’ajuster itérativement le code latent jusqu’à ce qu’il corresponde à l'image d’entrée. Certains chercheurs ont proposé des méthodes qui améliorent la manière dont l’espace latent est structuré pour conserver des détails importants durant la phase de reconstruction.
D’un autre côté, les méthodes basées sur des encodeurs utilisent un Réseau supplémentaire pour traduire entre l’espace image et l’espace latent. Ces encodeurs peuvent travailler avec des modèles pré-entraînés pour mapper des images réelles vers la représentation latente, ce qui nécessite moins de données d’entraînement.
Les méthodes modifiant le générateur ajustent les poids du générateur pour améliorer l'image de sortie. Cela pourrait impliquer d'utiliser des réseaux neuronaux supplémentaires pour générer des poids résiduels qui contrôlent comment le générateur modifie ses sorties en fonction de nouvelles images.
Notre Méthodologie
Notre approche commence par prendre une image originale et en estimant son code latent à l'aide d'un encodeur. Ce code est ensuite traité par le générateur pré-entraîné, qui tente de recréer l'image originale. Cependant, comme la sortie initiale peut ne pas correspondre étroitement à la cible, on utilise notre méthode pour ajuster le générateur afin de produire une image encore meilleure.
Le processus implique l’utilisation d’une fonction de perte unique qui prend en compte la similarité au niveau des pixels, la similarité perceptuelle, la préservation de l'identité et la qualité de l’analyse. En ajustant les paramètres du générateur grâce à nos réseaux spécialement conçus, on peut créer efficacement un nouveau générateur capable de produire des images de haute qualité ressemblant de près à la cible.
Notre méthode est conçue pour empêcher des changements excessifs au générateur qui pourraient entraver sa capacité à créer des images de haute qualité pour d'autres entrées. On introduit aussi un terme de régularisation pour garder le générateur stable pendant les ajustements, garantissant qu'il peut toujours produire des résultats cohérents.
Résultats Expérimentaux
On a mené des expériences poussées sur différents ensembles de données, évaluant la performance de notre méthode par rapport aux méthodes existantes. Pour les images faciales, nos ajustements ont donné des résultats très proches des cibles originales. Dans d'autres catégories, comme les voitures et la faune, notre méthode a encore démontré sa capacité à générer des reconstructions précises.
Les évaluations quantitatives ont montré que notre méthode surpasse constamment les autres en termes de qualité de reconstruction, affichant moins de déviation visuelle par rapport aux images cibles. Les évaluations qualitatives ont de plus illustré que notre méthode conserve efficacement des détails cruciaux, comme les expressions faciales et des caractéristiques spécifiques d'objets.
Conclusion
Notre travail présente une nouvelle approche pour ajuster StyleGAN2 pour des images individuelles, permettant des modifications précises tout en maintenant les capacités globales du générateur. En utilisant des réseaux spécialisés pour guider les ajustements des paramètres, on surmonte certaines limitations rencontrées par les méthodes précédentes dans ce domaine. Les résultats indiquent qu'il y a un potentiel significatif pour notre approche dans des applications pratiques, en faisant une addition précieuse au domaine de la génération et de l'édition d'images. Cette recherche met en avant l'importance de continuer à explorer le perfectionnement des techniques de génération d'images, améliorant finalement notre capacité à créer et modifier des images de manière significative.
Titre: Gradient Adjusting Networks for Domain Inversion
Résumé: StyleGAN2 was demonstrated to be a powerful image generation engine that supports semantic editing. However, in order to manipulate a real-world image, one first needs to be able to retrieve its corresponding latent representation in StyleGAN's latent space that is decoded to an image as close as possible to the desired image. For many real-world images, a latent representation does not exist, which necessitates the tuning of the generator network. We present a per-image optimization method that tunes a StyleGAN2 generator such that it achieves a local edit to the generator's weights, resulting in almost perfect inversion, while still allowing image editing, by keeping the rest of the mapping between an input latent representation tensor and an output image relatively intact. The method is based on a one-shot training of a set of shallow update networks (aka. Gradient Modification Modules) that modify the layers of the generator. After training the Gradient Modification Modules, a modified generator is obtained by a single application of these networks to the original parameters, and the previous editing capabilities of the generator are maintained. Our experiments show a sizable gap in performance over the current state of the art in this very active domain. Our code is available at \url{https://github.com/sheffier/gani}.
Auteurs: Erez Sheffi, Michael Rotman, Lior Wolf
Dernière mise à jour: 2023-02-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2302.11413
Source PDF: https://arxiv.org/pdf/2302.11413
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.