Transformer des croquis en images réalistes
Une nouvelle méthode crée des images de haute qualité à partir de simples croquis, peu importe le niveau de dessin.
― 6 min lire
Table des matières
Les gens dessinent des croquis pour différentes raisons, que ce soit pour le fun, pour planifier ou pour exprimer des idées. Mais tout le monde n'est pas doué pour le dessin. Cet article présente une nouvelle méthode pour transformer des croquis simples ou abstraits en images réalistes. L'objectif est de créer des images De haute qualité à partir de croquis, même si ces croquis ne sont pas bien réalisés.
Comment ça marche
Traditionnellement, transformer un croquis en photo nécessite une carte des contours détaillée, qui est un contour précis des formes. Notre méthode est différente car elle peut fonctionner avec des croquis faits à la main et ne nécessite pas de contour parfait. Cela rend le processus accessible à tout le monde, peu importe le niveau de dessin.
On utilise une approche d'entraînement spéciale appelée modèle encodeur-décodeur découplé. En gros, on entraîne une partie du modèle à comprendre le croquis, et une autre partie, appelée le décodeur, génère la photo finale. Le décodeur est basé sur un système appelé StyleGAN, qui est conçu pour créer des photos réalistes à partir de motifs appris dans des images existantes.
Combler le fossé
Un des principaux défis de cette tâche est la différence entre les croquis et les photos. Les croquis peuvent être très grossiers et abstraits, tandis que les photos sont très détaillées et réalistes. Pour y remédier, on a créé un mapper de croquis. Ce mapper apprend à connecter les croquis aux caractéristiques correspondantes dans l'espace photo de StyleGAN. En utilisant un ensemble de paires d'exemples de croquis et de photos, notre modèle apprend à convertir un croquis en photo réaliste.
On s'est aussi concentré sur l'amélioration de la façon dont notre modèle gère l'ambiguïté des croquis. Comme les croquis peuvent varier largement en style et en détail, on a introduit des stratégies pour rendre notre modèle plus flexible. Une méthode consiste à générer différentes parties de la photo finale en fonction du niveau de détail du croquis. Cela permet au modèle de fournir une gamme d'images possibles, selon la complexité du croquis.
Avantages de notre méthode
Notre approche a plusieurs avantages clés :
- Images réalistes : Utiliser StyleGAN assure que les images produites sont de haute qualité et ont l'air réalistes.
- Flexibilité : Le modèle peut bien gérer les croquis grossiers, générant des images qui représentent toujours l'objet prévu.
- Sortie contrôlée : Les utilisateurs peuvent influencer à quel point la photo générée correspond à leur croquis. Par exemple, ils peuvent choisir de garder certaines caractéristiques similaires ou de permettre une interprétation plus créative.
- Moins sensible au bruit : Notre méthode peut toujours produire de bons résultats même si les croquis ont des lignes en trop ou sont incomplets.
Comparaison avec les méthodes existantes
Beaucoup de méthodes plus anciennes pour transformer des croquis en images s'appuyaient sur des règles strictes concernant l'apparence des croquis. Ces méthodes produisaient souvent de mauvais résultats avec des croquis faits à la main, car elles attendaient un haut niveau de précision dans le dessin. En revanche, notre approche est conçue pour fonctionner avec n'importe quel type de croquis, peu importe sa qualité.
On a comparé notre méthode avec d'autres dans le domaine. Alors que beaucoup de méthodes existantes avaient du mal avec des croquis abstraits, notre modèle produisait systématiquement de meilleurs résultats. Les images étaient plus réalistes et capturaient le sens voulu derrière les croquis.
Applications
La possibilité de générer des images réalistes à partir de croquis a diverses applications. Ça peut être utilisé dans des domaines comme :
- Design : Les designers peuvent rapidement visualiser des idées sans avoir besoin de créer des illustrations détaillées.
- Éducation : Les enseignants peuvent utiliser cette technologie pour aider les étudiants à exprimer leur créativité sans se soucier de leurs compétences artistiques.
- Jeux et animation : Les concepts peuvent être rapidement traduits en ressources visuelles, accélérant le processus de développement.
Résultats
Dans nos tests, on a découvert que les images générées par notre modèle étaient souvent louées pour leur qualité. Les participants à notre étude ont évalué les images hautement lorsqu'on leur a demandé de les comparer à d'autres méthodes.
On a aussi mené des expériences où on a demandé aux gens de créer des croquis, puis utilisé notre modèle pour générer des images. Les résultats ont montré que notre modèle reflétait avec précision les idées des participants, impressionnant beaucoup d'entre eux.
Contrôle précis
Une des caractéristiques uniques de notre méthode est sa capacité à permettre un contrôle précis sur la sortie. Les utilisateurs peuvent choisir différents niveaux de détail et de réalisme dans les images en fonction de leurs croquis. Ça veut dire que quelqu'un qui fournit un croquis grossier peut quand même recevoir une image significative, tandis que quelqu'un qui dessine avec plus de détails peut s'attendre à ce que son image reflète ce détail.
Gestion des croquis abstraits
On a reconnu que les croquis peuvent prendre plusieurs formes, du très détaillé au très abstrait. Notre modèle est capable de s'ajuster à ces différences en utilisant une stratégie qui prédit plusieurs résultats potentiels pour un croquis donné. Cette approche permet à notre méthode de s'adapter à différents styles de dessin, garantissant que les utilisateurs obtiennent des images pertinentes à partir de leurs croquis.
Résumé
Cette nouvelle méthode pour transformer des croquis en images réalistes représente un pas en avant significatif. Elle permet à quiconque de créer des images de haute qualité à partir de ses dessins sans avoir besoin de compétences artistiques avancées. En utilisant un processus de formation spécialisé, on a développé un modèle qui comprend les nuances des croquis et peut produire des résultats impressionnants, peu importe leur qualité.
En conclusion, la capacité de générer des images photoréalistes à partir de croquis ouvre de nombreuses possibilités pour l'expression créative et les applications pratiques dans divers domaines. Cette technologie va permettre à plus de gens de partager visuellement leurs idées et de rendre les processus de design plus efficaces.
Titre: Picture that Sketch: Photorealistic Image Generation from Abstract Sketches
Résumé: Given an abstract, deformed, ordinary sketch from untrained amateurs like you and me, this paper turns it into a photorealistic image - just like those shown in Fig. 1(a), all non-cherry-picked. We differ significantly from prior art in that we do not dictate an edgemap-like sketch to start with, but aim to work with abstract free-hand human sketches. In doing so, we essentially democratise the sketch-to-photo pipeline, "picturing" a sketch regardless of how good you sketch. Our contribution at the outset is a decoupled encoder-decoder training paradigm, where the decoder is a StyleGAN trained on photos only. This importantly ensures that generated results are always photorealistic. The rest is then all centred around how best to deal with the abstraction gap between sketch and photo. For that, we propose an autoregressive sketch mapper trained on sketch-photo pairs that maps a sketch to the StyleGAN latent space. We further introduce specific designs to tackle the abstract nature of human sketches, including a fine-grained discriminative loss on the back of a trained sketch-photo retrieval model, and a partial-aware sketch augmentation strategy. Finally, we showcase a few downstream tasks our generation model enables, amongst them is showing how fine-grained sketch-based image retrieval, a well-studied problem in the sketch community, can be reduced to an image (generated) to image retrieval task, surpassing state-of-the-arts. We put forward generated results in the supplementary for everyone to scrutinise.
Auteurs: Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song
Dernière mise à jour: 2023-03-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.11162
Source PDF: https://arxiv.org/pdf/2303.11162
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.