Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Amélioration des techniques de traduction d'images pour l'art

Une nouvelle méthode améliore la qualité de la traduction d'images et le contrôle des styles.

― 7 min lire


Nouvelle méthode deNouvelle méthode detraduction d'imagesrévéléehaute qualité.génération d'images artistiques deTechniques améliorées pour la
Table des matières

Dans le monde de l'édition d'images et de la traduction, il est souvent nécessaire de changer le style d'une image tout en gardant son contenu intact. Ce processus peut booster la créativité dans des domaines comme les réseaux sociaux, les créations artistiques et les environnements virtuels. Les méthodes traditionnelles pour y parvenir peuvent être complexes, entraînant souvent des images inexactes ou de mauvaise qualité. Pour surmonter ces défis, une nouvelle approche a été développée, promettant des résultats plus fiables et un meilleur contrôle sur les styles des images générées.

Le défi de la traduction d'images

La traduction d'images consiste à prendre une image d'un style ou d'un domaine et à la traduire dans un autre. Par exemple, tu pourrais vouloir transformer un simple croquis en une peinture détaillée. Les anciennes méthodes, qui s'appuyaient souvent sur des réseaux antagonistes génératifs (GANs), avaient du potentiel mais présentaient des limites. Elles se concentraient généralement sur un contrôle global du style, ce qui signifiait que le style général était cohérent, mais que les détails plus fins étaient souvent perdus ou déformés.

Des techniques plus récentes ont tenté de combler le fossé entre les styles en établissant un lien entre l'image d'entrée et une image exemple (souvent appelée exemplaire) qui représente le style souhaité. Cela implique de cartographier les caractéristiques des deux images et de les faire fonctionner ensemble. Même si cela semble efficace en théorie, le véritable appairage des éléments entre les deux images peut être assez délicat, et les erreurs peuvent mener à des résultats insatisfaisants.

La nouvelle approche

Pour améliorer le processus de traduction d'images, la nouvelle méthode met l'accent sur deux stratégies principales : améliorer la précision de l'appariement des éléments entre les images et réduire l'impact de cet appareillage sur la qualité finale de l'image. En se concentrant sur ces aspects, cette approche vise à produire des images plus visuellement plaisantes.

Comment ça marche

Au cœur de cette nouvelle méthode se trouve un système appelé le Transformateur Masqué et Adaptatif (MAT). Ce système est conçu pour apprendre les connexions entre l'image d'entrée et l'image exemplaire de manière plus précise. Il utilise une technique appelée attention masquée, qui aide à éliminer les connexions peu fiables qui pourraient mener à des résultats d'image défectueux.

Étape 1 : Apprentissage de correspondances précises

Le système MAT vise à établir des relations précises entre les caractéristiques correspondantes des deux images. Contrairement aux anciennes méthodes qui s'appuyaient parfois sur des appariements ambigus, MAT apprend à distinguer les appariements fiables de ceux peu fiables. De cette façon, seules les caractéristiques les plus pertinentes sont mises en avant lors du processus de traduction.

Étape 2 : Augmentation de caractéristiques

En plus d'améliorer la façon dont les caractéristiques sont appariées, MAT améliore également les informations utilisées pour générer l'image finale. Cela se fait en intégrant à la fois les caractéristiques sources de l'image originale et les Codes de style globaux de l'exemplaire. En combinant ces éléments, le modèle peut créer une sortie plus cohérente et de haute qualité.

Apprentissage par contraste des styles

Pour s'assurer que le système est capable de différencier efficacement les styles, une nouvelle méthode d'apprentissage appelée apprentissage par contraste des styles (CSL) est utilisée. Cette approche permet au modèle d'apprendre à partir d'images de haute et de basse qualité. L'objectif est de garantir que les images générées non seulement ont fière allure, mais conservent également leurs styles et qualités distincts.

Le rôle des codes de style

Les codes de style sont essentiels pour guider l'apparence de l'image finale. Le modèle apprend à distinguer les différents styles en maximisant les similitudes avec des exemplaires de haute qualité tout en les minimisant avec des exemples moins désirables. Ce processus aide à s'assurer que les images générées reflètent les qualités artistiques souhaitées.

Le Réseau de traduction

L'ensemble de la méthode repose sur un réseau de traduction modélisé selon l'architecture U-Net. Cette structure permet un flux d'informations fluide entre les différentes couches, ce qui aide à préserver les détails et la sémantique de l'image d'entrée.

Contrôle de style local et global

Le réseau supporte à la fois un contrôle de style local et global. Les styles locaux se réfèrent à des zones spécifiques de l'image, tandis que les styles globaux s'appliquent à l'image entière. En utilisant ces deux méthodes de contrôle, le modèle obtient une meilleure cohérence stylistique et maintient l'intégrité sémantique de l'image originale.

Évaluation de la méthode

Pour évaluer les performances de cette nouvelle approche, une série de tests a été menée en utilisant divers ensembles de données. Ces tests ont comparé la nouvelle méthode à d'autres techniques à la pointe de la technologie. Les résultats ont montré que la nouvelle approche produisait des images de meilleure qualité, avec une meilleure pertinence des couleurs et une cohérence des textures améliorée.

Résultats quantitatifs

La performance du modèle a été évaluée en utilisant plusieurs métriques qui mesurent la qualité perceptuelle des images. Ces métriques incluent le Score d'Inception de Fréchet (FID) et la Distance de Wasserstein coupée (SWD), qui évaluent toutes deux la réalisme des images générées. Les résultats ont montré que la nouvelle méthode surpassait significativement les techniques existantes sur tous les ensembles de données.

Résultats qualitatifs

En plus de l'évaluation numérique, des tests visuels ont été effectués pour comparer directement les sorties. La nouvelle approche générait constamment des images qui semblaient plus naturelles, avec moins d'artefacts ou de déformations. Les méthodes précédentes aboutissaient souvent à des images avec des caractéristiques inconsistantes, mais la dernière méthode maintenait un niveau élevé de cohérence, préservant à la fois l'identité et le style.

Applications de la nouvelle méthode

Un des aspects passionnants de cette nouvelle technique est sa polyvalence. Elle peut être appliquée à diverses tâches dans la création d'images artistiques. Par exemple, elle peut facilement convertir des photographies en portraits artistiques tout en gardant le sujet original reconnaissable. Elle peut aussi générer des œuvres d'art traditionnelles, comme des peintures à l'encre chinoise, à partir de simples entrées d'image.

Génération de portraits artistiques

En utilisant une sélection de photographies de visages, la nouvelle méthode a été testée pour sa capacité à créer des portraits artistiques. Les résultats étaient impressionnants, montrant que les portraits préservaient l'identité des photographies originales tout en adoptant le style de la forme d'art choisie.

Génération d'œuvres d'art traditionnelles

En plus des styles artistiques modernes, la méthode a également démontré sa capacité à générer des formes d'art traditionnelles comme les peintures à l'encre chinoise. Cela montre la capacité de la méthode à s'adapter et à gérer efficacement une gamme d'expressions artistiques.

Conclusion

La nouvelle méthode de traduction d'images basée sur des exemplaires offre des avancées significatives dans la réalisation de générer des images de haute qualité. En combinant des techniques d'appariement améliorées avec des structures de réseaux de neurones innovantes, cette approche améliore non seulement la qualité visuelle des images mais offre également un meilleur contrôle sur les styles artistiques appliqués. Avec des résultats prometteurs dans plusieurs applications, la méthode représente un véritable progrès dans le domaine de l'édition et de la traduction d'images. De futures explorations pourraient encore affiner la technique, potentiellement pour relever les défis existants et élargir encore son applicabilité.

Source originale

Titre: Masked and Adaptive Transformer for Exemplar Based Image Translation

Résumé: We present a novel framework for exemplar based image translation. Recent advanced methods for this task mainly focus on establishing cross-domain semantic correspondence, which sequentially dominates image generation in the manner of local style control. Unfortunately, cross-domain semantic matching is challenging; and matching errors ultimately degrade the quality of generated images. To overcome this challenge, we improve the accuracy of matching on the one hand, and diminish the role of matching in image generation on the other hand. To achieve the former, we propose a masked and adaptive transformer (MAT) for learning accurate cross-domain correspondence, and executing context-aware feature augmentation. To achieve the latter, we use source features of the input and global style codes of the exemplar, as supplementary information, for decoding an image. Besides, we devise a novel contrastive style learning method, for acquire quality-discriminative style representations, which in turn benefit high-quality image generation. Experimental results show that our method, dubbed MATEBIT, performs considerably better than state-of-the-art methods, in diverse image translation tasks. The codes are available at \url{https://github.com/AiArt-HDU/MATEBIT}.

Auteurs: Chang Jiang, Fei Gao, Biao Ma, Yuhao Lin, Nannan Wang, Gang Xu

Dernière mise à jour: 2023-03-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.17123

Source PDF: https://arxiv.org/pdf/2303.17123

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires