Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la génération de mises en page pour la publicité

Un nouveau modèle améliore les mises en page graphiques en utilisant des techniques d'apprentissage profond.

― 8 min lire


Meilleures mises en pageMeilleures mises en pageavec un discriminateur auniveau des pixelspublicitaires.génération de mises en pageDe nouvelles techniques améliorent la
Table des matières

Créer des mises en page, c'est super important en design graphique, surtout pour les affiches publicitaires. Dernièrement, l'utilisation de modèles d'apprentissage profond pour générer des mises en page a pris de l'ampleur. Cet article parle d'un modèle qui utilise une technique de machine learning appelée GAN (Réseau Adversarial Génératif) pour créer des mises en page à partir d'images. Un besoin essentiel dans ce processus, c'est un ensemble de données qui associe des images de produits avec leurs mises en page graphiques correspondantes.

Cependant, les ensembles de données actuels sont construits en retirant des éléments graphiques des affiches et en les étiquetant. Ce processus entraîne des différences entre les images modifiées et les images de produits originales. Pour résoudre ce problème, une méthode utilisant l'adaptation de domaine non supervisée est introduite. Cette méthode combine des idées des GAN avec un nouveau type de discriminateur qui examine les détails de chaque pixel dans les images.

Importance des mises en page

Les mises en page sont nécessaires pour de nombreux médias visuels, comme les affiches, les magazines, les bandes dessinées et les sites web. Ces dernières années, les GAN ont été utilisés pour créer des mises en page en modélisant les relations entre différents éléments graphiques. En utilisant une variante des GAN appelée Conditional GAN, on peut influencer les mises en page selon différentes conditions, comme le contenu d'image et les propriétés des éléments graphiques comme la taille et la forme.

Cet article met l’accent sur une méthode pour créer des mises en page adaptées aux images spécifiquement pour la publicité. Les mises en page comprennent des éléments graphiques comme des logos, du texte et des embellissements qui sont organisés autour des images de produits de manière appropriée. Le principal défi est de modéliser la connexion entre le contenu de l'image et les éléments de mise en page, permettant au modèle d'apprendre à arranger ces éléments de manière attrayante.

Construire un ensemble de données de mises en page

Créer un ensemble de données de haute qualité pour former ces modèles n'est pas facile. Ça nécessite des designers qualifiés pour créer les mises en page qui seront associées aux images de produits. Pour alléger cette charge de travail, les méthodes existantes collectent des images d'affiches conçues, retirent les éléments graphiques, et étiquettent leurs arrangements. Cela donne un grand ensemble de données qui peut être utilisé pour former des modèles. Mais il reste encore un fossé entre les affiches modifiées et les images de produits propres.

Un modèle précédent a essayé de combler ce fossé en appliquant un flou gaussien, mais cette méthode a parfois entraîné une perte de couleur et de détails, ce qui a donné une mauvaise qualité de mise en page. L'article se concentre sur l'utilisation de techniques d'adaptation de domaine non supervisée pour réduire encore ce fossé et améliorer la qualité des mises en page générées.

Le discriminateur au niveau pixel

La solution proposée implique un GAN qui utilise un nouveau discriminateur, connu sous le nom de discriminateur au niveau pixel. Ce discriminateur fonctionne en évaluant chaque pixel d'une image d'entrée, plutôt qu'en regardant l'image dans son ensemble. Cette approche aide à éviter l'étape de flou utilisée précédemment et permet de mieux capturer les détails de l'image du produit.

Le discriminateur au niveau pixel se connecte aux cartes de caractéristiques initiales de l'image, ce qui aide à identifier les petites variations qui peuvent se produire lors du processus de création de la mise en page. La conception implique moins de paramètres que les méthodes traditionnelles, rendant le tout plus efficace en termes de mémoire et de ressources de calcul.

Former le modèle

Pour former le modèle efficacement, un grand ensemble de données d'images de produits est collecté. Les résultats montrent que le nouveau modèle surpasse les modèles précédents selon divers indicateurs qui évaluent la qualité de la mise en page. En particulier, il excelle dans la manière dont les mises en page générées reflètent les arrière-plans et les sujets des images.

Le processus de formation implique à la fois des évaluations qualitatives et quantitatives, montrant des améliorations significatives dans la génération de mises en page. Ces améliorations sont évidentes dans la façon dont le modèle gère des arrière-plans complexes et des occlusions au sein des mises en page.

Comparaison avec les modèles précédents

Comparé aux anciens modèles, le nouveau modèle fournit généralement de meilleurs résultats. Il surpasse clairement les modèles qui ne prennent pas en compte le contenu de l'image. Ce succès est atteint parce que le nouveau modèle considère non seulement la relation entre les éléments graphiques, mais se concentre aussi sur la façon dont ces éléments se rapportent à l'image sous-jacente.

En revanche, les anciens modèles, ignorants de l'image, peuvent bien performer sur certains indicateurs mais peinent à maintenir la relation entre les éléments de mise en page et les images. Cela entraîne des inefficacités où le texte peut apparaître difficile à lire à cause d'arrière-plans complexes.

Améliorations par rapport aux approches passées

Un progrès significatif dans ce travail est l'évitement du flou gaussien. En supprimant cette étape, on conserve une richesse de détails dans les images de produits. De plus, le discriminateur au niveau pixel travaille activement à une échelle plus fine, ce qui permet un meilleur alignement des caractéristiques entre les images. Ce choix de conception contribue aux améliorations globales de la qualité des mises en page.

L'évaluation du nouveau modèle met en lumière sa capacité à créer des mises en page qui représentent mieux les détails importants des images de produits. Cela est accompli en veillant à ce que les boîtes de délimitation de la mise en page n'obscurcissent pas les zones critiques d'un sujet, améliorant ainsi la lisibilité globale.

Effets du discriminateur au niveau pixel

Le discriminateur au niveau pixel a montré qu'il offre des avantages par rapport aux discriminateurs globaux traditionnels qui ne évaluent que des images entières. En se concentrant sur des pixels individuels, cette méthode permet des ajustements plus approfondis lors de la formation. Cela garantit que le modèle apprend plus efficacement à partir des données fournies.

Dans les tests, l'approche au niveau pixel résulte constamment en une meilleure performance sur divers indicateurs, soulignant son rôle dans le succès du modèle. Les résultats suggèrent que traiter les différences au niveau des pixels peut faire une différence substantielle dans la qualité des mises en page générées.

Le rôle du Lissage des étiquettes

Une stratégie employée lors de la formation implique le lissage des étiquettes, ce qui aide à améliorer la capacité du modèle à généraliser. Cette technique ajuste les entrées données au modèle, lui permettant de faire de meilleures prédictions. Les ajustements se concentrent sur les zones non affectées par l'inpainting, renforçant ainsi la performance pendant la phase de formation.

Directions futures

Le travail présenté ici comble efficacement le fossé entre les images de produits et leurs équivalents inpaintés, menant à des mises en page graphiques de haute qualité. Les recherches futures pourraient se concentrer sur une meilleure incorporation des préférences ou contraintes des utilisateurs, comme les catégories et positions des éléments de mise en page. Cela pourrait améliorer la diversité et l'applicabilité des mises en page générées dans divers contextes.

Conclusion

La méthode discutée représente une amélioration significative dans la génération de mises en page adaptées aux images pour les affiches publicitaires. En utilisant un discriminateur au niveau pixel et en abordant efficacement le fossé de domaine, le modèle atteint des performances de pointe dans la génération de mises en page. Ces avancées non seulement améliorent la qualité visuelle des mises en page, mais maintiennent également les détails nécessaires des images de produits, marquant un pas en avant notable dans le domaine du design graphique et de la génération de mises en page.

Source originale

Titre: Unsupervised Domain Adaption with Pixel-level Discriminator for Image-aware Layout Generation

Résumé: Layout is essential for graphic design and poster generation. Recently, applying deep learning models to generate layouts has attracted increasing attention. This paper focuses on using the GAN-based model conditioned on image contents to generate advertising poster graphic layouts, which requires an advertising poster layout dataset with paired product images and graphic layouts. However, the paired images and layouts in the existing dataset are collected by inpainting and annotating posters, respectively. There exists a domain gap between inpainted posters (source domain data) and clean product images (target domain data). Therefore, this paper combines unsupervised domain adaption techniques to design a GAN with a novel pixel-level discriminator (PD), called PDA-GAN, to generate graphic layouts according to image contents. The PD is connected to the shallow level feature map and computes the GAN loss for each input-image pixel. Both quantitative and qualitative evaluations demonstrate that PDA-GAN can achieve state-of-the-art performances and generate high-quality image-aware graphic layouts for advertising posters.

Auteurs: Chenchen Xu, Min Zhou, Tiezheng Ge, Yuning Jiang, Weiwei Xu

Dernière mise à jour: 2023-03-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.14377

Source PDF: https://arxiv.org/pdf/2303.14377

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires