Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Analyser le style dans les modèles d'art génératif

Une méthode pour évaluer le style artistique dans les images générées.

― 11 min lire


Analyse de style dans lesAnalyse de style dans lesmodèles artistiquesstyle artistique.Une nouvelle approche pour évaluer le
Table des matières

Les Modèles génératifs sont de plus en plus utilisés par des Artistes et des graphistes pour créer de nouvelles images. Cependant, ces modèles reproduisent souvent des éléments des images sur lesquelles ils ont été entraînés. Avec la popularité de ces modèles, il est important de vérifier si une image générée correspond à quelque chose du jeu de données d'entraînement, surtout avant de l'utiliser à des fins commerciales. Les outils actuels se concentrent sur la recherche d'images ayant des significations similaires, mais de nombreux artistes s'inquiètent de la façon dont leur style est copié dans les modèles texte-à-image.

Cet article présente une nouvelle méthode pour analyser et extraire des caractéristiques de style à partir d'images. Notre méthode inclut un ensemble de données unique qui se concentre sur la façon dont le style est une interprétation personnelle d'une image impliquant divers facteurs comme la couleur, la texture et la forme. Nous proposons aussi une technique pour relier le style d'une image générée aux images sur lesquelles le modèle a été entraîné, montrant des résultats encourageants dans la récupération de différents Styles.

Similarité de Style dans la Génération d'Images

Les modèles de diffusion comme Stable Diffusion et DALL-E apprennent les styles à partir de gigantesques ensembles de données remplis d'images étiquetées. Avant d'utiliser une image générée à des fins commerciales, il est sage d'analyser sa relation avec le jeu de données d'entraînement et l'origine de son design et de son style. Comprendre et attribuer ces images générées par des recherches de similarité devient de plus en plus important. Cela aide les utilisateurs d'images générées à reconnaître les conflits ou les liens potentiels que leurs images peuvent suggérer. Cela permet aussi aux artistes de voir combien de leur travail est emprunté par ces modèles génératifs.

Récupérer le style d'une image reste un problème difficile en vision par ordinateur. Beaucoup de méthodes de récupération se concentrent principalement sur le contenu de surface des images, mais tracer l'origine du style dans une image générée reste compliqué. Pour combler cette lacune, nous introduisons une nouvelle méthode d'entraînement visant à apprendre les caractéristiques de style à partir d'images. Les approches standards ignorent souvent les éléments de style pendant l'entraînement, donc nous nous concentrons sur des méthodes qui conservent les attributs stylistiques tout en réduisant la variable de contenu.

Reconnaissant que le style est subjectif, nous avons créé un ensemble de données qui relie les images à l'artiste qui les a créées. En combinant à la fois l'apprentissage auto-supervisé et des techniques supervisées, nous avons développé un modèle solide pour la représentation du style. Notre modèle surpasse les modèles pré-entraînés existants sur divers ensembles de données établis.

Contributions

Dans cet article, nous nous concentrons sur trois contributions principales :

  1. Nous construisons un nouvel ensemble de données qui relie les images à leurs styles artistiques.
  2. Nous introduisons une méthode d'apprentissage multi-étiquettes pour extraire des caractéristiques de style à partir d'images, en démontrant son efficacité sur des ensembles de données publiques établies.
  3. Nous réalisons une étude de cas d'analyse de style en nous concentrant sur les modèles génératifs populaires texte-à-image, fournissant des signes de la probabilité que le style d'un artiste soit reproduit.

Cette étude de cas explore comment les caractéristiques de style peuvent fournir des informations sur les performances d'un modèle génératif à reproduire le style d'un artiste.

Étude de Cas

Nous avons compilé une liste de 96 artistes principalement à partir d'une base de données d'art largement utilisée. Pour chaque artiste, nous avons déterminé un vecteur représentatif en moyennant les caractéristiques de leurs œuvres. Nous avons généré une image pour chaque artiste en utilisant une invite qui précise le nom de l'artiste. En comparant chaque image générée aux caractéristiques moyennes de l'artiste, nous pouvons mesurer dans quelle mesure l'image générée ressemble au travail typique de cet artiste.

Chaque point de données dans notre analyse représente un artiste. Les scores que nous calculons montrent à quel point une image générée capture le style d'un artiste particulier. Nous avons constaté que certains artistes sont bien mieux représentés dans les images générées que d'autres. Par exemple, les styles d'artistes comme Leonid Afremov et Georges Seurat montrent des scores de similarité élevés, et les inspections visuelles confirment que le modèle capture bien leurs styles. En revanche, les styles d'artistes comme Ruan Jia et Greg Rutkowski ne s'alignent pas étroitement, reflétant les limites du modèle.

Étonnamment, nous avons appris que certains artistes avaient été retirés des données d'entraînement d'une version spécifique du modèle, ce qui a affecté les scores de similarité des styles. Cette découverte souligne comment la mesure de la Similarité de Style peut informer les artistes sur l'efficacité avec laquelle un modèle correspond à leur style, permettant aux utilisateurs de vérifier si leurs images générées reflètent des éléments artistiques distinctifs de certains artistes.

Qu'est-ce que le Style ?

Définir le "style" dans l'art peut être délicat, mais de nombreux styles sont étroitement liés à des artistes spécifiques. Nous définissons le style comme les caractéristiques globales d'une image qui la lient à un artiste ou un mouvement. Ces caractéristiques incluent l'utilisation des couleurs, les techniques de coups de pinceau et la composition.

Travaux Connus

Les études antérieures en vision par ordinateur ont essayé d'interpréter le style à travers des caractéristiques visuelles de base telles que les motifs de couleur et les formes. Récemment, la recherche s'est orientée vers le transfert de styles d'une image à une autre et la classification des styles. Cependant, peu d'études se concentrent sur l'appariement de styles et la récupération dans divers contextes.

Une étude notable a introduit des matrices comme moyen de décrire le style. D'autres techniques consistent à optimiser les styles tout en maintenant l'intégrité de l'image. Notre méthode, cependant, met l'accent sur l'utilisation de vraies paires d'images avec leurs légendes pour apprendre les styles de manière plus efficace, conduisant à de meilleurs résultats dans les tâches de récupération de style.

Création d'un Nouvel Ensemble de Données pour l'Attribution du Style

Notre nouvel ensemble de données, LAION-Styles, est conçu pour gérer divers styles artistiques avec des étiquettes qui facilitent des évaluations supplémentaires. Nous rassemblons des images avec de hauts scores esthétiques et privilégions les styles distincts. L'ensemble de données passe par un processus de filtrage pour garantir sa pertinence et sa qualité, ce qui donne plus d'un demi-million d'images liées à divers styles.

Cet ensemble de données permet d'entraîner notre modèle, qui se concentre sur l'extraction efficace des caractéristiques de style. Nous introduisons un processus d'entraînement en deux parties qui combine l'apprentissage contrastif auto-supervisé avec notre ensemble de données étiquetées. Notre objectif est de créer un modèle capable de reconnaître les styles sans dépendre fortement du contenu.

Approche Proposée

Notre approche vise à développer une méthode efficace pour extraire des informations essentielles sur le style à partir d'images. Nous collectons des images liées à différents styles et examinons à quel point notre modèle peut différencier ces styles tout en ignorant certaines caractéristiques de contenu.

Pendant l'entraînement, nous utilisons diverses transformations pour maintenir les aspects stylistiques, permettant à notre modèle d'apprendre de meilleures représentations du style. Notre modèle final dépasse les performances des méthodes précédentes de récupération de style.

Détails de l'Entraînement

Nous avons évalué deux variations de notre modèle, chacune ajustée et testée sur le nouvel ensemble de données sur plusieurs itérations. L'utilisation de méthodes et de critères spécifiques a déterminé un pipeline d'entraînement robuste qui améliore significativement les performances de notre modèle.

Nous menons des évaluations pour mesurer l'efficacité avec laquelle notre modèle récupère des styles à travers différents ensembles de données. Nous comparons notre modèle à différentes méthodes de référence et montrons sa capacité à les surpasser constamment.

Ensembles de Données d'Évaluation

Nous avons utilisé deux ensembles de données principaux pour évaluer notre modèle : DomainNet et WikiArt. Chacun de ces ensembles de données comprend de nombreuses images de divers styles et artistes renommés. Notre évaluation a impliqué de diviser ces ensembles de données en parties plus petites pour les tests et l'entraînement, nous permettant d'évaluer à quel point notre modèle pouvait bien assortir les styles.

Résultats et Observations

Les résultats montrent que notre modèle surpasse les méthodes précédentes en matière de récupération de styles d'images à travers les deux ensembles de données. Nos découvertes révèlent que le style et le contenu peuvent souvent être distingués, le modèle étant plus performant sur des tâches plus difficiles, comme celles présentées dans l'ensemble de données WikiArt.

Le succès du modèle réside dans sa capacité à capturer des styles distincts, certaines œuvres d'artistes montrant des taux plus élevés de reproduction exacte du style. Cela ouvre une discussion sur la façon dont certains styles artistiques se prêtent mieux à la génération que d'autres et donne un aperçu des métriques utilisées pour évaluer les modèles génératifs.

Analyse des Erreurs

Bien que notre modèle fonctionne bien, il rencontre encore des défis, notamment lorsqu'il s'agit de distinguer des styles étroitement liés. Nous avons observé un schéma dans les erreurs, où les similarités de style provoquent des confusions parmi les artistes au sein du même mouvement. De plus, comparer comment les artistes se rapportent les uns aux autres peut mettre en lumière les complexités impliquées dans la récupération de styles.

À travers des études humaines, nous avons confirmé que les individus non formés ont plus de difficultés que notre modèle à associer correctement les styles. Cela souligne les défis de la reconnaissance du style et les capacités supérieures de notre modèle dans ce contexte.

Étudier le Style dans la Pratique

Analyser les images générées par des modèles de diffusion nous donne des aperçus sur l'efficacité de notre appariement de style dans des contextes réels. Nous avons créé des ensembles de données synthétiques à partir de différents types d'invites pour voir à quel point notre modèle pouvait identifier les styles. Comparer ces images synthétiques avec des œuvres établies a fourni des données précieuses concernant la performance générale de notre modèle dans l'appariement de styles.

Conclusion

Cette étude présente un cadre complet pour apprendre et représenter des styles à partir de diverses images. Nous illustrons l'efficacité de notre méthode dans les tâches d'appariement de style, confirmant son utilisation pratique pour les artistes et les entreprises. Nos découvertes mettent en évidence l'impact de la structure des invites sur les taux de copie de style, éclairant les connexions complexes entre les invites textuelles et la génération de style.

Bien que notre définition du style soit liée à l'attribution d'artistes, il y a de la place pour des recherches continues pour explorer des interprétations plus larges. Ce travail a été rendu possible grâce à divers canaux de soutien, reconnaissant les efforts collaboratifs qui ont facilité cette exploration dans le monde de la génération d'images et de l'attribution de style.

Source originale

Titre: Measuring Style Similarity in Diffusion Models

Résumé: Generative models are now widely used by graphic designers and artists. Prior works have shown that these models remember and often replicate content from their training data during generation. Hence as their proliferation increases, it has become important to perform a database search to determine whether the properties of the image are attributable to specific training data, every time before a generated image is used for professional purposes. Existing tools for this purpose focus on retrieving images of similar semantic content. Meanwhile, many artists are concerned with style replication in text-to-image models. We present a framework for understanding and extracting style descriptors from images. Our framework comprises a new dataset curated using the insight that style is a subjective property of an image that captures complex yet meaningful interactions of factors including but not limited to colors, textures, shapes, etc. We also propose a method to extract style descriptors that can be used to attribute style of a generated image to the images used in the training dataset of a text-to-image model. We showcase promising results in various style retrieval tasks. We also quantitatively and qualitatively analyze style attribution and matching in the Stable Diffusion model. Code and artifacts are available at https://github.com/learn2phoenix/CSD.

Auteurs: Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein

Dernière mise à jour: 2024-04-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.01292

Source PDF: https://arxiv.org/pdf/2404.01292

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires