Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Calcul et langage# Apprentissage automatique

Faire avancer l'apprentissage des concepts dans les modèles texte-à-image

Un nouveau standard améliore l'évaluation de la façon dont les modèles apprennent des concepts visuels.

― 15 min lire


Apprentissage desApprentissage desconcepts dans les modèlesd'IAen image.compréhension de la génération de texteDe nouvelles méthodes améliorent la
Table des matières

La capacité des machines à comprendre et créer des images à partir de descriptions écrites est un domaine clé en informatique. Les développements récents des modèles texte-à-image ont amélioré la façon dont les machines génèrent des images, les rendant plus réalistes en utilisant de gros ensembles d'images et leurs descriptions. Cependant, la plupart des études se sont concentrées sur le réalisme des images plutôt que sur la compréhension des concepts derrière celles-ci.

Pour mieux évaluer comment ces modèles texte-à-image apprennent et créent de nouvelles idées visuelles, on a développé un grand ensemble de données contenant 284 concepts visuels distincts et 33 000 prompts associés. Cela nous permet de juger à quel point ces modèles relient les images qu'ils génèrent aux concepts dont elles sont issues.

Dans notre recherche, on a exploré différents types de concepts visuels, y compris des objets, des attributs et des styles. On a aussi évalué comment ces concepts peuvent être assemblés, en examinant des aspects comme le comptage, les attributs, les relations et les actions. Nos études humaines montrent que notre nouveau système d'évaluation est bien corrélé avec les perspectives humaines sur la façon dont ces modèles apprennent les concepts.

Les humains ont souvent tendance à regrouper ce qu'ils voient par concepts. Par exemple, les chats et les éléphants font partie de la catégorie des animaux, tandis que les palmiers et les pins sont des types d'arbres. Quand on parle d'images dans la vie quotidienne, on utilise souvent ces concepts pour décrire ce qu'on voit. Cependant, créer des systèmes informatiques qui peuvent apprendre et raisonner sur ces idées visuelles à partir d'images et de leurs descriptions reste un défi.

Les modèles texte-à-image fonctionnent en transformant le langage naturel en images correspondantes. Cela signifie que des modèles de haute qualité servent de pont entre des concepts exprimés en mots et leurs représentations visuelles. Cette capacité a également suscité un intérêt pour une méthode connue sous le nom d'« inversion d'image », où une ou plusieurs images liées à un concept sont transformées en une forme simple de ce concept.

Tandis que les recherches précédentes se concentraient sur l'inversion d'image utilisant des méthodes comme les Réseaux Antagonistes Génératifs, les techniques récentes ont combiné l'inversion avec des méthodes texte-à-image. Ces approches permettent aux modèles d'apprendre rapidement des concepts à partir de moins d'images et de les recréer dans différentes combinaisons avec d'autres concepts, attributs et styles.

Dans ce nouveau cadre d'apprentissage des concepts par inversion d'image, deux critères principaux d'évaluation ont émergé : l'Alignement des concepts, qui vérifie à quel point les images générées correspondent aux images cibles, et le Raisonnement compositionnel, qui évalue si les images générées maintiennent leur composition originale. Les recherches antérieures n'ont testé qu'un nombre limité de concepts et de compositions, rendant difficile l'application de leurs découvertes de manière générale.

Les méthodes d'évaluation existantes ont du mal à capturer avec précision les préférences humaines. Cela a conduit à un besoin de méthodes d'évaluation automatiques. Pour y remédier, on a introduit une stratégie d'évaluation complète appelée benchmark qui s'aligne avec les préférences humaines et est accompagnée d'un ensemble de données de concepts. Notre ensemble de données comprend 284 concepts différents et peut être étendu en utilisant notre méthode de création d'ensembles de données réalistes automatiquement.

Notre ensemble de données se concentre sur quatre tâches différentes impliquant l'apprentissage des concepts : apprendre des styles, apprendre des objets, apprendre des attributs et comprendre la composition. On décompose aussi la composition en quatre catégories : action, attribution, comptage et relations. Grâce à cet ensemble de données, on démontre comment il peut être utilisé pour évaluer à quel point les modèles apprennent des concepts.

On a créé un nouveau cadre d'évaluation qui examine les écarts conceptuels et montre un fort accord avec les jugements humains. Ce cadre, combiné avec notre ensemble de données, offre une nouvelle manière de réaliser des évaluations à grande échelle qui correspondent aux évaluations humaines. On entraîne des classificateurs, appelés oracles, pour chacune des tâches afin d'identifier les concepts respectifs. On utilise ensuite ces oracles pour calculer à quel point les images générées correspondent aux images cibles originales.

On a mené d'expectations sur quatre modèles différents pour apprendre des concepts. On a affiné environ 1 100 modèles et généré plus de 200 000 images. Nos résultats montrent un compromis : les modèles qui excellent dans l'alignement des concepts peuvent avoir du mal à préserver leur composition, et vice versa. Cela indique que les méthodes précédentes peuvent être soit trop spécifiques, soit trop générales.

En ce qui concerne nos contributions, on a introduit un benchmark pour évaluer l'apprentissage des concepts basé sur l'entrée texte. Notre nouvelle métrique d'évaluation, appelée Écarts de Confiance des Concepts, mesure à quel point les modèles maintiennent leurs concepts et compositions. En moyenne, notre métrique est fortement corrélée avec les évaluations humaines, fournissant une nouvelle norme pour évaluer les apprenants de concepts basés sur du texte.

Bases de l'apprentissage des concepts

On définit un concept comme un groupe d'entités avec des propriétés partagées. Par exemple, dans un ensemble d'images montrant des animaux comme des chiens et des chats, le concept serait "animal." De même, des images de différentes races de chiens montrent le concept de "chien." Notre ensemble de données comprend 284 concepts uniques divisés en trois classes : domaine, objets et attributs.

Un Apprenant de Concepts est un modèle qui peut acquérir un concept et le reproduire tout en le liant à d'autres concepts. Un apprenant idéal devrait être capable de répliquer les concepts avec précision et de maintenir une compréhension de la manière dont ces concepts sont liés les uns aux autres.

Pour évaluer un ensemble de concepts, on suppose qu'il y a un lien entre deux concepts, qui peut être représenté par une phrase décrivant leur relation. Par exemple, "un oiseau avec deux jambes." On suppose aussi que les combinaisons de concepts doivent être réalistes, donc on n'évalue pas les combinaisons irréalistes.

Apprentissage des concepts dans le contexte texte-à-image

Les recherches précédentes se sont intéressées à l'apprentissage des concepts utilisant des modèles texte-à-image comme Textual Inversion et DreamBooth. Ces modèles prennent un prompt écrit comme entrée et créent une image qui représente ce prompt. Une approche courante utilise un Modèle de Diffusion Latente (LDM), qui a deux parties principales :

  1. Un Encodeur Textuel qui crée une représentation du prompt écrit.
  2. Un Générateur qui construit l'image petit à petit en fonction du texte.

Comme ces modèles ne considèrent que les entrées textuelles, on doit représenter le concept en termes de tokens écrits. Ces tokens peuvent ensuite être utilisés pour produire des images liées au concept. L'objectif de l'apprentissage des concepts est de transformer un concept cible en une représentation basée sur du texte.

Une fois qu'on établit la connexion entre les tokens et le concept cible, on peut générer des images spécifiques liées à ce concept. Les méthodes précédentes se concentraient sur l'affinement du modèle pour apprendre la cartographie, ce qui permet de générer des images spécifiques au concept.

Pour évaluer ces images générées, on doit vérifier si elles s'alignent avec les concepts appris tout en préservant leur composition. Pour cela, on utilise un ensemble de données pour entraîner un Oracle pour identifier les concepts et mesurer à quel point ils correspondent aux images générées.

Notre cadre d'évaluation capture à la fois l'alignement conceptuel et le raisonnement compositionnel en quantifiant les variations dans les images générées. L'introduction de l'ensemble de données permet des évaluations plus précises sur la façon dont les modèles apprennent des concepts.

Vue d'ensemble de l'ensemble de données

Notre ensemble de données se compose de divers concepts qui aident à améliorer les évaluations de l'apprentissage des concepts. Il comprend des ensembles de données bien connus comme ImageNet, PACS, CUB et Visual Genome, les combinant pour créer un ensemble de données étiqueté qui améliore la précision de l'évaluation.

Apprentissage des styles

Pour apprendre différents styles, on utilise l'ensemble de données PACS, qui a des images de quatre domaines : Peinture Artistique, Dessin Animé, Photo et Croquis. Chaque style a des images associées à sept entités, et l'objectif est de générer des images spécifiques au style pour toutes les entités en utilisant des références d'un style.

Apprentissage des objets

Pour développer des concepts au niveau des objets, on s'appuie sur l'ensemble de données ImageNet, qui contient 1 000 concepts de bas niveau. Cependant, cet ensemble de données a souvent du bruit et des concepts non pertinents, donc on applique un processus de filtrage automatique pour garantir des images de haute qualité. Ce processus consiste à extraire des phrases textuelles pertinentes de Visual Genome pour créer une référence solide pour les apprenants de concepts.

Apprentissage des attributs

Comme ImageNet ne labellise pas les images en fonction des attributs, on utilise l'ensemble de données CUB, qui fournit des étiquettes de niveau attribut. Cela nous aide à évaluer la précision des apprenants de concepts concernant différents attributs présents dans les images.

Raisonnement compositionnel

Maintenir des connaissances antérieures et associer de nouveaux concepts à des connaissances existantes est crucial pour des évaluations complètes. On utilise Visual Genome pour extraire des légendes où le concept est le sujet principal. Ces légendes aident à catégoriser les compositions en actions, attributs, comptage et relations.

Cadre d'évaluation : Écarts de Confiance des Concepts

On introduit la métrique Écarts de Confiance des Concepts (CCD) pour mesurer l'alignement des images générées avec un concept de référence. Un modèle de diffusion conditionné par le texte pré-entraîné génère des images basées sur des concepts spécifiques. Les stratégies d'évaluation existantes évaluent deux aspects :

  1. Alignement des Concepts : Vérifier à quel point les images générées correspondent aux véritables images cibles.
  2. Raisonnement Compositionnel : Évaluer la relation de l'image avec le texte qui l'a déclenchée.

Cependant, ces méthodes ont leurs limites. Pour remédier à ces lacunes, on entraîne un classificateur oracle en utilisant notre ensemble de données d'entraînement. En examinant les sorties de probabilité de l'oracle par rapport aux images générées, on peut calculer à quel point une image générée correspond aux images cibles.

La métrique CCD reflète à quel point les images générées sont proches des images de vérité terrain. Des valeurs qui s'approchent de zéro indiquent une correspondance étroite, tandis que des valeurs positives ou négatives montrent un écart par rapport à la sortie attendue.

Paramètres d'évaluation spécifiques à la tâche

Pour tirer le meilleur parti de notre processus d'évaluation, on a entraîné des oracles séparés pour chaque tâche. Deux types d'évaluations sont réalisées :

  1. Alignement des concepts, évalué à l'aide de classificateurs de concepts.
  2. Raisonnement compositionnel, évalué à l'aide d'un modèle de questions visuelles.

Alignement des concepts

Les évaluations d'alignement des concepts ont été réalisées sur toutes les tâches, en vérifiant les images générées par rapport à différents prompts textuels composites. On a entraîné divers classificateurs, comme ResNet18 pour la différenciation des styles et ConvNeXt pour la reconnaissance des objets, assurant une évaluation complète des images générées.

Raisonnement compositionnel

On évalue à quel point les images générées s'alignent avec leurs prompts en générant des questions booléennes. Cela nous permet de mesurer la similarité image-texte plus efficacement que les méthodes précédentes, car cela considère les relations plutôt que simplement l'alignement direct image-texte.

Résultats expérimentaux

On a étudié quatre stratégies d'apprentissage des concepts basées sur le modèle texte-à-image : Textual Inversion (LDM), Textual Inversion (SD), DreamBooth et Custom Diffusion. On a généré des images pour tous les concepts afin d'évaluer l'alignement des concepts et utilisé divers prompts textuels composites.

Résultats de l'évaluation de l'alignement des concepts

Les résultats montrent que les images originales fournissent de faibles scores d'alignement, indiquant que les oracles sont confiants dans leurs prédictions. Custom Diffusion a eu des difficultés, tandis que Textual Inversion (SD) a mieux performé dans l'apprentissage des concepts au niveau des objets.

Fait intéressant, lors de l'utilisation de prompts composites, la performance de toutes les méthodes a considérablement chuté. Cela suggère que les méthodologies existantes ont du mal à maintenir les concepts sous une complexité accrue.

Résultats de l'évaluation du raisonnement compositionnel

Les résultats se sont inversés dans les tâches de composition, Custom Diffusion surpassant les autres. Cela met en lumière le compromis entre l'apprentissage des concepts et le maintien de la composition, car aucune des métriques traditionnelles, comme les scores CLIP, n'a mesuré ces aspects de manière fiable.

Évaluations humaines

On a réalisé des évaluations humaines pour valider notre nouvelle métrique. Les gens ont noté à quel point les images générées par nos modèles s'alignaient avec les images de vérité terrain et à quel point elles représentaient fidèlement les légendes correspondantes. Les résultats ont montré une forte corrélation entre notre métrique et les préférences humaines, indiquant son efficacité.

Travaux connexes

L'apprentissage des concepts varie dans son approche des problèmes. Différents modèles ont été développés pour identifier les attributs des objets et les associer à des mots. Cependant, les évaluations traditionnelles reposaient souvent sur de petits ensembles de données, rendant difficile la généralisation des découvertes.

Les avancées récentes dans les modèles texte-à-image ont considérablement amélioré les performances, mais l'évaluation de leurs capacités d'apprentissage de concepts reste limitée. Bien que des métriques comme les scores FID et CLIP existent, elles ne se sont pas concentrées sur les évaluations spécifiques aux concepts.

Notre travail vise à combler cette lacune en introduisant un benchmark complet pour l'apprentissage des concepts. Cela inclut une métrique d'évaluation détaillée et un cadre qui permet de meilleures évaluations, faisant avancer la recherche dans ce domaine.

Impact social

L'introduction de notre benchmark et de notre cadre d'évaluation pour l'apprentissage des concepts est importante pour plusieurs raisons. Les évaluations précédentes avaient un champ limité, ce qui a restreint la compréhension des applications pratiques de ces modèles.

Notre benchmark démontre que, bien que les apprenants de concepts actuels aient des capacités impressionnantes, il reste encore un écart significatif à combler. On anticipe que les recherches futures pourront s'appuyer sur cet ensemble d'évaluations étendues.

Notre recherche contribue directement à l'objectif global de faire progresser l'intelligence artificielle de niveau humain. En améliorant les méthodes d'évaluation de l'apprentissage des concepts, on vise à développer des systèmes plus robustes capables de comprendre et de générer des images basées sur un raisonnement semblable à celui des humains.

Conclusion

En résumé, on a introduit un nouveau benchmark pour évaluer les modèles texte-à-image dans l'apprentissage des concepts. Ce benchmark comprend un grand ensemble de données avec une variété de concepts, un cadre d'évaluation aligné sur les préférences humaines et une nouvelle métrique pour évaluer le succès de l'apprentissage.

Bien que former de nombreux modèles sur de nombreux concepts soit gourmand en ressources, nos méthodes automatisées permettent des évaluations évolutives. Nos résultats aident à identifier les forces et les faiblesses des modèles actuels, menant à de meilleures approches à l'avenir.

En abordant ces défis et en explorant les applications potentielles, on vise à renforcer le développement des méthodes d'apprentissage des concepts. Notre travail représente un pas en avant significatif vers la création de systèmes intelligents capables de comprendre et de générer des concepts visuels similaires à ceux des humains.

Source originale

Titre: ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models

Résumé: The ability to understand visual concepts and replicate and compose these concepts from images is a central goal for computer vision. Recent advances in text-to-image (T2I) models have lead to high definition and realistic image quality generation by learning from large databases of images and their descriptions. However, the evaluation of T2I models has focused on photorealism and limited qualitative measures of visual understanding. To quantify the ability of T2I models in learning and synthesizing novel visual concepts (a.k.a. personalized T2I), we introduce ConceptBed, a large-scale dataset that consists of 284 unique visual concepts, and 33K composite text prompts. Along with the dataset, we propose an evaluation metric, Concept Confidence Deviation (CCD), that uses the confidence of oracle concept classifiers to measure the alignment between concepts generated by T2I generators and concepts contained in target images. We evaluate visual concepts that are either objects, attributes, or styles, and also evaluate four dimensions of compositionality: counting, attributes, relations, and actions. Our human study shows that CCD is highly correlated with human understanding of concepts. Our results point to a trade-off between learning the concepts and preserving the compositionality which existing approaches struggle to overcome. The data, code, and interactive demo is available at: https://conceptbed.github.io/

Auteurs: Maitreya Patel, Tejas Gokhale, Chitta Baral, Yezhou Yang

Dernière mise à jour: 2024-02-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.04695

Source PDF: https://arxiv.org/pdf/2306.04695

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires