Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Améliorer les relations spatiales dans les modèles texte-image

Nouveau dataset améliore comment les modèles représentent les relations spatiales dans les images générées.

― 8 min lire


Améliorer les systèmes deAméliorer les systèmes detexte à imagedes relations spatiales des modèles.Le dataset améliore la représentation
Table des matières

Les systèmes de génération d'images à partir de texte sont des outils qui transforment des descriptions écrites en images. Récemment, certains de ces outils, comme Midjourney et DALL-E, ont suscité beaucoup d'attention. Cependant, ils ont encore des difficultés avec certaines tâches. Un problème majeur est qu'ils ne montrent souvent pas clairement les relations spatiales entre les objets, comme "à gauche de" ou "en dessous". Ça peut limiter leur utilité pour des trucs comme éditer des images selon des instructions textuelles.

Problème avec les systèmes actuels

Des recherches ont montré que beaucoup de systèmes existants ne représentent pas précisément les relations spatiales. Par exemple, si une description dit qu'un chat est "sur" une table, l'image générée peut ne pas le montrer correctement. Le manque de relations spatiales précises dans les images pourrait venir des données d'entraînement, qui manquent souvent de ce type de descriptions.

Pour comprendre ce souci, un ensemble de données spécifique appelé LAION-2B a été examiné. Cet ensemble de données a été utilisé pour former des modèles comme Stable Diffusion. La plupart des légendes dans cet ensemble viennent de descriptions alternatives d'images trouvées en ligne. Quand les chercheurs ont cherché des relations spatiales dans l'ensemble de données, ils ont découvert qu'une petite partie des légendes incluait des mots désignant des relations spatiales. La plupart étaient sur gauche et droite, rendant difficile pour les modèles d'apprendre et de représenter ces relations avec précision.

Solution proposée

Pour résoudre ce problème, un nouvel ensemble de données a été introduit, générant des légendes contenant spécifiquement 14 relations spatiales explicites. Cet ensemble, connu sous le nom de Spatial Relations for Generation (SR4G), inclut presque 10 millions de paires image-légende. L'objectif est d'utiliser ces paires pour améliorer l'entraînement des systèmes de génération d'images à partir de texte, en se concentrant particulièrement sur les relations spatiales.

L'ensemble inclut des relations comme "à gauche de", "à droite de", "au-dessus" et "en dessous", ainsi que d'autres types comme "superposé" et "à l'intérieur". Cette sélection plus large est destinée à aider les modèles à apprendre à créer des images plus précises basées sur les descriptions spatiales dans les légendes.

Deux versions du modèle Stable Diffusion ont été ajustées en utilisant l'ensemble de données SR4G pour voir si elles pouvaient mieux comprendre et représenter les relations spatiales. Les résultats ont montré que l'ajustement avait considérablement amélioré la capacité du modèle à créer des images avec des relations spatiales correctes.

Compréhension de l'ensemble de données

L'ensemble de données SR4G a été construit à partir d'images réelles, et il se compose de légendes décrivant les relations spatiales entre les objets. Des images réelles ont été appariées avec des légendes synthétiques créées selon un ensemble de règles, garantissant que les relations étaient claires et compréhensibles.

Pour créer cet ensemble, des triplets spatiaux initiaux de la forme "sujet, relation, objet" ont été générés à partir de combinaisons d'objets présentes dans le COCO dataset. Le COCO dataset contient des images avec des objets étiquetés, ce qui facilite la compréhension des relations entre eux.

Après avoir créé un ensemble initial de triplets, ceux jugés non naturels ou peu susceptibles d'apparaître dans des images réelles ont été écartés. Les triplets restants ont ensuite été utilisés pour générer des légendes se concentrant uniquement sur les relations spatiales, évitant tout contexte supplémentaire qui pourrait compliquer l'évaluation.

Entraînement des modèles

L'entraînement des modèles impliquait d'utiliser l'ensemble de données SR4G pour les aider à apprendre les relations spatiales. L'objectif était de voir si l'exposition à ces relations offrait un avantage pour générer des images plus précises. Les chercheurs ont ajusté deux versions du modèle Stable Diffusion dans ce processus.

Les modèles ont été entraînés pendant un nombre fixe d'étapes tout en vérifiant régulièrement leurs performances sur un ensemble de données de validation pour s'assurer qu'ils s'amélioraient. Après l'entraînement, les modèles les plus performants ont été sélectionnés en fonction de leur capacité à générer des images qui illustraient correctement les relations spatiales décrites dans les légendes.

Métriques d'évaluation

Pour évaluer à quel point les modèles ont bien performé après l'ajustement, plusieurs métriques ont été utilisées. Une métrique importante s'appelle l'Object Accuracy. Cela mesure si les bons objets apparaissent dans les images générées. Une autre métrique clé est le VISOR, qui vérifie si les deux objets sont présents et si la relation spatiale décrite est correctement représentée entre eux.

En se concentrant sur ces métriques, les chercheurs pouvaient analyser à quel point les modèles ont appris à générer des images avec des relations spatiales précises.

Résultats des expériences

Les résultats expérimentaux ont indiqué que l'ajustement du modèle Stable Diffusion avec l'ensemble de données SR4G avait considérablement amélioré sa performance. En particulier, les modèles ont montré une plus grande précision tant dans la génération des bons objets que dans la représentation précise des relations spatiales.

Quand les modèles ont été testés avec un ensemble séparé d'objets qu'ils n'avaient pas vus pendant l'entraînement, ils ont quand même bien performé. Cela suggère qu'ils ont appris à comprendre les relations spatiales, leur permettant de généraliser leurs connaissances à de nouvelles situations.

Analyse de performance

Analyser à quel point différentes relations spatiales étaient représentées dans les images générées a fourni des aperçus supplémentaires. Il a été constaté que les relations projectives, comme "à gauche de" et "à droite de", s'étaient considérablement améliorées avec l'ajustement. Cependant, le modèle avait encore des difficultés avec les relations topologiques comme "à l'intérieur de" et "entourant".

Les résultats ont également indiqué que les modèles avaient un biais envers certaines relations, ce qui signifie qu'ils étaient meilleurs pour certaines relations que pour d'autres. L'ajustement a aidé à réduire ces biais, menant à une performance plus équilibrée à travers différents types de relations spatiales.

Résultats qualitatifs

Pour mieux comprendre comment les modèles ont performé dans la pratique, une analyse qualitative a également été menée. Les chercheurs ont examiné des images d'exemple générées à partir de légendes contenant diverses relations spatiales. Les résultats ont montré que certains modèles représentaient précisément les relations, tandis que d'autres étaient à la traîne.

Dans de nombreux cas, lorsque les bons objets étaient générés, la relation spatiale était aussi représentée correctement. Pourtant, certaines relations difficiles ont entraîné des échecs, suggérant que les modèles ont besoin de plus de perfectionnement pour comprendre des relations spatiales complexes.

Directions futures

Bien que l'étude ait montré des résultats positifs, il reste encore du travail à faire. Les recherches futures visent à élargir les types de relations spatiales analysées, en incluant des informations de profondeur pour tenir compte de relations comme "devant" et "derrière". De plus, des efforts seront faits pour rassembler des légendes naturelles dans diverses langues afin d'élargir l'accessibilité de l'ensemble de données.

Il y a aussi un désir d'explorer de nouvelles façons d'annoter des images naturelles avec des relations spatiales. Améliorer la manière dont ces légendes sont collectées et structurées pourrait mener à des résultats encore meilleurs dans l'entraînement des modèles pour la compréhension spatiale.

Conclusion

Cette recherche a marqué une étape importante pour améliorer la capacité des modèles de génération d'images à partir de texte à représenter les relations spatiales. Grâce à la création de l'ensemble de données SR4G et à l'ajustement des modèles disponibles, les chercheurs ont démontré comment exposer les modèles à des relations spatiales explicites peut améliorer leurs capacités de génération d'images.

Le travail contribue au développement continu des systèmes de génération d'images à partir de texte et ouvre de nouvelles opportunités pour améliorer leur fonctionnalité. En se concentrant sur la compréhension spatiale, ces modèles peuvent devenir des outils plus efficaces pour des applications nécessitant la génération d'images basée sur des descriptions textuelles détaillées.

Source originale

Titre: Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset

Résumé: Existing work has observed that current text-to-image systems do not accurately reflect explicit spatial relations between objects such as 'left of' or 'below'. We hypothesize that this is because explicit spatial relations rarely appear in the image captions used to train these models. We propose an automatic method that, given existing images, generates synthetic captions that contain 14 explicit spatial relations. We introduce the Spatial Relation for Generation (SR4G) dataset, which contains 9.9 millions image-caption pairs for training, and more than 60 thousand captions for evaluation. In order to test generalization we also provide an 'unseen' split, where the set of objects in the train and test captions are disjoint. SR4G is the first dataset that can be used to spatially fine-tune text-to-image systems. We show that fine-tuning two different Stable Diffusion models (denoted as SD$_{SR4G}$) yields up to 9 points improvements in the VISOR metric. The improvement holds in the 'unseen' split, showing that SD$_{SR4G}$ is able to generalize to unseen objects. SD$_{SR4G}$ improves the state-of-the-art with fewer parameters, and avoids complex architectures. Our analysis shows that improvement is consistent for all relations. The dataset and the code will be publicly available.

Auteurs: Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre, Frank Keller

Dernière mise à jour: 2024-03-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.00587

Source PDF: https://arxiv.org/pdf/2403.00587

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires