Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

TheaterGen : Une nouvelle ère dans la génération d'images

TheaterGen combine des modèles de langage et d'image pour des visuels de narration cohérents.

― 10 min lire


TheaterGen transforme laTheaterGen transforme lacréation d'images.visuel cohérent.Combiner des modèles d'IA pour un récit
Table des matières

TheaterGen est un nouveau cadre qui combine de gros modèles de langage (LLMs) et des modèles de texte à image (T2I). Il vise à générer des images basées sur du texte d'une manière qui garde le sens clair à travers plusieurs interactions. C'est super important pour la narration, où les images doivent rester cohérentes en termes de personnages et de contexte. L'objectif de TheaterGen est de rendre le processus de création d'images plus fluide et mieux aligné avec les inputs des utilisateurs sur plusieurs tours de conversation.

Le besoin de génération d'images multi-tours

Ces dernières années, on a vu des améliorations impressionnantes dans la génération d'images à partir d'instructions textuelles. Cependant, il y a un besoin croissant de générer des images qui suivent une histoire ou un récit à travers plusieurs échanges de dialogue. Ce n'est pas juste une question de créer une seule image mais de maintenir la cohérence dans des images qui se construisent les unes sur les autres. Par exemple, si un personnage apparaît dans plusieurs images, il devrait avoir le même look à chaque fois. Cette cohérence est cruciale pour la narration.

Les modèles T2I traditionnels ont du mal avec ça. Ils ont souvent du mal à comprendre des instructions complexes et à maintenir les mêmes caractéristiques de personnages à travers différentes images. C'est là que TheaterGen intervient pour fournir une solution.

Comment fonctionne TheaterGen

TheaterGen fonctionne à travers trois composants principaux : un designer de personnages, un gestionnaire d'images de personnages et un générateur guidé par les personnages. Ces éléments travaillent ensemble pour créer une image cohérente basée sur le flot de la conversation.

Designer de personnages

Le designer de personnages est drivé par un LLM, qui agit comme un scénariste. Il prend les instructions de l'utilisateur et développe un livre de prompts structuré. Ce livre de prompts contient des informations sur les prompts de personnages et les mises en page pour chaque image créée sur plusieurs tours. En gérant ces informations structurées, le système peut mieux comprendre ce que l'utilisateur veut et traduire cela en images.

Gestionnaire d'images de personnages

Le gestionnaire d'images de personnages est responsable de la génération des vraies images des personnages. Pour chaque personnage, il crée deux types d'images : une image de référence et une image sur scène. L'image de référence sert de standard pour maintenir la cohérence à travers les interactions. Chaque fois qu'un nouveau personnage est introduit, il génère une image de référence pour ce personnage. Cela aide à garder leur apparence cohérente dans les futures images.

Générateur guidé par les personnages

Enfin, le générateur guidé par les personnages rassemble tout. Il utilise le livre de prompts structuré et les images générées par le gestionnaire d'images de personnages pour créer une image finale pour chaque tour. Il s'assure que les images générées reflètent à la fois les prompts de personnages actuels et le contexte global de l'histoire. Ce processus améliore la qualité des images tout en les gardant cohérentes avec les sorties précédentes.

Répondre aux défis de la génération d'images

TheaterGen s'attaque à deux défis principaux dans la génération d'images multi-tours : la cohérence sémantique et la Cohérence contextuelle.

Cohérence sémantique

La cohérence sémantique se réfère à la précision des images par rapport aux prompts textuels. Les modèles actuels ont souvent du mal avec des descriptions complexes qui impliquent des relations spatiales ou des quantités. Par exemple, si le texte mentionne plusieurs personnages ou des lieux spécifiques, les images générées peuvent ne pas toujours correspondre à ces détails. TheaterGen travaille à s'assurer que les images représentent de manière cohérente ce que le texte décrit, en faisant des ajustements basés sur les informations structurées dans le livre de prompts.

Cohérence contextuelle

La cohérence contextuelle concerne le maintien des mêmes caractéristiques de personnages à travers différentes images. Si un personnage apparaît dans plusieurs tours, il devrait avoir le même look à chaque fois. Les modèles traditionnels peuvent créer des images où le même personnage apparaît différemment à chaque tour. TheaterGen résout ce problème en se référant à des images antérieures. Il s'assure que les personnages maintiennent des traits cohérents, comme la couleur, les vêtements et les caractéristiques, même s'ils ne sont pas modifiés par l'utilisateur.

Introduction du benchmark CMIGBench

Pour évaluer son efficacité, TheaterGen est accompagné d'un benchmark dédié appelé CMIGBench (Consistent Multi-turn Image Generation Benchmark). Ce benchmark comprend 8 000 instructions multi-tours et est conçu pour tester à la fois la génération d'histoires et les tâches d'édition multi-tours. Contrairement à d'autres benchmarks, CMIGBench ne pré-définit pas les personnages, permettant une plus grande diversité dans les tests. Il évalue comment les modèles maintiennent à la fois la cohérence sémantique et contextuelle au cours de plusieurs interactions.

Travaux connexes dans la génération d'images

Le domaine de la génération d'images à partir de texte a vu une variété de techniques, y compris les réseaux antagonistes génératifs (GANs), les autoencodeurs variationnels et les modèles de diffusion. Chaque approche a ses forces, mais le succès récent des modèles de diffusion les a rendus particulièrement populaires. Ils produisent des images de haute qualité qui reflètent bien les entrées textuelles.

Intégrer de gros modèles de langage avec des tâches de génération d'images est une tendance croissante. De nombreux modèles récents visent à combiner des LLMs avec la génération T2I pour améliorer l'interaction et mieux comprendre des instructions complexes. Cependant, beaucoup d'entre eux rencontrent encore des défis pour obtenir des résultats cohérents à travers plusieurs tours.

La structure de TheaterGen

La structure générale de TheaterGen est conçue pour faciliter les interactions multi-tours. Elle utilise la combinaison de LLMs et de modèles T2I pour créer un processus fluide pour la création d'images basées sur des instructions en langage naturel. Cette structure aide à améliorer la qualité et la cohérence des images tout en simplifiant l'interaction pour les utilisateurs.

Designer de personnages basé sur LLM

Le designer de personnages basé sur LLM joue un rôle crucial dans la création du livre de prompts structuré. Il traduit les instructions des utilisateurs en prompts qui définissent les personnages, les arrière-plans et les mises en page. Cette approche organisée permet au système de suivre efficacement plusieurs personnages tout au long de la conversation.

Gestionnaire d'images de personnages

Le gestionnaire d'images de personnages développe des images de personnages sur scène basées sur le livre de prompts. Il génère des images de référence et maintient des directives pour s'assurer que la cohérence des personnages est respectée à travers les interactions. Cette étape est vitale pour livrer des images de haute qualité qui respectent à la fois les prompts initiaux et les instructions continues des utilisateurs.

Générateur guidé par les personnages

Le générateur guidé par les personnages synthétise l'image finale pour chaque tour, intégrant à la fois le livre de prompts et les informations de guidage obtenues du gestionnaire d'images de personnages. Cette approche complète garantit que la sortie finale reflète avec précision les intentions de l'utilisateur tout en maintenant l'intégrité visuelle et contextuelle des personnages.

Métriques d'évaluation pour TheaterGen

Pour évaluer l'efficacité de TheaterGen, plusieurs métriques d'évaluation sont employées. Pour la cohérence contextuelle, le modèle utilise des images de référence de personnages pour évaluer à quel point les images générées correspondent aux traits attendus des personnages. Cela inclut l'évaluation de la similarité moyenne entre les personnages et la distance de Fréchet Inception moyenne.

Pour la cohérence sémantique, les métriques se concentrent sur la qualité globale de l'image et sur la manière dont les images représentent les prompts textuels. La similarité moyenne entre le texte et l'image est calculée pour déterminer à quel point l'image finale s'aligne avec les instructions fournies.

Évaluation humaine et résultats

L'efficacité de TheaterGen est également validée par des évaluations humaines. Dans ces évaluations, des dialogues sélectionnés sont évalués par des volontaires qui notent les images en fonction de la cohérence sémantique et contextuelle. Les résultats montrent que les images générées par TheaterGen surpassent constamment celles des modèles concurrents, mettant en avant ses capacités à gérer des récits complexes.

Le rôle des LLMs dans TheaterGen

La sélection des LLMs est cruciale pour le fonctionnement de TheaterGen. Des modèles comme GPT-4 montrent des capacités prometteuses dans la génération de livres de prompts qui sont structurés et cohérents. Cela garantit que les prompts générés s'alignent avec précision sur les instructions de l'utilisateur et maintiennent la continuité des personnages. Tester différents LLMs aide à identifier quels modèles donnent les meilleurs résultats en termes de qualité et de cohérence des prompts.

Limitations et futures directions

Bien que TheaterGen montre des résultats impressionnants dans la génération d'images multi-tours, il n'est pas sans limitations. La variabilité des adaptateurs d'images pré-entraînés peut entraîner des incohérences de temps en temps. De plus, certaines zones ont encore du mal avec la précision sémantique à cause des contraintes existantes dans les modèles T2I. Les plans pour de futurs développements impliquent d'incorporer des modèles T2I plus avancés pour améliorer ces aspects davantage.

Conclusion

TheaterGen représente une avancée significative dans le domaine de la génération d'images. En intégrant des LLMs avec des modèles T2I, il s'attaque à des problèmes critiques de cohérence sémantique et contextuelle dans les tâches de génération d'images, notamment dans les dialogues multi-tours. Avec un cadre unique et un benchmark dédié, TheaterGen établit une nouvelle norme pour créer des images de haute qualité qui reflètent avec précision les instructions des utilisateurs à travers plusieurs interactions.

À mesure que la demande pour une génération d'images cohérente et significative continue d'augmenter, des cadres comme TheaterGen joueront un rôle vital pour combler le fossé entre les instructions en langage naturel et les sorties visuelles. Les recherches et améliorations continues dans ce domaine pointent vers un avenir passionnant pour la narration et l'expression créative à travers les images.

Source originale

Titre: TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation

Résumé: Recent advances in diffusion models can generate high-quality and stunning images from text. However, multi-turn image generation, which is of high demand in real-world scenarios, still faces challenges in maintaining semantic consistency between images and texts, as well as contextual consistency of the same subject across multiple interactive turns. To address this issue, we introduce TheaterGen, a training-free framework that integrates large language models (LLMs) and text-to-image (T2I) models to provide the capability of multi-turn image generation. Within this framework, LLMs, acting as a "Screenwriter", engage in multi-turn interaction, generating and managing a standardized prompt book that encompasses prompts and layout designs for each character in the target image. Based on these, Theatergen generate a list of character images and extract guidance information, akin to the "Rehearsal". Subsequently, through incorporating the prompt book and guidance information into the reverse denoising process of T2I diffusion models, Theatergen generate the final image, as conducting the "Final Performance". With the effective management of prompt books and character images, TheaterGen significantly improves semantic and contextual consistency in synthesized images. Furthermore, we introduce a dedicated benchmark, CMIGBench (Consistent Multi-turn Image Generation Benchmark) with 8000 multi-turn instructions. Different from previous multi-turn benchmarks, CMIGBench does not define characters in advance. Both the tasks of story generation and multi-turn editing are included on CMIGBench for comprehensive evaluation. Extensive experimental results show that TheaterGen outperforms state-of-the-art methods significantly. It raises the performance bar of the cutting-edge Mini DALLE 3 model by 21% in average character-character similarity and 19% in average text-image similarity.

Auteurs: Junhao Cheng, Baiqiao Yin, Kaixin Cai, Minbin Huang, Hanhui Li, Yuxin He, Xi Lu, Yue Li, Yifei Li, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang

Dernière mise à jour: 2024-04-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.18919

Source PDF: https://arxiv.org/pdf/2404.18919

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires