Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Avancées dans l'édition d'images axée sur le sujet

Un nouveau système améliore la façon dont on édite les images avec des sujets spécifiques.

― 7 min lire


Nouveau système deNouveau système deretouche d'images révéléd'édition d'images axées sur le sujet.Le cadre de PhD innove des techniques
Table des matières

L'édition d'image axée sur le sujet est un nouveau domaine technologique qui vise à créer des images réalistes en combinant un sujet spécifique avec une scène existante. Ça a plein d'utilisations potentielles, comme l'édition de photos, la personnalisation d'images, ou la création de contenu pour le divertissement et les jeux. Par exemple, on pourrait vouloir voir son animal de compagnie dans une scène d'un film spécifique ou dans un cadre historique.

Dernièrement, il y a eu beaucoup d'intérêt pour l'utilisation de modèles génératifs texte-image pour une édition d'image flexible. Ces modèles permettent aux utilisateurs de guider le processus d'édition avec des descriptions en mots. Cependant, les descriptions textuelles manquent souvent de détails pour représenter correctement des sujets spécifiques. Ça peut affecter la façon dont l'identité du sujet est préservée ou nécessiter des ajustements pour chaque sujet.

Présentation de Paste, Inpaint et Harmonize via Denoising (PhD)

Pour relever ces défis, un nouveau système appelé Paste, Inpaint et Harmonize via Denoising (PhD) a été développé. Ce système utilise une image exemple avec des descriptions textuelles pour mieux exprimer les intentions de l'utilisateur.

Dans la première étape, appelée la phase de collage, un modèle est utilisé pour localiser un sujet spécifié par l'utilisateur dans l'image exemple. Une fois identifié, le sujet est inséré dans une image de fond. Ce processus capture à la fois le contexte de la scène et l'identité du sujet dans une seule image.

Ensuite, pour que l'image éditée ait l'air réaliste, un module supplémentaire est inclus. Ce module mélange le sujet inséré dans la scène de manière naturelle, en faisant des ajustements si nécessaire. En gardant le principal modèle de génération d'images le même, le système bénéficie de sa forte capacité à créer des images et à répondre au texte sans perdre en qualité.

Comment fonctionne PhD

Le système PhD est structuré en deux étapes principales : la phase de collage et la phase d'Inpaint et Harmonize via Denoising.

La Phase de Collage

Dans la phase de collage, le système prend une image exemple et une scène de fond. Un utilisateur sélectionne où il veut éditer la scène. Par exemple, dans une photo d'un jardin familial, un utilisateur peut choisir une zone spécifique pour placer son sujet.

Un modèle de segmentation est ensuite utilisé pour extraire le sujet de l'image exemple. Le sujet est redimensionné pour s'adapter à la zone choisie dans la scène et collé. Cette étape permet d'inclure les détails du sujet directement dans la scène sans perdre d'informations importantes.

La Phase d'Inpaint et Harmonize via Denoising

Une fois le sujet collé, l'étape suivante est de rendre l'image réaliste. L'image collée peut ne pas avoir l'air naturelle parce que l'éclairage ou l'arrière-plan dans les deux images peuvent être très différents.

Pour résoudre ce problème, un module spécialisé est utilisé pour mélanger les images tout en gardant un aspect naturel. Ce module prend l'image collée en entrée et génère une version finale qui semble harmonieuse avec son environnement. En ajoutant les détails du sujet et de l'arrière-plan, le système peut produire une image plus cohérente.

Formation du Système

Le système PhD a été entraîné en utilisant un large ensemble de données. L'objectif était d'apprendre au module d'harmonisation comment mélanger n'importe quel sujet dans différents arrière-plans de manière fluide. Pour créer un ensemble d'entraînement diversifié, 130 000 images ont été choisies dans un ensemble de données publiques. Chaque image a été traitée pour extraire les sujets et enlever leurs arrière-plans.

Pour aider le modèle à apprendre efficacement, différentes modifications ont été apportées aux images, comme la rotation ou la modification des couleurs. Ces ajustements garantissent que le système peut adapter le sujet pour bien s'intégrer dans n'importe quelle scène. De plus, du bruit a été ajouté aux images pour les faire paraître plus comme des exemples réels de ce que les utilisateurs pourraient fournir lors d'une utilisation réelle.

Évaluation de l'Approche PhD

L'efficacité du système PhD a été testée par rapport aux méthodes existantes pour l'édition d'images axée sur le sujet. Différents critères ont été utilisés pour évaluer les performances du système, y compris la Qualité Visuelle, la préservation de l'identité du sujet et la composition globale dans les images éditées.

À travers des expériences extensives, les résultats ont montré que PhD obtenait de meilleures performances que d'autres méthodes dans la plupart des domaines, particulièrement en qualité visuelle et en préservation de l'identité du sujet.

Travaux Connus

Dans le domaine de la synthèse d'images guidée par le texte, les techniques précédentes étaient souvent confrontées à des problèmes de stabilité et de représentation précise des sujets en fonction des entrées textuelles données. Certaines méthodes améliorées utilisaient différentes stratégies pour générer des images, mais beaucoup avaient encore du mal à maintenir à la fois les détails du sujet et le contexte de la scène.

En revanche, le système PhD simplifie le processus. En gardant le générateur d'images principal inchangé et en ne s'appuyant pas sur le transfert de sujets dans des descriptions textuelles, PhD peut éditer et générer des images plus facilement.

Avantages de PhD

Le cadre PhD offre plusieurs avantages clés :

  1. Édition Flexible : Les utilisateurs peuvent facilement placer n'importe quel sujet dans une scène sans nécessiter de nombreux ajustements ou de réentraînement.
  2. Qualité Préservée : En utilisant un modèle pré-entraîné sans modification, les images générées conservent leur haute qualité et leur réalisme.
  3. Rapidité : Le cadre peut réaliser des tâches rapidement car il ne nécessite pas de longs temps d'entraînement.

Défis et Limites

Bien que le système PhD fonctionne bien, il a encore certaines limites. Par exemple, il peut avoir des difficultés à créer des zones détaillées pour les sujets qui ne sont pas entièrement visibles dans les images d'exemple. Cela peut entraîner des incohérences, en particulier avec les parties non vues d'un sujet.

Les améliorations futures pourraient se concentrer sur l'intégration de techniques plus avancées, comme l'incorporation d'informations 3D, pour améliorer le réalisme global des images.

Conclusion

L'édition d'image axée sur le sujet représente un domaine de développement passionnant dans le domaine de la génération d'images. Le cadre Paste, Inpaint et Harmonize via Denoising (PhD) propose une approche nouvelle qui intègre efficacement des sujets spécifiés par les utilisateurs dans des images tout en maintenant la qualité visuelle des scènes.

Grâce à des tests rigoureux et à des comparaisons avec des méthodes existantes, PhD montre des avancées significatives et offre une solution prometteuse pour l'édition d'images personnalisées dans diverses applications. Avec des recherches continues et des améliorations futures, cette technologie a le potentiel de redéfinir la façon dont nous manipulons et créons des images dans un environnement numérique.

Source originale

Titre: Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing with Pre-Trained Diffusion Model

Résumé: Text-to-image generative models have attracted rising attention for flexible image editing via user-specified descriptions. However, text descriptions alone are not enough to elaborate the details of subjects, often compromising the subjects' identity or requiring additional per-subject fine-tuning. We introduce a new framework called \textit{Paste, Inpaint and Harmonize via Denoising} (PhD), which leverages an exemplar image in addition to text descriptions to specify user intentions. In the pasting step, an off-the-shelf segmentation model is employed to identify a user-specified subject within an exemplar image which is subsequently inserted into a background image to serve as an initialization capturing both scene context and subject identity in one. To guarantee the visual coherence of the generated or edited image, we introduce an inpainting and harmonizing module to guide the pre-trained diffusion model to seamlessly blend the inserted subject into the scene naturally. As we keep the pre-trained diffusion model frozen, we preserve its strong image synthesis ability and text-driven ability, thus achieving high-quality results and flexible editing with diverse texts. In our experiments, we apply PhD to both subject-driven image editing tasks and explore text-driven scene generation given a reference subject. Both quantitative and qualitative comparisons with baseline methods demonstrate that our approach achieves state-of-the-art performance in both tasks. More qualitative results can be found at \url{https://sites.google.com/view/phd-demo-page}.

Auteurs: Xin Zhang, Jiaxian Guo, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa

Dernière mise à jour: 2023-06-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.07596

Source PDF: https://arxiv.org/pdf/2306.07596

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires