Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Diffusion Guidée Filtrée : Une Nouvelle Approche dans la Traduction d'Image

Découvrez comment le FGD améliore la traduction d'image à image avec simplicité et efficacité.

― 9 min lire


Nouvelle méthode deNouvelle méthode dediffusion d'imagesavec des conseils efficaces.FGD simplifie la transformation d'image
Table des matières

Les récents développements des modèles génératifs basés sur la diffusion ont vraiment amélioré des tâches comme la transformation d'une image en une autre, connue sous le nom de traduction image-à-image. Les méthodes traditionnelles nécessitent souvent une formation supplémentaire ou des ajustements spécifiques au processus. Cependant, il y a une nouvelle méthode qui permet un contrôle efficace de ce processus sans avoir besoin d'une formation supplémentaire ou d'accès au fonctionnement interne du modèle.

Comment fonctionne la diffusion guidée filtrée

Cette nouvelle approche, appelée Diffusion Guidée Filtrée (FGD), utilise un filtre simple appliqué à l'entrée à chaque étape du Processus de diffusion. Le filtre s'ajuste en fonction de la sortie de l'étape précédente. Cette méthode n'est pas liée à un modèle ou une structure spécifique, ce qui facilite la combinaison avec d'autres techniques tout en maintenant des performances à faible coût. Elle permet des changements progressifs de la force d'Orientation, ce qui est mieux que beaucoup de stratégies existantes.

FGD fournit une base rapide et efficace comparable à des méthodes plus complexes dépendantes des modèles. Elle peut servir d'ajout pour améliorer l'organisation et la structure d'autres méthodes de traduction image-à-image sans compliquer le processus.

Comprendre la traduction image-à-image

La traduction image-à-image consiste à convertir une image d'un style ou d'une catégorie à une autre. Depuis l'émergence des modèles de diffusion, la méthode courante pour guider cette traduction a été à travers des invites textuelles. Cependant, traduire tout en gardant la mise en page et la structure d'origine de l'image est devenu un défi important. Beaucoup de méthodes récentes s'appuient souvent sur le réglage du modèle, l'architecture ou des méthodes d'échantillonnage spécifiques, ce qui peut compliquer le processus.

FGD offre un moyen simple de guider le processus de diffusion en effectuant des ajustements intelligents sur les valeurs moyennes produites à chaque étape. Cela signifie qu'il peut maintenir la structure souhaitée des images générées sans avoir besoin d'une formation supplémentaire ou de fonctionnalités spécifiques au modèle, ce qui le rend polyvalent à travers différentes architectures.

Idées principales derrière la diffusion guidée filtrée

L'approche repose sur quelques idées clés. Tout d'abord, elle se concentre sur la limitation du processus de diffusion à certaines fréquences en modifiant sélectivement le contenu de fréquence à chaque étape. Deuxièmement, elle ajuste combien de contenu est remplacé en fonction de la probabilité que le processus atteigne le résultat souhaité. Cela permet de contrôler la force de l'orientation tout en maintenant le processus proche de ses données d'entraînement. Enfin, elle peut aligner l'orientation à la structure d'une image de référence en utilisant une méthode de filtrage rapide.

Un aperçu des travaux connexes

Le domaine de la traduction image-à-image est actif depuis longtemps. Les premières méthodes se concentraient sur le mélange des détails d'une image cible dans la structure d'une image source tout en distinguant entre détail et structure à l'aide de bandes de fréquence. Les avancées ultérieures ont utilisé des réseaux antagonistes génératifs pour apprendre comment créer des traductions basées sur les distributions de données d'entraînement, mais ces méthodes nécessitaient souvent des images des deux domaines et étaient difficiles à mettre en œuvre.

Les approches récentes ont combiné texte et images pour guider la traduction. Les modèles de diffusion ont montré une grande force lorsqu'ils sont associés à de grands modèles de langage, dépassant le besoin d'images en temps réel. Cependant, FGD s'appuie sur cela en fournissant un moyen flexible de conditionner la structure en fonction d'une image guide.

Aller au-delà des méthodes spécifiques à l'architecture

Comme les grands modèles de diffusion manquent souvent d'orientation autre que le texte, un meilleur contrôle du processus de génération est devenu crucial. Certaines des premières méthodes dans ce domaine ont commencé le processus de diffusion à partir des résultats de l'application d'un processus avant partiel à une image de référence. Semblable à FGD, ces méthodes ne dépendent pas d'architectures spécifiques, ce qui en fait des références populaires pour guider la diffusion.

Des stratégies plus récentes ont exploré des méthodes liées à des architectures spécifiques, comme l'utilisation de mécanismes d'attention. Ces méthodes ont d'abord transformé l'image guide en bruit pour obtenir des caractéristiques pour le processus de diffusion, fusionnant ces caractéristiques dans la sortie du modèle. Bien qu'elles offrent une meilleure préservation de la structure, elles sont limitées par leurs architectures spécifiques.

Le processus de diffusion

Pour comprendre comment fonctionne FGD, il est essentiel de saisir l'ensemble du processus de diffusion. Le processus de diffusion avant consiste à prendre un échantillon de données et à le mélanger progressivement avec du bruit gaussien, ce qui définit finalement comment le modèle apprend et génère de nouvelles images.

Au cours du processus inverse, l'objectif est d'échantillonner à partir d'une distribution postérieure qui approximativement ce qui a été appris. Cela nécessite d'estimer les moyennes et les variances à chaque étape, généralement à travers un réseau neuronal conçu pour prédire le bruit associé aux images d'entrée. Cette connexion aide à affiner le processus de génération.

Le concept de diffusion en boîte noire

La diffusion en boîte noire fait référence au principe de travailler avec un modèle sans avoir besoin de comprendre son fonctionnement interne. L'approche FGD tire son efficacité du processus de diffusion lui-même, permettant une large applicabilité à travers différentes architectures. Elle suppose que le calendrier de variance utilisé pendant l'entraînement est connu et que l'entrée peut être observée et modifiée à chaque étape durant le processus inverse guidé.

Utilisation de filtres pour l'orientation

Le filtre d'orientation dans FGD fonctionne en séparant les images en composants qui guident la structure et ceux qui représentent les détails. Cela garantit que la structure est préservée tout en permettant aux détails d'être générés en alignement avec les données de formation d'origine. L'orientation est un ajustement contrôlé d'images échantillons basé sur une image de référence tout en permettant une certaine variation.

En appliquant progressivement ces ajustements, la méthode maintient un équilibre entre le guidage de la sortie et permettant au réseau de créer un nouveau contenu. Cela signifie que les images générées resteront proches de la structure souhaitée sans devenir trop restrictives.

Le rôle du Filtrage adaptatif

Le filtrage adaptatif est crucial car il permet une application contrôlée de l'orientation à chaque étape du processus inverse. Le vecteur d'orientation, qui représente la différence entre le résultat non guidé et la structure cible, est ajouté progressivement pour garantir que le processus reste flexible sans l'éloigner de sa distribution d'entraînement.

En ajustant la force de l'orientation en fonction de la force du signal attendu, le processus reste cohérent, permettant au réseau de créer un nouveau contenu tout en suivant la structure souhaitée.

Choix de conception pour un filtrage efficace

Le succès de la méthode FGD dépend fortement de la conception du filtre d'orientation. Les ajustements effectués doivent garder le processus de diffusion aligné avec ses données d'entraînement. Les bons choix de filtres garantissent que les ajustements impactent davantage la partie "signal" visée que le "bruit", ce qui est essentiel pour générer des images de haute qualité.

Les statistiques d'images naturelles favorisent généralement les composants de basse fréquence, ce qui signifie que l'utilisation de filtres passe-bas donne de bons résultats pour guider le processus de diffusion. Cela peut être amélioré par des techniques de filtrage conscientes des bords qui préservent les détails structurels de l'image de référence.

Traitement rapide avec un filtrage bilatéral rapide

L'application d'un filtre bilatéral conjoint aux images peut être lente, mais avec les bonnes approximations, FGD atteint un traitement efficace. En organisant les calculs de filtre en une seule opération qui peut être appliquée sur l'ensemble de l'image, cela accélère le processus tout en maintenant la qualité.

Résumé des ajustements du processus de diffusion

Le seul changement significatif apporté au processus de diffusion est l'introduction d'un ajustement à chaque étape, ce qui peut être codé simplement et facilement intégré dans les workflows de diffusion existants. Cela transforme la manière dont les images sont générées sans avoir besoin de perturber le cœur du processus de diffusion.

Comparaison avec les méthodes existantes

FGD a été testé contre plusieurs solides références de génération d'images. Comparé à des méthodes avancées, FGD a montré qu'il peut égaler ou dépasser les résultats tout en maintenant un coût computationnel minimal. En étant adaptable, il s'intègre harmonieusement à d'autres techniques pour améliorer le contrôle structurel dans la génération d'images.

Applications pratiques de la diffusion guidée filtrée

La méthode FGD permet des applications polyvalentes, y compris la traduction d'images dans différents styles et la facilitation d'éditions locales de manière efficace. Elle produit des résultats divers, surtout lorsqu'elle est associée à des méthodes non déterministes. La méthode a prouvé son efficacité à guider les transformations d'images tout en élargissant les possibilités créatives de la génération d'images.

Conclusion

La Diffusion Guidée Filtrée présente une méthode simple mais puissante pour guider les modèles de diffusion. Elle atteint des résultats comparables à des méthodes complexes dépendantes des architectures tout en gardant le processus simple et adaptable. En permettant une intégration facile avec des stratégies de génération d'images existantes, elle fournit aux développeurs et aux artistes un outil rapide et efficace pour améliorer leur travail créatif.

Source originale

Titre: Filtered-Guided Diffusion: Fast Filter Guidance for Black-Box Diffusion Models

Résumé: Recent advances in diffusion-based generative models have shown incredible promise for Image-to-Image translation and editing. Most recent work in this space relies on additional training or architecture-specific adjustments to the diffusion process. In this work, we show that much of this low-level control can be achieved without additional training or any access to features of the diffusion model. Our method simply applies a filter to the input of each diffusion step based on the output of the previous step in an adaptive manner. Notably, this approach does not depend on any specific architecture or sampler and can be done without access to internal features of the network, making it easy to combine with other techniques, samplers, and diffusion architectures. Furthermore, it has negligible cost to performance, and allows for more continuous adjustment of guidance strength than other approaches. We show FGD offers a fast and strong baseline that is competitive with recent architecture-dependent approaches. Furthermore, FGD can also be used as a simple add-on to enhance the structural guidance of other state-of-the-art I2I methods. Finally, our derivation of this method helps to understand the impact of self attention, a key component of other recent architecture-specific I2I approaches, in a more architecture-independent way. Project page: https://github.com/jaclyngu/FilteredGuidedDiffusion

Auteurs: Zeqi Gu, Abe Davis

Dernière mise à jour: 2023-06-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.17141

Source PDF: https://arxiv.org/pdf/2306.17141

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires