Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la génération d'images rapides avec de nouvelles techniques

De nouvelles méthodes améliorent l'efficacité et la qualité des modèles de génération d'images.

― 9 min lire


Techniques de générationTechniques de générationd'images rapidesamélioréesd'images.vitesse et la qualité dans la synthèseDe nouvelles méthodes améliorent la
Table des matières

Des méthodes récentes ont montré qu'il était possible de prendre des modèles complexes qui génèrent des images et de les simplifier en modèles plus rapides. L'une de ces méthodes s'appelle la Distillation par Correspondance de Distribution (DMD). Cette méthode crée des générateurs d'images plus rapides qui produisent toujours des images similaires à celles créées par les modèles originaux, plus lents. Cependant, le DMD a besoin d'un processus spécial pour garder l'entraînement stable, ce qui implique de créer beaucoup de paires image-bruit en utilisant le modèle lent. Cette approche peut prendre beaucoup de temps et de puissance de calcul, surtout pour générer des images à partir de texte.

Dans ce travail, on introduit plusieurs nouvelles idées pour surmonter les limites de l'entraînement DMD. D'abord, on élimine le besoin du processus supplémentaire qui nécessite de rassembler beaucoup de données. On constate que la raison de l'instabilité de l'entraînement, c'est que le retour du modèle ne reflète pas précisément les images générées. On propose une nouvelle approche appelée règle de mise à jour à deux échelles de temps pour corriger ce problème.

Ensuite, on ajoute une perte de Réseau Antagoniste Génératif (GAN) au processus d'entraînement. Cela permet à notre modèle d'être entraîné avec de vraies images, l'aidant à générer de meilleures images. Troisièmement, on crée une nouvelle méthode d'entraînement qui permet à notre modèle de simuler comment il va générer des images pendant la phase d'entraînement. Ça veut dire qu'on peut améliorer son fonctionnement sans avoir besoin de changer beaucoup de sa structure.

Nos méthodes améliorées nous permettent de battre de nouveaux records en matière de qualité de génération d'images rapides. On a obtenu des scores impressionnants en comparant la qualité des images produites par notre modèle avec les références existantes, tout en réduisant le temps et la puissance de calcul nécessaires pour générer des images.

Introduction aux Modèles de Diffusion et Leurs Défis

Les modèles de diffusion ont fait de grands progrès dans la production d'images de haute qualité. Cependant, la façon dont ces modèles fonctionnent nécessite généralement beaucoup d'étapes pour affiner les images, ce qui prend du temps et coûte cher en ressources. Pour accélérer ce processus, plusieurs méthodes ont été développées pour créer des modèles plus rapides capables de générer des images en moins d'étapes.

Malheureusement, ces modèles plus rapides produisent souvent des images qui ne sont pas aussi bonnes que celles générées par les modèles plus complexes. Le défi vient du fait d'essayer d'apprendre aux modèles plus rapides à imiter exactement leurs homologues lents, ce qui n'est pas toujours facile. Récemment, le DMD a montré de bons résultats en se concentrant sur l'appariement des distributions plutôt qu'en essayant d'imiter les étapes exactes prises par le modèle lent.

Le DMD utilise une fonction de perte spéciale qui réduit les erreurs entre les sorties des deux modèles, mais il nécessite toujours beaucoup de ressources de calcul. C'est parce qu'il doit construire un grand ensemble de données à partir du modèle lent pour apprendre, ce qui rend le processus d'entraînement moins efficace. Enlever cette fonction de perte supplémentaire pourrait améliorer l'efficacité du DMD sans sacrifier la qualité.

Éliminer la Perte de Régression pour un Entraînement Plus Facile

On propose d'enlever la perte de régression du DMD pour rendre le processus d'entraînement plus efficace sans compromettre la stabilité du flux de travail. Bien que cette perte aide à garantir que le modèle peut produire de bons résultats, elle ajoute aussi une complexité supplémentaire. En éliminant cette étape, on peut utiliser l'objectif original du DMD, qui est de faire correspondre les distributions des modèles.

Sans la perte de régression, on a remarqué que le processus d'entraînement devenait instable et que la qualité des images générées diminuait. On attribue cela au fait que le modèle de retour était sous-entraîné et ne reflétait pas précisément la distribution des images générées. On a introduit la règle de mise à jour à deux échelles de temps, qui ajuste la fréquence à laquelle on met à jour différentes parties du modèle pendant l'entraînement. Cette stratégie garantit que le modèle de retour peut suivre avec précision les changements dans le générateur d'images.

Intégrer la Perte GAN pour une Meilleure Qualité

Même après avoir enlevé la perte de régression, il y avait encore un écart entre la qualité des images produites par notre modèle et celles du modèle original. On pense que cet écart existe parce que le modèle repose sur des approximations qui ne tiennent pas compte des données réelles. Pour y remédier, on a ajouté une perte GAN au processus d'entraînement.

Le GAN fonctionne en faisant la différence entre les vraies images et celles produites par le générateur. En entraînant le modèle avec des images réelles, il peut apprendre plus efficacement et améliorer la qualité des images générées. Cette couche supplémentaire de supervision s'aligne bien avec l'objectif d'appariement des distributions du DMD, car elle améliore la sortie du générateur sans avoir besoin de données appariées.

Soutenir la Génération Multi-Étape

Bien que nos améliorations initiales nous aient permis de correspondre aux performances du modèle de diffusion original, on a reconnu que des modèles plus grands comme SDXL posaient un défi pour créer des générateurs en une étape. La complexité des images haute résolution rendait difficile pour le modèle d'apprendre la cartographie du bruit aux images détaillées.

Comme solution, on a étendu le DMD pour permettre à notre modèle d'effectuer un échantillonnage multi-étape. Cela nous a permis de créer un calendrier prévisible pour le processus de génération qui reste cohérent pendant l'entraînement et l'inférence. En alternant entre l'affinage des images et l'ajout de bruit pendant les étapes d'inférence, on pouvait s'assurer que la sortie finale était améliorée.

Aborder le Mismatch Entre Entraînement et Inférence

De nombreux modèles multi-étapes précédents ont rencontré des problèmes où les entrées d'entraînement ne correspondaient pas aux entrées pendant la génération. Ce décalage peut conduire à des sorties de moindre qualité. On a abordé ce problème en utilisant des images synthétiques produites par le générateur actuel comme entrées pendant l'entraînement, simulant comment le modèle fonctionnerait en utilisation réelle.

Cette méthode permet à notre modèle d'apprendre plus efficacement et conduit globalement à de meilleures performances. Contrairement aux méthodes précédentes, notre fonction de perte est conçue pour fonctionner indépendamment de l'entrée du générateur, ce qui aide à éviter les pièges d'un décalage entre l'entraînement et l'inférence.

Réalisations et Métriques de Performance

On a évalué notre méthode améliorée en utilisant divers benchmarks, y compris la génération d'images basées sur des classes ou des prompts spécifiques. Nos résultats ont montré que notre approche surpassait de manière significative d'autres techniques de distillation et dépassait même le modèle professeur dans certains cas, tout en utilisant moins d'étapes de traitement.

On a mesuré la qualité et la diversité des images en utilisant la Distance Fréchet d'Inception (FID) et effectué des évaluations humaines pour déterminer quelles images étaient plus visuellement attrayantes. Nos résultats indiquaient une amélioration nette de la qualité des images, ainsi que de la façon dont les images générées s'alignaient avec les prompts.

Impact Plus Large de la Synthèse d'Images Améliorée

Les avancées dans la création rapide d'images grâce à nos nouvelles méthodes peuvent avoir des effets considérables dans les domaines du design, de l'art, de l'éducation et du divertissement. Fournir des outils pour une génération d'images rapide peut aider les artistes et les créateurs à développer du contenu plus efficacement. De plus, la capacité à générer des images à partir de descriptions textuelles pourrait révolutionner la création de matériaux personnalisés.

Cependant, il y a aussi des inconvénients potentiels à ces technologies. Il existe des risques associés à la création d'images fausses qui peuvent induire les gens en erreur ou être utilisées à des fins nuisibles. Il est essentiel de s'assurer que tout système mis en place dispose de garanties pour prévenir les abus et que les sorties soient équitables et diverses.

Conclusion

En résumé, notre recherche introduit une nouvelle approche à la distillation par correspondance de distribution qui élimine le besoin de construction d'ensemble de données chronophage. L'intégration des objectifs GAN améliore la qualité des images générées, et permettre une génération multi-étape facilite le processus d'apprentissage pour des modèles complexes. Ces avancées représentent un pas significatif en avant dans le domaine de la synthèse d'images, ouvrant la voie à des techniques de génération efficaces et de haute qualité.

Nos méthodes ne se contentent pas d'égaler les performances des modèles existants, mais offrent également un cadre pour de futures recherches visant à rendre la génération d'images plus accessible et efficace, tout en étant conscient des impacts sociétaux.

Source originale

Titre: Improved Distribution Matching Distillation for Fast Image Synthesis

Résumé: Recent approaches have shown promises distilling diffusion models into efficient one-step generators. Among them, Distribution Matching Distillation (DMD) produces one-step generators that match their teacher in distribution, without enforcing a one-to-one correspondence with the sampling trajectories of their teachers. However, to ensure stable training, DMD requires an additional regression loss computed using a large set of noise-image pairs generated by the teacher with many steps of a deterministic sampler. This is costly for large-scale text-to-image synthesis and limits the student's quality, tying it too closely to the teacher's original sampling paths. We introduce DMD2, a set of techniques that lift this limitation and improve DMD training. First, we eliminate the regression loss and the need for expensive dataset construction. We show that the resulting instability is due to the fake critic not estimating the distribution of generated samples accurately and propose a two time-scale update rule as a remedy. Second, we integrate a GAN loss into the distillation procedure, discriminating between generated samples and real images. This lets us train the student model on real data, mitigating the imperfect real score estimation from the teacher model, and enhancing quality. Lastly, we modify the training procedure to enable multi-step sampling. We identify and address the training-inference input mismatch problem in this setting, by simulating inference-time generator samples during training time. Taken together, our improvements set new benchmarks in one-step image generation, with FID scores of 1.28 on ImageNet-64x64 and 8.35 on zero-shot COCO 2014, surpassing the original teacher despite a 500X reduction in inference cost. Further, we show our approach can generate megapixel images by distilling SDXL, demonstrating exceptional visual quality among few-step methods.

Auteurs: Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman

Dernière mise à jour: 2024-05-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.14867

Source PDF: https://arxiv.org/pdf/2405.14867

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires