Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Avancer la génération d'images avec des modèles de diffusion masqués

De nouvelles méthodes améliorent l'efficacité et la qualité de l'entraînement des modèles d'image.

― 7 min lire


Modèles masqués pour deModèles masqués pour demeilleures imagesqualité.donnent des résultats d'image de hauteDe nouvelles méthodes d'entraînement
Table des matières

Ces dernières années, un modèle spécial appelé modèles de diffusion est devenu populaire pour créer des images. Ces modèles fonctionnent bien, mais ils prennent beaucoup de temps et de ressources pour être entraînés. Ça complique un peu les choses pour tout le monde dans le monde de la recherche. Souvent, ces modèles doivent apprendre chaque détail d'une image depuis le début, ce qui peut coûter cher.

Aim of the Study

On a découvert qu'il n'est peut-être pas nécessaire de partir de zéro. Au lieu de ça, on peut d'abord entraîner le modèle sur une forme plus simple des données d'image, qu'on appelle la distribution de base. Ce primer aidera le modèle à bien commencer avant de le peaufiner pour des tâches spécifiques comme générer de nouvelles images. En masquant une grande partie des images d'entrée pendant la phase d'Entraînement initial, on peut rendre l'entraînement plus rapide et plus efficace.

Methodology

Durant la première étape de l'entraînement, on masque un pourcentage élevé des images d'entrée. Ça veut dire qu'au lieu d'utiliser toute l'image, on montre seulement une partie au modèle. Le modèle apprend à combler les blancs et se concentre sur les zones visibles. Dans la deuxième étape, on peaufine le modèle en utilisant les images complètes sans masquage, ce qui lui permet d'apprendre des caractéristiques plus complexes. Cette approche en deux étapes aide à augmenter la vitesse d'entraînement et réduit la charge computationnelle.

Training Results

Avec notre approche, on a obtenu des résultats impressionnants, établissant une nouvelle norme pour la qualité des images générées. Notre modèle a obtenu un score record sur un dataset d'images célèbre appelé CelebA-HQ. On a aussi constaté que les modèles pré-entraînés sur un dataset peuvent mieux performer quand ils sont peaufins sur un autre dataset, même avec des données limitées.

Importance of Efficient Training

Les modèles de diffusion ont montré d'excellents résultats en générant des images. Cependant, la façon traditionnelle d'entraîner ces modèles nécessite beaucoup de puissance informatique. En ne devant pas apprendre chaque détail tout de suite, on facilite l'adaptation du modèle et on le rend plus efficace.

Understanding the Two-Stage Training

On a utilisé l'exemple d'un peintre pour expliquer notre méthode. Au lieu de plonger directement dans les détails, un peintre commence généralement par des caractéristiques larges avant d'ajouter des détails fins. De la même manière, en se concentrant d'abord sur des parties clés des images, notre modèle peut mieux apprendre.

Primer Distribution

On a défini la distribution de base comme une version simplifiée de la véritable distribution de données. Cette distribution aide à entraîner le modèle en fournissant des caractéristiques importantes qui ressemblent à la distribution cible. Cependant, créer cette distribution de base à partir des données réelles peut être compliqué puisqu'elle n'est généralement pas disponible.

Masking Strategy

Pour créer la distribution de base, on a utilisé une technique de masquage où on cache aléatoirement des portions d'images. Les parties exposées des images agissent comme des échantillons provenant de différentes petites distributions. On a aussi fourni des infos sur l'emplacement des pixels visibles, aidant le modèle à comprendre la structure des images à partir desquelles il apprend.

Benefits of Masked Training

Notre approche a rendu plus facile et rapide pour le modèle de converger vers de bons résultats. On a trouvé qu'avoir un modèle bien préparé peut considérablement accélérer le processus d'apprentissage des détails fins des données d'image. Notre méthode en deux étapes permet un entraînement efficace, surtout en travaillant avec des images complexes.

The Role of Architecture

On a vu que des études récentes ont mis en avant l'utilisation d'une certaine structure de modèle appelée Vision Transformers (ViT). Cette architecture est évolutive et fonctionne bien avec différents types de données. Mais, son utilisation a ses défis, comme nécessiter plus de ressources informatiques. En appliquant notre méthode, on a rendu les modèles basés sur ViT plus efficaces.

Experimenting with Different Masking Configurations

On a testé différentes stratégies de masquage, y compris le masquage par patch, par bloc et le recadrage. Chaque stratégie avait des effets différents sur les performances d'entraînement et l'efficacité. Les résultats ont montré que le masquage par bloc a donné les meilleurs résultats dans divers configurations.

Impact of Mask Rate

Pendant nos expériences, on a découvert que le taux de masquage, qui est la quantité de l'image qu'on cache, impacte les performances du modèle. Un taux de masquage de 50 % s'est avéré le plus efficace, tandis que des taux plus élevés conduisaient souvent à une instabilité dans l'entraînement.

Investigating Training Complexity

On a aussi étudié comment les performances d'entraînement changent avec différents réglages computationnels. Quand les ressources sont limitées, un équilibre entre le taux de masquage et la taille des lots est important. On a appris qu'ajuster ces paramètres peut améliorer les performances dans les mêmes contraintes de ressources.

Transitioning to Fine-Tuning

Une fois le modèle pré-entraînement avec le masquage, on est passé au peaufinnage. Pendant cette étape, le modèle utilise toutes les infos des images, apprenant à générer des sorties de haute qualité. La combinaison de ces deux étapes a donné des modèles qui performent mieux que ceux entraînés depuis le début.

Generalizability of the Model

Notre approche améliore non seulement l'efficacité de l'entraînement, mais renforce aussi la capacité du modèle à s'adapter à de nouveaux datasets. On a trouvé que les modèles pré-entraînés pouvaient gérer des tâches où les données d'entraînement étaient limitées tout en livrant des sorties de haute qualité.

Comparing to Other Models

Quand on a comparé notre modèle à d'autres méthodes actuelles, on a systématiquement obtenu de meilleurs résultats avec un temps d'entraînement plus court. Ça montre l’efficacité de notre cadre d'entraînement en deux étapes.

Conclusion

Le développement de modèles de diffusion masqués représente un pas important dans le domaine de la génération d'images. En simplifiant le processus d'entraînement et en se concentrant d'abord sur les caractéristiques clés, on rend la génération d'images de haute qualité plus accessible. Nos résultats soulignent que de meilleures méthodes d'entraînement peuvent mener à des applications plus utiles des modèles de diffusion dans divers contextes.

Future Work

À l'avenir, on prévoit d'explorer davantage notre cadre d'entraînement en deux étapes et d'automatiser le processus d'ajustement des paramètres d'entraînement. Ça rendra plus facile l'application de nos méthodes à un plus large éventail de tâches tout en maintenant l'efficacité.

References

  • Aucune
Source originale

Titre: Masked Diffusion Models Are Fast Distribution Learners

Résumé: Diffusion model has emerged as the \emph{de-facto} model for image generation, yet the heavy training overhead hinders its broader adoption in the research community. We observe that diffusion models are commonly trained to learn all fine-grained visual information from scratch. This paradigm may cause unnecessary training costs hence requiring in-depth investigation. In this work, we show that it suffices to train a strong diffusion model by first pre-training the model to learn some primer distribution that loosely characterizes the unknown real image distribution. Then the pre-trained model can be fine-tuned for various generation tasks efficiently. In the pre-training stage, we propose to mask a high proportion (e.g., up to 90\%) of input images to approximately represent the primer distribution and introduce a masked denoising score matching objective to train a model to denoise visible areas. In subsequent fine-tuning stage, we efficiently train diffusion model without masking. Utilizing the two-stage training framework, we achieves significant training acceleration and a new FID score record of 6.27 on CelebA-HQ $256 \times 256$ for ViT-based diffusion models. The generalizability of a pre-trained model further helps building models that perform better than ones trained from scratch on different downstream datasets. For instance, a diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement when fine-tuned on a different dataset that contains only 3000 images. Our code is available at \url{https://github.com/jiachenlei/maskdm}.

Auteurs: Jiachen Lei, Qinglong Wang, Peng Cheng, Zhongjie Ba, Zhan Qin, Zhibo Wang, Zhenguang Liu, Kui Ren

Dernière mise à jour: 2023-11-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.11363

Source PDF: https://arxiv.org/pdf/2306.11363

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires