Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Méthodes de Formation Abordables pour les Modèles d'IA Générative

Explore des techniques économiques pour entraîner des modèles génératifs de texte à image.

― 6 min lire


Formation AI générative àFormation AI générative àcoût réduittechniques innovantes.modèles d'IA avancés avec desRéduisez les coûts de formation des
Table des matières

Les modèles d'IA générative, qui créent des images à partir de texte, coûtent souvent une blinde à entraîner. Avec les avancées technologiques, la plupart des recherches et développements se font avec des machines puissantes que peu de gens peuvent se permettre. Cet article parle d'une nouvelle méthode qui nous permet d'entraîner ces modèles sans dépenser une fortune. On se concentre sur les modèles texte-à-image, en particulier les Transformateurs de diffusion, et on montre comment réduire les Coûts de formation de manière significative.

Le Coût de l'Entraînement des Modèles d'IA

Les méthodes actuelles pour entraîner l'IA générative peuvent être super chères. Par exemple, certains modèles à la pointe nécessitent plus de 200 000 heures de puissance de calcul GPU. Du coup, les coûts sont souvent hors de portée pour la plupart des chercheurs et développeurs.

La domination de quelques organisations avec beaucoup de ressources limite la participation à l'avancement de la technologie IA. Cependant, on pense qu'une approche d'entraînement à faible coût peut démocratiser ce domaine et permettre à des équipes plus petites de contribuer efficacement.

Notre Approche

Notre but est de créer un pipeline d'entraînement qui produit des images de haute qualité tout en minimisant les dépenses. On y arrive en mettant en place une technique qui nous permet de masquer des parties d'une image pendant l'entraînement. On a découvert que masquer jusqu'à 75% de l'image peut réduire la pression sur les ressources informatiques sans trop affecter la qualité de l'image.

On a introduit une stratégie appelée Masquage différé, ce qui signifie qu'on traite les patchs d'image avant de les masquer. Cette technique aide à garder des informations importantes intactes, ce qui est essentiel pour l'entraînement.

Méthodologie

Techniques de Masquage

Dans notre travail, on a utilisé différentes techniques de masquage pour voir comment elles affectaient les performances du modèle. Les méthodes traditionnelles conduisent souvent à des résultats médiocres quand beaucoup de patchs sont masqués. Cependant, notre masquage différé nous permet de conserver des informations significatives sur les parties non masquées.

Utilisation d'un Mixeur de Patchs

Pour améliorer le processus de masquage, on a introduit un modèle léger appelé mixeur de patchs. Ce modèle combine les informations de divers patchs avant qu'on applique le masquage. En faisant ça, on aide le modèle à apprendre même quand beaucoup de parties de l'image sont cachées pendant l'entraînement.

Comparaison avec D'autres Modèles

Dans nos expériences, on a comparé notre approche avec des techniques existantes pour voir laquelle donnait de meilleurs résultats. On a découvert que notre masquage différé combiné au mixeur de patchs non seulement faisait économiser de l'argent mais produisait aussi une qualité d'image comparable, voire meilleure, que des modèles plus chers.

Le Processus d'Entraînement

Données et Ressources

Pour notre entraînement, on a utilisé 37 millions d'images réelles et synthétiques. On a choisi des ensembles de données disponibles publiquement pour éviter les coûts élevés associés aux ensembles propriétaires. Notre entraînement n'a pris que quelques jours sur un seul GPU puissant, avec un coût d'environ 1 890 $.

Phases d'Entraînement

L'entraînement s'est déroulé en deux phases. Dans la première phase, on a entraîné le modèle avec des images de plus basse résolution. Ensuite, on a utilisé des images de plus haute résolution pour peaufiner le modèle. Cette approche nous a permis d'améliorer progressivement les capacités du modèle tout en maîtrisant les coûts.

Métriques de Performance

On a mesuré la qualité des images générées en utilisant différentes métriques. Une des principales métriques était la Distance d'Inception de Fréchet (FID), qui aide à évaluer à quel point les images générées ressemblent à de vraies images. On a obtenu des résultats compétitifs, notre modèle étant performant même dans des scénarios zéro-shot, ce qui signifie qu'il a généré des images pour des prompts qu'il n'avait jamais vus auparavant.

Avantages des Données synthétiques

Utiliser des données synthétiques en parallèle avec des images réelles a considérablement amélioré la qualité des images générées. On a constaté que mélanger des données synthétiques et réelles menait à des résultats plus frais et plus diversifiés. Cette combinaison s'est révélée bénéfique pour entraîner nos modèles efficacement.

Évaluation des Résultats

Évaluation Qualitative

En plus des métriques mathématiques, on a évalué qualitativement les performances de notre modèle. On a utilisé des prompts pour guider le modèle dans la génération d'images et on a évalué à quel point il respectait ces prompts. Notre modèle a régulièrement produit des images qui correspondaient bien aux descriptions données.

Comparaison avec des Modèles Existants

Quand on a comparé notre modèle à des modèles génératifs à la pointe, on a découvert qu'il était compétitif tant en qualité qu'en coût. Notre approche offrait des économies substantielles sur les dépenses d'entraînement sans sacrifier la qualité de l'image, ce qui en fait une solution attrayante pour les chercheurs avec un budget limité.

Conclusion

Notre étude a montré qu'il est possible d'entraîner des modèles génératifs de grande envergure sans encourir des coûts exorbitants. En utilisant des techniques comme le masquage différé et un mixeur de patchs, on a réduit les temps d'entraînement et les dépenses tout en garantissant une sortie de haute qualité. Cette approche à faible coût ouvre la porte à plus de personnes et à de plus petites organisations pour participer à la recherche et au développement en IA.

Nos découvertes contribuent à rendre la technologie IA avancée plus accessible à tous, alimentant ainsi l'innovation et la créativité dans le domaine.

Source originale

Titre: Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Résumé: As scaling laws in generative AI push performance, they also simultaneously concentrate the development of these models among actors with large computational resources. With a focus on text-to-image (T2I) generative models, we aim to address this bottleneck by demonstrating very low-cost training of large-scale T2I diffusion transformer models. As the computational cost of transformers increases with the number of patches in each image, we propose to randomly mask up to 75% of the image patches during training. We propose a deferred masking strategy that preprocesses all patches using a patch-mixer before masking, thus significantly reducing the performance degradation with masking, making it superior to model downscaling in reducing computational cost. We also incorporate the latest improvements in transformer architecture, such as the use of mixture-of-experts layers, to improve performance and further identify the critical benefit of using synthetic images in micro-budget training. Finally, using only 37M publicly available real and synthetic images, we train a 1.16 billion parameter sparse transformer with only \$1,890 economical cost and achieve a 12.7 FID in zero-shot generation on the COCO dataset. Notably, our model achieves competitive FID and high-quality generations while incurring 118$\times$ lower cost than stable diffusion models and 14$\times$ lower cost than the current state-of-the-art approach that costs \$28,400. We aim to release our end-to-end training pipeline to further democratize the training of large-scale diffusion models on micro-budgets.

Auteurs: Vikash Sehwag, Xianghao Kong, Jingtao Li, Michael Spranger, Lingjuan Lyu

Dernière mise à jour: 2024-07-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.15811

Source PDF: https://arxiv.org/pdf/2407.15811

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires