Métodos de entrenamiento asequibles para modelos de IA generativa
Explora técnicas rentables para entrenar modelos generativos de texto a imagen.
― 5 minilectura
Tabla de contenidos
- El Costo de Entrenar Modelos de IA
- Nuestro Enfoque
- Metodología
- Técnicas de Enmascaramiento
- Uso de un Mezclador de Parches
- Comparación con Otros Modelos
- El Proceso de Entrenamiento
- Datos y Recursos
- Fases de Entrenamiento
- Métricas de Rendimiento
- Beneficios de los Datos sintéticos
- Evaluación de Resultados
- Evaluación Cualitativa
- Comparación con Modelos Existentes
- Conclusión
- Fuente original
- Enlaces de referencia
Los modelos de IA generativa, que crean imágenes a partir de texto, suelen ser costosos de entrenar. A medida que la tecnología avanza, la mayoría de la investigación y el desarrollo se realizan con máquinas poderosas que pocas personas pueden pagar. Este artículo habla sobre un nuevo método que nos permite entrenar estos modelos sin gastar una fortuna. Nos enfocamos en modelos de texto a imagen, específicamente en Transformadores de Difusión, y mostramos cómo reducir significativamente los Costos de entrenamiento.
El Costo de Entrenar Modelos de IA
Los métodos actuales para entrenar IA generativa pueden ser extremadamente caros. Por ejemplo, algunos modelos de última generación requieren más de 200,000 horas de potencia de computación GPU. Esto significa que los costos suelen estar fuera del alcance de la mayoría de los investigadores y desarrolladores.
El dominio de unas pocas organizaciones con amplios recursos limita la participación en el avance de la tecnología de IA. Sin embargo, creemos que un enfoque de entrenamiento de bajo costo puede democratizar este campo y permitir que equipos más pequeños contribuyan de manera efectiva.
Nuestro Enfoque
Nuestro objetivo es crear una pipeline de entrenamiento que produzca imágenes de alta calidad mientras minimizamos los gastos. Logramos esto implementando una técnica que nos permite enmascarar partes de una imagen durante el entrenamiento. Descubrimos que enmascarar hasta el 75% de la imagen puede reducir la carga en los recursos computacionales sin afectar significativamente la calidad de la imagen.
Introdujimos una estrategia llamada Enmascaramiento diferido, lo que significa que procesamos los parches de imagen antes de enmascararlos. Esta técnica ayuda a mantener la información importante intacta, lo cual es vital para el entrenamiento.
Metodología
Técnicas de Enmascaramiento
En nuestro trabajo, utilizamos diferentes técnicas de enmascaramiento para ver cómo impactaban el rendimiento del modelo. Los métodos tradicionales a menudo conducen a malos resultados cuando se enmascaran muchos parches. Sin embargo, nuestro enmascaramiento diferido nos permite retener información significativa sobre las partes no enmascaradas.
Mezclador de Parches
Uso de unPara mejorar el proceso de enmascaramiento, introdujimos un modelo ligero llamado mezclador de parches. Este modelo combina la información de varios parches antes de aplicar el enmascaramiento. Al hacer esto, ayudamos al modelo a aprender incluso cuando muchas partes de la imagen están ocultas durante el entrenamiento.
Comparación con Otros Modelos
En nuestros experimentos, comparamos nuestro enfoque con técnicas existentes para ver cuál producía mejores resultados. Descubrimos que nuestro enmascaramiento diferido combinado con el mezclador de parches no solo ahorró costos, sino que también produjo una calidad de imagen comparable o mejor que la de modelos más caros.
El Proceso de Entrenamiento
Datos y Recursos
Para nuestro entrenamiento, usamos 37 millones de imágenes reales y sintéticas. Elegimos conjuntos de datos disponibles públicamente para evitar altos costos asociados con conjuntos de datos propietarios. Nuestro entrenamiento solo tomó unos pocos días en una sola GPU potente, con un costo de aproximadamente $1,890.
Fases de Entrenamiento
El entrenamiento se llevó a cabo en dos fases. En la primera fase, entrenamos el modelo con imágenes de menor resolución. Después, usamos imágenes de mayor resolución para refinar el modelo. Este enfoque nos permitió mejorar gradualmente las capacidades del modelo mientras gestionábamos los costos.
Métricas de Rendimiento
Medimos la calidad de las imágenes generadas utilizando diferentes métricas. Una de las métricas principales fue la Distancia de Fréchet Inception (FID), que ayuda a evaluar cuán cerca están las imágenes generadas de las imágenes reales. Logramos resultados competitivos, con nuestro modelo funcionando bien incluso en escenarios de cero tiros, lo que significa que generó imágenes para indicaciones que nunca había visto antes.
Datos sintéticos
Beneficios de losUsar datos sintéticos junto con imágenes reales mejoró significativamente la calidad de las imágenes generadas. Descubrimos que combinar datos sintéticos y reales dio lugar a resultados frescos y más diversos. Esta combinación demostró ser beneficiosa para entrenar nuestros modelos de manera efectiva.
Evaluación de Resultados
Evaluación Cualitativa
Además de las métricas matemáticas, evaluamos cualitativamente el rendimiento de nuestro modelo. Usamos indicaciones para guiar al modelo en la generación de imágenes y evaluamos qué tan bien cumplió con esas indicaciones. Nuestro modelo produjo constantemente imágenes que se alineaban bien con las descripciones dadas.
Comparación con Modelos Existentes
Cuando comparamos nuestro modelo con modelos generativos de última generación, encontramos que era competitivo en términos de calidad y costo. Nuestro enfoque ofreció ahorros sustanciales en gastos de entrenamiento sin sacrificar la calidad de la imagen, lo que lo hace una solución atractiva para investigadores con presupuesto limitado.
Conclusión
Nuestro estudio demostró que es posible entrenar modelos generativos a gran escala sin incurrir en costos exorbitantes. Al emplear técnicas como enmascaramiento diferido y un mezclador de parches, redujimos los tiempos y gastos de entrenamiento mientras aseguramos una salida de alta calidad. Este enfoque de bajo costo abre la puerta para que más personas y organizaciones más pequeñas participen en la investigación y el desarrollo de IA.
Nuestros hallazgos contribuyen a hacer que la tecnología avanzada de IA sea más accesible para todos, alimentando así una mayor innovación y creatividad en el campo.
Título: Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Resumen: As scaling laws in generative AI push performance, they also simultaneously concentrate the development of these models among actors with large computational resources. With a focus on text-to-image (T2I) generative models, we aim to address this bottleneck by demonstrating very low-cost training of large-scale T2I diffusion transformer models. As the computational cost of transformers increases with the number of patches in each image, we propose to randomly mask up to 75% of the image patches during training. We propose a deferred masking strategy that preprocesses all patches using a patch-mixer before masking, thus significantly reducing the performance degradation with masking, making it superior to model downscaling in reducing computational cost. We also incorporate the latest improvements in transformer architecture, such as the use of mixture-of-experts layers, to improve performance and further identify the critical benefit of using synthetic images in micro-budget training. Finally, using only 37M publicly available real and synthetic images, we train a 1.16 billion parameter sparse transformer with only \$1,890 economical cost and achieve a 12.7 FID in zero-shot generation on the COCO dataset. Notably, our model achieves competitive FID and high-quality generations while incurring 118$\times$ lower cost than stable diffusion models and 14$\times$ lower cost than the current state-of-the-art approach that costs \$28,400. We aim to release our end-to-end training pipeline to further democratize the training of large-scale diffusion models on micro-budgets.
Autores: Vikash Sehwag, Xianghao Kong, Jingtao Li, Michael Spranger, Lingjuan Lyu
Última actualización: 2024-07-22 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.15811
Fuente PDF: https://arxiv.org/pdf/2407.15811
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.