Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Aprendizagem de máquinas

Métodos de Treinamento Acessíveis para Modelos de IA Generativa

Explore técnicas econômicas para treinar modelos generativos de texto para imagem.

― 5 min ler


Treinamento de IATreinamento de IAGenerativa Econômicoinovadoras.modelos de IA avançados com técnicasReduza os custos de treinamento para
Índice

Modelos de IA generativa, que criam imagens a partir de texto, costumam ser caros para treinar. Com a tecnologia avançando, a maior parte da pesquisa e desenvolvimento acontece em máquinas potentes que pouca gente consegue pagar. Este artigo fala sobre um novo método que permite treinar esses modelos sem gastar uma fortuna. A gente foca em modelos de texto para imagem, especificamente transformers de difusão, e mostra como reduzir os Custos de Treinamento significativamente.

O Custo do Treinamento de Modelos de IA

Os métodos atuais para treinar IA generativa podem ser extremamente caros. Por exemplo, alguns modelos de ponta precisam de mais de 200.000 horas de poder de computação em GPU. Isso significa que os custos muitas vezes ficam fora do alcance da maioria dos pesquisadores e desenvolvedores.

O domínio de algumas organizações com muitos recursos limita a participação na evolução da tecnologia de IA. No entanto, acreditamos que uma abordagem de treinamento de baixo custo pode democratizar esse campo e permitir que equipes menores contribuam de forma eficiente.

Nossa Abordagem

Nosso objetivo é criar um pipeline de treinamento que produza imagens de alta qualidade enquanto minimiza despesas. A gente consegue isso implementando uma técnica que permite mascarar partes de uma imagem durante o treinamento. Descobrimos que mascarar até 75% da imagem pode reduzir a pressão sobre os recursos computacionais sem prejudicar significativamente a qualidade da imagem.

Introduzimos uma estratégia chamada Mascaramento diferido, que significa que processamos os pedaços da imagem antes de mascará-los. Essa técnica ajuda a manter informações importantes intactas, o que é vital para o treinamento.

Metodologia

Técnicas de Mascaramento

Em nosso trabalho, usamos diferentes técnicas de mascaramento para ver como elas impactavam o desempenho do modelo. Métodos tradicionais muitas vezes levam a resultados ruins quando muitos pedaços são mascarados. No entanto, nosso mascaramento diferido nos permite reter informações significativas sobre as partes não mascaradas.

Usando um Misturador de Pedaços

Para melhorar o processo de mascaramento, introduzimos um modelo leve chamado misturador de pedaços. Esse modelo combina as informações de vários pedaços antes de aplicarmos o mascaramento. Fazendo isso, ajudamos o modelo a aprender mesmo quando muitas partes da imagem estão escondidas durante o treinamento.

Comparação com Outros Modelos

Em nossos experimentos, comparamos nossa abordagem com técnicas existentes para ver qual produzia melhores resultados. Descobrimos que nosso mascaramento diferido combinado com o misturador de pedaços não só economizou custos, mas também gerou qualidade de imagem comparável ou até melhor do que modelos mais caros.

O Processo de Treinamento

Dados e Recursos

Para nosso treinamento, usamos 37 milhões de imagens reais e sintéticas. Escolhemos conjuntos de dados disponíveis publicamente para evitar os altos custos associados a conjuntos de dados proprietários. Nosso treinamento levou apenas alguns dias em uma única GPU poderosa, com um custo de cerca de R$1.890.

Fases de Treinamento

O treinamento foi realizado em duas fases. Na primeira fase, treinamos o modelo com imagens de menor resolução. Depois disso, usamos imagens de maior resolução para refinar o modelo. Essa abordagem nos permitiu melhorar incrementalmente as capacidades do modelo enquanto gerenciávamos os custos.

Métricas de Desempenho

Medimos a qualidade das imagens geradas usando diferentes métricas. Uma das principais métricas foi a Distância Fréchet Inception (FID), que ajuda a avaliar quão próximas as imagens geradas estão das imagens reais. Conseguimos resultados competitivos, com nosso modelo se saindo bem mesmo em cenários de zero-shot, ou seja, gerando imagens para prompts que nunca havia visto antes.

Benefícios dos Dados Sintéticos

Usar dados sintéticos junto com imagens reais melhorou significativamente a qualidade das imagens geradas. Descobrimos que misturar dados sintéticos e reais levou a resultados novos e mais diversos. Essa combinação se mostrou benéfica para treinar nossos modelos de forma eficaz.

Avaliação dos Resultados

Avaliação Qualitativa

Além das métricas matemáticas, avaliamos qualitativamente o desempenho do nosso modelo. Usamos prompts para orientar o modelo na geração de imagens e avaliamos quão bem ele seguiu esses prompts. Nosso modelo consistentemente produziu imagens que se alinhavam bem com as descrições dadas.

Comparação com Modelos Existentes

Quando comparamos nosso modelo com modelos generativos de ponta, descobrimos que ele era competitivo em termos de qualidade e custo. Nossa abordagem ofereceu economias substanciais em despesas de treinamento sem sacrificar a qualidade da imagem, tornando-se uma solução atraente para pesquisadores com orçamento limitado.

Conclusão

Nosso estudo demonstrou que é possível treinar modelos generativos em larga escala sem incorrer em custos exorbitantes. Ao empregar técnicas como mascaramento diferido e um misturador de pedaços, reduzimos os tempos e despesas de treinamento enquanto garantimos uma saída de alta qualidade. Essa abordagem de baixo custo abre portas para mais indivíduos e organizações menores participarem da pesquisa e desenvolvimento em IA.

Nossas descobertas contribuem para tornar a tecnologia avançada de IA mais acessível a todos, estimulando assim mais inovação e criatividade no campo.

Fonte original

Título: Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Resumo: As scaling laws in generative AI push performance, they also simultaneously concentrate the development of these models among actors with large computational resources. With a focus on text-to-image (T2I) generative models, we aim to address this bottleneck by demonstrating very low-cost training of large-scale T2I diffusion transformer models. As the computational cost of transformers increases with the number of patches in each image, we propose to randomly mask up to 75% of the image patches during training. We propose a deferred masking strategy that preprocesses all patches using a patch-mixer before masking, thus significantly reducing the performance degradation with masking, making it superior to model downscaling in reducing computational cost. We also incorporate the latest improvements in transformer architecture, such as the use of mixture-of-experts layers, to improve performance and further identify the critical benefit of using synthetic images in micro-budget training. Finally, using only 37M publicly available real and synthetic images, we train a 1.16 billion parameter sparse transformer with only \$1,890 economical cost and achieve a 12.7 FID in zero-shot generation on the COCO dataset. Notably, our model achieves competitive FID and high-quality generations while incurring 118$\times$ lower cost than stable diffusion models and 14$\times$ lower cost than the current state-of-the-art approach that costs \$28,400. We aim to release our end-to-end training pipeline to further democratize the training of large-scale diffusion models on micro-budgets.

Autores: Vikash Sehwag, Xianghao Kong, Jingtao Li, Michael Spranger, Lingjuan Lyu

Última atualização: 2024-07-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.15811

Fonte PDF: https://arxiv.org/pdf/2407.15811

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes