Ajustando o StyleGAN2 para Imagens Individuais
Um jeito de melhorar a edição de imagens com o StyleGAN2.
― 7 min ler
Índice
Criar Imagens convincentes usando computadores virou uma área de pesquisa bem popular. Uma das ferramentas mais legais nesse campo é o StyleGAN2, que gera imagens que podem parecer fotos reais. Mas pra mudar uma foto de verdade usando essa ferramenta, a gente precisa primeiro encontrar uma representação especial daquela foto dentro do sistema StyleGAN2. Essa representação é essencial porque permite que a gente edite a imagem de um jeito mais eficaz. Infelizmente, nem todas as fotos reais têm uma representação correspondente no StyleGAN2, o que significa que às vezes a gente precisa ajustar a própria ferramenta pra fazer ela funcionar.
Nesse artigo, a gente apresenta um método que ajusta o StyleGAN2 para imagens individuais. Esse método modifica os parâmetros do Gerador pra melhorar a semelhança com a imagem que a gente quer. A gente faz isso usando Redes especiais que focam em pequenas mudanças no gerador. Essas mudanças ajudam a manter a capacidade do gerador de produzir boas imagens enquanto permite ajustes precisos pra foto específica em questão.
O Desafio da Geração de Imagens
A ascensão das Redes Gerativas Adversariais (GANs) tornou cada vez mais difícil diferenciar imagens reais das criadas por computadores. Embora as GANs consigam criar fotos realistas, elas muitas vezes não conseguem controlar características específicas nas imagens geradas. A família de geradores StyleGAN se destaca porque consegue criar imagens detalhadas com base em dados de entrada aleatórios. Mas, quando se trata de fotos reais, nem sempre há uma maneira direta de relacionar essas imagens com os dados de entrada que o StyleGAN usa.
Pra muitas aplicações práticas, essa limitação é um desafio significativo. Muitos pesquisadores tentaram melhorar a habilidade de encontrar a entrada certa pra imagens reais pra que a gente possa editá-las de forma mais eficaz. Porém, esses métodos não foram perfeitos, e os resultados muitas vezes diferem do que os usuários esperam.
Técnicas Atuais
Os pesquisadores desenvolveram várias técnicas pra ajudar a encontrar representações de imagens reais dentro da estrutura do StyleGAN. Existem dois tipos principais de métodos: aqueles que ajustam imagens individualmente e aqueles que usam sistemas pré-treinados pra modificar imagens com base na entrada. O primeiro tipo geralmente apresenta resultados melhores, mas normalmente leva mais tempo pra produzir resultados em comparação com a segunda abordagem.
Nosso método busca combinar as duas abordagens. Ele envolve fazer ajustes finos no gerador do StyleGAN pra uma única imagem enquanto também emprega redes treináveis. O papel dessas redes é decidir como os parâmetros do gerador devem mudar com base na imagem que tá sendo editada. Assim, a gente consegue fazer ajustes precisos sem perder a capacidade geral do gerador de produzir boas imagens.
Componentes Chave da Nossa Abordagem
Um aspecto central do nosso método é o uso de redes pequenas que ajudam a modificar os parâmetros do gerador principal. Ao invés de mudar toda a estrutura do gerador, a gente só faz pequenas alterações em camadas específicas. Essas modificações são guiadas por mudanças anteriores feitas nos parâmetros do gerador, permitindo ajustes mais precisos.
A gente também introduz uma nova forma de avaliar o quão bem estamos fazendo esses ajustes. Usamos uma combinação de termos de perda diferentes que avaliam quão semelhantes as imagens geradas são às imagens-alvo. Ao utilizar informações de várias redes pré-treinadas, melhoramos ainda mais a qualidade das imagens geradas.
Nossos experimentos mostram que nosso método oferece uma melhora notável em relação às técnicas existentes. Não só gera imagens mais precisas, mas também consegue manter a capacidade do gerador de fazer edições em outras imagens.
Pesquisa Relacionada
As Redes Gerativas Adversariais (GANs) consistem em duas partes: um gerador que cria imagens e um discriminador que as avalia. Esse esquema levou a várias aplicações, incluindo a geração de imagens claras, tradução de imagens de uma forma pra outra e criação de rostos realistas.
Embora as GANs possam produzir imagens de alta qualidade, prever a imagem final a partir dos dados de entrada ainda é um desafio. Pra ter mais controle sobre os resultados gerados, os pesquisadores experimentaram alimentar informações adicionais no sistema durante o treinamento, mas isso exige supervisão extra.
Outras estratégias se concentraram em gerenciar diretamente o espaço dos dados de entrada, permitindo que diferentes valores de entrada controlassem características específicas da imagem gerada. Estudos mostraram que mudanças contínuas nos dados de entrada levam a alterações graduais na imagem de saída.
O Processo de Inversão
Pra modificar uma imagem real usando a representação Latente do StyleGAN, a gente precisa identificar o ponto certo nesse espaço latente. Esse processo pode ser realizado por vários métodos, que podem ser agrupados em três categorias principais: baseados em otimização, baseados em codificadores e abordagens que modificam o gerador.
A abordagem baseada em otimização envolve ajustar iterativamente o código latente até que ele corresponda à imagem de entrada. Alguns pesquisadores propuseram métodos que melhoram a estrutura do espaço latente pra reter detalhes importantes durante a fase de reconstrução.
Já as métodos baseados em codificadores usam uma rede adicional pra traduzir entre o espaço da imagem e o espaço latente. Esses codificadores podem trabalhar junto com modelos pré-treinados pra mapear imagens reais de volta pra representação latente, garantindo que menos dados de treinamento sejam necessários.
As abordagens que modificam o gerador ajustam os pesos do gerador pra melhorar a imagem de saída. Isso pode envolver o uso de redes neurais adicionais pra gerar pesos residuais que controlam como o gerador modifica suas saídas com base em novas imagens.
Nossa Metodologia
Nosso método começa pegando uma imagem original e estimando seu código latente usando um codificador. Esse código é então processado pelo gerador pré-treinado, que tenta recriar a imagem original. Porém, como a saída inicial pode não se parecer muito com o alvo, a gente usa nosso método pra ajustar o gerador e produzir uma imagem ainda melhor.
O processo envolve o uso de uma função de perda única que considera semelhança em nível de pixel, semelhança perceptual, preservação de identidade e qualidade de segmentação. Ao ajustar os parâmetros do gerador através das nossas redes especialmente projetadas, conseguimos criar um novo gerador capaz de produzir imagens de alta qualidade que se assemelham muito ao alvo.
Nosso método é desenhado pra evitar mudanças excessivas no gerador que possam prejudicar sua capacidade de criar imagens de alta qualidade pra outras entradas. Também introduzimos um termo de regularização pra manter o gerador estável durante os ajustes, garantindo que ele ainda consiga produzir resultados consistentes.
Resultados Experimentais
Nós fizemos experimentos extensivos em vários conjuntos de dados, avaliando como nosso método se sai em comparação com os métodos existentes. Pra imagens faciais, nossos ajustes resultaram em imagens que se parecem muito com os alvos originais. Em outras categorias, como carros e vida selvagem, nosso método novamente demonstrou sua capacidade de gerar reconstruções precisas.
Avaliações quantitativas mostraram que nosso método consistentemente supera os outros em termos de qualidade de reconstrução, mostrando menos desvio visual das imagens-alvo. Avaliações qualitativas ainda mostraram que nosso método retém de forma eficaz detalhes críticos, como expressões faciais e características específicas de objetos.
Conclusão
Nossa pesquisa apresenta uma nova abordagem pra ajustar o StyleGAN2 pra imagens individuais, permitindo edições precisas enquanto mantém as capacidades gerais do gerador. Ao utilizar redes especializadas pra guiar os ajustes dos parâmetros, superamos algumas limitações enfrentadas por métodos anteriores nessa área. Os resultados indicam que há um potencial significativo pra nossa abordagem em aplicações práticas, tornando-a uma adição valiosa no campo da geração e edição de imagens. Essa pesquisa destaca a importância de continuar explorando o aprimoramento das técnicas de geração de imagem, melhorando nossa capacidade de criar e modificar imagens de maneiras significativas.
Título: Gradient Adjusting Networks for Domain Inversion
Resumo: StyleGAN2 was demonstrated to be a powerful image generation engine that supports semantic editing. However, in order to manipulate a real-world image, one first needs to be able to retrieve its corresponding latent representation in StyleGAN's latent space that is decoded to an image as close as possible to the desired image. For many real-world images, a latent representation does not exist, which necessitates the tuning of the generator network. We present a per-image optimization method that tunes a StyleGAN2 generator such that it achieves a local edit to the generator's weights, resulting in almost perfect inversion, while still allowing image editing, by keeping the rest of the mapping between an input latent representation tensor and an output image relatively intact. The method is based on a one-shot training of a set of shallow update networks (aka. Gradient Modification Modules) that modify the layers of the generator. After training the Gradient Modification Modules, a modified generator is obtained by a single application of these networks to the original parameters, and the previous editing capabilities of the generator are maintained. Our experiments show a sizable gap in performance over the current state of the art in this very active domain. Our code is available at \url{https://github.com/sheffier/gani}.
Autores: Erez Sheffi, Michael Rotman, Lior Wolf
Última atualização: 2023-02-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.11413
Fonte PDF: https://arxiv.org/pdf/2302.11413
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.