Novo método turbina técnicas de edição de imagem
AIDI oferece edição de imagem mais rápida e precisa com uma orientação inovadora.
― 5 min ler
Índice
Editar e mudar imagens virou uma tarefa bem popular com a ajuda da tecnologia avançada. Mas fazer imagens naturais ficarem legais e manter o realismo ainda pode ser complicado com os métodos atuais. Um desafio é transformar uma imagem real em uma forma que o sistema consiga manipular facilmente. Esse processo, chamado de inversão, é crucial porque permite que o sistema entenda e altere a imagem. Várias técnicas foram testadas, mas elas geralmente vêm com trocas de velocidade e qualidade.
O Desafio da Edição de Imagens
Os métodos atuais de edição de imagem, especialmente os que usam Redes Generativas Adversariais (GANs) e Modelos de Difusão Denoising Implícitos (DDIM), enfrentam várias dificuldades. Para os GANs, o principal problema é mapear corretamente uma imagem real para um vetor de ruído em um espaço que o sistema entende. Para os DDIM, o jeito de aplicar ruído em cada etapa pode tornar os resultados imprevisíveis. Muitas soluções para esses problemas podem ser lentas e ineficientes.
Uma Nova Abordagem: Inversão de Difusão Iterativa Acelerada (AIDI)
Um novo método chamado Inversão de Difusão Iterativa Acelerada, ou AIDI, tem como objetivo enfrentar os desafios da edição de imagens. Ele melhora a precisão da reconstrução da imagem enquanto requer menos tempo e recursos de processamento. Usando uma técnica de orientação nova, o AIDI mostra que bons resultados podem ser alcançados em várias tarefas de edição de imagens sem precisar de orientação extensa.
Modelos de difusão são um grupo de modelos que criam imagens de alta qualidade diminuindo o ruído gradualmente a partir de um ponto de partida aleatório. No começo, eram necessárias muitas etapas para gerar imagens de alta qualidade, mas esforços recentes reduziram esse número sem comprometer a qualidade. Isso permitiu um uso mais amplo desses modelos.
No entanto, a maioria dos modelos de difusão foi feita para gerar imagens e não para editá-las. Para uma edição eficaz, um processo de inversão adequado é necessário, parecido com o que os GANs enfrentam. A inversão de GAN geralmente enfrenta dificuldades devido a limitações na forma como representa as imagens. Em contraste, os modelos de difusão convertem imagens em um espaço sem perder informações sobre a imagem original.
Tentativas Passadas na Edição de Imagens
As primeiras tentativas de edição de imagem usando modelos de difusão incluíam métodos como SDEdit e difusão mesclada. O SDEdit usava injeção de ruído simples, enquanto a difusão mesclada tentava equilibrar as partes não editadas e editadas de uma imagem. Contudo, esses métodos tinham problemas de confiabilidade, especialmente quando a imagem precisava de alta precisão.
Para melhorar a precisão, métodos como Inversão de Texto Nulo e inversão de difusão exata foram desenvolvidos. Essas abordagens introduziram variáveis adicionais para aprimorar o processo de reconstrução, mas muitas vezes aumentaram a complexidade e as exigências computacionais.
Investigando um Melhor Processo de Inversão
O novo método AIDI vai além de abordagens simples e foca em alcançar uma melhor estabilidade na inversão. Ao modelar esse processo como um tipo de problema matemático, o método AIDI utiliza uma técnica específica que fornece uma reconstrução precisa enquanto mantém o mesmo número de etapas.
Um mecanismo de iteração de ponto fixo é empregado em cada etapa de inversão, tornando todo o processo mais rápido e eficaz. Ao combinar essa abordagem com um método de aceleração, os resultados mostraram melhorias significativas na qualidade da reconstrução.
Orientação Mesclada para Melhores Resultados
Enquanto o AIDI melhora significativamente a estabilidade da inversão, não pode garantir uma reconstrução de imagem confiável quando escalas de orientação altas são usadas. Portanto, uma nova técnica de orientação mesclada foi introduzida. Esse método aplica diferentes escalas de orientação durante a inversão e edição, resultando em resultados eficazes.
Durante a edição, uma máscara suave é gerada para ajudar a determinar quais áreas da imagem precisam de mais edição e quais devem permanecer inalteradas. O uso de um “mapa de atenção cruzada” garante que as partes mais cruciais da imagem recebam o foco necessário durante o processo de edição.
Abordagens Estocásticas para Edição
Na edição de imagens usando métodos determinísticos, podem surgir problemas quando os resultados não são como desejado. O AIDI permite uma abordagem estocástica para a edição que ajuda a se recuperar de falhas nos processos de edição determinística. Esse método traz variabilidade para o processo de edição, habilitando a seleção do melhor resultado a partir de várias tentativas.
Desempenho e Precisão do AIDI
A eficácia do método AIDI foi testada com várias imagens. Sua capacidade de mudar aspectos de uma imagem, como substituir um cachorro por um gato ou alterar fundos, mostra sua versatilidade. Os resultados mostraram que o AIDI pode alcançar edições de alta qualidade usando menos etapas, graças à sua precisão refinada e orientação mesclada.
Conclusão
Em resumo, o método AIDI representa um avanço significativo na tecnologia de edição de imagens, equilibrando qualidade e eficiência. Embora ainda existam desafios em controlar áreas específicas da edição, sua aplicação demonstra benefícios promissores no campo. O desenvolvimento contínuo das técnicas de edição de imagem certamente continuará a evoluir, trazendo novas ferramentas e capacidades para usuários em várias áreas criativas.
Título: Effective Real Image Editing with Accelerated Iterative Diffusion Inversion
Resumo: Despite all recent progress, it is still challenging to edit and manipulate natural images with modern generative models. When using Generative Adversarial Network (GAN), one major hurdle is in the inversion process mapping a real image to its corresponding noise vector in the latent space, since its necessary to be able to reconstruct an image to edit its contents. Likewise for Denoising Diffusion Implicit Models (DDIM), the linearization assumption in each inversion step makes the whole deterministic inversion process unreliable. Existing approaches that have tackled the problem of inversion stability often incur in significant trade-offs in computational efficiency. In this work we propose an Accelerated Iterative Diffusion Inversion method, dubbed AIDI, that significantly improves reconstruction accuracy with minimal additional overhead in space and time complexity. By using a novel blended guidance technique, we show that effective results can be obtained on a large range of image editing tasks without large classifier-free guidance in inversion. Furthermore, when compared with other diffusion inversion based works, our proposed process is shown to be more robust for fast image editing in the 10 and 20 diffusion steps' regimes.
Autores: Zhihong Pan, Riccardo Gherardi, Xiufeng Xie, Stephen Huang
Última atualização: 2023-09-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.04907
Fonte PDF: https://arxiv.org/pdf/2309.04907
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.