Novo Método para Edição de Imagens Usando Rascunhos
Uma nova abordagem para edição de imagens combina esboços e imagens de referência para resultados melhores.
― 6 min ler
Avanços recentes na tecnologia tornaram possível criar imagens de alta qualidade usando computadores. Uma novidade empolgante é uma nova forma de editar imagens usando Esboços e fotos de referência. Esse método permite que os usuários guiem o processo de criação de imagens de forma mais fácil e precisa.
O que é Composição de Imagem?
Composição de imagem é o processo de juntar diferentes elementos para criar uma imagem completa. Nesse caso, os usuários podem editar uma imagem fornecendo tanto uma imagem de referência quanto um esboço. A imagem de referência representa o que o usuário quer ver na imagem final, enquanto o esboço dá um contorno básico da estrutura da imagem.
Por que usar Esboços?
Esboços são uma maneira simples e intuitiva para os usuários expressarem suas ideias. Eles podem variar de desenhos detalhados a linhas e formas básicas. A vantagem de usar esboços é que eles fornecem um guia claro para as formas que devem ser desenhadas. Em contraste com descrições em texto, que podem ser vagas, um esboço mostra exatamente o que o usuário tem em mente.
Como Funciona?
O método proposto treina um modelo de computador especializado para preencher partes de uma imagem com base nas entradas do usuário. Primeiro, o usuário prepara um esboço que contorna as formas desejadas, seguido de uma imagem de referência que oferece conteúdo e estilo. O modelo pega essas duas entradas e trabalha para criar uma imagem completa que corresponda à visão do usuário.
Esse processo acontece em duas etapas principais: Treinamento e geração de imagens. Durante o treinamento, o modelo aprende como identificar e preencher partes faltantes de uma imagem enquanto mantém o esboço do usuário em mente. Na etapa de geração, o modelo treinado usa o esboço e a imagem de referência para produzir uma nova imagem.
Treinando o Modelo
Para treinar o modelo de forma eficaz, um setup específico é usado. A imagem inicial inclui certas áreas marcadas para edição. Uma máscara binária indica quais áreas devem mudar e quais devem permanecer as mesmas. O esboço fornece informações sobre como essas áreas devem parecer, enquanto a imagem de referência contém o conteúdo desejado.
O modelo aprende preenchendo as áreas marcadas usando tanto a imagem de referência quanto o esboço como guias. Essa entrada dual ajuda o modelo a entender tanto as formas quanto as cores ou padrões a serem usados, resultando em um produto final melhor.
Uma Nova Estratégia para Flexibilidade
Um desafio ao usar esboços é que eles podem ser muito simples. Às vezes, uma linha básica pode não representar completamente os detalhes necessários para certas partes de uma imagem, como nuvens ou árvores. Para superar isso, uma nova estratégia foi introduzida que permite ao modelo ajustar o quão de perto ele segue o esboço. Essa flexibilidade ajuda a produzir resultados mais naturais, mesmo quando os esboços não são muito detalhados.
Aplicações no Mundo Real
O novo método mostra grande potencial para várias aplicações práticas, especialmente no mundo dos desenhos animados e cenas animadas.
Editando Fundos
Criar fundos para desenhos animados pode ser complicado e requer muito esforço. Esse método permite que os artistas editem e estendam fundos facilmente. Usando um esboço e uma imagem de referência, os usuários podem criar cenas contínuas que se misturam perfeitamente com a arte existente.
Mudando Formas de Objetos
Outra aplicação é mudar formas específicas dentro de uma imagem. Por exemplo, se um artista quiser editar o cabelo ou a barba de um personagem, ele pode simplesmente fornecer um esboço para representar como o cabelo deve parecer. Isso dá ao artista controle detalhado sobre áreas locais da imagem, facilitando a obtenção da aparência desejada.
Alterando Roupas
O método também permite modificações fáceis nas roupas. Um artista pode pegar uma imagem de referência de um traje diferente e usá-la para substituir ou alterar as roupas de um personagem em uma imagem existente. Isso facilita a criação de variações de design sem começar do zero.
Vantagens Sobre Outros Métodos
A principal vantagem desse método é o uso de tanto um esboço quanto uma imagem de referência. Métodos anteriores focaram apenas em texto ou prompts de imagem, o que pode limitar quão exatamente a imagem final representa a visão do usuário. Ao combinar esboços e imagens de referência, o novo método melhora o potencial para edição de imagem criativa e precisa.
Testes e Resultados
Para medir quão bem o novo método funciona, testes foram realizados comparando-o com técnicas existentes. Os resultados mostraram que usar tanto esboços quanto imagens de referência levou a imagens de melhor qualidade do que usar apenas um ou outro. A inclusão de esboços permitiu maior detalhe e estrutura, tornando as imagens finais mais atraentes.
Exemplos Visuais
Imagens demonstram como esse método pode funcionar na vida real. Por exemplo, imagens geradas usando diferentes imagens de referência mostram a eficácia do esboço em guiar a conclusão das áreas faltantes. Além disso, modificações feitas em objetos locais, como a forma do olho ou do nariz de um personagem, destacam a flexibilidade que os usuários têm ao fornecer um esboço.
O Futuro da Edição de Imagens
Embora essa abordagem tenha se mostrado eficaz, ainda há espaço para melhorias. Trabalhos futuros visam tornar a interação entre os usuários e o modelo mais fluida, permitindo uma experiência de edição ainda mais suave. O objetivo é criar ferramentas amigáveis que capacitem artistas e criadores a expressar suas ideias sem limitações.
Conclusão
A introdução de um sistema multi-input que combina esboços e imagens de referência representa um grande passo à frente na tecnologia de edição de imagem. Essa abordagem não só facilita para os usuários criarem e modificarem imagens, mas também melhora a qualidade e o detalhe dos resultados finais. Com o desenvolvimento contínuo e a exploração de novas aplicações, esse método pode se tornar uma ferramenta valiosa para artistas e criadores.
Resumindo, o desenvolvimento desse processo inovador de edição destaca a importância da colaboração entre a entrada do usuário e a tecnologia avançada para criar imagens de alta qualidade que refletem ideias criativas.
Título: Reference-based Image Composition with Sketch via Structure-aware Diffusion Model
Resumo: Recent remarkable improvements in large-scale text-to-image generative models have shown promising results in generating high-fidelity images. To further enhance editability and enable fine-grained generation, we introduce a multi-input-conditioned image composition model that incorporates a sketch as a novel modal, alongside a reference image. Thanks to the edge-level controllability using sketches, our method enables a user to edit or complete an image sub-part with a desired structure (i.e., sketch) and content (i.e., reference image). Our framework fine-tunes a pre-trained diffusion model to complete missing regions using the reference image while maintaining sketch guidance. Albeit simple, this leads to wide opportunities to fulfill user needs for obtaining the in-demand images. Through extensive experiments, we demonstrate that our proposed method offers unique use cases for image manipulation, enabling user-driven modifications of arbitrary scenes.
Autores: Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo
Última atualização: 2023-03-31 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.09748
Fonte PDF: https://arxiv.org/pdf/2304.09748
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://comic.naver.com/webtoon/weekday
- https://www.ghibli.jp/
- https://github.com/MCG-NKU/CVPR_Template
- https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf
- https://arxiv.org/pdf/2208.12242.pdf
- https://prompt-to-prompt.github.io/ptp_files/Prompt-to-Prompt_preprint.pdf