Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

Avanços na Edição de Imagens Focada em Temas

Um novo sistema melhora como a gente edita imagens com assuntos específicos.

― 6 min ler


Novo Sistema de Edição deNovo Sistema de Edição deImagens Reveladoem temas.técnicas de edição de imagem baseadasA estrutura de doutorado inova nas
Índice

Edição de imagem orientada por sujeito é uma nova área na tecnologia que busca criar imagens realistas combinando um sujeito específico com uma cena já existente. Isso tem várias aplicações, como edição de fotos, personalização de imagens, criação de conteúdo para entretenimento e jogos. Por exemplo, alguém pode querer ver seu bichinho de estimação em uma cena de um filme ou em um cenário histórico.

Recentemente, surgiu um grande interesse em usar modelos generativos de texto para imagem para edição de imagem mais flexível. Esses modelos permitem que os usuários guiem o processo de edição com descrições em palavras. No entanto, as descrições em texto muitas vezes não têm os detalhes necessários para representar de forma precisa os sujeitos específicos. Isso pode afetar a identidade do sujeito ou pode exigir ajustes para cada um.

Apresentando Paste, Inpaint e Harmonize via Denoising (PhD)

Para lidar com esses desafios, foi desenvolvido um novo sistema chamado Paste, Inpaint e Harmonize via Denoising (PhD). Esse sistema utiliza uma imagem de exemplo junto com descrições em texto para expressar melhor as intenções do usuário.

Na primeira etapa, chamada etapa de colagem, um modelo é usado para localizar um sujeito especificado pelo usuário na imagem de exemplo. Uma vez identificado, o sujeito é inserido em uma imagem de fundo. Esse processo captura tanto o contexto da cena quanto a identidade do sujeito em uma única imagem.

Depois, para garantir que a imagem editada pareça realista, um módulo adicional é incluído. Esse módulo mistura o sujeito inserido na cena de forma natural, fazendo ajustes conforme necessário. Ao manter o modelo principal de geração de imagem o mesmo, o sistema se beneficia de sua forte capacidade de criar imagens e responder a texto sem perder qualidade.

Como o PhD Funciona

O sistema PhD está estruturado em duas etapas principais: a etapa de Colagem e a etapa de Inpaint e Harmonize via Denoising.

A Etapa de Colagem

Na etapa de colagem, o sistema pega uma imagem de exemplo e uma cena de fundo. Um usuário escolhe onde quer editar a cena. Por exemplo, em uma foto do quintal da família, um usuário pode escolher uma área específica para colocar seu sujeito.

Um modelo de segmentação é então usado para extrair o sujeito da imagem de exemplo. O sujeito é redimensionado para caber na área escolhida da cena e colado. Essa etapa permite que os detalhes do sujeito sejam incluídos diretamente na cena sem perder informações importantes.

A Etapa de Inpaint e Harmonize via Denoising

Uma vez que o sujeito é colado, a próxima etapa é fazer a imagem parecer realista. A imagem colada pode não parecer natural porque a iluminação ou o fundo nas duas imagens podem ser muito diferentes.

Para corrigir isso, um módulo especializado é usado para misturar as imagens enquanto mantém uma aparência natural. Esse módulo pega a imagem colada como entrada e gera uma versão final que parece harmoniosa com o seu entorno. Ao adicionar os detalhes do sujeito e do fundo, o sistema consegue produzir uma imagem mais coerente.

Treinando o Sistema

O sistema PhD foi treinado usando um grande conjunto de dados. O objetivo era ensinar o módulo de harmonização a misturar qualquer sujeito em diferentes fundos de forma perfeita. Para criar um conjunto de treinamento diversificado, foram escolhidas 130.000 imagens de um conjunto de dados público. Cada imagem foi processada para extrair os sujeitos e remover seus fundos.

Para ajudar o modelo a aprender de forma eficaz, várias mudanças foram feitas nas imagens, como rotacionar ou alterar cores. Esses ajustes garantem que o sistema possa adaptar o sujeito para se encaixar bem em qualquer cena. Além disso, ruído foi adicionado às imagens para que parecessem mais com exemplos da vida real que os usuários poderiam fornecer durante o uso.

Avaliando a Abordagem PhD

A eficácia do sistema PhD foi testada em comparação com métodos existentes para edição de imagem orientada por sujeito. Diferentes métricas foram usadas para avaliar o desempenho do sistema, incluindo Qualidade Visual, preservação da identidade do sujeito e composição geral nas imagens editadas.

Através de experimentos extensivos, os resultados mostraram que o PhD teve um desempenho melhor do que outros métodos na maioria das áreas, especialmente na qualidade visual e na preservação da identidade do sujeito.

Trabalhos Relacionados

No campo da síntese de imagem guiada por texto, técnicas anteriores frequentemente enfrentavam problemas de estabilidade e dificuldade em representar com precisão sujeitos com base em solicitações de texto. Algumas técnicas aprimoradas usaram estratégias diferentes para gerar imagens, mas muitas ainda lutavam para manter tanto os detalhes do sujeito quanto o contexto da cena.

Em contraste, o sistema PhD simplifica o processo. Ao manter o gerador de imagem principal inalterado e não depender de transferir sujeitos para descrições textuais, o PhD consegue editar e gerar imagens de forma mais flexível.

Vantagens do PhD

A estrutura do PhD oferece várias vantagens principais:

  1. Edição Flexível: Os usuários podem facilmente colocar qualquer sujeito em uma cena sem precisar de ajustes extensivos ou re-treinamento.
  2. Qualidade Preservada: Ao usar um modelo pré-treinado sem alteração, as imagens geradas mantêm alta qualidade e realismo.
  3. Rapidez: A estrutura pode realizar tarefas rapidamente porque não requer longos tempos de treinamento.

Desafios e Limitações

Embora o sistema PhD tenha um bom desempenho, ainda tem algumas limitações. Por exemplo, pode ter dificuldades em criar áreas detalhadas para sujeitos que não estão totalmente visíveis nas imagens de exemplo. Isso pode levar a inconsistências, especialmente com partes não vistas de um sujeito.

Futuras melhorias poderiam se concentrar em integrar técnicas mais avançadas, como incorporar informações 3D, para aumentar o realismo geral das imagens.

Conclusão

A edição de imagem orientada por sujeito representa uma área empolgante de desenvolvimento no campo da geração de imagens. A estrutura Paste, Inpaint e Harmonize via Denoising (PhD) introduz uma abordagem nova que integra de forma eficaz sujeitos especificados pelo usuário em imagens enquanto mantém a qualidade visual das cenas.

Através de testes rigorosos e comparação com métodos existentes, o PhD demonstra avanços significativos e oferece uma solução promissora para edição de imagem personalizada em várias aplicações. Com pesquisas em andamento e melhorias futuras, essa tecnologia tem o potencial de redefinir como manipulamos e criamos imagens em um ambiente digital.

Fonte original

Título: Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing with Pre-Trained Diffusion Model

Resumo: Text-to-image generative models have attracted rising attention for flexible image editing via user-specified descriptions. However, text descriptions alone are not enough to elaborate the details of subjects, often compromising the subjects' identity or requiring additional per-subject fine-tuning. We introduce a new framework called \textit{Paste, Inpaint and Harmonize via Denoising} (PhD), which leverages an exemplar image in addition to text descriptions to specify user intentions. In the pasting step, an off-the-shelf segmentation model is employed to identify a user-specified subject within an exemplar image which is subsequently inserted into a background image to serve as an initialization capturing both scene context and subject identity in one. To guarantee the visual coherence of the generated or edited image, we introduce an inpainting and harmonizing module to guide the pre-trained diffusion model to seamlessly blend the inserted subject into the scene naturally. As we keep the pre-trained diffusion model frozen, we preserve its strong image synthesis ability and text-driven ability, thus achieving high-quality results and flexible editing with diverse texts. In our experiments, we apply PhD to both subject-driven image editing tasks and explore text-driven scene generation given a reference subject. Both quantitative and qualitative comparisons with baseline methods demonstrate that our approach achieves state-of-the-art performance in both tasks. More qualitative results can be found at \url{https://sites.google.com/view/phd-demo-page}.

Autores: Xin Zhang, Jiaxian Guo, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa

Última atualização: 2023-06-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.07596

Fonte PDF: https://arxiv.org/pdf/2306.07596

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes