Uma Nova Abordagem para Retocar Imagens
Apresentando o DiffRetouch, um jeito fácil de editar imagens do seu jeito.
― 7 min ler
Índice
Retocar imagens é o processo de melhorar a qualidade visual das fotos. Muita gente tira fotos todo dia, principalmente com smartphones. Às vezes, essas fotos não ficam boas por vários motivos como iluminação ruim ou problemas de foco. Por isso, o pós-processamento é muitas vezes necessário. Softwares profissionais de edição de imagem oferecem várias ferramentas para os usuários aprimorarem suas fotos. Mas, para usar essas ferramentas, geralmente é preciso ter habilidades específicas. Para ajudar os usuários comuns, muitos métodos baseados em aprendizado profundo foram desenvolvidos para automatizar esse processo de retoque.
Subjetividade no Retoque
Retoque é um processo pessoal. Cada pessoa tem seu gosto. O que parece legal para uma pessoa pode não agradar a outra. Os métodos atuais costumam ignorar essa subjetividade e confiar em modelos fixos. Esses modelos se concentram em produzir um estilo padrão, que pode não satisfazer todo mundo.
Apesar de serem treinados em estilos específicos de retoque, esses métodos falham em capturar a verdadeira variedade de estilos que especialistas podem usar. Eles aprendem um estilo médio, na verdade. Além disso, durante o processo de retoque, esses modelos só conseguem fornecer um único estilo, o que limita sua utilidade. Os usuários muitas vezes precisam escolher entre vários modelos para conseguir uma variedade de estilos.
Alguns métodos podem permitir que usuários escolham estilos adicionais, mas isso muitas vezes requer imagens extras. Essa exigência pode ser frustrante para os usuários.
Uma abordagem melhor envolveria um método que capture os muitos estilos vistos no retoque de especialistas. Isso nos leva a uma nova técnica que usa modelos de difusão.
O que é um Modelo de Difusão?
Um modelo de difusão é um tipo de modelo de aprendizado de máquina que é ótimo em capturar distribuições complexas de dados. Em termos simples, ele pode aprender a partir de um grande conjunto de exemplos e produzir novas imagens que refletem a diversidade dos dados de treinamento.
Esse método permite uma gama mais ampla de imagens retocadas, levando em conta os vários estilos e preferências de diferentes usuários. Em vez de ficar preso em um único estilo, um modelo de difusão pode gerar múltiplos estilos com base nas preferências do usuário.
Como Funciona Nosso Método
Nós propomos um novo método chamado DiffRetouch, que utiliza um modelo de difusão para retocar imagens. Esse método considera as imagens de entrada e oferece aos usuários configurações ajustáveis para quatro atributos principais da imagem: vivacidade, Contraste, temperatura de cor e Brilho.
Edição Amigável
O principal objetivo do nosso método é fornecer uma maneira fácil e intuitiva para os usuários personalizarem suas imagens. Os usuários podem ajustar os quatro atributos da imagem usando coeficientes, permitindo que eles adaptem o resultado final ao seu gosto.
Por exemplo, alterando esses coeficientes, o usuário pode tornar uma imagem mais colorida ou mais iluminada. Essa flexibilidade permite que os usuários criem uma ampla variedade de estilos, garantindo que suas preferências pessoais sejam atendidas.
Enfrentando Desafios
Dois desafios significativos no retoque de imagens são a distorção de texturas e a sensibilidade fraca do controle. A distorção de texturas acontece quando os detalhes de uma imagem se perdem durante o processo de retoque. Nosso método incorpora uma grade bilateral affínica para reduzir essa distorção. Essa grade ajuda a manter a textura e os detalhes originais durante o processo.
O segundo desafio, sensibilidade de controle, refere-se a quão responsivo o modelo é às mudanças feitas pelo usuário. Se os ajustes têm pouco efeito na saída, os usuários podem não ficar satisfeitos. Para resolver isso, implementamos um esquema de aprendizado contrastivo. Essa técnica melhora a capacidade do modelo de reconhecer e responder às mudanças feitas pelo usuário, resultando em ajustes mais significativos na saída.
Validação Experimental
Para confirmar a eficácia do nosso método, fizemos várias experiências, comparando nossos resultados com métodos existentes. Avaliamos o desempenho do nosso modelo em dois conjuntos de dados distintos: MIT-Adobe FiveK e PPR10K.
Visão Geral dos Conjuntos de Dados
MIT-Adobe FiveK: Esse conjunto inclui 5.000 imagens originais, cada uma com cinco versões retocadas por especialistas. Serve como um padrão no campo de retoque de imagens.
PPR10K: Esse conjunto contém mais de 11.000 imagens de retratos, cada uma com três variações retocadas por diferentes especialistas.
Usando esses conjuntos de dados, pudemos avaliar rigorosamente como nosso método se comporta em comparação com abordagens tradicionais.
Métricas de Avaliação
Usamos várias métricas para avaliar a qualidade das nossas imagens retocadas:
- PSNR (Relação Sinal-Ruído de Pico): Mede a qualidade da imagem retocada em comparação com a original.
- SSIM (Índice de Similaridade Estrutural): Avalia o impacto visual das mudanças nas informações estruturais.
- LPIPS (Similaridade de Patch de Imagem Perceptual Aprendida): Avalia a similaridade perceptual entre as imagens.
- FID (Distância Fréchet de Inception): Mede quão de perto a distribuição das nossas imagens geradas se compara com as imagens retocadas por especialistas.
- NIMA (Avaliação de Imagem Neural): Fornece uma pontuação estética com base nas preferências humanas.
Estudo de Preferências dos Usuários
Para medir a recepção do público, fizemos um estudo com usuários. Apresentamos aos participantes imagens originais e as versões retocadas do nosso método e de outras técnicas de ponta. Os participantes foram convidados a escolher seus resultados preferidos.
Nosso método recebeu a maior nota de preferência, quase o dobro do seu concorrente mais próximo. Essa descoberta destaca sua capacidade de atender a diversas necessidades dos usuários enquanto produz resultados visualmente atraentes.
A Importância dos Atributos da Imagem
Os quatro atributos da imagem (vivacidade, contraste, temperatura de cor e brilho) são essenciais para ajudar os usuários a alcançar o visual desejado. Oferecendo essas configurações ajustáveis, nosso método capacita os usuários a criar imagens personalizadas.
- Vivacidade: Afeta o brilho das cores na imagem.
- Contraste: Impacta a diferença entre as áreas escuras e claras.
- Temperatura de Cor: Influencia o calor ou frescor da imagem.
- Brilho: Ajusta a claridade ou escuridão geral da foto.
Alterando esses atributos, os usuários podem efetivamente adaptar as imagens para refletir suas preferências de estilo únicas.
Enfrentando Limitações
Embora nosso método tenha mostrado grande promessa, não é sem limitações. Em certas situações desafiadoras, como condições de iluminação extremas ou assuntos incomuns, a qualidade pode ainda ficar aquém do retoque de nível profissional.
No entanto, ajustando as condições de entrada, os usuários podem melhorar os resultados. Essa flexibilidade permite que os usuários explorem diferentes opções até encontrarem um resultado satisfatório.
Conclusão
Resumindo, o DiffRetouch representa um avanço significativo na tecnologia de retoque de imagens. Incorporando um modelo de difusão, desenvolvemos um método amigável que não só permite uma ampla gama de saídas personalizadas, mas também aborda desafios comuns como distorção de texturas e sensibilidade de controle.
Nossos testes extensivos indicam que essa abordagem supera métodos tradicionais e se alinha bem com as preferências dos usuários. À medida que continuamos aprimorando essa tecnologia, esperamos capacitar mais usuários a conseguir imagens bonitas e personalizadas com facilidade.
O futuro do retoque de imagens é promissor, com nosso método abrindo caminho para uma experiência mais acessível e agradável em melhorar a fotografia pessoal.
Título: DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts
Resumo: Image retouching aims to enhance the visual quality of photos. Considering the different aesthetic preferences of users, the target of retouching is subjective. However, current retouching methods mostly adopt deterministic models, which not only neglects the style diversity in the expert-retouched results and tends to learn an average style during training, but also lacks sample diversity during inference. In this paper, we propose a diffusion-based method, named DiffRetouch. Thanks to the excellent distribution modeling ability of diffusion, our method can capture the complex fine-retouched distribution covering various visual-pleasing styles in the training data. Moreover, four image attributes are made adjustable to provide a user-friendly editing mechanism. By adjusting these attributes in specified ranges, users are allowed to customize preferred styles within the learned fine-retouched distribution. Additionally, the affine bilateral grid and contrastive learning scheme are introduced to handle the problem of texture distortion and control insensitivity respectively. Extensive experiments have demonstrated the superior performance of our method on visually appealing and sample diversity. The code will be made available to the community.
Autores: Zheng-Peng Duan, Jiawei zhang, Zheng Lin, Xin Jin, Dongqing Zou, Chunle Guo, Chongyi Li
Última atualização: 2024-07-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.03757
Fonte PDF: https://arxiv.org/pdf/2407.03757
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.