Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Un Nuevo Enfoque para el Retoque de Imágenes

Te presentamos DiffRetouch, un método fácil de usar para editar imágenes de manera personalizada.

― 7 minilectura


DiffRetouch: Mejora en laDiffRetouch: Mejora en laEdición de Fotosimágenes personalizado.Un método innovador para la retoque de
Tabla de contenidos

Retocar imágenes es el proceso de mejorar la calidad visual de las fotos. Mucha gente toma fotos a diario, especialmente con sus smartphones. A veces, estas fotos no se ven bien por varias razones, como mala iluminación o problemas de enfoque. Por eso, a menudo es necesario hacer un post-procesado. El software profesional de procesamiento de imágenes ofrece muchas herramientas para que los usuarios mejoren sus imágenes. Sin embargo, usar estas herramientas normalmente requiere habilidades especiales. Para ayudar a los usuarios comunes, se han desarrollado varios métodos basados en aprendizaje profundo para automatizar este proceso de retoque.

Subjetividad en el Retoque

El retoque es un proceso personal. Diferentes personas tienen diferentes gustos. Lo que se ve bien para una persona puede no gustarle a otra. Los métodos actuales a menudo pasan por alto esta subjetividad y dependen de modelos fijos. Estos modelos se centran en producir un estilo estándar, que puede no satisfacer a todos.

A pesar de estar entrenados en estilos de retoque específicos de expertos, estos métodos no logran capturar la verdadera variedad de estilos que los expertos podrían usar. Aprenden un estilo promedio en su lugar. Además, durante el proceso de retoque de imágenes, estos modelos solo pueden proporcionar un único estilo, lo que limita su utilidad. A menudo, los usuarios necesitan elegir entre varios modelos para obtener una gama de estilos.

Algunos métodos pueden permitir que los usuarios seleccionen estilos adicionales, pero esto a menudo requiere imágenes extra. Este requisito puede ser frustrante para los usuarios.

Un mejor enfoque implicaría un método que capture los muchos estilos que se ven en el retoque experto. Esto nos lleva a una nueva técnica que utiliza modelos de difusión.

¿Qué es un Modelo de Difusión?

Un modelo de difusión es un tipo de modelo de aprendizaje automático que se destaca en capturar distribuciones complejas de datos. En términos simples, puede aprender de un gran conjunto de ejemplos y producir nuevas imágenes que reflejan la diversidad de los datos de entrenamiento.

Este método permite una gama más amplia de imágenes retocadas, teniendo en cuenta los diferentes estilos y preferencias de los usuarios. En lugar de ceñirse a un solo estilo, un modelo de difusión puede generar múltiples estilos basados en las preferencias del usuario.

Cómo Funciona Nuestro Método

Proponemos un nuevo método llamado DiffRetouch, que utiliza un modelo de difusión para retocar imágenes. Este método tiene en cuenta las imágenes de entrada y proporciona a los usuarios configuraciones ajustables para cuatro atributos clave de la imagen: Colorido, Contraste, temperatura de color y Brillo.

Edición Amigable para el Usuario

El objetivo principal de nuestro método es proporcionar una manera fácil e intuitiva para que los usuarios personalicen sus imágenes. Los usuarios pueden ajustar los cuatro atributos de la imagen utilizando coeficientes, lo que les permite adaptar el resultado final a su gusto.

Por ejemplo, al cambiar estos coeficientes, el usuario puede hacer que una imagen sea más colorida o más brillante. Esta flexibilidad significa que los usuarios pueden crear una amplia variedad de estilos, asegurando que se cumplan sus preferencias personales.

Abordando Desafíos

Dos desafíos importantes en el retoque de imágenes son la distorsión de textura y la sensibilidad de control débil. La distorsión de textura ocurre cuando se pierden los detalles de una imagen durante el proceso de retoque. Nuestro método incorpora una cuadrícula bilateral afín para reducir esta distorsión. Esta cuadrícula ayuda a mantener la textura y los detalles originales durante el proceso.

El segundo desafío, la sensibilidad de control, se refiere a cuán receptivo es el modelo a los cambios realizados por el usuario. Si los ajustes tienen poco efecto en la salida, los usuarios pueden no sentirse satisfechos. Para abordar esto, implementamos un esquema de aprendizaje contrastivo. Esta técnica mejora la capacidad del modelo para reconocer y responder a los cambios realizados por el usuario, resultando en ajustes más significativos en la salida.

Validación Experimental

Para confirmar la efectividad de nuestro método, realizamos numerosos experimentos, comparando nuestros resultados con métodos existentes. Evaluamos el rendimiento de nuestro modelo en dos conjuntos de datos distintos: MIT-Adobe FiveK y PPR10K.

Resumen de los Conjuntos de Datos

  • MIT-Adobe FiveK: Este conjunto de datos incluye 5,000 imágenes originales, cada una con cinco versiones retocadas por expertos. Sirve como referencia en el campo del retoque de imágenes.

  • PPR10K: Este conjunto de datos contiene más de 11,000 imágenes de retrato, cada una con tres variaciones retocadas por diferentes expertos.

Al utilizar estos conjuntos de datos, pudimos evaluar rigurosamente qué tan bien se desempeña nuestro método en comparación con los enfoques tradicionales.

Métricas de Evaluación

Usamos varias métricas para evaluar la calidad de nuestras imágenes retocadas:

  1. PSNR (Relación Señal-Ruido de Pico): Mide la calidad de la imagen retocada en comparación con la original.
  2. SSIM (Índice de Similitud Estructural): Evalúa el impacto visual de los cambios en la información estructural.
  3. LPIPS (Similitud de Parches de Imagen Perceptual Aprendida): Evalúa la similitud perceptual entre imágenes.
  4. FID (Distancia de Fréchet Inception): Mide cuán de cerca la distribución de nuestras imágenes generadas se asemeja a las imágenes retocadas por expertos.
  5. NIMA (Evaluación de Imágenes Neurales): Proporciona una puntuación estética basada en las preferencias humanas.

Estudio de Preferencias del Usuario

Para medir la recepción pública, realizamos un estudio con usuarios. Presentamos a los participantes imágenes originales y las versiones retocadas de nuestro método y otras técnicas de vanguardia. Se pidió a los participantes que eligieran sus resultados preferidos.

Nuestro método recibió la mejor calificación de preferencia, casi el doble que su competidor más cercano. Este hallazgo destaca su capacidad para satisfacer diversas necesidades de los usuarios mientras produce resultados visualmente atractivos.

La Importancia de los Atributos de Imagen

Los cuatro atributos de imagen (colorido, contraste, temperatura de color y brillo) son esenciales para ayudar a los usuarios a lograr el aspecto que desean. Al ofrecer estas configuraciones ajustables, nuestro método empodera a los usuarios para crear imágenes personalizadas.

  • Colorido: Afecta la vivacidad de los colores en la imagen.
  • Contraste: Impacta la diferencia entre áreas oscuras y brillantes.
  • Temperatura de Color: Influye en la calidez o frialdad de la imagen.
  • Brillo: Ajusta la claridad u oscuridad general de la imagen.

Al cambiar estos atributos, los usuarios pueden personalizar efectivamente las imágenes para que reflejen sus preferencias de estilo únicas.

Abordando Limitaciones

Si bien nuestro método ha mostrado un gran potencial, no está exento de limitaciones. En ciertas situaciones desafiantes, como condiciones de iluminación extremas o sujetos inusuales, la calidad aún puede estar por debajo del retoque a nivel experto.

Sin embargo, al ajustar las condiciones de entrada, los usuarios pueden mejorar los resultados. Esta flexibilidad permite a los usuarios explorar diferentes opciones hasta encontrar un resultado satisfactorio.

Conclusión

En resumen, DiffRetouch representa un avance significativo en la tecnología de retoque de imágenes. Al incorporar un modelo de difusión, hemos desarrollado un método fácil de usar que no solo permite una amplia gama de salidas personalizadas, sino que también aborda desafíos comunes como la distorsión de textura y la sensibilidad de control.

Nuestras extensas pruebas indican que este enfoque supera a los métodos tradicionales y se alinea bien con las preferencias de los usuarios. A medida que continuamos refinando esta tecnología, esperamos empoderar a más usuarios para que logren imágenes bellas y personalizadas fácilmente.

El futuro del retoque de imágenes es prometedor, con nuestro método allanando el camino para una experiencia más accesible y agradable en la mejora de la fotografía personal.

Fuente original

Título: DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts

Resumen: Image retouching aims to enhance the visual quality of photos. Considering the different aesthetic preferences of users, the target of retouching is subjective. However, current retouching methods mostly adopt deterministic models, which not only neglects the style diversity in the expert-retouched results and tends to learn an average style during training, but also lacks sample diversity during inference. In this paper, we propose a diffusion-based method, named DiffRetouch. Thanks to the excellent distribution modeling ability of diffusion, our method can capture the complex fine-retouched distribution covering various visual-pleasing styles in the training data. Moreover, four image attributes are made adjustable to provide a user-friendly editing mechanism. By adjusting these attributes in specified ranges, users are allowed to customize preferred styles within the learned fine-retouched distribution. Additionally, the affine bilateral grid and contrastive learning scheme are introduced to handle the problem of texture distortion and control insensitivity respectively. Extensive experiments have demonstrated the superior performance of our method on visually appealing and sample diversity. The code will be made available to the community.

Autores: Zheng-Peng Duan, Jiawei zhang, Zheng Lin, Xin Jin, Dongqing Zou, Chunle Guo, Chongyi Li

Última actualización: 2024-07-04 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.03757

Fuente PDF: https://arxiv.org/pdf/2407.03757

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares