Un Nuevo Enfoque para el Retoque de Imágenes
Te presentamos DiffRetouch, un método fácil de usar para editar imágenes de manera personalizada.
― 7 minilectura
Tabla de contenidos
- Subjetividad en el Retoque
- ¿Qué es un Modelo de Difusión?
- Cómo Funciona Nuestro Método
- Edición Amigable para el Usuario
- Abordando Desafíos
- Validación Experimental
- Resumen de los Conjuntos de Datos
- Métricas de Evaluación
- Estudio de Preferencias del Usuario
- La Importancia de los Atributos de Imagen
- Abordando Limitaciones
- Conclusión
- Fuente original
- Enlaces de referencia
Retocar imágenes es el proceso de mejorar la calidad visual de las fotos. Mucha gente toma fotos a diario, especialmente con sus smartphones. A veces, estas fotos no se ven bien por varias razones, como mala iluminación o problemas de enfoque. Por eso, a menudo es necesario hacer un post-procesado. El software profesional de procesamiento de imágenes ofrece muchas herramientas para que los usuarios mejoren sus imágenes. Sin embargo, usar estas herramientas normalmente requiere habilidades especiales. Para ayudar a los usuarios comunes, se han desarrollado varios métodos basados en aprendizaje profundo para automatizar este proceso de retoque.
Subjetividad en el Retoque
El retoque es un proceso personal. Diferentes personas tienen diferentes gustos. Lo que se ve bien para una persona puede no gustarle a otra. Los métodos actuales a menudo pasan por alto esta subjetividad y dependen de modelos fijos. Estos modelos se centran en producir un estilo estándar, que puede no satisfacer a todos.
A pesar de estar entrenados en estilos de retoque específicos de expertos, estos métodos no logran capturar la verdadera variedad de estilos que los expertos podrían usar. Aprenden un estilo promedio en su lugar. Además, durante el proceso de retoque de imágenes, estos modelos solo pueden proporcionar un único estilo, lo que limita su utilidad. A menudo, los usuarios necesitan elegir entre varios modelos para obtener una gama de estilos.
Algunos métodos pueden permitir que los usuarios seleccionen estilos adicionales, pero esto a menudo requiere imágenes extra. Este requisito puede ser frustrante para los usuarios.
Un mejor enfoque implicaría un método que capture los muchos estilos que se ven en el retoque experto. Esto nos lleva a una nueva técnica que utiliza modelos de difusión.
¿Qué es un Modelo de Difusión?
Un modelo de difusión es un tipo de modelo de aprendizaje automático que se destaca en capturar distribuciones complejas de datos. En términos simples, puede aprender de un gran conjunto de ejemplos y producir nuevas imágenes que reflejan la diversidad de los datos de entrenamiento.
Este método permite una gama más amplia de imágenes retocadas, teniendo en cuenta los diferentes estilos y preferencias de los usuarios. En lugar de ceñirse a un solo estilo, un modelo de difusión puede generar múltiples estilos basados en las preferencias del usuario.
Cómo Funciona Nuestro Método
Proponemos un nuevo método llamado DiffRetouch, que utiliza un modelo de difusión para retocar imágenes. Este método tiene en cuenta las imágenes de entrada y proporciona a los usuarios configuraciones ajustables para cuatro atributos clave de la imagen: Colorido, Contraste, temperatura de color y Brillo.
Edición Amigable para el Usuario
El objetivo principal de nuestro método es proporcionar una manera fácil e intuitiva para que los usuarios personalicen sus imágenes. Los usuarios pueden ajustar los cuatro atributos de la imagen utilizando coeficientes, lo que les permite adaptar el resultado final a su gusto.
Por ejemplo, al cambiar estos coeficientes, el usuario puede hacer que una imagen sea más colorida o más brillante. Esta flexibilidad significa que los usuarios pueden crear una amplia variedad de estilos, asegurando que se cumplan sus preferencias personales.
Abordando Desafíos
Dos desafíos importantes en el retoque de imágenes son la distorsión de textura y la sensibilidad de control débil. La distorsión de textura ocurre cuando se pierden los detalles de una imagen durante el proceso de retoque. Nuestro método incorpora una cuadrícula bilateral afín para reducir esta distorsión. Esta cuadrícula ayuda a mantener la textura y los detalles originales durante el proceso.
El segundo desafío, la sensibilidad de control, se refiere a cuán receptivo es el modelo a los cambios realizados por el usuario. Si los ajustes tienen poco efecto en la salida, los usuarios pueden no sentirse satisfechos. Para abordar esto, implementamos un esquema de aprendizaje contrastivo. Esta técnica mejora la capacidad del modelo para reconocer y responder a los cambios realizados por el usuario, resultando en ajustes más significativos en la salida.
Validación Experimental
Para confirmar la efectividad de nuestro método, realizamos numerosos experimentos, comparando nuestros resultados con métodos existentes. Evaluamos el rendimiento de nuestro modelo en dos conjuntos de datos distintos: MIT-Adobe FiveK y PPR10K.
Resumen de los Conjuntos de Datos
MIT-Adobe FiveK: Este conjunto de datos incluye 5,000 imágenes originales, cada una con cinco versiones retocadas por expertos. Sirve como referencia en el campo del retoque de imágenes.
PPR10K: Este conjunto de datos contiene más de 11,000 imágenes de retrato, cada una con tres variaciones retocadas por diferentes expertos.
Al utilizar estos conjuntos de datos, pudimos evaluar rigurosamente qué tan bien se desempeña nuestro método en comparación con los enfoques tradicionales.
Métricas de Evaluación
Usamos varias métricas para evaluar la calidad de nuestras imágenes retocadas:
- PSNR (Relación Señal-Ruido de Pico): Mide la calidad de la imagen retocada en comparación con la original.
- SSIM (Índice de Similitud Estructural): Evalúa el impacto visual de los cambios en la información estructural.
- LPIPS (Similitud de Parches de Imagen Perceptual Aprendida): Evalúa la similitud perceptual entre imágenes.
- FID (Distancia de Fréchet Inception): Mide cuán de cerca la distribución de nuestras imágenes generadas se asemeja a las imágenes retocadas por expertos.
- NIMA (Evaluación de Imágenes Neurales): Proporciona una puntuación estética basada en las preferencias humanas.
Estudio de Preferencias del Usuario
Para medir la recepción pública, realizamos un estudio con usuarios. Presentamos a los participantes imágenes originales y las versiones retocadas de nuestro método y otras técnicas de vanguardia. Se pidió a los participantes que eligieran sus resultados preferidos.
Nuestro método recibió la mejor calificación de preferencia, casi el doble que su competidor más cercano. Este hallazgo destaca su capacidad para satisfacer diversas necesidades de los usuarios mientras produce resultados visualmente atractivos.
La Importancia de los Atributos de Imagen
Los cuatro atributos de imagen (colorido, contraste, temperatura de color y brillo) son esenciales para ayudar a los usuarios a lograr el aspecto que desean. Al ofrecer estas configuraciones ajustables, nuestro método empodera a los usuarios para crear imágenes personalizadas.
- Colorido: Afecta la vivacidad de los colores en la imagen.
- Contraste: Impacta la diferencia entre áreas oscuras y brillantes.
- Temperatura de Color: Influye en la calidez o frialdad de la imagen.
- Brillo: Ajusta la claridad u oscuridad general de la imagen.
Al cambiar estos atributos, los usuarios pueden personalizar efectivamente las imágenes para que reflejen sus preferencias de estilo únicas.
Abordando Limitaciones
Si bien nuestro método ha mostrado un gran potencial, no está exento de limitaciones. En ciertas situaciones desafiantes, como condiciones de iluminación extremas o sujetos inusuales, la calidad aún puede estar por debajo del retoque a nivel experto.
Sin embargo, al ajustar las condiciones de entrada, los usuarios pueden mejorar los resultados. Esta flexibilidad permite a los usuarios explorar diferentes opciones hasta encontrar un resultado satisfactorio.
Conclusión
En resumen, DiffRetouch representa un avance significativo en la tecnología de retoque de imágenes. Al incorporar un modelo de difusión, hemos desarrollado un método fácil de usar que no solo permite una amplia gama de salidas personalizadas, sino que también aborda desafíos comunes como la distorsión de textura y la sensibilidad de control.
Nuestras extensas pruebas indican que este enfoque supera a los métodos tradicionales y se alinea bien con las preferencias de los usuarios. A medida que continuamos refinando esta tecnología, esperamos empoderar a más usuarios para que logren imágenes bellas y personalizadas fácilmente.
El futuro del retoque de imágenes es prometedor, con nuestro método allanando el camino para una experiencia más accesible y agradable en la mejora de la fotografía personal.
Título: DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts
Resumen: Image retouching aims to enhance the visual quality of photos. Considering the different aesthetic preferences of users, the target of retouching is subjective. However, current retouching methods mostly adopt deterministic models, which not only neglects the style diversity in the expert-retouched results and tends to learn an average style during training, but also lacks sample diversity during inference. In this paper, we propose a diffusion-based method, named DiffRetouch. Thanks to the excellent distribution modeling ability of diffusion, our method can capture the complex fine-retouched distribution covering various visual-pleasing styles in the training data. Moreover, four image attributes are made adjustable to provide a user-friendly editing mechanism. By adjusting these attributes in specified ranges, users are allowed to customize preferred styles within the learned fine-retouched distribution. Additionally, the affine bilateral grid and contrastive learning scheme are introduced to handle the problem of texture distortion and control insensitivity respectively. Extensive experiments have demonstrated the superior performance of our method on visually appealing and sample diversity. The code will be made available to the community.
Autores: Zheng-Peng Duan, Jiawei zhang, Zheng Lin, Xin Jin, Dongqing Zou, Chunle Guo, Chongyi Li
Última actualización: 2024-07-04 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.03757
Fuente PDF: https://arxiv.org/pdf/2407.03757
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.