Arreglando distorsiones en selfies con tecnología inteligente
Nuevas técnicas están mejorando el aspecto de las selfies al corregir distorsiones.
Ahmed Alhawwary, Phong Nguyen-Ha, Janne Mustaniemi, Janne Heikkilä
― 7 minilectura
Tabla de contenidos
- Los Problemas con los Selfies Acercados
- ¿Qué es la Distorsión de Perspectiva?
- La Solución a la Distorsión de Perspectiva
- Los Beneficios de Usar el Pipeline
- Entrenando el Modelo con Gráficos por Computadora
- Resultados del Pipeline
- Comparación con Otros Métodos
- Limitaciones y Consideraciones
- Futuras Mejoras
- Conclusión
- Fuente original
Los selfies están por todas partes. Ya sea que estés posando con amigos, capturando un atardecer o simplemente mostrando tu nuevo corte de cabello, la cámara de tu celular se ha vuelto una herramienta común. Sin embargo, tomar selfies de cerca a menudo lleva a un problema llamado Distorsión de Perspectiva. Esto significa que tu nariz podría verse más grande de lo que es en realidad, y tu cara podría parecer aplastada. ¡Por suerte, hay una forma de solucionar este problema!
Los Problemas con los Selfies Acercados
Cuando te tomas un selfie, especialmente con las lentes gran angulares populares en muchos smartphones, podrías notar que tu cara no se ve del todo bien. La distancia cercana entre tu cara y la cámara provoca algunos trucos graciosos con la forma en que aparecen tus rasgos. Cuanto más cerca esté tu cara del lente, más exagerados pueden ser esos efectos. Por ejemplo, podría parecer que tu nariz está saliendo mientras tus orejas desaparecen en tu cabeza. ¡No es la mejor apariencia!
El problema surge por cómo funcionan las Cámaras. No importa qué tan fancy sea tu smartphone, cuando tomas una foto de algo de cerca, la perspectiva puede jugar trucos a la vista. Esta distorsión puede hacer que tus selfies se vean graciosos y no es genial para cosas como el reconocimiento facial o la reconstrucción, donde la precisión realmente importa.
¿Qué es la Distorsión de Perspectiva?
Ahora, desglosamos qué es realmente la distorsión de perspectiva. Cuando usas una cámara, especialmente lentes gran angulares, capturan más de la escena. Esto es genial para encajar muchas cosas en el marco, pero puede llevar a algunos efectos secundarios no deseados. A medida que tu cara se acerca al lente, se estira, aplana y deforma de maneras que pueden ser bastante poco favorecedoras.
Es importante notar que esto no es lo mismo que otros tipos de distorsión ocasionados por el propio lente. Mientras que la distorsión del lente puede doblar formas y líneas, la distorsión de perspectiva ocurre por la posición del sujeto en relación con la cámara.
La Solución a la Distorsión de Perspectiva
Afortunadamente, algunas personas ingeniosas han desarrollado una forma de mejorar los selfies y hacer que se vean más normales. Crearon un pipeline, que es un término fancy para un proceso que ayuda a corregir estas distorsiones. Esta técnica usa Aprendizaje Profundo, que es como enseñarle a una computadora a ser lista mostrándole muchos ejemplos.
¿Cómo Funciona?
Primero, el sistema aprende a estimar qué tan lejos está tu cara de la cámara. Esto se hace con una red de inteligencia artificial que analiza tu selfie para adivinar la profundidad, o qué tan lejos están las diferentes partes de tu cara. Una vez que sabe la profundidad, puede ajustar virtualmente la posición de la cámara, como si se hubiera movido un poco hacia atrás.
Luego, el sistema reproyecta la imagen. Piensa en esto como tomar un modelo 3D de tu cara y luego cambiar el ángulo desde el que lo estás mirando. Esta nueva vista ayuda a suavizar las distorsiones causadas por estar demasiado cerca.
Usando un truco inteligente con un motor de gráficos generados por computadora, el pipeline crea un Conjunto de datos sintético de diferentes caras para tener muchos ejemplos de donde aprender. ¡Es como tener un campamento de entrenamiento para el cerebro de la computadora!
Los Beneficios de Usar el Pipeline
La parte ingeniosa de este pipeline es que funciona muy bien sin necesidad de recortar la imagen primero. Algunos otros métodos requieren que cortes tu cara, lo que puede llevar a pasos complicados para volver a juntar todo. Con este nuevo pipeline, puedes trabajar con la imagen completa del selfie de una vez, haciéndolo más fácil para obtener un mejor resultado.
Además, los investigadores han agregado una función que ayuda a predecir dónde debería moverse la cámara. Esta asistencia extra ayuda a reducir la posibilidad de que falten partes de tu cara en la imagen final, especialmente partes complicadas como las orejas que pueden quedar fácilmente fuera.
Entrenando el Modelo con Gráficos por Computadora
Para entrenar este sistema inteligente, los desarrolladores utilizaron una herramienta llamada Unreal Engine, que es popular para videojuegos. Crearon una colección de caras sintéticas, variando desde expresiones hasta poses de cabeza, e incluso diferentes tipos de cabello y gafas.
Este gran conjunto de datos ayuda a entrenar al sistema para reconocer cómo arreglar imágenes cuando vienen de personas reales. Aunque los datos de entrenamiento son sintéticos y generados por computadora, funciona sorprendentemente bien en fotos reales tomadas con un smartphone.
Resultados del Pipeline
Cuando los investigadores probaron su pipeline contra métodos más antiguos, mostró resultados sobresalientes. De hecho, se encontró que su enfoque era más de 260 veces más rápido que algunas técnicas más viejas y lentas. ¡No está mal para un poco de magia de computadora!
En términos de calidad, el pipeline produce imágenes que no solo se ven bien, sino que también corrigen las distorsiones con las que los métodos anteriores luchaban. Esto significa que tus selfies finalmente tienen la oportunidad de verse tan fabulosos como tú en persona.
Comparación con Otros Métodos
Los resultados de este nuevo pipeline se compararon con métodos más antiguos, incluyendo uno que dependía mucho de puntos faciales específicos, que son puntos en tu cara que ayudan a definir su forma. Mientras que esos métodos más viejos pueden volverse complicados y a veces fallar, el nuevo sistema funciona en toda la cara sin necesidad de identificar cada pequeño punto.
El nuevo método tampoco sufre los mismos tiempos de procesamiento lentos que algunos de los métodos de corrección de imagen pesados que tardan mucho en ejecutarse. Une velocidad y calidad de una manera que le da esperanza a todos los amantes de los selfies.
Limitaciones y Consideraciones
Aunque esta tecnología suena fantástica, todavía tiene sus limitaciones. Por ejemplo, si estás tomando un selfie y tus orejas están ocultas detrás de tu cabello, el sistema puede tener dificultades para llenar los huecos correctamente. A veces puede crear resultados extraños que pueden no coincidir con lo que esperas.
Como con cualquier inteligencia artificial, es un trabajo en progreso. Con el tiempo, a medida que se recopilen más datos y el sistema se vuelva más inteligente, podemos esperar ver resultados aún mejores.
Futuras Mejoras
En el mundo de la tecnología, siempre hay espacio para mejorar. Los desarrollos futuros podrían incluir hacer que este pipeline sea aún más adaptable a diferentes estilos de selfies y manejar características faciales varias más precisamente. ¿Quién sabe? ¡En el futuro, tal vez incluso sepa cómo hacer que tu cabello se vea genial también!
Conclusión
Así que ahí lo tienes. Gracias a los avances en aprendizaje profundo y gráficos por computadora, arreglar esas molestas distorsiones de selfies se está volviendo más fácil y rápido. Con un poco de entrenamiento, la tecnología moderna puede ayudar a asegurarse de que tus selfies se vean tan bien como tú en la vida real. ¡Ten tu teléfono listo; esos selfies perfectos están a solo un clic de distancia!
Fuente original
Título: An End-to-End Depth-Based Pipeline for Selfie Image Rectification
Resumen: Portraits or selfie images taken from a close distance typically suffer from perspective distortion. In this paper, we propose an end-to-end deep learning-based rectification pipeline to mitigate the effects of perspective distortion. We learn to predict the facial depth by training a deep CNN. The estimated depth is utilized to adjust the camera-to-subject distance by moving the camera farther, increasing the camera focal length, and reprojecting the 3D image features to the new perspective. The reprojected features are then fed to an inpainting module to fill in the missing pixels. We leverage a differentiable renderer to enable end-to-end training of our depth estimation and feature extraction nets to improve the rectified outputs. To boost the results of the inpainting module, we incorporate an auxiliary module to predict the horizontal movement of the camera which decreases the area that requires hallucination of challenging face parts such as ears. Unlike previous works, we process the full-frame input image at once without cropping the subject's face and processing it separately from the rest of the body, eliminating the need for complex post-processing steps to attach the face back to the subject's body. To train our network, we utilize the popular game engine Unreal Engine to generate a large synthetic face dataset containing various subjects, head poses, expressions, eyewear, clothes, and lighting. Quantitative and qualitative results show that our rectification pipeline outperforms previous methods, and produces comparable results with a time-consuming 3D GAN-based method while being more than 260 times faster.
Autores: Ahmed Alhawwary, Phong Nguyen-Ha, Janne Mustaniemi, Janne Heikkilä
Última actualización: 2024-12-26 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.19189
Fuente PDF: https://arxiv.org/pdf/2412.19189
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.