Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Aprendizaje automático

Método innovador para descomponer el movimiento en video

Un nuevo enfoque simplifica el análisis de movimiento en videos para caras y coches.

― 7 minilectura


Método de Desglose deMétodo de Desglose deMovimiento en Videode video de manera efectiva.Nuevo método separa y edita movimientos
Tabla de contenidos

Este documento habla sobre un nuevo método para descomponer el movimiento en Videos en partes, lo que lo hace más fácil de entender y editar. Nos enfocamos en dos áreas clave: cómo descomponer el movimiento de caras y autos en videos. Vamos a explicar cómo funciona este método y presentar algunos resultados interesantes de nuestros experimentos.

Trabajo Relacionado

Edición de Imágenes con StyleGAN

Últimamente, varios modelos basados en StyleGAN han demostrado que pueden hacer ediciones de imágenes muy bien. Estos modelos almacenan información de una manera que permite a los usuarios editar varias características de las imágenes. En algunos métodos, se encuentra una dirección en esta información almacenada, y moverse a lo largo de esta dirección cambia los atributos de la imagen. Otros métodos cambian la información usando diferentes técnicas para obtener el efecto deseado. Algunos enfoques utilizan marcas o bocetos específicos para guiar este proceso de edición.

Modelos de Codificador GAN

Para hacer que la edición de imágenes del mundo real sea más efectiva, se introdujeron nuevos modelos llamados modelos de codificador StyleGAN. Estos modelos traducen una imagen a la información almacenada que usa StyleGAN. Hay diferentes métodos para hacerlo, con compromisos entre cuán bien se puede recrear la imagen y cuán bien se puede editar. Algunos enfoques recientes combinan las fortalezas de diferentes métodos para crear mejores resultados.

Generación de Videos

Se han desarrollado varias técnicas para generar videos usando GANs. Un método popular separa el video en diferentes partes como movimiento y contenido. Esto permite crear videos a partir de secuencias de información de manera controlada. Otros modelos utilizan patrones aprendidos para producir videos que son coherentes y consistentes. Algunos enfoques más nuevos incluso aplican modelos de transformadores para crear videos largos.

Edición de Videos

Hay muchas maneras de editar videos utilizando modelos StyleGAN preentrenados. Esto incluye cambiar cómo se ve alguien en un video (toonificación), intercambio de rostros, o aplicar varios atributos de una manera que mantenga el flujo del video. Sin embargo, en nuestro trabajo, tomamos un enfoque diferente al enfocarnos en cambiar el movimiento en sí en los videos.

Detalles del Experimento

Miramos dos tipos principales de movimiento: cómo se mueven las caras al hablar y cómo se mueven los autos. Para las caras, desglosamos los Movimientos en dos partes: Poses y expresiones. Para los autos, separamos el movimiento en rotación y traducción, lo que resultó ser más difícil debido a cómo se necesita ajustar el fondo cuando el auto se mueve.

StyleGAN2 y Modelos de Codificador

En nuestros experimentos con caras, usamos un modelo preentrenado específicamente diseñado para caras, entrenado en un conjunto diverso de imágenes. Para los autos, creamos un nuevo conjunto de datos llamado CarsInCity, donde colocamos autos generados por computadora sobre fondos simples para controlar mejor el entorno.

Creación de Conjuntos de Datos para Movimiento

Conjuntos de Datos de Movimiento Facial

Desglosamos el movimiento facial en expresiones y poses. Para las poses, generamos imágenes realistas de caras desde múltiples ángulos usando un modelo 3D especial. Para videos de expresiones, seleccionamos clips cortos de diferentes personas mostrando varias expresiones.

Conjunto de Datos CarsInCity

Para las imágenes de autos, configuramos una escena virtual en un entorno 3D. Elegimos modelos de autos en 3D y los colocamos en escenas simples de ciudad para asegurar que se vieran consistentes desde diferentes ángulos. Esto proporcionó un ambiente controlado para entrenar nuestro modelo efectivamente.

Videos para Movimiento de Autos

Usando nuestra configuración virtual, capturamos clips de video de los autos en movimiento. Creamos diferentes secuencias de movimiento para analizar cómo se podrían separar la traducción y la rotación.

Comparaciones de Línea Base

Comparamos nuestro método de descomposición de movimiento con dos técnicas populares: Análisis de Componentes Independientes (ICA) y un modelo anterior llamado LIA.

Análisis de Componentes Independientes (ICA)

Probamos ICA en videos con movimientos faciales mezclados. Este enfoque descompone las señales combinadas en partes separadas. Etiquetamos estas partes como pose o Expresión según sus efectos en las imágenes resultantes.

LIA

LIA está diseñado para intercambiar caras entre videos. Aprende patrones de movimiento y permite cierta flexibilidad. Nuestro análisis de los patrones aprendidos mostró la capacidad de categorizar elementos en poses y expresiones.

Evaluación de Desenredo

Para determinar qué tan bien separamos los movimientos, creamos una nueva métrica llamada Movimiento de Pose Agregado (APM). Esta métrica observa cuánto se mueve la cabeza en los videos. Un APM alto significa un movimiento de pose significativo, mientras que un APM bajo indica que principalmente hay cambios de expresión.

Descomposición de Múltiples Subespacios

Nuestro enfoque se puede extender para manejar aún más categorías de movimiento. Al usar algunos videos de verdad para entrenar, podríamos separar movimientos en categorías finas como movimiento de cabeceo y de boca.

Examinando la Ortogonalidad de Subespacios

Confirmamos que nuestro enfoque separaba efectivamente las categorías de movimiento al verificar cómo interactuaban los componentes entre sí. La mayoría de los componentes que analizamos mostraron que no se superponían, lo que indica una separación exitosa entre poses y expresiones.

Análisis de Componentes Principales

Realizamos pruebas para ver cuántos componentes eran necesarios para capturar con precisión las poses y expresiones. Se encontró que un número específico de componentes producía los mejores resultados sin crear inconsistencias en el movimiento.

Resultados de Descomposición de Movimiento

Nuestros resultados mostraron que podíamos dividir efectivamente el movimiento facial en expresiones y poses, manteniendo la identidad del sujeto. Demostramos que al cambiar la fuerza de los parámetros de movimiento, podíamos controlar el grado de cambio en los videos resultantes.

Reenactment de Movimiento

Transferimos con éxito el movimiento de videos de conducción a imágenes fijas, mostrando un alto realismo y manteniendo la identidad. Esta capacidad se extiende también a editar movimientos en autos.

Comparación con Otros Métodos

Nuestro método fue probado contra otros modelos para reenactment facial. Logramos resultados competitivos usando muchos menos datos de entrenamiento y en un plazo más corto. Esto demuestra la eficiencia y efectividad de nuestro enfoque.

Pasos de Implementación

Para preparar los videos de entrada, alineamos las caras antes de procesar. Usamos un método de tres pasos para asegurar que los videos generados fueran suaves y coherentes mientras manteníamos identidades precisas.

Resultados Adicionales y Visuales

Presentamos varios resultados cualitativos para mostrar la efectividad de nuestro método. Esto incluyó videos que demostraron claramente las descomposiciones de movimiento que logramos, destacando tanto los movimientos faciales como los de autos.

Construyendo el Entorno 3D

Creamos una escena simple con caminos y edificios para simular movimientos de autos. Este control sobre el entorno permitió una generación de imágenes de alta calidad y una mejor codificación del movimiento.

Conclusión

Hemos introducido un nuevo método para descomponer los movimientos en videos en partes más claras. Al enfocarnos en caras y autos, hemos demostrado que es posible separar y editar estilos de movimiento de manera efectiva. Nuestro enfoque abre nuevas posibilidades para la edición de videos, facilitando la manipulación y mejora del contenido de video.

Fuente original

Título: We never go out of Style: Motion Disentanglement by Subspace Decomposition of Latent Space

Resumen: Real-world objects perform complex motions that involve multiple independent motion components. For example, while talking, a person continuously changes their expressions, head, and body pose. In this work, we propose a novel method to decompose motion in videos by using a pretrained image GAN model. We discover disentangled motion subspaces in the latent space of widely used style-based GAN models that are semantically meaningful and control a single explainable motion component. The proposed method uses only a few $(\approx10)$ ground truth video sequences to obtain such subspaces. We extensively evaluate the disentanglement properties of motion subspaces on face and car datasets, quantitatively and qualitatively. Further, we present results for multiple downstream tasks such as motion editing, and selective motion transfer, e.g. transferring only facial expressions without training for it.

Autores: Rishubh Parihar, Raghav Magazine, Piyush Tiwari, R. Venkatesh Babu

Última actualización: 2023-06-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.00559

Fuente PDF: https://arxiv.org/pdf/2306.00559

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares