Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Seguimiento del movimiento de personas y cámaras en videos

Un método para rastrear personas y cámaras en escenas de video dinámicas.

― 7 minilectura


Seguimiento Preciso enSeguimiento Preciso enEscenas de Videopersonas y cámaras.Nuevo método mejora el seguimiento de
Tabla de contenidos

En el mundo de hoy, la tecnología de video está por todas partes. Grabamos videos de varios eventos, como deportes, reuniones familiares y actividades sociales. A menudo, estos videos se toman en entornos dinámicos donde las personas y las cámaras están en constante movimiento. Entender cómo se mueve la gente en estas escenas puede ser muy útil para aplicaciones como rastrear interacciones en lugares concurridos o planear acciones en entornos con humanos en movimiento. El desafío radica en averiguar cómo rastrear con precisión el movimiento de las personas y la cámara a partir de estos videos.

Resumen del Problema

Cuando miramos material de video, vemos tanto a las personas moviéndose como a la cámara que captura esos movimientos. Sin embargo, separar estos dos tipos de movimiento es complicado. Por ejemplo, si una cámara sigue a un jugador corriendo en un campo, podría parecer que el jugador siempre está en el centro del marco del video. Esta proyección dificulta determinar cuánto se ha movido realmente el jugador en relación con su entorno.

Muchos métodos que analizan este tipo de video a menudo se centran solo en el movimiento de las personas, descuidando el movimiento de la cámara. Esto resulta en un rastreo inexacto porque el comportamiento de la cámara influye en cómo percibimos el movimiento de los individuos. Por lo tanto, para entender y rastrear con precisión a las personas en videos, es esencial considerar también cómo se mueve la cámara.

Método Propuesto

Proponemos un método que puede averiguar el movimiento de las personas y las cámaras a partir de videos donde el entorno y la configuración no están controlados. Nuestro enfoque funciona equilibrando la información obtenida del movimiento de las personas y la cámara. Nos basamos mucho en dos ideas principales:

  1. Movimiento de la Cámara: Incluso si la escena no está perfectamente reconstruida, aún podemos estimar cómo se mueve la cámara basándonos en los píxeles del fondo estático. Esto nos da suficiente información para entender hacia dónde apunta la cámara, incluso si no conocemos los detalles exactos de la escena.

  2. Priorización del Movimiento Humano: Establecemos un conjunto de movimientos realistas basados en cómo se mueven típicamente las personas. Al entender estos patrones, podemos refinar nuestras estimaciones sobre dónde están las personas y cómo se están moviendo en estos videos.

Combinando estas ideas, podemos rastrear efectivamente a múltiples personas en un video y colocarlas en un sistema de coordenadas compartido, lo que significa que podemos ver sus relaciones entre sí en espacio y tiempo.

Enfoque Técnico

Estimación del Movimiento de la Cámara

Para comenzar, tomamos un video y observamos los cambios en los píxeles del fondo entre los fotogramas. Usamos una técnica llamada SLAM (Localización y Mapeo Simultáneos) para estimar cómo se mueve la cámara. Este método no requiere detalles completos sobre el entorno, lo que lo hace adecuado para videos tomados en configuraciones no controladas.

Rastrear Personas

A continuación, nos centramos en las personas en el video. Usando técnicas avanzadas de rastreo, determinamos las identidades y movimientos de las personas a medida que aparecen en cada fotograma. Rastrear sus posiciones y posturas implica saber cómo están orientados sus cuerpos y dónde se encuentran sus articulaciones clave.

Optimización Conjunta

Después de estimar el movimiento de la cámara y rastrear a las personas, configuramos un proceso de optimización que trabaja en conjunto para afinar los movimientos tanto de las personas como de la cámara. Ajustamos sus movimientos de tal manera que coincidan con lo que vemos en el video y con nuestros patrones aprendidos de cómo se mueve típicamente la gente.

Manejo de Múltiples Personas

Uno de los desafíos significativos es lidiar con múltiples personas en una escena, especialmente cuando pueden aparecer o desaparecer en diferentes momentos. Nuestro método maneja esto de manera eficiente al tratar a cada persona por separado durante las etapas de rastreo inicial, pero luego combinamos sus movimientos para la optimización final.

Resultados

Probamos nuestro método en varios conjuntos de datos para ver qué tan bien funciona en la práctica. En configuraciones desafiantes, como eventos deportivos y calles concurridas, nuestro enfoque rastreó efectivamente los movimientos de las personas y la posición de la cámara. A través de nuestros experimentos, demostramos que nuestro método puede proporcionar una imagen más clara de las trayectorias humanas en videos.

Comparación con Métodos Existentes

En comparación con métodos anteriores, mostramos que nuestro enfoque considera mejor las complejidades del movimiento de la cámara. Muchos métodos existentes se centraban solo en las personas o dependían en gran medida de ciertas configuraciones controladas. Al integrar las estimaciones de la cámara con el movimiento humano, mejoramos significativamente la calidad del rastreo, resultando en representaciones más precisas de cómo se mueven las personas en el mundo real.

Desafíos y Limitaciones

Si bien nuestro método muestra resultados prometedores, también reconocemos algunos desafíos. En algunos casos, puede ser difícil separar los movimientos de la cámara y de las personas, especialmente cuando se mueven en la misma dirección o están muy cerca. Otros problemas surgen de la falta de información cuando las personas están parcialmente ocultas o cuando la geometría de la escena es difícil de reconstruir.

Además, nuestro proceso depende de entradas precisas de otros métodos, como la detección de personas y la estimación del movimiento de la cámara. Los errores en estas entradas pueden propagarse a través de nuestro sistema, llevando a imprecisiones.

Trabajo Futuro

Aún hay mucho por explorar en este campo. Una dirección emocionante para futuras investigaciones es mejorar cómo se modela el movimiento de la cámara mientras se considera el movimiento humano. Un enfoque combinado podría llevar a un mejor rendimiento de rastreo y a una mejor comprensión de escenas complejas.

Además, desarrollar técnicas que puedan funcionar mejor con el movimiento de la cámara no controlado o escenas muy ocluidas mejorará la robustez de nuestro método. Incorporar pistas adicionales, como usar información de profundidad de la escena, también podría mejorar la precisión en la estimación del movimiento humano.

Conclusión

En resumen, hemos introducido un método para rastrear con precisión el movimiento de las personas y las cámaras en videos tomados en entornos no controlados. Al combinar información sobre el movimiento de la cámara con patrones aprendidos del movimiento humano, podemos crear una comprensión más clara de cómo se mueve la gente en el mundo real.

Nuestros resultados muestran que este enfoque es efectivo en varias situaciones desafiantes, allanando el camino para más investigaciones y aplicaciones en campos como la planificación autónoma, la monitorización de seguridad y la comprensión de interacciones humanas en diversos entornos.

Fuente original

Título: Decoupling Human and Camera Motion from Videos in the Wild

Resumen: We propose a method to reconstruct global human trajectories from videos in the wild. Our optimization method decouples the camera and human motion, which allows us to place people in the same world coordinate frame. Most existing methods do not model the camera motion; methods that rely on the background pixels to infer 3D human motion usually require a full scene reconstruction, which is often not possible for in-the-wild videos. However, even when existing SLAM systems cannot recover accurate scene reconstructions, the background pixel motion still provides enough signal to constrain the camera motion. We show that relative camera estimates along with data-driven human motion priors can resolve the scene scale ambiguity and recover global human trajectories. Our method robustly recovers the global 3D trajectories of people in challenging in-the-wild videos, such as PoseTrack. We quantify our improvement over existing methods on 3D human dataset Egobody. We further demonstrate that our recovered camera scale allows us to reason about motion of multiple people in a shared coordinate frame, which improves performance of downstream tracking in PoseTrack. Code and video results can be found at https://vye16.github.io/slahmr.

Autores: Vickie Ye, Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa

Última actualización: 2023-03-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2302.12827

Fuente PDF: https://arxiv.org/pdf/2302.12827

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares