Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la recuperación de formas 3D a partir de videos

Un nuevo método mejora la precisión y eficiencia en la captura de formas 3D de varias personas.

― 5 minilectura


Avance en la RecuperaciónAvance en la Recuperaciónde Formas 3Dseguimiento 3D de múltiples personas.Nuevo método mejora la eficiencia del
Tabla de contenidos

Recuperar formas 3D de varias personas a partir de videos es clave para entender interacciones en diferentes contextos, como la realidad virtual y la terapia física. Los métodos tradicionales dependen de varios pasos, que incluyen detectar y rastrear a cada persona una por una. Este enfoque de múltiples pasos tiene sus limitaciones, ya que no considera cómo interactúan las personas entre sí con el tiempo, lo que lleva a problemas de precisión.

El Nuevo Enfoque: CoordFormer

Para superar estos desafíos, se ha introducido un nuevo enfoque llamado CoordFormer. Este método puede manejar la recuperación de múltiples formas 3D en una sola etapa, a diferencia de los métodos antiguos que requieren múltiples etapas. CoordFormer aprende directamente cómo las personas están relacionadas entre sí tanto en el espacio como en el tiempo, lo que lo hace más rápido y eficiente.

Cómo Funciona CoordFormer

CoordFormer utiliza un tipo especial de mecanismo de atención llamado Atención Consciente de Coordenadas (CAA). Este mecanismo ayuda a mantener detalles precisos a nivel de píxel mientras rastrea las posiciones de las personas en el video. También cuenta con una técnica conocida como Atención en el Centro del Cuerpo (BCA), que se enfoca en las posiciones probables del centro del cuerpo de cada persona. La combinación de estas técnicas permite que CoordFormer produzca mejores resultados que los métodos anteriores.

Mejoras en el Rendimiento

Pruebas en un conjunto de datos conocido como 3DPW mostraron que CoordFormer superó a los mejores métodos anteriores. Fue capaz de reducir errores en las medidas en porcentajes notables y también fue más rápido en un 40%. Esto significa que CoordFormer puede recuperar formas 3D de manera más precisa y rápida en comparación con los métodos antiguos.

Cómo Funcionan Otros Métodos

La mayoría de los métodos existentes para la recuperación de formas 3D basados en video operan en dos etapas principales. Primero, utilizan un sistema de detección de personas bidimensional (2D) para encontrar individuos en videos. Luego, rastrean a estas personas a través de diferentes fotogramas. Este método de dos etapas a menudo tiene dificultades cuando los individuos se superponen o hay imprecisiones en la detección de personas. El rendimiento depende en gran medida de las etapas de detección y seguimiento, lo que lleva a tiempos de procesamiento más lentos y posibles inexactitudes.

Beneficios del Método de Una Sola Etapa

Con el diseño de una sola etapa de CoordFormer, el sistema aprende a detectar y rastrear personas al mismo tiempo. Este enfoque crea múltiples secuencias de formas 3D a la vez, haciendo que todo el proceso sea más eficiente. El nuevo modelo también captura cómo se mueven las personas juntas, lo que ayuda a ofrecer formas 3D más realistas.

Características Clave de CoordFormer

CoordFormer integra dos innovaciones principales para mejorar su rendimiento. El mecanismo de Atención en el Centro del Cuerpo permite que el modelo se concentre en dónde están las personas en el video. Este enfoque permite una mejor extracción de las características relevantes necesarias para crear formas 3D precisas. La Atención Consciente de Coordenadas rastrea detalles a nivel de píxel, asegurando que las formas representen con precisión los movimientos de una persona mientras interactúa con los demás.

Resultados Experimentales

El rendimiento de CoordFormer se validó a través de pruebas extensivas en el conjunto de datos 3DPW, conocido por su complejidad. Los resultados mostraron que superó significativamente a los métodos anteriores en términos de precisión. Estos hallazgos enfatizaron la importancia de entender las posiciones y movimientos de varias personas en videos, lo cual es vital para aplicaciones como interacciones virtuales o terapias de rehabilitación.

Aplicaciones en el Mundo Real

Las mejoras que ofrece CoordFormer pueden beneficiar a varios campos, especialmente aquellos que requieren analizar comportamientos grupales. Por ejemplo, en entornos de realidad virtual, el seguimiento preciso de múltiples usuarios mejora la experiencia general. De manera similar, en terapia física, entender cómo se mueven los pacientes puede llevar a mejores planes de tratamiento.

Limitaciones Actuales y Direcciones Futuras

Aunque CoordFormer muestra un gran potencial, todavía tiene limitaciones. Actualmente, le cuesta recuperar formas de personas que están completamente ocultas. Las investigaciones futuras podrían centrarse en formas de mejorar el proceso de recuperación para individuos ocluidos utilizando la información temporal capturada en los datos del video.

Conclusión

La introducción de CoordFormer marca un avance significativo en la recuperación de formas 3D de múltiples personas a partir de videos. Al combinar detección, seguimiento y modelado de formas en una sola etapa, ofrece una solución más eficiente y precisa en comparación con los métodos tradicionales de múltiples etapas. A medida que la tecnología avanza, CoordFormer podría abrir nuevas avenidas para la investigación y aplicaciones en la comprensión del comportamiento grupal en diversos contextos.

Fuente original

Título: Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos

Resumen: Multi-person 3D mesh recovery from videos is a critical first step towards automatic perception of group behavior in virtual reality, physical therapy and beyond. However, existing approaches rely on multi-stage paradigms, where the person detection and tracking stages are performed in a multi-person setting, while temporal dynamics are only modeled for one person at a time. Consequently, their performance is severely limited by the lack of inter-person interactions in the spatial-temporal mesh recovery, as well as by detection and tracking defects. To address these challenges, we propose the Coordinate transFormer (CoordFormer) that directly models multi-person spatial-temporal relations and simultaneously performs multi-mesh recovery in an end-to-end manner. Instead of partitioning the feature map into coarse-scale patch-wise tokens, CoordFormer leverages a novel Coordinate-Aware Attention to preserve pixel-level spatial-temporal coordinate information. Additionally, we propose a simple, yet effective Body Center Attention mechanism to fuse position information. Extensive experiments on the 3DPW dataset demonstrate that CoordFormer significantly improves the state-of-the-art, outperforming the previously best results by 4.2%, 8.8% and 4.7% according to the MPJPE, PAMPJPE, and PVE metrics, respectively, while being 40% faster than recent video-based approaches. The released code can be found at https://github.com/Li-Hao-yuan/CoordFormer.

Autores: Haoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C. Kampffmeyer, Liang Lin, Xiaodan Liang

Última actualización: 2023-08-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.10334

Fuente PDF: https://arxiv.org/pdf/2308.10334

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares