Recuperación de Malla Humana Unificada: Un Nuevo Enfoque
Nuevo marco mejora la recuperación de malla humana a partir de múltiples imágenes.
― 9 minilectura
Tabla de contenidos
- Declaración del Problema
- Marco Propuesto
- Componentes de U-HMR
- Beneficios del Marco
- Trabajo Relacionado
- Técnicas de Recuperación de Mallas Humanas
- Recuperación de Malla en Imagen Única
- Recuperación de Imágenes Multi-vista
- Resumen de U-HMR
- Procesamiento de Datos
- Representación del Cuerpo Humano
- Funciones de Pérdida
- Configuración Experimental
- Conjunto de Datos Human3.6M
- Conjunto de Datos MPI-INF-3DHP
- Conjunto de Datos TotalCapture
- Métricas de Evaluación
- Detalles de Implementación
- Estudios de Ablación
- Evaluación del Desacoplamiento y Fusión
- Número de Vistas
- Comparación con Métodos de Última Generación
- Carga Computacional
- Sensibilidad a la Entrada
- Resultados de Visualización
- Conclusión
- Fuente original
- Enlaces de referencia
La recuperación de mallas humanas es una tarea en visión por computadora que se enfoca en estimar la forma y pose del cuerpo humano a partir de imágenes. Esta tecnología tiene muchos usos, incluyendo la realidad virtual y la interacción humano-computadora. Lograr una recuperación precisa de mallas humanas a partir de imágenes individuales es complicado debido a problemas como la ambigüedad de profundidad y la oclusión. Sin embargo, usar múltiples vistas de una persona puede proporcionar información más detallada, haciendo más fácil recuperar los datos de la malla humana.
Declaración del Problema
El desafío en la recuperación de mallas humanas a partir de múltiples imágenes radica en la variabilidad de los ángulos de cámara y el número de vistas disponibles. El objetivo es crear un sistema unificado que pueda estimar con precisión la pose y la forma humana a partir de cualquier número de vistas y ángulos de cámara. Diseñar un sistema así es complicado porque necesita manejar las poses de la cámara y la recuperación de la malla del cuerpo humano como tareas separadas, pero que funcionen sin problemas juntas.
Marco Propuesto
Para afrontar los desafíos descritos, se introduce un nuevo marco llamado Recuperación Unificada de Mallas Humanas (U-HMR). Este marco divide la tarea de recuperación en dos partes principales: estimar las poses de la cámara y estimar los datos de la malla humana. Al separar estas tareas, se vuelve más fácil manejar la variabilidad en las vistas y ángulos de la cámara.
Componentes de U-HMR
Desacoplamiento de Cámara y Cuerpo (CBD): Este componente separa el análisis de las poses de la cámara de la recuperación de la malla humana, permitiendo que cada tarea se maneje de forma independiente. Esto reduce la complejidad y aumenta la eficiencia.
Estimación de Poses de Cámara (CPE): Para estimar las poses de la cámara, un modelo compartido procesa todas las vistas de la cámara en paralelo. Al tratar las poses de la cámara de forma independiente, este enfoque simplifica la tarea y acelera el proceso de estimación.
Fusión de Vistas Arbitrarias (AVF): Esta parte se encarga de combinar información de diferentes vistas de cámara para mejorar la recuperación de la malla. Se utiliza un decodificador transformer para unir características de varias vistas, haciendo que el sistema se adapte a cualquier número de vistas.
Beneficios del Marco
La principal ventaja de U-HMR es su flexibilidad. Puede adaptarse a cualquier número de vistas de cámara sin necesidad de ajustes o reentrenamiento. Esto es una mejora significativa sobre métodos anteriores, que a menudo requerían un número específico de vistas o posiciones fijas de cámara. El marco está diseñado para aprender de manera efectiva a partir de datos de múltiples vistas, lo cual es crucial para una recuperación precisa de la malla.
Trabajo Relacionado
Investigaciones previas sobre la recuperación de mallas humanas se han centrado principalmente en métodos de vista única o de múltiples vistas. Muchas técnicas de vista única luchaban con la ambigüedad de profundidad y oclusiones, lo que llevaba a resultados menos fiables. Los métodos de múltiples vistas tendían a funcionar mejor, pero a menudo dependían de configuraciones de cámara fijas. El trabajo en U-HMR busca cerrar la brecha permitiendo vistas y posiciones de cámara arbitrarias mientras se simplifica la tarea de recuperación en componentes desacoplados.
Técnicas de Recuperación de Mallas Humanas
Recuperación de Malla en Imagen Única
En escenarios de imagen única, generalmente hay dos enfoques: métodos basados en optimización y métodos basados en regresión. El enfoque de optimización implica normalmente ajustar un modelo predefinido a los datos de la imagen, mientras que las técnicas basadas en regresión utilizan aprendizaje profundo para predecir directamente los parámetros de la malla a partir de la imagen. A pesar de los avances en estos métodos, problemas como la oclusión siguen presentando desafíos.
Recuperación de Imágenes Multi-vista
Usar múltiples vistas captura más información, lo que lo convierte en una opción más factible para la recuperación de mallas humanas. Se han propuesto muchos métodos que utilizan datos de múltiples vistas, típicamente requiriendo calibraciones de cámara para integrar efectivamente las vistas. Algunos enfoques se han desarrollado para manejar escenarios sin calibración de cámara, pero tienden a no ser muy flexibles.
Resumen de U-HMR
El marco U-HMR divide la tarea de recuperación de malla en dos partes: estimación de parámetros de cámara y estimación de parámetros del cuerpo. Al enfocarse en estos dos componentes por separado, el sistema puede recuperar la malla humana de manera más efectiva a partir de múltiples vistas.
Procesamiento de Datos
Dadas imágenes de diferentes ángulos de cámara, el primer paso en U-HMR es extraer características 2D de cada imagen. Estas características se envían luego a los dos componentes: CPE y AVF. CPE utiliza un modelo compartido para predecir los parámetros de la cámara, mientras que AVF combina características de todas las vistas para la estimación de la malla del cuerpo.
Representación del Cuerpo Humano
El modelo SMPL, que es un estándar para representar cuerpos humanos, se utiliza dentro de este marco. Permite modelar con precisión una variedad de formas y poses humanas. El modelo mapea los parámetros de pose y forma a representaciones de malla de cuerpos humanos.
Funciones de Pérdida
Para entrenar efectivamente el marco U-HMR, se aplica una combinación de funciones de pérdida. Estas incluyen pérdidas basadas en la precisión de proyecciones 2D, errores en puntos clave 3D y pérdidas adversariales para asegurar que las poses predichas sean realistas.
Configuración Experimental
La efectividad de U-HMR se prueba utilizando tres grandes conjuntos de datos que contienen imágenes multi-vista de movimientos humanos: Human3.6M, MPI-INF-3DHP y TotalCapture. Estos conjuntos de datos proporcionan una plataforma robusta para validar el rendimiento del marco.
Conjunto de Datos Human3.6M
Este conjunto de datos es un estándar para la pose humana 3D e incluye diversas acciones realizadas por diferentes sujetos. Se capturó utilizando cámaras sincronizadas, lo que permite obtener ricos datos multi-vista ideales para probar métodos de recuperación de mallas.
Conjunto de Datos MPI-INF-3DHP
Este conjunto de datos consiste en diversas actividades capturadas desde múltiples ángulos de cámara con tecnología de captura de movimiento sin marcadores. Proporciona datos de anotación en dos dimensiones y tres dimensiones necesarios para evaluar la recuperación de mallas.
Conjunto de Datos TotalCapture
TotalCapture incluye un gran número de fotogramas grabados por múltiples cámaras HD, junto con información adicional de sensores de movimiento. Este conjunto de datos es extenso, lo que lo hace adecuado para experimentación integral.
Métricas de Evaluación
Para evaluar el rendimiento del marco U-HMR, se emplean varias métricas, incluyendo el error medio por posición de articulación (MPJPE), errores de reconstrucción y porcentajes de puntos clave correctos (PCK). Estas métricas permiten una evaluación exhaustiva de cómo se desempeña el sistema en diferentes escenarios.
Detalles de Implementación
La implementación de U-HMR utiliza arquitecturas de redes neuronales populares para la extracción de características, como ResNet-50 y Transformers de Visión (ViT). El modelo se optimiza utilizando una tasa de aprendizaje adaptable y se entrena en GPUs de alto rendimiento para un procesamiento eficiente.
Estudios de Ablación
Se realizan una serie de estudios de ablación para evaluar los diferentes componentes y diseños de arquitectura de U-HMR. Estos estudios ayudan a identificar las configuraciones más efectivas para la recuperación de mallas humanas.
Evaluación del Desacoplamiento y Fusión
Se examina el impacto de desacoplar las tareas de estimación de poses de cámara y recuperación de malla del cuerpo. El estudio muestra que esta elección de diseño mejora la flexibilidad y el rendimiento en comparación con modelos que no separan estas tareas.
Número de Vistas
Se realiza un análisis adicional para ver cuán bien U-HMR se adapta a diferentes números de vistas de cámara. Esta habilidad para manejar diferentes configuraciones sin la necesidad de reentrenamiento refuerza las fortalezas del marco.
Comparación con Métodos de Última Generación
U-HMR se compara con varios métodos existentes, tanto de vista única como de múltiples vistas, así como métodos que requieren calibración de cámara. Los resultados indican que U-HMR logra un rendimiento de última generación sin necesitar configuraciones complejas.
Carga Computacional
Un análisis de la eficiencia del marco muestra que mantiene una baja carga computacional mientras entrega resultados de alta calidad. Esta eficiencia lo hace adecuado para aplicaciones del mundo real.
Sensibilidad a la Entrada
Se prueba la resiliencia del marco U-HMR utilizando imágenes con detecciones inexactas. Los resultados indican que U-HMR es robusto, incluso cuando las imágenes de entrada no están perfectamente alineadas o recortadas.
Resultados de Visualización
Las salidas visuales del marco U-HMR muestran su capacidad para recuperar mallas humanas desde vistas de cámara arbitrarias. Esto incluye ejemplos desde perspectivas de cámara no vistas, demostrando la adaptabilidad del marco.
Conclusión
El marco de Recuperación Unificada de Mallas Humanas ofrece un enfoque simple y flexible para recuperar datos de mallas humanas a partir de múltiples imágenes. Al desacoplar la estimación de poses de cámara y la recuperación de mallas, el marco maneja eficientemente la variabilidad de las vistas de cámara. Los resultados de varios conjuntos de datos destacan su efectividad y potencial para aplicaciones prácticas en campos como la realidad virtual y la interacción humano-computadora. U-HMR se destaca por su capacidad para trabajar con diferentes números de vistas y ángulos de cámara arbitrarios, convirtiéndose en una contribución valiosa al campo de la recuperación de mallas humanas.
Título: Human Mesh Recovery from Arbitrary Multi-view Images
Resumen: Human mesh recovery from arbitrary multi-view images involves two characteristics: the arbitrary camera poses and arbitrary number of camera views. Because of the variability, designing a unified framework to tackle this task is challenging. The challenges can be summarized as the dilemma of being able to simultaneously estimate arbitrary camera poses and recover human mesh from arbitrary multi-view images while maintaining flexibility. To solve this dilemma, we propose a divide and conquer framework for Unified Human Mesh Recovery (U-HMR) from arbitrary multi-view images. In particular, U-HMR consists of a decoupled structure and two main components: camera and body decoupling (CBD), camera pose estimation (CPE), and arbitrary view fusion (AVF). As camera poses and human body mesh are independent of each other, CBD splits the estimation of them into two sub-tasks for two individual sub-networks (ie, CPE and AVF) to handle respectively, thus the two sub-tasks are disentangled. In CPE, since each camera pose is unrelated to the others, we adopt a shared MLP to process all views in a parallel way. In AVF, in order to fuse multi-view information and make the fusion operation independent of the number of views, we introduce a transformer decoder with a SMPL parameters query token to extract cross-view features for mesh recovery. To demonstrate the efficacy and flexibility of the proposed framework and effect of each component, we conduct extensive experiments on three public datasets: Human3.6M, MPI-INF-3DHP, and TotalCapture.
Autores: Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen
Última actualización: 2024-06-17 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2403.12434
Fuente PDF: https://arxiv.org/pdf/2403.12434
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.