Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avanzando la recuperación de malla de cuerpo completo con un enfoque de una sola etapa

Un nuevo método mejora la recuperación de la forma del cuerpo en 3D a partir de imágenes individuales.

― 8 minilectura


Recuperación de MallaRecuperación de MallaCorporal de NuevaGeneraciónetapa redefine el modelado 3D.Una solución innovadora de una sola
Tabla de contenidos

La recuperación de mallas de cuerpo completo es un proceso que implica predecir las formas y posiciones en 3D del cuerpo, la cara y las manos de una persona a partir de una sola imagen. Los métodos tradicionales suelen consistir en varios pasos donde se utilizan diferentes modelos para analizar cada parte del cuerpo por separado. Estos modelos trabajan para entender la cabeza, las manos y el cuerpo y luego combinan los resultados. Sin embargo, este método puede llevar a posiciones poco naturales en las muñecas y manos.

En cambio, nuestro método utiliza un solo modelo llamado Transformer Consciente de Componentes (CAT) para manejar todas las partes del cuerpo de una sola vez. Este enfoque mejora la precisión y proporciona formas más naturales. El objetivo principal es crear una representación 3D detallada de una figura humana a partir de una imagen estándar, lo cual puede ser una tarea difícil ya que partes del cuerpo, como la cara y las manos, a menudo son muy pequeñas y pueden ser difíciles de ver claramente.

Desafíos Actuales en la Recuperación de Mallas de Cuerpo Completo

El proceso de recuperar una malla de cuerpo completo implica estimar varios parámetros del cuerpo humano a partir de una imagen. Esta tarea no es fácil porque las diferentes partes del cuerpo suelen estar en diferentes resoluciones. La cara y las manos son pequeñas en comparación con el resto del cuerpo, lo que dificulta que los modelos obtengan lecturas precisas.

En la mayoría de los métodos existentes, las manos y las caras se detectan y se amplían a una resolución más alta antes de ser enviadas a diferentes redes para su análisis. Al final, los resultados se combinan, lo que puede causar problemas en la salida final, como poses incómodas y rotaciones poco realistas.

Nuestra Solución Propuesta: Canal de Una Etapa

Proponemos un sistema más simple de una sola etapa para la recuperación de mallas de cuerpo completo. Este sistema, llamado OSX, no requiere modelos separados para la cabeza, las manos y el cuerpo. En cambio, utiliza un codificador global del cuerpo para entender todo el cuerpo y un decodificador local para ajustar las características relacionadas con las manos y la cara.

El codificador crea una representación detallada de las características del cuerpo y pasa esta información al decodificador, que luego se centra en las manos y la cara. Este método elimina muchos problemas que se encuentran en los canales tradicionales de varias etapas y produce movimientos y posiciones más naturales para las partes del cuerpo.

Construyendo el Transformer Consciente de Componentes

El CAT está diseñado para reconocer varios componentes del cuerpo mientras mantiene las conexiones entre ellos. La arquitectura es simple pero efectiva, lo que le permite generar modelos 3D detallados con base en la información de solo una imagen.

Así es como funciona el proceso:

  1. Entrada de Imagen Humana: La imagen de entrada se divide en partes más pequeñas. Cada sección se analiza cuidadosamente para capturar características importantes.
  2. Fase de Codificación: El codificador toma estas divisiones y las combina con tokens específicos del cuerpo, que son parámetros aprendibles que ayudan a comprender la estructura general del cuerpo. Después de pasar por una serie de bloques de transformadores, el codificador produce mapas de características del cuerpo detallados.
  3. Fase de Decodificación: El decodificador está diseñado para refinar estos mapas de características para predecir con precisión las articulaciones y formas de las manos y la cara. Utiliza un método para aumentar la resolución de las imágenes de baja resolución a resoluciones más altas sin perder detalles importantes.
  4. Mecanismo de Atención: El decodificador utiliza atención guiada por puntos clave para centrarse en partes específicas, mejorando la estimación de los parámetros de las manos y la cara.

Al usar este método, podemos generar de manera efectiva una representación 3D más precisa y coherente del cuerpo, la cara y las manos de una persona, superando muchas limitaciones de métodos anteriores.

Entrenamiento y Evaluación

Para asegurarnos de que nuestro método funcione bien, necesitábamos entrenarlo en conjuntos de datos extensos. Creamos un nuevo conjunto de datos llamado Cuerpo Superior (UBody) que incluye una variedad de escenarios donde las partes superiores del cuerpo son visibles pero pueden no estar del todo claras. Este conjunto de datos presenta videos de personas en diversas posiciones y entornos, ayudando al modelo a aprender a manejar situaciones de la vida real.

Durante el entrenamiento, medimos qué tan bien funciona el sistema usando varias métricas. La medida principal es el error de posición promedio por vértice (MPVPE), que nos ayuda a ver qué tan cerca está la malla predicha de la forma real.

Los Resultados

Nuestro modelo de una sola etapa demostró un mejor rendimiento que los sistemas de varias etapas existentes en varios indicadores. Encontramos que puede producir resultados precisos no solo para el cuerpo completo, sino también para partes específicas como manos y caras sin depender de conjuntos de datos separados para esas áreas.

Construyendo un Mejor Conjunto de Datos: UBody

El conjunto de datos UBody fue creado para ayudar a cerrar la brecha entre tareas básicas de recuperación y aplicaciones más complejas, como el reconocimiento del lenguaje de señas y la generación de gestos. Consiste en videos de alta calidad que muestran diferentes acciones e interacciones, lo que permite al modelo aprender de manera efectiva de escenas de la vida real.

Los datos se recopilaron de diversas fuentes, incluidos videos de actuaciones y clases en línea, proporcionando un conjunto de ejemplos bien equilibrado para que el modelo aprenda. Cada video fue cuidadosamente editado para centrarse en acciones relevantes, asegurando entradas de alta calidad para nuestro proceso de entrenamiento.

Proceso de Anotación

Para la anotación, desarrollamos un proceso detallado que incluye tanto anotaciones en 2D como en 3D. El primer paso es localizar partes clave del cuerpo en 2D. Usando modelos avanzados de estimación de pose, podemos identificar con precisión las posiciones de los puntos clave para el cuerpo, las manos y la cara. Esto nos permite crear anotaciones en 2D precisas que sirven como base para un análisis posterior.

Luego, traducimos estos puntos clave en 2D en parámetros de malla 3D, ajustándolos a nuestro modelo elegido para mejorar la precisión. Este proceso implica un ciclo continuo de entrenamiento y refinamiento de las anotaciones para mejorar la calidad con el tiempo.

Características Únicas de UBody

El conjunto de datos UBody tiene varias características únicas:

  • Escenarios de la Vida Real: A diferencia de otros conjuntos de datos que pueden centrarse en entornos controlados, UBody presenta acciones espontáneas que son representativas de la vida real.
  • Condiciones Diversas: El conjunto de datos incluye varias condiciones de iluminación y ángulos, ayudando al modelo a aprender a manejar diferentes escenarios que podría encontrar.

Hallazgos Experimentales

En nuestros experimentos, encontramos que nuestro sistema supera significativamente a los métodos tradicionales de varias etapas. Los resultados muestran una mejora clara en la precisión de las mallas recuperadas, especialmente en situaciones desafiantes donde la oclusión y el desenfoque de movimiento pueden complicar las predicciones.

Direcciones Futuras

Aunque nuestro enfoque actual ha mostrado resultados prometedores, todavía hay espacio para mejorar. Trabajos futuros podrían involucrar la integración de conjuntos de datos adicionales enfocados específicamente en manos y caras para mejorar aún más el rendimiento del modelo. Además, validar la efectividad de UBody en aplicaciones del mundo real, como el reconocimiento de gestos o el análisis de emociones, proporcionaría información valiosa.

Conclusión

En resumen, hemos desarrollado un canal de una sola etapa para la recuperación de mallas de cuerpo completo que simplifica el proceso mientras logra resultados superiores. Nuestro nuevo conjunto de datos, UBody, junto con nuestro método, busca contribuir de manera significativa al campo al proporcionar tanto una plataforma de entrenamiento robusta como una comprensión más clara de cómo recuperar formas corporales en 3D a partir de imágenes.

Al abordar los desafíos clave que enfrentaron los modelos anteriores, ofrecemos un enfoque fresco para entender las poses y expresiones humanas en una variedad de entornos, allanando el camino para futuras investigaciones y aplicaciones en esta importante área de estudio.

Fuente original

Título: One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

Resumen: Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.

Autores: Jing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li

Última actualización: 2023-03-28 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.16160

Fuente PDF: https://arxiv.org/pdf/2303.16160

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares