Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avanzando en las técnicas de reconstrucción de mallas de mano en 3D

Un nuevo método mejora la diversidad de datos para mejores modelos de manos en 3D.

― 9 minilectura


Avance en laAvance en laReconstrucción 3D deManosen la precisión de la malla de la mano.Nuevo método muestra una mejora notable
Tabla de contenidos

Reconstruir una malla 3D de una mano a partir de solo una imagen es complicado. La razón principal es que los conjuntos de datos reales disponibles no tienen suficiente variedad. Aunque crear más datos puede ayudar, todavía hay una brecha notable entre los datos sintéticos y los del mundo real. Este trabajo presenta un nuevo método para aumentar la Diversidad de datos y mejorar cómo podemos reconstruir mallas 3D de manos. Nos enfocamos en Interacciones mano-objeto y utilizamos un método de entrenamiento que muestrea el espacio de manera efectiva para generar muestras de datos útiles.

El Reto

Cuando intentas crear una representación 3D de una mano a partir de una sola foto, pueden salir mal muchas cosas. Los conjuntos de datos existentes a menudo no muestran suficientes formas de manos diferentes, posiciones y fondos, lo que dificulta entrenar modelos que puedan generalizar bien. En entornos de laboratorio, conjuntos de datos como DexYCB y HO3D ofrecen muchos ejemplos de interacciones mano-objeto, y tienen anotaciones 3D precisas. Sin embargo, las variaciones en estos ejemplos son limitadas porque recolectar estos datos es complicado y costoso. Por otro lado, conjuntos de datos recogidos de videos del mundo real, como YouTube-Hands, ofrecen más variedad pero no garantizan la precisión de las etiquetas.

Importancia de los Datos

Crear datos sintéticos, usando herramientas como Blender o Maya, puede ayudar a superar el costoso y largo proceso de recolección de datos. Sin embargo, los resultados aún pueden verse poco realistas debido a la forma en que se representan las manos y la iluminación. Los métodos generativos pueden producir mejores resultados, pero a menudo solo se enfocan en crear nuevas vistas sin abordar otros aspectos clave de la variedad de datos. Necesitamos una solución que genere imágenes realistas y diversas de interacciones mano-objeto con anotaciones confiables.

Nuestro Enfoque

En este trabajo, proponemos un método para mejorar la diversidad de datos y aumentar el rendimiento de la reconstrucción de mallas de mano 3D. Logramos esto desarrollando un espacio generativo condicional que se centra en las interacciones mano-objeto y muestreando este espacio de manera efectiva para crear muestras de datos.

Paso 1: Creando Condiciones

Primero, desarrollamos un conjunto de condiciones conscientes del contenido que guían a un modelo de difusión en la producción de imágenes realistas con una variedad de apariencias de manos, posiciones, ángulos de cámara y fondos. Esto nos permite generar imágenes realistas y obtener anotaciones 3D precisas sin ningún costo adicional. Luego creamos un generador de condiciones que utiliza Estrategias de muestreo inteligentes para encontrar poses de interacción que difieran del conjunto de entrenamiento.

Paso 2: Generación de Imágenes

Nuestro método comienza proyectando la malla 3D de la mano en una imagen 2D mientras conserva información clave sobre su forma. Esta proyección se divide en dos pasos:

  1. Convertimos la malla 3D en un formato 2D que mantiene detalles geométricos.
  2. Esta representación 2D se utiliza como guía para que el modelo de difusión genere imágenes realistas.

Entre las diversas condiciones que usamos, seleccionamos mapas normales y mapas de textura porque proporcionan más información sobre la forma y el color de los objetos.

Paso 3: Generación de Muestras de Interacción

Para mejorar cómo podemos reconstruir la malla 3D de la mano, simplemente depender de poses mano-objeto existentes no es suficiente. Las nuevas muestras de interacción generadas deben cumplir tres criterios: necesitan ser realistas, diversas y novedosas.

Para asegurar el realismo, utilizamos técnicas de optimización para simular poses de agarre naturales y validarlas para asegurarnos de que se vean normales. Para promover la diversidad, hemos desarrollado estrategias de muestreo que incluyen encontrar poses únicas de la misma distribución y también de diferentes distribuciones.

Mejorando los Modelos de Reconstrucción

Una vez que hemos generado estas muestras, entrenamos varios modelos base con una mezcla de datos sintéticos y del mundo real. Nuestros resultados muestran que estos modelos funcionan significativamente mejor que antes, logrando resultados de vanguardia en conjuntos de datos comunes como HO3D y DexYCB.

Trabajo Relacionado

La reconstrucción de mallas de mano 3D ha sido ampliamente estudiada, con muchos enfoques que se centran en regredir parámetros para representar la mano. Las técnicas pueden usar diferentes representaciones, incluidos voxeles y funciones implícitas. A pesar de los avances, reconstruir con precisión las mallas de manos a partir de imágenes únicas sigue siendo un desafío complicado, especialmente en situaciones difíciles como oclusiones.

Si bien algunos trabajos recientes han intentado usar información de múltiples fotogramas para una mejor reconstrucción, nuestro método ofrece una nueva perspectiva al centrarse en generar efectivamente imágenes de interacciones mano-objeto. Pocos trabajos han explorado la síntesis de estas interacciones, a menudo dependiendo de herramientas de renderizado que pueden producir resultados poco realistas debido a limitaciones en la apariencia de las manos y los ajustes de fondo.

Nuestro Marco

Nuestro marco consta de tres partes principales:

  1. El Creador de Condiciones Nuevas, que prepara poses de agarre diversas contra datos reales y sintéticos.
  2. El Sintetizador de Imágenes Mano-Objeto, que genera muestras de imágenes basadas en esas condiciones.
  3. Las muestras sintetizadas se emplean para entrenar de manera efectiva diferentes modelos de reconstrucción.

Proceso de Síntesis de Imágenes

Para crear imágenes a partir de una Malla 3D de mano, primero necesitamos mapearla a una representación 2D. El proceso se divide en dos pasos:

  1. Proyectamos la malla 3D en una imagen 2D mientras mantenemos detalles importantes.
  2. Usamos esta proyección como condiciones para un modelo de difusión.

Para minimizar la pérdida de información, seleccionamos condiciones informativas e interpretables. Nos enfocamos en usar mapas normales y mapas de textura, ya que proporcionan la información necesaria sobre la forma y el significado.

Generación de Imágenes Controlables

Empleamos un modelo de difusión para controlar cómo se generan las imágenes de interacciones mano-objeto. En este proceso, agregamos ruido a las muestras de datos reales de manera progresiva, creando una transición ruidosa. Luego intentamos aprender a revertir este proceso usando nuestras condiciones conscientes del contenido, resultando en imágenes de alta calidad de mano-objeto.

Filtrando Casos Extremos

Aunque nuestra generación de imágenes puede producir imágenes realistas, pueden ocurrir algunos artefactos no deseados. Para abordar esto, implementamos un método de filtrado. Usamos un modelo de reconstrucción preentrenado para evaluar las imágenes generadas y calcular los errores. Excluimos imágenes que no se alinean bien con la distribución del mundo real.

Generando Condiciones Diversas

Para asegurarnos de que nuestros modelos de reconstrucción funcionen bien, necesitamos usar una variedad de poses de interacción mano-objeto. El Creador de Condiciones Nuevas nos ayuda a crear nuevas y diversas condiciones al encontrar poses nunca antes vistas.

Preparación de Poses

Primero, mejoramos las poses de agarre existentes aplicando ligeros cambios a sus orientaciones de mano. Para asegurar el realismo, solo aumentamos las poses donde la mano realmente interactúa con un objeto. Sin embargo, determinar el estado de agarre es complicado, así que automatizamos este proceso calculando los errores de rotación y traducción entre poses.

Generando Nuevas Poses de Agarre

Nos enfocamos en crear nuevas poses de agarre utilizando objetos de conjuntos de datos. Simulando cómo caerían los objetos, podemos generar poses iniciales. Verificamos la calidad de estas poses para asegurarnos de que las manos hacen contacto con los objetos sin ninguna intersección no deseada.

Estrategias de Muestreo

Para mejorar aún más la diversidad, desarrollamos dos estrategias de muestreo:

  1. Muestreo Intra-Distribución: Este método asegura que recolectemos poses de agarre que sean lo suficientemente diversas y no demasiado similares entre sí.
  2. Muestreo Cruzado-Distribución: Este método asegura que las poses sintéticas no sean demasiado similares a las poses del mundo real.

Usar estas estrategias juntas mejora el rendimiento de nuestros métodos al proporcionar conjuntos de muestras diversas.

Evaluación de Nuestro Método

Evaluamos el rendimiento de nuestro método en conjuntos de datos comúnmente utilizados, como DexYCB y HO3D. Utilizamos métricas como el error en las juntas y en los vértices, que miden cuán cercanas son nuestras poses predichas a las poses reales.

Resultados Experimentales

Nuestro método muestra fuertes mejoras en general. Al entrenar con nuestras muestras generadas, los modelos base pueden producir resultados más precisos y confiables. Incluso algunos de los métodos avanzados de múltiples fotogramas luchan por igualar nuestro rendimiento con una sola vista.

Estudios de Ablación

A través de varios experimentos, también evaluamos componentes clave de nuestro marco.

Importancia del Realismo en los Datos

Uno de nuestros hallazgos muestra que el realismo en los datos generados es crucial. Al comparar nuestros datos sintéticos con conjuntos de datos basados en renderizado, observamos que nuestros métodos ofrecen un mejor rendimiento incluso al usar modelos base más simples.

Analizando Condiciones Conscientes del Contenido

Probamos diferentes combinaciones de condiciones para ver cuáles ofrecen los mejores resultados. Al enfocarnos en usar tanto mapas normales como mapas de textura, encontramos que esta combinación conduce consistentemente a un rendimiento mejorado.

Evaluando el Creador de Condiciones Nuevas

También analizamos cuán efectivo es nuestro Creador de Condiciones Nuevas en contribuir a las ganancias de rendimiento. Al utilizar poses de agarre únicas, logramos mejorar aún más el rendimiento.

Conclusión

En resumen, desarrollamos un nuevo marco generativo para mejorar la diversidad de datos para la reconstrucción de mallas de mano 3D. Al crear y muestrear desde un espacio generativo condicional centrado en las interacciones mano-objeto, podemos sintetizar efectivamente imágenes realistas con anotaciones confiables. Nuestros experimentos extensos muestran avances significativos en el rendimiento de la reconstrucción, demostrando la efectividad de nuestro enfoque. Este trabajo abre la puerta a aplicaciones mejoradas en realidad aumentada y virtual, así como en sistemas de interacción humano-computadora.

Fuente original

Título: HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions

Resumen: Reconstructing 3D hand mesh robustly from a single image is very challenging, due to the lack of diversity in existing real-world datasets. While data synthesis helps relieve the issue, the syn-to-real gap still hinders its usage. In this work, we present HandBooster, a new approach to uplift the data diversity and boost the 3D hand-mesh reconstruction performance by training a conditional generative space on hand-object interactions and purposely sampling the space to synthesize effective data samples. First, we construct versatile content-aware conditions to guide a diffusion model to produce realistic images with diverse hand appearances, poses, views, and backgrounds; favorably, accurate 3D annotations are obtained for free. Then, we design a novel condition creator based on our similarity-aware distribution sampling strategies to deliberately find novel and realistic interaction poses that are distinctive from the training set. Equipped with our method, several baselines can be significantly improved beyond the SOTA on the HO3D and DexYCB benchmarks. Our code will be released on https://github.com/hxwork/HandBooster_Pytorch.

Autores: Hao Xu, Haipeng Li, Yinqiao Wang, Shuaicheng Liu, Chi-Wing Fu

Última actualización: 2024-03-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.18575

Fuente PDF: https://arxiv.org/pdf/2403.18575

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares