Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Aprendizaje automático

Avances en la Reconstrucción 3D del Cuerpo Humano

La muestreo consciente de la estructura fina mejora la reconstrucción 3D de humanos en una sola imagen.

― 8 minilectura


Revolución enRevolución enReconstrucción 3D delCuerpomodelado humano en una sola imagen.Nuevos métodos mejoran la calidad del
Tabla de contenidos

La reconstrucción en 3D de cuerpos humanos es un área interesante porque tiene muchas aplicaciones prácticas. Estas aplicaciones incluyen la realidad virtual, la impresión 3D y los videojuegos. Aunque los sistemas de alta gama pueden crear un modelo 3D de una persona usando múltiples vistas de cámaras, estos sistemas no están disponibles para consumidores regulares. Esta brecha ha llevado a los investigadores a crear métodos que solo necesitan una imagen única, como una foto normal, para reconstruir el cuerpo de una persona en 3D.

Un enfoque que ha ganado popularidad en este campo se llama modelos implícitos alineados por píxeles. Estos modelos aprenden una función que representa la superficie de un cuerpo humano. A partir de esta función aprendida, se puede crear una malla 3D del cuerpo.

El desafío de reconstruir cuerpos humanos

Reconstruir cuerpos humanos en 3D presenta varios desafíos. Uno de los desafíos significativos es capturar superficies delgadas, como orejas y dedos. Los métodos existentes a menudo tienen problemas con estas características. Esto es importante porque estas partes contribuyen al realismo del modelo 3D. Cuando estas características no están bien representadas, el modelo 3D final se ve raro o poco realista.

Otro problema que surge es la presencia de ruido o artefactos no deseados en las mallas reconstruidas. Estos artefactos pueden hacer que el modelo se vea ondulado o irreal, lo que resta calidad a la reconstrucción en general. Para superar estos problemas, se necesitan desarrollar nuevos esquemas de entrenamiento de muestreo.

¿Qué es el muestreo consciente de la estructura fina (FSS)?

Para abordar los problemas que enfrentan los modelos existentes, presentamos el muestreo consciente de la estructura fina (FSS). FSS es un nuevo esquema de entrenamiento adaptado para modelos implícitos alineados por píxeles que se centra en la reconstrucción humana desde una sola vista. El método FSS aborda los desafíos de capturar superficies delgadas y reducir el ruido en las mallas reconstruidas al adaptarse al grosor y la complejidad de las partes del cuerpo.

FSS utiliza una forma única de manejar los puntos de muestra durante el proceso de entrenamiento. A diferencia de los métodos tradicionales que generan puntos de muestra de manera aleatoria, FSS busca mejorar la calidad de estos puntos. Lo hace observando cuán delgada o compleja es una superficie y ajustando el entrenamiento en consecuencia.

Características clave de FSS

FSS incluye varias características importantes que lo hacen efectivo para mejorar la reconstrucción de cuerpos humanos.

1. Puntos de muestra gemelos

En FSS, cada punto de muestra tiene un punto gemelo correspondiente. Esto significa que para cada punto muestreado, hay otro punto que está equidistante de la superficie del cuerpo. Al usar pares de puntos, FSS puede determinar con mayor precisión la ubicación de la superficie. Esto es crucial para capturar características delgadas como orejas y dedos.

2. Desplazamiento adaptable a la proximidad

FSS también introduce un método llamado desplazamiento adaptable a la proximidad. Esto significa que la forma en que se mueven los puntos de muestra desde la superficie depende de qué tan gruesa o delgada sea la superficie. Para áreas más gruesas, el desplazamiento puede ser mayor, mientras que para áreas más delgadas, es menor. Esto ayuda a asegurar que los puntos de muestra tengan más probabilidades de caer dentro o muy cerca de la superficie real, lo que mejora los resultados.

3. Puntos de muestra ancla

Otra innovación en FSS es el uso de puntos de muestra ancla. Estos puntos están ubicados en la parte más profunda de las características del cuerpo delgadas. Ayudan a asegurar que la reconstrucción sea más precisa al indicar dónde deberían estar los valores de etiqueta más altos. Esto ayuda a guiar al modelo a hacer mejores predicciones sobre la superficie.

4. Puntos de muestra en contra

FSS incluye una característica llamada puntos de muestra en contra, que ayudan a prevenir artefactos flotantes. Estos artefactos pueden ocurrir en áreas donde no debería haber malla. Los puntos de muestra en contra están ubicados fuera de la malla y ayudan a guiar al modelo para evitar hacer predicciones incorrectas en estas áreas vacías. Al tener un punto primario y un punto secundario en contra, FSS proporciona señales claras sobre dónde las predicciones deberían ser más bajas.

5. Muestreo guiado por Smplx

FSS también utiliza un método llamado muestreo guiado por Smplx. Este enfoque permite que el proceso de entrenamiento se centre más en características importantes. Por ejemplo, incrementa el número de puntos de muestra alrededor de áreas delgadas como orejas y dedos, mientras reduce la densidad de puntos de muestra en áreas que son más fáciles de reconstruir. Esto ayuda al modelo a aprender mejor de los puntos de muestra que son más relevantes.

Usando normales de puntos de muestra (NSP)

Una característica que no se ha utilizado plenamente en métodos anteriores son las normales de los puntos de muestra. Las normales ayudan a describir la orientación de las superficies. En FSS, se utilizan las normales de cada punto de muestra para mejorar el aprendizaje. Esto significa que durante el entrenamiento, el modelo puede aprovechar las normales para refinar su comprensión de la estructura del cuerpo.

En lugar de usar solo las normales de los puntos que están en la superficie, FSS utiliza las normales de todos los puntos de muestra. Esta información adicional ayuda al modelo a aprender más sobre cómo interactúan las superficies entre sí.

Introduciendo la pérdida de grosor de malla (MTL)

Un problema común con los modelos implícitos alineados por píxeles es que pueden producir mallas con grosor poco realista. Para abordar esto, FSS introduce una señal de pérdida de grosor de malla (MTL). Esta señal anima al modelo a aprender qué tan gruesas deberían ser diferentes partes del cuerpo.

Implementar MTL no es sencillo porque las mallas predichas no están disponibles durante el entrenamiento. Para sortear esto, FSS modifica la arquitectura subyacente para permitir mejores estimaciones del grosor de la malla. Esto se logra utilizando un volumen de características separado producido por un tipo diferente de pila en la arquitectura.

Al evaluar el grosor de diferentes áreas en la malla predicha y compararlas con la realidad, el modelo puede aprender a producir siluetas más realistas durante la reconstrucción.

Entrenamiento y evaluación

FSS fue evaluado usando un conjunto de datos llamado THuman2.0, que contiene escaneos de alta calidad de individuos chinos. Los modelos basados en FSS fueron probados junto a modelos existentes para ver qué tan bien se desempeñaban.

Los resultados mostraron que FSS superó significativamente a los métodos anteriores tanto en medidas cualitativas como cuantitativas. Los modelos entrenados con FSS fueron mejores en capturar detalles finos como orejas y dedos sin crear ruido o artefactos no deseados.

Comparando FSS con métodos existentes

En la fase de evaluación, se entrenaron dos modelos: uno basado en la arquitectura original y otro usando un enfoque de alta resolución. El modelo de alta resolución se desempeñó excepcionalmente bien en todas las métricas en comparación con los modelos existentes.

Los resultados cuantitativos mostraron que el modelo entrenado con FSS superó a modelos como PIFu, PIFuHD e IntegratedPIFu. Al observar los resultados cualitativos, fue evidente que los modelos que usaron FSS produjeron reconstrucciones 3D de humanos más naturales y precisas.

Importancia de las características clave

Las cinco características clave de FSS fueron sometidas a un análisis más profundo para entender sus contribuciones individuales. Cada característica demostró ser esencial para mejorar el rendimiento del modelo. Esto demuestra que se necesita una combinación de técnicas para lograr los mejores resultados en tareas de reconstrucción humana.

Evaluando el impacto de NSP y MTL

Investigaciones adicionales se centraron en los efectos de usar normales de puntos de muestra y la pérdida de grosor de malla. Los modelos que incorporaron estas técnicas mostraron mejoras considerables en la captura de detalles y el mantenimiento de la precisión estructural. Esto refuerza el valor de estas extensiones al marco de FSS.

Conclusión

En resumen, el muestreo consciente de la estructura fina (FSS) es un enfoque innovador para entrenar modelos implícitos alineados por píxeles para la reconstrucción humana desde una sola vista. Al abordar los desafíos de capturar características delgadas y reducir el ruido, FSS mejora significativamente la calidad de las reconstrucciones en 3D.

La introducción de características como puntos de muestra gemelos, desplazamiento adaptable a la proximidad, puntos ancla, puntos en contra y muestreo guiado por Smplx permite a los modelos desempeñarse mejor que las versiones anteriores. Además, el uso de normales de puntos de muestra y la incorporación de pérdida de grosor de malla aseguran aún más salidas más precisas y realistas.

Con estos avances, FSS establece un nuevo estándar en el campo de la reconstrucción humana en 3D, allanando el camino para aplicaciones mejoradas en varios dominios, incluida la realidad virtual y los videojuegos. La investigación en curso significa la importancia de la innovación continua en la búsqueda de tecnologías de reconstrucción 3D mejores y más accesibles.

Fuente original

Título: Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction

Resumen: Pixel-aligned implicit models, such as PIFu, PIFuHD, and ICON, are used for single-view clothed human reconstruction. These models need to be trained using a sampling training scheme. Existing sampling training schemes either fail to capture thin surfaces (e.g. ears, fingers) or cause noisy artefacts in reconstructed meshes. To address these problems, we introduce Fine Structured-Aware Sampling (FSS), a new sampling training scheme to train pixel-aligned implicit models for single-view human reconstruction. FSS resolves the aforementioned problems by proactively adapting to the thickness and complexity of surfaces. In addition, unlike existing sampling training schemes, FSS shows how normals of sample points can be capitalized in the training process to improve results. Lastly, to further improve the training process, FSS proposes a mesh thickness loss signal for pixel-aligned implicit models. It becomes computationally feasible to introduce this loss once a slight reworking of the pixel-aligned implicit function framework is carried out. Our results show that our methods significantly outperform SOTA methods qualitatively and quantitatively. Our code is publicly available at https://github.com/kcyt/FSS.

Autores: Kennard Yanting Chan, Fayao Liu, Guosheng Lin, Chuan Sheng Foo, Weisi Lin

Última actualización: 2024-11-11 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.19197

Fuente PDF: https://arxiv.org/pdf/2402.19197

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares