Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Visión por Computador y Reconocimiento de Patrones# Procesado de Audio y Voz

Generación de sonido innovadora para modelos humanos en 3D

Un nuevo método mejora la creación de sonido para modelos humanos 3D realistas.

― 8 minilectura


Sonido Avanzado paraSonido Avanzado paraHumanos 3Dmodelos humanos en 3D.Mejorando el realismo del audio para
Tabla de contenidos

Mientras que la creación de modelos humanos 3D realistas para medios visuales como videojuegos y películas ha mejorado un montón, los sonidos que hacen estos modelos han sido en su mayoría pasados por alto. Este trabajo presenta una nueva forma de generar sonidos de alta calidad que provienen de un cuerpo humano, capturando todo, desde el habla hasta pasos.

Usamos posiciones del cuerpo en 3D junto con Audio grabado desde un micrófono montado en la cabeza para crear un entorno sonoro completo. Nuestro método permite representar sonidos de manera precisa en cualquier Espacio 3D, haciendo posible escuchar los sonidos como si una persona realmente estuviera presente.

Para hacer esto de forma eficiente y rápida, tomamos ideas de técnicas de renderizado gráfico que usan formas simples, a las que llamamos "primitivas acústicas". Estas primitivas nos ayudan a crear representaciones sonoras que son mucho más pequeñas y pueden producir sonidos que se sienten más cercanos al cuerpo que los métodos anteriores.

La Importancia del Sonido en Modelos 3D

Crear humanos 3D que parezcan reales es importante, especialmente para aplicaciones en juegos y realidad virtual (VR). Muchas herramientas modernas, como MetaHumans y Codec Avatars, permiten modelos visuales impresionantes. Sin embargo, acompañar los visuales con sonidos que coincidan no ha recibido casi la misma atención.

La representación precisa del sonido es vital para una experiencia 3D creíble. Cuando la gente ve un humano virtual, espera escuchar sonidos que correspondan con sus movimientos o acciones. Actualmente, la investigación en la creación de sonidos espaciales para estos humanos virtuales es insuficiente.

En este trabajo, nos enfocamos en dos requisitos clave:

  1. Necesitamos poder renderizar sonidos en cualquier punto de un espacio 3D producidos por un humano virtual.
  2. El entorno sonoro debe ser controlable, lo que significa que puede ajustarse en tiempo real según los movimientos del cuerpo y los sonidos emitidos.

Desafíos en la Renderización de Sonido

Los métodos anteriores típicamente usaban una representación única y compleja del sonido alrededor de un cuerpo humano, lo que dificultaba capturar sonidos cerca del cuerpo de manera precisa. Los enfoques pasados también requerían mucha potencia de computación y no podían proporcionar resultados en tiempo real.

Para abordar estos problemas, proponemos un nuevo método usando componentes sonoros más pequeños, o primitivas acústicas. Cada primitiva es una pequeña esfera adjunta a puntos en el cuerpo humano. En lugar de depender de un modelo complicado, sumamos el sonido producido por cada primitiva para generar un entorno sonoro preciso. Este método permite modelar fácilmente sonidos muy cercanos al cuerpo.

Ventajas de las Primitivas Acústicas

  1. Mejor Renderización en Campo Cercano: Los métodos tradicionales tendrían dificultades para crear sonidos cerca del cuerpo con precisión. Nuestro enfoque acomoda esto usando muchas pequeñas primitivas sonoras, permitiendo una representación sonora realista incluso a distancias cortas.

  2. Representación Sonora Compacta: En lugar de usar un modelo complejo, creamos representaciones sonoras más simples y pequeñas, lo que hace que el modelado sonoro general sea mucho más rápido.

  3. Renderización de Sonido Eficiente: Nuestro método puede predecir coeficientes de sonido directamente, evitando procesos tradicionales complejos que ralentizan la renderización del sonido. Esto significa que podemos crear sonidos en tiempo real basados en los movimientos del cuerpo y los sonidos captados por el micrófono.

Visión General del Sistema

Diseñamos un sistema que usa tanto información de audio como de posición del cuerpo para crear entornos sonoros. Este sistema consiste en varias partes que trabajan juntas para capturar, procesar y renderizar sonidos.

Datos de Entrada

El sistema recibe datos de:

  • Señales de audio capturadas con un micrófono montado en la cabeza.
  • Poses del cuerpo en 3D que describen la posición de las articulaciones en el cuerpo humano.

El objetivo es crear representaciones sonoras en una ubicación 3D específica basada en esta entrada.

Etapas de Procesamiento

  1. Aprendiendo Primitivas Acústicas: El primer paso es capturar los campos de sonido generados por el cuerpo usando los datos de entrada.
  2. Renderizando Audio con Primitivas: Una vez que se aprenden las primitivas acústicas, las usamos para generar ondas sonoras en las ubicaciones deseadas.

Codificación de Características

Codificación de Pose

Los movimientos del cuerpo proporcionan información crucial sobre cómo se producen los sonidos en el espacio. Codificamos estos movimientos en un formato que captura sus aspectos temporales. Esto nos ayuda a entender cómo cambia el sonido con el tiempo a medida que se mueve el cuerpo.

Codificación de Audio

Dado que el audio puede provenir de varios lugares en el cuerpo, mientras se graba en la cabeza, consideramos este ligero retraso temporal al procesar sonidos. Esto nos permite crear características de audio que reflejan el sonido real proveniente del cuerpo.

Fusión de Características

Unimos las características de audio y pose codificadas en una sola representación. Esta fusión permite que nuestro modelo utilice ambos tipos de datos de manera efectiva, mejorando la precisión de los sonidos generados.

Proceso de Renderización de Sonido

El proceso de renderización de sonido implica calcular cómo cada primitiva acústica contribuye al entorno sonoro general. La ubicación de cada primitiva cambia a medida que se mueve el cuerpo, por lo que necesitamos tener en cuenta estos cambios con precisión.

Ubicaciones y Pesos Predichos

Calculamos las nuevas ubicaciones de cada primitiva ajustando por cualquier desplazamiento aprendido. Además, diferentes primitivas tendrán impactos variables en el sonido final dependiendo de su importancia en momentos específicos.

Renderizando el Campo Sonoro

Para crear el campo sonoro que escucha un oyente, transformamos la posición de cada primitiva en un formato adecuado para la renderización. Sumar todos los sonidos renderizados de cada primitiva nos permite producir el campo sonoro final.

Función de Pérdida y Entrenamiento

Para entrenar nuestro modelo, usamos una función de pérdida que compara las señales de audio generadas con el audio real de referencia. Al optimizar esta pérdida, mejoramos el rendimiento del modelo en la renderización de sonidos precisos.

Métricas de Evaluación

Medimos el éxito de nuestra renderización de sonido usando:

  • Relación Señal a Distorsión (SDR): Esta métrica indica la calidad general del sonido producido.
  • Error de Amplitud: Esto muestra qué tan cerca está el sonido renderizado del original en términos de distribución de energía.
  • Error de Fase: Esto evalúa qué tan precisamente el tiempo de las ondas sonoras se alinea con el sonido original.

Resultados Experimentales

Nuestro modelo ha mostrado resultados comparables a modelos de última generación en términos de calidad de sonido mientras es significativamente más rápido. También es capaz de renderizar sonidos cercanos al cuerpo, lo que métodos anteriores lucharon por lograr.

Conjunto de Datos Utilizados

Para validar nuestro enfoque, utilizamos un conjunto de datos disponible públicamente que captura audio y datos visuales sincronizados en entornos controlados. Este conjunto de datos está diseñado específicamente para la investigación en modelado de sonido y cuerpo.

Detalles de Implementación

En nuestra configuración experimental, utilizamos una tasa de muestreo específica para audio y una tasa de fotogramas para los datos del cuerpo. El modelo se entrenó usando GPUs contemporáneas, lo que permitió un procesamiento eficiente.

Comparación de Rendimiento

Al comparar nuestro método con enfoques existentes, encontramos que nuestro sistema tuvo un rendimiento similar en calidad de sonido pero con una velocidad de procesamiento mucho más rápida. Esto significa que nuestro método no solo es efectivo sino también práctico para aplicaciones en tiempo real.

Visualización de Sonidos

Creamos visualizaciones para representar cómo se producían diferentes sonidos por el cuerpo virtual. Estas visualizaciones revelaron que el sistema emparejaba correctamente los sonidos con sus ubicaciones de origen.

Direcciones Futuras

Aunque nuestro sistema muestra promesas, aún hay espacio para mejorar. Los posibles desarrollos futuros podrían incluir:

  • Reducir la dependencia de configuraciones de micrófono complejas para facilitar la recopilación de datos de sonido.
  • Generalizar este enfoque para trabajar con una variedad más amplia de fuentes de audio más allá de solo humanos.

Conclusión

Nuestro trabajo presenta un método para crear entornos sonoros directamente a partir de movimientos corporales y señales de audio. Al usar primitivas acústicas, mantenemos la calidad del sonido mientras mejoramos significativamente la velocidad, permitiendo experiencias de audio realistas en entornos 3D como realidad virtual y videojuegos.

Este nuevo enfoque ofrece una base que puede allanar el camino para futuros avances en la tecnología de renderización de sonido, haciendo que los entornos virtuales sean más ricos e inmersivos para los usuarios.

Fuente original

Título: Modeling and Driving Human Body Soundfields through Acoustic Primitives

Resumen: While rendering and animation of photorealistic 3D human body models have matured and reached an impressive quality over the past years, modeling the spatial audio associated with such full body models has been largely ignored so far. In this work, we present a framework that allows for high-quality spatial audio generation, capable of rendering the full 3D soundfield generated by a human body, including speech, footsteps, hand-body interactions, and others. Given a basic audio-visual representation of the body in form of 3D body pose and audio from a head-mounted microphone, we demonstrate that we can render the full acoustic scene at any point in 3D space efficiently and accurately. To enable near-field and realtime rendering of sound, we borrow the idea of volumetric primitives from graphical neural rendering and transfer them into the acoustic domain. Our acoustic primitives result in an order of magnitude smaller soundfield representations and overcome deficiencies in near-field rendering compared to previous approaches.

Autores: Chao Huang, Dejan Markovic, Chenliang Xu, Alexander Richard

Última actualización: 2024-07-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.13083

Fuente PDF: https://arxiv.org/pdf/2407.13083

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares