Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Inteligencia artificial# Gráficos# Multimedia# Procesado de Audio y Voz

Avanzando en la Generación de Gestos para Humanos Digitales

Un nuevo método crea gestos realistas a partir de audio de voz cruda.

― 6 minilectura


Avance en la GeneraciónAvance en la Generaciónde Gestosgestos realistas.Nuevo modelo transforma audio de voz en
Tabla de contenidos

Crear humanos digitales realistas se ha vuelto cada vez más popular, especialmente con el auge de mundos virtuales conocidos como el metaverso. Un aspecto importante para hacer que estos personajes virtuales parezcan reales es hacer que usen gestos naturales al hablar. El gesto es una parte esencial de la comunicación humana, ya que añade emoción y significado a lo que decimos. Los métodos existentes para generar gestos a menudo requieren equipo especializado o son caros, lo que los hace menos accesibles. Este artículo discute un nuevo enfoque que puede crear gestos simplemente usando audio en crudo de la habla sin necesidad de una configuración detallada o trabajo manual.

Antecedentes

Cuando las personas hablan, a menudo acompañan sus palabras con gestos que expresan emociones, enfatizan puntos o transmiten significado adicional. Estos movimientos pueden variar significativamente, dependiendo de la personalidad individual y las emociones. Por lo tanto, crear gestos realistas para humanos digitales requiere entender la relación entre el habla y el gesto.

Tradicionalmente, algunos sistemas han usado tecnología de captura de movimiento, que necesita equipo especializado y actores entrenados para grabar movimientos. Este método puede ser costoso y menos flexible. Una forma más prometedora es generar gestos automáticamente que coincidan con el habla, conocido como "generación de gestos impulsada por el habla". Sin embargo, este método enfrenta desafíos para alinear los gestos con el habla de manera efectiva debido a la complejidad de los movimientos humanos y su variedad.

Nuevo Enfoque: DiffMotion-v2

El modelo propuesto, llamado DiffMotion-v2, busca resolver el problema de generar estos gestos de una nueva manera. En lugar de depender de una pre-procesamiento extenso o sistemas costosos, este método innovador utiliza una entrada de audio de habla para crear gestos directamente.

Características Clave

  1. Sin Requisitos Especiales: El modelo no necesita hardware especial ni input manual extenso, lo que lo hace más barato y fácil de implementar.

  2. Enfoque en el Habla en Crudo: Usando solo el audio crudo de la habla, el modelo captura características esenciales del sonido, incluyendo emociones y rasgos personales que influyen en los gestos.

  3. Aprendizaje Avanzado: El uso de modelos pre-entrenados ayuda al sistema a aprender a relacionar el habla con los gestos de manera efectiva sin tener que codificar manualmente cada detalle.

Cómo Funciona

DiffMotion-v2 utiliza una combinación de tecnologías avanzadas para procesar el audio de la habla y generar gestos correspondientes. Aquí hay un resumen de sus principales componentes y funciones.

Procesamiento de Audio

El modelo primero toma audio de la habla. Este audio en crudo contiene información rica sobre la voz del hablante, emociones y personalidad. El modelo utiliza una nueva técnica llamada "WavLM," que ha sido entrenada en una gran base de datos de habla. Este pre-entrenamiento a gran escala permite que el sistema entienda varios aspectos de la habla de manera efectiva.

Generación de Gestos

El núcleo del modelo implica crear gestos que coincidan con el audio. Esto se hace analizando el audio de la habla en busca de características clave, como:

  • Características Acústicas: Estos son los sonidos y tonos de la habla.
  • Contexto Emocional: El modelo interpreta las emociones transmitidas a través de la voz, como emoción o tristeza.
  • Rasgos de Personalidad: Cada individuo tiene una forma única de hablar que puede influir en sus gestos.

Al sintetizar esta información, el modelo puede generar una secuencia de gestos que son coherentes y sincronizados con el habla.

Ventajas del Nuevo Modelo

DiffMotion-v2 ofrece varios beneficios significativos sobre los métodos tradicionales de generación de gestos.

Rentabilidad

Como el modelo puede trabajar con datos de audio en crudo, elimina la necesidad de equipos costosos y configuraciones especializadas. Esto reduce el costo de crear humanos digitales, haciéndolos accesibles a una audiencia más amplia.

Mayor Flexibilidad

La capacidad del modelo para generar gestos basados únicamente en audio significa que puede adaptarse a varios estilos de habla, emociones y contexto. Esta flexibilidad resulta en humanos virtuales más dinámicos y realistas.

Mejora de la Calidad

A través de pruebas exhaustivas, el modelo ha demostrado que puede producir gestos naturales que se alinean de cerca con la habla proporcionada. Las evaluaciones de los usuarios indican que estos gestos parecen humanos y son contextualmente apropiados.

Estudios de Usuario y Evaluación

Para validar la efectividad del modelo DiffMotion-v2, se realizaron estudios de usuario. Los participantes calificaron los gestos generados con base en tres criterios principales: humanidad, adecuación y adecuación del estilo.

Humanidad

Este aspecto evalúa cuán cerca están los gestos generados de los de humanos reales. Los participantes calificaron los gestos en una escala, y los resultados indicaron que el modelo produjo movimientos que se veían naturales y auténticos.

Adecuación

La adecuación evalúa si los gestos coincidían con el ritmo y tono de la habla. El modelo tuvo un buen desempeño en esta área, produciendo gestos que se correlacionaban con la energía y el flujo del contenido hablado.

Adecuación del Estilo

Este criterio considera si los gestos reflejaban el estilo específico de la habla original, como emociones o formas personales de expresarse. El modelo obtuvo una puntuación alta en adecuación del estilo, demostrando su capacidad para capturar los rasgos únicos de diferentes hablantes.

Conclusión

DiffMotion-v2 representa un avance significativo en el campo de la generación de gestos para humanos digitales. Al aprovechar el audio de habla en crudo para producir gestos realistas de manera autónoma, el modelo simplifica el proceso y lo hace más accesible, manteniendo resultados de alta calidad. Este enfoque innovador puede tener aplicaciones amplias en áreas como juegos, animación, sistemas de guía virtual y más, empujando los límites de cómo interactuamos con personajes virtuales. A medida que la tecnología sigue evolucionando, podemos esperar avances aún más emocionantes en la creación de humanos virtuales atractivos y realistas.

Fuente original

Título: Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model

Resumen: The generation of co-speech gestures for digital humans is an emerging area in the field of virtual human creation. Prior research has made progress by using acoustic and semantic information as input and adopting classify method to identify the person's ID and emotion for driving co-speech gesture generation. However, this endeavour still faces significant challenges. These challenges go beyond the intricate interplay between co-speech gestures, speech acoustic, and semantics; they also encompass the complexities associated with personality, emotion, and other obscure but important factors. This paper introduces "diffmotion-v2," a speech-conditional diffusion-based and non-autoregressive transformer-based generative model with WavLM pre-trained model. It can produce individual and stylized full-body co-speech gestures only using raw speech audio, eliminating the need for complex multimodal processing and manually annotated. Firstly, considering that speech audio not only contains acoustic and semantic features but also conveys personality traits, emotions, and more subtle information related to accompanying gestures, we pioneer the adaptation of WavLM, a large-scale pre-trained model, to extract low-level and high-level audio information. Secondly, we introduce an adaptive layer norm architecture in the transformer-based layer to learn the relationship between speech information and accompanying gestures. Extensive subjective evaluation experiments are conducted on the Trinity, ZEGGS, and BEAT datasets to confirm the WavLM and the model's ability to synthesize natural co-speech gestures with various styles.

Autores: Fan Zhang, Naye Ji, Fuxing Gao, Siyuan Zhao, Zhaohan Wang, Shunman Li

Última actualización: 2024-04-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.05995

Fuente PDF: https://arxiv.org/pdf/2308.05995

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares