Faire avancer la génération de gestes pour les humains numériques
Une nouvelle méthode crée des gestes réalistes à partir d'audio de discours brut.
― 6 min lire
Table des matières
Créer des humains numériques ultra-réalistes a vraiment pris de l'ampleur, surtout avec l'émergence de mondes virtuels appelés métavers. Un truc super important pour que ces personnages virtuels paraissent réels, c'est qu'ils utilisent des gestes naturels pendant qu'ils parlent. Les gestes, c'est essentiel dans la communication humaine, ça ajoute des émotions et de la signification à ce qu'on dit. Les méthodes existantes pour générer des gestes nécessitent souvent un équipement spécial ou sont trop chères, du coup, c'est moins accessible. Cet article discute d'une nouvelle approche qui peut créer des gestes juste en utilisant de l'audio brut provenant de la parole, sans besoin de mise en place compliquée ou de travail manuel.
Contexte
Quand les gens parlent, ils accompagnent souvent leurs mots de gestes qui expriment des émotions, soulignent des points ou transmettent des significations supplémentaires. Ces mouvements peuvent varier énormément selon la personnalité et les émotions de chacun. Donc, pour créer des gestes réalistes pour des humains numériques, il faut comprendre la relation entre la parole et le geste.
Traditionnellement, certains systèmes ont utilisé la technologie de capture de mouvement, ce qui nécessite un équipement spécialisé et des acteurs entraînés pour enregistrer les mouvements. Cette méthode peut coûter cher et être moins flexible. Une manière plus prometteuse est de générer automatiquement des gestes qui correspondent à la parole, ce qu'on appelle "génération de gestes pilotée par la parole". Cependant, cette méthode rencontre des défis pour aligner efficacement les gestes avec la parole en raison de la complexité et de la variété des mouvements humains.
Nouvelle Approche : DiffMotion-v2
Le modèle proposé, appelé DiffMotion-v2, vise à résoudre le problème de génération de ces gestes d'une nouvelle manière. Au lieu de s'appuyer sur un prétraitement long ou des systèmes coûteux, cette méthode innovante utilise un input audio de parole pour créer directement des gestes.
Caractéristiques Principales
Pas de Besoin d'Équipement Spécial : Le modèle n'a pas besoin de matériel spécial ou d'une saisie manuelle poussée, ce qui le rend moins cher et plus facile à mettre en œuvre.
Concentration sur l'Audio Brut : En utilisant uniquement l'audio brut de la parole, le modèle capture des caractéristiques essentielles du son, y compris les émotions et les traits personnels qui influencent les gestes.
Apprentissage Avancé : L'utilisation de modèles pré-entraînés aide le système à apprendre comment relier la parole aux gestes de manière efficace sans avoir à coder manuellement chaque détail.
Comment Ça Marche
DiffMotion-v2 utilise une combinaison de technologies avancées pour traiter l'audio de parole et générer des gestes correspondants. Voici un aperçu de ses principaux composants et fonctions.
Traitement Audio
Le modèle commence par prendre l'audio de la parole. Cet audio brut contient des informations riches sur la voix du locuteur, ses émotions et sa personnalité. Le modèle utilise une nouvelle technique appelée "WavLM", qui a été formée sur une grande base de données de discours. Ce pré-entraînement à grande échelle permet au système de comprendre efficacement divers aspects de la parole.
Génération de Gestes
Le cœur du modèle implique de créer des gestes qui correspondent à l'audio. Il fait cela en analysant l'audio de la parole pour en extraire des caractéristiques clés, comme :
- Caractéristiques acoustiques : Ce sont les sons et les tonalités de la parole.
- Contexte Émotionnel : Le modèle interprète les émotions véhiculées par la voix, comme l'excitation ou la tristesse.
- Traits de Personnalité : Chaque individu a un style de parole unique qui peut influencer ses gestes.
En synthétisant ces informations, le modèle peut ensuite générer une séquence de gestes qui sont cohérents et synchronisés avec la parole.
Avantages du Nouveau Modèle
DiffMotion-v2 offre plusieurs avantages significatifs par rapport aux méthodes traditionnelles de génération de gestes.
Rentabilité
Comme le modèle peut travailler avec des données audio brutes, il élimine le besoin d'équipement coûteux et de mises en place spécialisées. Cela réduit le coût de création d'humains numériques, les rendant accessibles à un public plus large.
Flexibilité Accrue
La capacité du modèle à générer des gestes uniquement basés sur l'audio signifie qu'il peut s'adapter à divers styles de parole, émotions et contextes. Cette flexibilité aboutit à des humains virtuels plus dynamiques et réalistes.
Qualité Améliorée
Grâce à des tests extensifs, le modèle a montré qu'il pouvait produire des gestes naturels qui s'alignent de près avec la parole fournie. Les évaluations des utilisateurs indiquent que ces gestes apparaissent humains et appropriés au contexte.
Études Utilisateur et Évaluation
Pour valider l'efficacité du modèle DiffMotion-v2, des études utilisateurs ont été menées. Les participants ont noté les gestes générés selon trois critères principaux : ressemblant à l'humain, approprié et style approprié.
Ressemblance Humaine
Cet aspect évalue à quel point les gestes générés ressemblent à ceux des vrais humains. Les participants ont noté les gestes sur une échelle, et les résultats ont montré que le modèle produisait des mouvements qui semblaient naturels et authentiques.
Approprié
L'appropriation évalue si les gestes correspondaient au rythme et au ton de la parole. Le modèle a bien performé dans ce domaine, produisant des gestes qui se corrélaient avec l'énergie et le flux du contenu parlé.
Style Approprié
Ce critère considère si les gestes reflètent le style spécifique de la parole originale, comme les émotions ou les manières personnelles. Le modèle a obtenu de bons résultats en termes d'appropriation de style, montrant sa capacité à capter les traits uniques de différents locuteurs.
Conclusion
DiffMotion-v2 représente un grand pas en avant dans le domaine de la génération de gestes pour des humains numériques. En utilisant l'audio brut de la parole pour produire des gestes réalistes de manière autonome, le modèle simplifie le processus et le rend plus accessible tout en maintenant des résultats de haute qualité. Cette approche innovante peut avoir des applications variées dans des domaines comme le jeu, l'animation, les systèmes de guidance virtuelle, et plus encore, repoussant les limites de notre interaction avec des personnages virtuels. Au fur et à mesure que la technologie continue d'évoluer, on peut s'attendre à encore plus d'avancées passionnantes dans la création d'humains virtuels engageants et réalistes.
Titre: Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model
Résumé: The generation of co-speech gestures for digital humans is an emerging area in the field of virtual human creation. Prior research has made progress by using acoustic and semantic information as input and adopting classify method to identify the person's ID and emotion for driving co-speech gesture generation. However, this endeavour still faces significant challenges. These challenges go beyond the intricate interplay between co-speech gestures, speech acoustic, and semantics; they also encompass the complexities associated with personality, emotion, and other obscure but important factors. This paper introduces "diffmotion-v2," a speech-conditional diffusion-based and non-autoregressive transformer-based generative model with WavLM pre-trained model. It can produce individual and stylized full-body co-speech gestures only using raw speech audio, eliminating the need for complex multimodal processing and manually annotated. Firstly, considering that speech audio not only contains acoustic and semantic features but also conveys personality traits, emotions, and more subtle information related to accompanying gestures, we pioneer the adaptation of WavLM, a large-scale pre-trained model, to extract low-level and high-level audio information. Secondly, we introduce an adaptive layer norm architecture in the transformer-based layer to learn the relationship between speech information and accompanying gestures. Extensive subjective evaluation experiments are conducted on the Trinity, ZEGGS, and BEAT datasets to confirm the WavLM and the model's ability to synthesize natural co-speech gestures with various styles.
Auteurs: Fan Zhang, Naye Ji, Fuxing Gao, Siyuan Zhao, Zhaohan Wang, Shunman Li
Dernière mise à jour: 2024-04-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.05995
Source PDF: https://arxiv.org/pdf/2308.05995
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.