Créer des humains numériques réalistes grâce à des mouvements synchronisés
Une méthode pour générer des personnages numériques expressifs en utilisant des données audio et vidéo.
― 9 min lire
Table des matières
Dans le monde d'aujourd'hui, nous communiquons souvent par le biais de plateformes numériques. Cela est devenu courant dans de nombreux domaines comme les cours en ligne, les entretiens virtuels, les séances de thérapie, les robots sociaux, la conception de personnages et la création de mondes virtuels. Pour rendre ces expériences plus engageantes, il est important de créer des humains numériques réalistes capables d'exprimer des émotions par le biais de leur visage et de leurs mouvements corporels. Cependant, cette tâche est assez difficile car les expressions humaines peuvent être complexes et variées.
Les gens montrent des émotions en utilisant plusieurs formes de communication en même temps. Cela inclut leur discours, leurs expressions faciales et leurs gestes corporels. Lorsque ces différentes formes fonctionnent ensemble, elles aident à transmettre un fort sentiment de présence. Dans cette discussion, nous nous concentrerons sur la génération de mouvements 3D d'humains numériques, en veillant à ce que leurs expressions faciales et leurs gestes corporels soient synchronisés avec l'audio de leur discours.
En général, les méthodes existantes se concentrent sur différentes parties de ce problème, comme faire parler des personnages générés par ordinateur en synchronisant leurs mouvements de lèvres avec les mots prononcés ou créer des gestes qui accompagnent le discours. Certaines techniques plus récentes peuvent gérer à la fois les mouvements du corps et de la tête en même temps, mais elles se concentrent généralement uniquement sur un nombre limité de locuteurs et leurs émotions spécifiques. D'autres méthodes peuvent utiliser une plus large gamme de mouvements mais ne combinent pas efficacement ces différentes formes de communication.
Pour aborder la question de la création de mouvements faciaux et corporels synchronisés, nous visons à développer une technique qui peut générer des personnages numériques 3D expressifs en utilisant des données vidéo habituelles. Notre approche repose sur un équipement vidéo abordable capable de capturer les informations nécessaires pour les animations. En utilisant des enregistrements vidéo courants, nous pouvons rendre la génération d'humains numériques expressifs accessible à un public plus large.
Contributions principales
Notre travail se concentre sur le développement d'une méthode pour générer des expressions faciales et des mouvements corporels synchronisés basés sur la parole. Voici quelques-uns des points clés de notre approche :
Création d'expressions synchronisées : Notre méthode génère à la fois des expressions faciales et des gestes du haut du corps qui correspondent à l'audio de la parole. Cela est réalisé grâce à un processus d'apprentissage qui capture les relations entre différents éléments.
Amélioration de la précision : Nous avons montré que notre méthode réduit les erreurs tant dans les mouvements faciaux que corporels par rapport aux techniques existantes. Cela démontre les avantages de synchroniser les deux sorties plutôt que de les traiter séparément.
Utilisation de technologies courantes : Contrairement à d'autres méthodes qui nécessitent un équipement coûteux, notre approche utilise des données obtenues à partir de caméras vidéo ordinaires. Cela rend possible la création de personnages numériques expressifs sans avoir besoin de matériel spécialisé.
Évaluation de la qualité des mouvements : À travers diverses évaluations et études, nous avons confirmé que les mouvements produits par notre méthode sont perçus positivement par les observateurs. Nous avons également proposé une nouvelle façon d'évaluer la qualité des mouvements faciaux.
Développement de jeux de données : Nous avons élargi un jeu de données existant pour inclure des points de repère faciaux ainsi que des gestes corporels. Ce jeu de données nouvellement créé peut être précieux pour de futures études et avancées dans ce domaine.
Compréhension du problème
Pour communiquer efficacement dans un espace numérique, les avatars humains doivent représenter les émotions de manière réaliste. Cela implique de créer des mouvements faciaux et corporels qui non seulement semblent naturels mais qui correspondent également au rythme et au ton de la parole. Cependant, générer ces mouvements synchronisés est un problème complexe. Nous devons prendre en compte la diversité des émotions humaines et la nécessité d'expressions distinctes pour différents individus.
Dans de nombreux cas, les méthodes précédentes ont abordé des aspects de ce problème séparément. Certaines se concentrent uniquement sur les mouvements de lèvres tandis que d'autres traitent des gestes. Cette séparation peut conduire à des résultats qui ne combinent pas efficacement les deux éléments, aboutissant à des personnages numériques moins convaincants.
Ce qui rend cette tâche si difficile est la large gamme d'expressions qu'un humain peut afficher en parlant. De plus, capturer la relation nuancée entre la parole et les signaux non verbaux est essentiel pour créer des personnages qui semblent réels et engageants.
L'approche
Notre méthode utilise des enregistrements audio de discours ainsi que des séquences vidéo pour synthétiser des expressions faciales et des mouvements corporels synchronisés. Voici un aperçu de son fonctionnement :
Collecte et traitement des données
Entrée vidéo : Nous commençons avec des données vidéo RGB ordinaires. Ces séquences incluent le visage et le corps de l'interlocuteur, et nous nous concentrons sur l'extraction de points d'intérêt spécifiques appelés repères.
Identification des repères : En utilisant des techniques spécialisées, nous identifions des repères 3D épars sur le visage et le haut du corps. Cela nous aide à établir une base pour les mouvements que nous voulons créer.
Normalisation des données : Pour améliorer la cohérence, nous normalisons la vue des séquences vidéo. Cela signifie que nous ajustons la position des repères pour garantir qu'ils restent stables et reconnaissables tout au long de l'enregistrement.
Apprentissage et synthèse
Une fois nos données préparées, nous procédons au processus d'apprentissage :
Apprentissage multimodal : Notre approche combine différentes formes de données, y compris l'audio, des transcriptions textuelles du discours, l'identité du locuteur et les repères identifiés. Cela aide le système à apprendre comment ces différents éléments se rapportent les uns aux autres.
Génération de mouvements : Nous créons ensuite les séquences nécessaires pour les expressions faciales et les gestes corporels. Cela implique de s'assurer que les mouvements sont synchronisés avec ce qui est dit.
Contrôle de la qualité : Pour garantir la qualité des mouvements générés, nous utilisons un discriminateur. Ce composant évalue les mouvements synthétisés et fournit des retours pour améliorer leur réalisme et leur cohérence.
Évaluation
Après le processus de synthèse, nous effectuons une évaluation approfondie pour évaluer l'efficacité de notre méthode. Cela implique des évaluations quantitatives et qualitatives :
Métriques quantitatives : Nous mesurons la qualité des mouvements générés à l'aide de métriques spécifiques qui évaluent la précision des repères faciaux et des poses corporelles.
Études utilisateurs : Nous menons des études avec des participants humains pour évaluer leur perception des mouvements synthétisés. Cela nous donne un aperçu de la manière dont nos personnages numériques apparaissent aux yeux des spectateurs.
Travaux connexes
Il y a eu une richesse de recherches sur la façon dont les humains expriment des émotions par divers moyens. Des études précédentes ont montré que les émotions sont exprimées simultanément par le biais d'expressions faciales, de tons vocaux et de gestes. Comprendre ces expressions multimodales est essentiel pour créer des avatars numériques convaincants.
Techniques de synthèse de mouvement
De nombreuses techniques ont été proposées pour synthétiser des expressions faciales et des mouvements corporels. Certaines se concentrent sur des aspects spécifiques comme la synchronisation des lèvres ou l'utilisation de données faciales denses. D'autres essaient de générer des gestes basés sur différentes modalités d'entrée.
Cependant, la plupart des approches existantes peinent à combiner efficacement les expressions faciales et les mouvements corporels tout en veillant à ce qu'ils soient alignés avec l'audio de la parole. Notre méthode cherche à combler cette lacune en utilisant une intégration complète des données visuelles et audio.
Expériences et résultats
Nous avons réalisé plusieurs expériences pour évaluer l'efficacité de notre méthode. Les résultats étaient prometteurs et indiquaient des améliorations par rapport aux techniques existantes.
Évaluations quantitatives
Mesures de précision : Nous avons comparé notre méthode avec d'autres approches de synthèse existantes et observé des réductions significatives des erreurs liées aux repères faciaux et aux mouvements du corps.
Qualité du mouvement synchronisé : Nos évaluations ont confirmé que la synchronisation des expressions faciales et corporelles menait à des mouvements plus naturels et crédibles.
Résultats des études utilisateurs
Les participants de nos études utilisateurs ont évalué les mouvements synthétisés de manière positive en ce qui concerne leur plausibilité et leur synchronisation. Cela indique que nos personnages numériques étaient perçus comme réalistes et expressifs sur le plan émotionnel.
Conclusion
Notre travail représente une avancée significative dans la synthèse d'expressions faciales et corporelles synchronisées pour les personnages numériques. En s'appuyant sur des données vidéo ordinaires et en utilisant une approche d'apprentissage multimodal, nous avons créé une méthode capable de générer des humains numériques expressifs et engageants.
Malgré les succès notés, il existe encore des limites à notre travail. La dépendance aux repères épars peut ne pas capturer le même niveau de détail que des scans faciaux haut de gamme. Les améliorations futures impliqueront l'extraction de représentations plus détaillées pour améliorer la qualité des expressions synthétisées.
De plus, nous prévoyons d'explorer l'incorporation de mouvements du bas du corps pour créer des personnages 3D entièrement interactifs capables d'interagir dans divers scénarios. La performance en temps réel sur des dispositifs quotidiens est également un domaine que nous souhaitons explorer davantage.
En développant ces techniques, nous espérons rendre la création d'humains numériques expressifs plus accessible et efficace pour diverses applications dans le monde numérique.
Titre: Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs
Résumé: We present a multimodal learning-based method to simultaneously synthesize co-speech facial expressions and upper-body gestures for digital characters using RGB video data captured using commodity cameras. Our approach learns from sparse face landmarks and upper-body joints, estimated directly from video data, to generate plausible emotive character motions. Given a speech audio waveform and a token sequence of the speaker's face landmark motion and body-joint motion computed from a video, our method synthesizes the motion sequences for the speaker's face landmarks and body joints to match the content and the affect of the speech. We design a generator consisting of a set of encoders to transform all the inputs into a multimodal embedding space capturing their correlations, followed by a pair of decoders to synthesize the desired face and pose motions. To enhance the plausibility of synthesis, we use an adversarial discriminator that learns to differentiate between the face and pose motions computed from the original videos and our synthesized motions based on their affective expressions. To evaluate our approach, we extend the TED Gesture Dataset to include view-normalized, co-speech face landmarks in addition to body gestures. We demonstrate the performance of our method through thorough quantitative and qualitative experiments on multiple evaluation metrics and via a user study. We observe that our method results in low reconstruction error and produces synthesized samples with diverse facial expressions and body gestures for digital characters.
Auteurs: Uttaran Bhattacharya, Aniket Bera, Dinesh Manocha
Dernière mise à jour: 2024-11-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.18068
Source PDF: https://arxiv.org/pdf/2406.18068
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.