Avatars réalistes qui parlent grâce à l'audio
Présentation des avatars READ pour des expressions émotionnelles réalistes dans les personnages numériques.
― 7 min lire
Table des matières
Créer des avatars parlant réalistes qui peuvent exprimer des émotions en fonction de l'audio, c'est un objectif pour plein d'applis comme les films, les jeux vidéo et les assistants virtuels. Beaucoup de méthodes actuelles sont pas au top pour produire des mouvements de lèvres synchronisés de qualité ou des expressions émotionnelles réalistes. Dans cet article, on parle d'une nouvelle approche appelée READ Avatars, qui cherche à générer des avatars réalistes pilotés par l'audio en mettant l'accent sur l'Expression émotionnelle.
Le Défi
Générer des avatars parlant crédibles présente plusieurs défis. Un gros problème, c'est qu'un seul clip audio peut correspondre à plein d'expressions faciales différentes. Les méthodes traditionnelles galèrent souvent à représenter ça efficacement. De plus, même si les modèles 3D améliorent la fidélité visuelle, ils ratent souvent les formes de lèvres détaillées et l'intérieur de la bouche. Du coup, les avatars créés avec des méthodes classiques peuvent avoir l'air sans vie ou peu convaincants.
En plus, même si certaines méthodes permettent de contrôler les émotions, elles simplifient souvent trop ou s'appuient sur des modèles complexes qui sont difficiles à interpréter. Ça rend compliqué d'atteindre le niveau de détail et de nuance nécessaire pour une expression émotionnelle réaliste.
L’Approche READ Avatars
Le système READ Avatars introduit une nouvelle manière de créer des avatars parlant qui peuvent vraiment coller aux émotions exprimées dans l'audio. Cette méthode repose sur des modèles 3D et utilise des techniques avancées pour améliorer à la fois la Qualité Visuelle et la fidélité émotionnelle.
Trois Étapes Clés
La méthode se déroule en trois grandes étapes :
Ajustement d’un Modèle 3D : La première étape consiste à créer un modèle 3D qui représente fidèlement la personne. On utilise des vidéos pour capturer la forme et les traits du visage. On utilise des techniques qui assurent que le modèle peut exprimer différentes émotions en l'ajustant à un modèle morphable.
Génération de Paramètres à Partir de l’Audio : À la deuxième étape, on transforme l'audio en paramètres spécifiques qui guident comment l'avatar doit bouger sa bouche et son visage. C'est fait grâce à un modèle qui inclut une perte adversariale, ce qui aide à créer des animations plus réalistes en évitant de simplifier à outrance les expressions. L'entrée comprend le signal audio et une étiquette explicite décrivant l'émotion désirée.
Rendu de la Vidéo Finale : La dernière étape consiste à rendre une vidéo de haute qualité en combinant le modèle 3D avec les paramètres pilotés par l'audio. Cela se fait grâce à un moteur de rendu neural, qui améliore la sortie visuelle en tenant compte des nuances de l'intérieur de la bouche.
Évaluation de la Méthode
Pour évaluer la performance de la méthode READ Avatars, plusieurs évaluations ont été réalisées. Ça inclut des mesures quantitatives, comme la qualité visuelle et la précision des mouvements de lèvres, et des évaluations qualitatives impliquant des études utilisateur où les gens ont noté les vidéos générées pour leur clarté émotionnelle et leur crédibilité.
Qualité Visuelle et Synchronisation labiale
La qualité visuelle est mesurée grâce à des métriques qui quantifient à quel point les images générées ressemblent à de vraies vidéos. La précision de la synchronisation labiale est évaluée en examinant l'alignement entre les mouvements de bouche générés et l'audio. Dans ces évaluations, READ Avatars a surperformé les méthodes existantes en fournissant des expressions émotionnelles plus claires et des mouvements de lèvres plus synchronisés.
Clarté Émotionnelle
Capturer la bonne expression émotionnelle est crucial pour créer des avatars réalistes. Pour évaluer cela, une nouvelle métrique a été introduite, qui compare les distributions des expressions émotionnelles entre les avatars générés et leurs homologues réels. Ça a permis une analyse plus détaillée de la façon dont les avatars transmettent des émotions.
Comparaisons avec les Méthodes Existantes
READ Avatars a été comparé à plusieurs systèmes à la pointe de la technologie, comme ceux qui se concentrent sur des modèles 2D ou le contrôle des émotions via des méthodes basées sur des points de repère. Les résultats ont montré que READ Avatars produisait systématiquement des vidéos de meilleure qualité, avec une clarté émotionnelle plus aiguë et une synchronisation des lèvres plus précise.
Limitations des Méthodes Précédentes
Les méthodes précédentes produisaient souvent des visuels de faible qualité, même si elles excellaient en synchronisation labiale, ou des visuels de haute qualité qui manquaient de synchronisation. L'introduction du contrôle émotionnel dans certains systèmes a été limitée à cause de leur dépendance à des étiquettes émotionnelles simplifiées ou à des modèles complexes qui ne transmettaient pas efficacement les émotions.
Forces de READ Avatars
Les forces de READ Avatars résident dans sa capacité à combiner des visuels de haute qualité avec un contrôle émotionnel précis. En utilisant un modèle tridimensionnel, la méthode capte plus de détails et de subtilités dans les expressions faciales. De plus, la perte adversariale utilisée dans l'entraînement garantit que les sorties générées ne sont pas trop lissées, maintenant le réalisme nécessaire pour des avatars crédibles.
Études Utilisateur et Retours
Une étude utilisateur impliquant plusieurs participants a mis en évidence les forces de READ Avatars en matière d'expression émotionnelle et de qualité visuelle. Les participants ont préféré les avatars générés par rapport à ceux produits par des systèmes concurrents dans plusieurs catégories, y compris la synchronisation labiale, le naturel et la clarté émotionnelle.
Perspectives Futures
Bien que la méthode actuelle montre une amélioration significative par rapport aux techniques précédentes, il reste encore des domaines à améliorer. Un défi est de générer des vidéos de longueurs variées sans perdre en qualité ou en précision. La recherche future pourrait impliquer d'explorer de nouvelles façons de créer des vidéos plus longues en abordant la génération de poses et d'éléments de fond de manière dynamique.
Considérations Éthiques
Créer des humains numériques réalistes soulève des préoccupations éthiques, en particulier avec le potentiel de mauvaise utilisation, comme la génération de vidéos trompeuses. Il est donc crucial de manipuler cette technologie de manière responsable. Les développeurs de READ Avatars ont choisi de ne pas rendre le modèle complet public, préférant collaborer avec d'autres chercheurs qui garantiront son utilisation responsable.
Conclusion
Le système READ Avatars représente une avancée significative dans la génération d'avatars pilotés par l'audio avec contrôle émotionnel. En combinant des techniques de rendu modernes avec une approche robuste de la cartographie audio-émotion, cette méthode atteint un niveau de qualité visuelle et d'expressivité émotionnelle supérieur. Le développement continu vise à repousser encore plus ces limites, cherchant à résoudre les défis qui restent tout en garantissant une utilisation éthique de cette technologie.
Titre: READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
Résumé: We present READ Avatars, a 3D-based approach for generating 2D avatars that are driven by audio input with direct and granular control over the emotion. Previous methods are unable to achieve realistic animation due to the many-to-many nature of audio to expression mappings. We alleviate this issue by introducing an adversarial loss in the audio-to-expression generation process. This removes the smoothing effect of regression-based models and helps to improve the realism and expressiveness of the generated avatars. We note furthermore, that audio should be directly utilized when generating mouth interiors and that other 3D-based methods do not attempt this. We address this with audio-conditioned neural textures, which are resolution-independent. To evaluate the performance of our method, we perform quantitative and qualitative experiments, including a user study. We also propose a new metric for comparing how well an actor's emotion is reconstructed in the generated avatar. Our results show that our approach outperforms state of the art audio-driven avatar generation methods across several metrics. A demo video can be found at \url{https://youtu.be/QSyMl3vV0pA}
Auteurs: Jack Saunders, Vinay Namboodiri
Dernière mise à jour: 2023-03-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.00744
Source PDF: https://arxiv.org/pdf/2303.00744
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.