Présentation d'ExAvatar : Le Futur des Avatars 3D
ExAvatar crée des avatars 3D réalistes à partir de simples vidéos.
― 8 min lire
Table des matières
- Le besoin d'avatars expressifs
- Le problème avec les modèles existants
- Présentation d'ExAvatar
- Les défis que nous avons rencontrés
- Notre solution
- Comment fonctionne ExAvatar
- Construction de l'avatar
- L'importance de la connectivité
- Applications dans le monde réel
- Comparer ExAvatar à d'autres systèmes
- Expériences et résultats
- Forces d'ExAvatar
- Limitations
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Créer des avatars 3D réalistes de personnes est devenu super important dans plusieurs domaines, comme les jeux vidéo, la réalité virtuelle et les réseaux sociaux. Ces avatars sont des représentations numériques des humains qui peuvent imiter les Expressions faciales, les mouvements du corps et les Gestes de la main. Les avatars 3D traditionnels ont souvent du mal à refléter ces détails avec précision, surtout quand ils sont construits à partir de simples vidéos. Cet article présente un nouveau type d'avatar qui peut être créé à partir d'une courte vidéo d'une personne, capturant non seulement ses mouvements corporels mais aussi ses expressions faciales et ses gestes de la main.
Le besoin d'avatars expressifs
Les expressions faciales et les mouvements des mains jouent un rôle essentiel dans notre façon de communiquer et de transmettre des émotions. Quand on crée des avatars, il est crucial de représenter ces éléments avec précision. Le défi, c'est que de nombreuses méthodes existantes se concentrent uniquement sur les mouvements du corps, tout en ratant les subtilités des gestes faciaux et des mains. Notre but est de créer un système d'avatar complet qui incarne toute la gamme de l'expression humaine.
Le problème avec les modèles existants
La plupart des avatars 3D actuels construits à partir de vidéos ont des limites. Ils capturent souvent les mouvements du corps mais ne parviennent pas à représenter les expressions faciales et les gestes de la main. Certains systèmes avancés incluent des mouvements faciaux et des gestes de main, mais ils nécessitent généralement des données supplémentaires, comme des scans 3D ou des images en profondeur. Ces exigences les rendent moins pratiques pour une utilisation quotidienne où seules des vidéos simples sont disponibles.
Présentation d'ExAvatar
Pour répondre à ces problèmes, nous présentons ExAvatar, un nouvel avatar humain 3D qui peut être créé en utilisant seulement une courte vidéo. ExAvatar combine un Modèle de maillage corporel standard avec une nouvelle technique de rendu appelée "3D Gaussian Splatting". Cette combinaison permet à ExAvatar de non seulement imiter les mouvements du corps, mais aussi de produire des expressions faciales réalistes et des gestes de la main, rendant les interactions plus vivantes.
Les défis que nous avons rencontrés
Créer ExAvatar n'a pas été une tâche facile. Nous avons rencontré deux défis principaux :
Données vidéo limitées : Les courtes vidéos que nous utilisons peuvent ne pas avoir une grande variété d'expressions faciales ou de poses corporelles. Ce manque de diversité rend difficile la création d'Animations qui semblent naturelles.
Absence de données 3D : De nombreuses méthodes existantes s'appuient sur des scans 3D ou d'autres informations de profondeur. Cependant, une vidéo typique ne fournit pas ce genre de données, ce qui entraîne des ambiguïtés sur la façon de représenter certaines parties du corps avec précision.
Ces défis rendent difficile la création d'un avatar fiable et naturel uniquement à partir de séquences vidéo.
Notre solution
Pour relever ces défis, nous avons développé une représentation hybride qui combine un modèle maillé avec des points 3D Gaussiens. Chaque point Gaussien est traité comme un sommet sur la surface de l'avatar, ce qui nous permet de maintenir la topologie du maillage tout en bénéficiant des avantages du rendu Gaussien.
En utilisant cette structure hybride, ExAvatar peut hériter de la capacité d'exprimer une variété d'expressions faciales, grâce à la façon dont il se connecte à un système d'avatar bien établi appelé SMPL-X. Ce lien signifie que même si la vidéo originale n'a pas une large gamme d'expressions, ExAvatar peut quand même les simuler avec précision.
Comment fonctionne ExAvatar
Le processus commence avec une courte vidéo d'une seule personne. À partir de cette vidéo, nous extrayons des informations clés sur ses mouvements et expressions. Le système construit ensuite un avatar 3D qui peut être animé en fonction des données qu'il a recueillies. L'avatar est flexible et peut être adapté pour montrer différentes expressions faciales et mouvements corporels, même si ceux-ci n'étaient pas présents dans la vidéo originale.
Construction de l'avatar
Traitement de la vidéo : D'abord, nous analysons la vidéo pour comprendre les poses et expressions de la personne. Cela implique d'estimer les positions 3D de diverses parties du corps sur la base des informations 2D disponibles dans la vidéo.
Création du maillage et des points Gaussiens : Nous générons ensuite une structure de maillage qui forme la base de l'avatar. Nous superposons cette structure avec des points Gaussiens qui aident à définir les propriétés de surface de l'avatar.
Animation et rendu : Enfin, quand nous voulons animer l'avatar, nous lui fournissons de nouvelles données de pose et d'expression. La structure hybride lui permet de s'ajuster de manière fluide et réaliste.
L'importance de la connectivité
Une des caractéristiques clés de notre approche est la façon dont nous gérons la connectivité entre les points dans le maillage. Maintenir une connexion claire entre les points aide à prévenir les artefacts ou les déformations étranges lorsque l'avatar bouge. Cela signifie que même si certaines parties du corps n'étaient pas visibles dans la vidéo, l'avatar se comporte toujours de manière réaliste.
En nous concentrant sur la façon dont ces points se connectent, nous améliorons la stabilité et la qualité du résultat animé final. Cette attention aux détails est ce qui distingue ExAvatar de nombreux modèles existants.
Applications dans le monde réel
ExAvatar a le potentiel d'être utilisé dans divers domaines :
Jeux vidéo : Les joueurs peuvent créer des avatars qui leur ressemblent et agissent comme eux, améliorant l'expérience de jeu.
Réalité virtuelle : Dans les environnements virtuels, des avatars réalistes peuvent rendre les interactions plus engageantes et agréables.
Télécommunication : Les gens peuvent utiliser ces avatars lors d'appels vidéo et de réunions virtuelles, rendant la communication plus personnelle.
Animation et film : Les cinéastes peuvent utiliser ExAvatar pour créer des personnages réalistes basés sur les mouvements des interprètes capturés dans des environnements quotidiens.
Comparer ExAvatar à d'autres systèmes
Quand nous avons comparé ExAvatar à des méthodes existantes, il les a surpassées dans divers aspects :
- Expressions faciales : ExAvatar pouvait animer les expressions faciales plus précisément.
- Mouvements des mains : Il a également réussi à inclure des gestes de la main, que beaucoup d'autres systèmes ont ratés.
- Simplicité : ExAvatar n'avait besoin que d'une entrée vidéo basique, ce qui le rend accessible pour les utilisateurs quotidiens.
D'autres systèmes nécessitaient souvent des configurations plus complexes ou des types de données spécifiques, ce qui limitait leur utilisation dans un contexte décontracté.
Expériences et résultats
Nous avons réalisé plusieurs tests avec ExAvatar pour évaluer ses performances dans le rendu et l'animation d'avatars à partir de courtes vidéos. Les résultats ont montré qu'il produisait des textures nettes et des représentations précises des visages et des mains, même sous diverses poses et expressions.
Forces d'ExAvatar
- Sorties photoréalistes : Les avatars créés semblaient très lifelike.
- Efficacité : ExAvatar fonctionnait en temps réel, permettant des animations rapides.
- Adaptabilité : Les avatars pouvaient être facilement personnalisés pour montrer une gamme d'expressions et de poses.
Limitations
Bien qu'ExAvatar représente une avancée significative, il reste encore des domaines à améliorer :
Vêtements dynamiques : La modélisation des vêtements qui se déplacent avec le corps n'est pas encore pleinement développée dans ExAvatar.
Parties du corps cachées : Les parties du corps qui ne sont pas visibles dans la vidéo peuvent poser des défis pour les représenter avec précision.
Directions futures
En regardant vers l'amélioration d'ExAvatar, deux principaux domaines se démarquent pour la recherche future :
Améliorer les zones non observées : Des techniques comme l'échantillonnage par distillation de score pourraient aider à générer des informations pour les parties du corps qui n'ont pas été capturées dans la vidéo.
Ajouter des effets d'éclairage : Rendre les avatars réactifs à différentes conditions d'éclairage pourrait améliorer le réalisme.
Ces deux améliorations bénéficieraient grandement à la qualité réaliste des avatars dans divers contextes.
Conclusion
ExAvatar représente un grand pas en avant dans la technologie des avatars 3D. En utilisant une simple entrée vidéo, il crée des avatars détaillés capables d'exprimer toute une gamme d'émotions humaines à travers les mouvements faciaux et des mains. Bien qu'il y ait encore des défis à relever, notamment dans la modélisation de vêtements dynamiques et de parties du corps non observées, les bases ont été posées pour de futurs développements dans la création d'avatars réalistes. La combinaison de la modélisation maillée et des points Gaussiens fait d'ExAvatar un outil puissant pour créer des représentations numériques lifelike des gens, ouvrant de nouvelles voies dans les jeux, la réalité virtuelle et la communication en ligne.
Titre: Expressive Whole-Body 3D Gaussian Avatar
Résumé: Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.
Auteurs: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
Dernière mise à jour: 2024-07-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.21686
Source PDF: https://arxiv.org/pdf/2407.21686
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.