Présentation de Motion Avatar : Une nouvelle approche des personnages 3D dynamiques
Une nouvelle méthode permet de créer des avatars humains et animaux personnalisables à partir de descriptions textuelles.
― 13 min lire
Table des matières
- Key Contributions
- Aperçu de Motion Avatar
- Progrès Actuels
- Notre approche pour relever les défis
- Travaux Associés
- Création du Dataset Zoo-300K et ZooGen
- Dataset de mouvements humains
- Dataset QA d'Avatar
- Conception du Planificateur LLM
- Processus de génération de mouvements
- Création de maillage d'avatar
- Évaluation du planificateur LLM
- Évaluation de la génération de mouvements
- Évaluation de la génération d'avatars
- Conclusion
- Étude utilisateur
- Source originale
- Liens de référence
Récemment, beaucoup de gens s'intéressent à la création d'avatars et de mouvements en trois dimensions (3D). Ces avatars ont plein d'utilités, comme dans les films, les jeux vidéo, la réalité virtuelle, et même dans la façon dont les robots interagissent avec les humains. Cependant, la plupart des méthodes actuelles se concentrent soit sur la création de l'avatar seul, soit sur les mouvements séparément, ce qui rend difficile de combiner les deux efficacement. En plus, alors que la plupart des systèmes génèrent des avatars pour les humains, créer une technologie similaire pour les animaux s'est avéré compliqué à cause du manque de données et de méthodes adaptées. Notre étude présente une nouvelle approche appelée Motion Avatar, qui aide à générer automatiquement des avatars humains et animaux personnalisables avec des mouvements basés sur des descriptions textuelles. Ce document met en avant trois contributions principales pour relever ces défis.
Key Contributions
1. Approche Motion Avatar
On a proposé Motion Avatar, une nouvelle méthode qui utilise une approche basée sur des agents pour créer des avatars humains et animaux personnalisables et de haute qualité avec des mouvements en se basant uniquement sur des requêtes textuelles. Cette avancée représente un grand pas en avant pour créer des personnages 3D dynamiques, permettant aux utilisateurs de générer des personnages réalistes avec des mouvements adaptés à leurs besoins.
2. Planificateur LLM
La deuxième contribution est l'introduction d'un planificateur LLM (Large Language Model) qui coordonne à la fois la génération de mouvements et d'avatars. Au lieu de traiter la planification comme une tâche rigide, ce planificateur permet un processus plus flexible de questions-réponses, facilitant l'obtention des avatars et mouvements souhaités par les utilisateurs.
3. Dataset de mouvements animaux
Enfin, on a introduit un dataset appelé Zoo-300K, qui contient environ 300 000 paires de textes et de mouvements à travers 65 catégories d'animaux différentes. Ce dataset vise à combler le manque de données d'entraînement pour les mouvements animaux, fournissant une ressource précieuse pour les chercheurs travaillant dans ce domaine.
Aperçu de Motion Avatar
Motion Avatar utilise une méthode basée sur un agent LLM pour gérer les demandes des utilisateurs et produire des prompts spécifiques. Ces prompts aident à générer des séquences de mouvement et à créer des maillages 3D. La génération de mouvements se fait étape par étape, tandis que la génération de maillage suit un cadre qui convertit des images en modèles 3D. Après cela, le maillage créé passe par un processus de rigging automatique, ce qui permet d'appliquer des mouvements au maillage riggé.
Importance des avatars 3D dynamiques
La création d'avatars 3D dynamiques est essentielle pour de nombreux domaines, y compris la robotique, le jeu vidéo et les multimédias. L'objectif de faire des avatars animés de haute qualité est quelque chose que beaucoup dans la communauté de vision par ordinateur 3D cherchent à atteindre. Cela implique non seulement l'apparence des avatars, mais aussi leur fonctionnement et leur facilité d'utilisation.
Les méthodes traditionnelles prennent souvent des informations provenant de vidéos et les analysent pour créer des avatars dynamiques. D'autres méthodes mélangent la reconstruction 3D avec des techniques vidéo pour animer des maillages 3D. Cependant, ces méthodes rencontrent souvent des problèmes comme un mauvais contrôle des mouvements ou des incohérences quand on les regarde sous différents angles. Ces problèmes compliquent l'utilisation efficace d'avatars dynamiques dans des scénarios réels.
Progrès Actuels
Des avancées récentes dans la génération de mouvements à partir de textes en utilisant divers modèles ont montré un grand potentiel. Ces améliorations ont facilité la génération de séquences de mouvements directement à partir de descriptions écrites, apportant une nouvelle approche à la Génération d'Avatars. En même temps, les avancées dans la reconstruction et la création de maillages 3D ont également été significatives. Malgré ces progrès, la plupart des efforts se concentrent encore sur la création soit de l'avatar, soit du mouvement de manière indépendante, et l'intégration réussie des deux reste un défi.
Défis avec les animaux
Alors que de nombreuses techniques se concentrent sur la création d'avatars et de mouvements pour les humains, adapter ces méthodes aux animaux est plutôt difficile. Cette difficulté vient souvent du manque de données d'entraînement et des limites des méthodes existantes. Pour élargir efficacement ces technologies afin d'inclure des personnages animaux, il nous faut de nouvelles méthodes et une compréhension plus approfondie du comportement animal.
Notre approche pour relever les défis
Pour aborder ces problèmes, notre recherche expose les trois contributions clés suivantes :
1. Motion Avatar
Comme mentionné, on a introduit Motion Avatar. Cette approche permet aux utilisateurs de créer des avatars humains et animaux personnalisables avec des mouvements dynamiques basés uniquement sur leur saisie textuelle. Cette innovation offre une méthode améliorée pour générer des personnages 3D et permet plus de flexibilité et de personnalisation.
2. Planificateur LLM
Notre planificateur LLM aide à gérer le processus de génération à la fois d'avatars et de mouvements. Il utilise une approche flexible qui s'adapte aux futures tâches liées à la création d'avatars dynamiques, garantissant qu'il peut servir un public plus large au fil du temps.
3. Dataset de mouvements animaux - Zoo-300K
Le dataset Zoo-300K constitue une partie importante de notre étude. Il contient environ 300 000 paires de descriptions textuelles et de données de mouvements correspondants couvrant 65 catégories d'animaux. Ce dataset complet peut être utilisé pour former des modèles afin de mieux comprendre et générer des mouvements animaux.
Travaux Associés
Génération de mouvements à partir de texte
Créer des mouvements est essentiel dans la vision par ordinateur, avec diverses applications allant de l'animation vidéo au contrôle de robots. Une méthode bien connue dans ce domaine s'appelle la génération Text-to-Motion, qui relie des descriptions textuelles à des données de mouvements dans un espace partagé. Une grande partie de la recherche s'est concentrée sur la génération de mouvements humains.
Certaines méthodes, comme MotionCLIP, utilisent des modèles avancés pour reconstruire des séquences de mouvements tout en s'assurant qu'elles s'alignent sur des étiquettes textuelles correspondantes. D'autres, comme MotionDiffuse, ont introduit de nouveaux cadres qui utilisent des modèles de diffusion pour générer des mouvements basés sur du texte, montrant des résultats prometteurs.
Cependant, générer des mouvements animaux reste plus difficile à cause de données limitées et de représentations inconsistantes. Certaines récentes initiatives, comme OmniMotionGPT, visent à créer des mouvements animaux réalistes à partir de descriptions textuelles, montrant des améliorations par rapport aux méthodes traditionnelles.
Génération d'avatars
Les recherches antérieures sur la création d'avatars 3D s'inspiraient souvent de techniques qui génèrent des images 2D basées sur du texte. Beaucoup de ces méthodes ont soit formé des modèles sur la base de descriptions textuelles, soit utilisé un processus étape par étape pour créer des avatars 3D détaillés. Certaines contributions notables ont montré des résultats impressionnants dans la génération d'avatars 3D à partir de texte sans nécessiter de support 3D direct.
Agents LLM
Les avancées récentes dans l'utilisation des agents LLM ont montré leur capacité à imiter une pensée humaine. Des études ont introduit des agents qui planifient et participent de manière autonome à des activités sociales, marquant un progrès significatif vers des systèmes intelligents.
Création du Dataset Zoo-300K et ZooGen
Un des grands défis pour créer des mouvements animaux réalistes est le manque de données incluant à la fois des mouvements animaux et des descriptions textuelles. Alors qu'il y a eu beaucoup de datasets pour les mouvements humains, ceux pour les animaux sont extrêmement limités.
Pour y remédier, on a créé le dataset Zoo-300K qui se compose d'environ 300 000 paires de descriptions textuelles et de mouvements animaux correspondants couvrant diverses catégories animales. La construction de ce dataset a été facilitée par ZooGen, un pipeline conçu pour aider à créer de tels datasets basés sur du texte.
Processus de Pipeline
Le pipeline ZooGen comprend plusieurs étapes. Dans un premier temps, on a utilisé des mouvements animaux existants d'un dataset sélectionné par des humains. Pour chaque mouvement, on a formé des modèles spécifiques pour améliorer et modifier les mouvements. Ensuite, on a utilisé des modèles linguistiques avancés pour décrire les mouvements en détail. Enfin, des revues humaines ont été menées pour garantir la qualité des descriptions utilisées dans le dataset Zoo-300K.
Dataset de mouvements humains
Pour les mouvements humains, on a utilisé le dataset HumanML3D, qui comprend une collection diversifiée de plus de 14 000 instances de mouvement associées à du texte descriptif. Ce dataset couvre une large variété d'actions comme danser, faire de l'exercice, et plus, fournissant une base bien arrondie pour évaluer la génération de mouvements humains.
Dataset QA d'Avatar
Pour améliorer notre planificateur LLM, on a développé le dataset QA d'avatar, qui permet de tester et d'ajuster le planificateur. Ce dataset contient plusieurs exemples de commandes d'entrée et leurs sorties correspondantes, visant à évaluer la capacité du planificateur à reconnaître différents mouvements et catégories animales basés sur des descriptions en langage naturel.
Conception du Planificateur LLM
L'objectif principal du planificateur LLM est d'aider à extraire facilement des informations utiles des prompts des utilisateurs. On a configuré le planificateur en utilisant un cadre spécifique pour s'assurer qu'il répond aux besoins de génération de mouvements d'avatar. En entraînant ce planificateur par le biais de l'instruction tuning, on l'a adapté pour mieux identifier différents mouvements et types d'avatars demandés par les utilisateurs.
Ce planificateur peut générer les prompts nécessaires à la création de mouvements et d'avatars, rationalisant le processus global. On croit que le planificateur LLM améliorera sa capacité à reconnaître les sujets principaux dans les dialogues des utilisateurs, permettant une création d'animations plus polyvalente à l'avenir.
Processus de génération de mouvements
La génération de mouvements pour les avatars implique un processus d'entraînement en deux étapes. La première étape consiste à compresser les séquences de mouvement dans un format plus simple, qui peut ensuite être décodé pour être reconstruit.
Dans la seconde phase, on entraîne simultanément différents modèles capables de prédire et de recréer les mouvements attendus en fonction des descriptions données. Cela permet à notre système de générer des mouvements avec précision à partir de prompts textuels en temps réel.
Création de maillage d'avatar
Pour créer des maillages d'avatar, on a dû partir d'une représentation 2D de l'avatar. Pour ce faire, on a utilisé un cadre de conception qui aide à convertir des images 2D en modèles 3D. Ce processus implique plusieurs étapes, y compris la création d'une représentation 3D basée sur le design 2D, qui est ensuite utilisée pour construire un maillage pleinement fonctionnel.
Une fois le maillage créé, on utilise des méthodes pour le rigging correctement. Le rigging est essentiel car il permet aux mouvements définis précédemment d'être transférés sur le maillage de manière efficace, garantissant que l'avatar peut bouger comme prévu.
Évaluation du planificateur LLM
On a évalué en profondeur la performance du planificateur LLM en le comparant à des modèles existants. Cette évaluation était cruciale pour comprendre à quel point le planificateur pouvait identifier différents types de mouvements et catégories d'avatars basés sur les saisies des utilisateurs. Nos résultats ont montré des perspectives prometteuses, indiquant que le planificateur fonctionnait efficacement pour coordonner diverses tâches liées à la génération d'avatars dynamiques.
Évaluation de la génération de mouvements
Étant donné qu'il y a déjà eu une évaluation considérable de la génération de mouvements humains, on a déplacé notre attention vers les mouvements animaux. On prévoyait de réaliser des évaluations quantitatives ainsi que des examens qualitatifs pour assurer l'efficacité de notre modèle. Cette évaluation illustrerait à quel point notre système peut générer des mouvements animaux réalistes basés sur des conditions textuelles.
Évaluation de la génération d'avatars
On a également examiné les processus impliqués dans la création d'avatars 3D en utilisant les catégories de personnages du dataset Zoo-300K. Nos tests ont révélé que notre méthode pouvait générer des avatars 3D de haute qualité et détaillés, montrant son potentiel pour des applications d'animation pratiques.
Conclusion
En résumé, notre étude aborde les défis persistants dans la création d'avatars 3D dynamiques. On a introduit notre méthode Motion Avatar, qui simplifie le processus de génération d'avatars humains et animaux personnalisables avec des mouvements basés sur du texte. De plus, notre planificateur LLM améliore la coordination entre la génération de mouvements et d'avatars, élargissant la portée d'application. En créant le dataset Zoo-300K, on offre aussi des ressources précieuses pour soutenir les chercheurs dans ce domaine. Nos innovations visent à repousser les limites de la génération d'avatars dynamiques dans divers domaines.
Étude utilisateur
Pour évaluer l'efficacité de notre génération d'avatars en mouvement, on a réalisé une étude utilisateur extensive. Cette étude avait pour but d'évaluer l'applicabilité dans le monde réel à travers des méthodes tant qualitatives que quantitatives. On a présenté aux participants quatre vidéos de mouvements uniques créées avec Motion Avatar basées sur divers prompts.
Les participants ont évalué les vidéos sur plusieurs aspects, y compris la précision des mouvements, la qualité du maillage, l'intégration des mouvements avec l'avatar, et leur engagement émotionnel global avec les animations.
Aspects d'évaluation clés
Précision des mouvements : Les participants ont noté à quel point les mouvements semblaient naturels et précis. La plupart leur ont attribué des notes élevées, montrant une forte ressemblance avec des mouvements réels.
Qualité du maillage : L'attrait visuel et le détail des avatars ont été évalués, avec des scores élevés reflétant la qualité impressionnante des modèles générés.
Intégration des mouvements et du maillage : Les participants ont recherché une intégration fluide entre les mouvements et le maillage, ce qui a reçu des retours positifs pour améliorer le réalisme.
Engagement des utilisateurs : Enfin, les participants ont exprimé à quel point ils trouvaient les animations engageantes, beaucoup ayant noté positivement leur expérience.
Les résultats ont suggéré qu'un grand pourcentage de participants pensait que les animations pouvaient être utilisées dans des applications réelles sans nécessiter de changements significatifs. Ce retour d'information souligne la haute qualité et l'utilité des animations produites par Motion Avatar, confirmant leur potentiel pour une large application dans divers contextes.
Titre: Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion
Résumé: In recent years, there has been significant interest in creating 3D avatars and motions, driven by their diverse applications in areas like film-making, video games, AR/VR, and human-robot interaction. However, current efforts primarily concentrate on either generating the 3D avatar mesh alone or producing motion sequences, with integrating these two aspects proving to be a persistent challenge. Additionally, while avatar and motion generation predominantly target humans, extending these techniques to animals remains a significant challenge due to inadequate training data and methods. To bridge these gaps, our paper presents three key contributions. Firstly, we proposed a novel agent-based approach named Motion Avatar, which allows for the automatic generation of high-quality customizable human and animal avatars with motions through text queries. The method significantly advanced the progress in dynamic 3D character generation. Secondly, we introduced a LLM planner that coordinates both motion and avatar generation, which transforms a discriminative planning into a customizable Q&A fashion. Lastly, we presented an animal motion dataset named Zoo-300K, comprising approximately 300,000 text-motion pairs across 65 animal categories and its building pipeline ZooGen, which serves as a valuable resource for the community. See project website https://steve-zeyu-zhang.github.io/MotionAvatar/
Auteurs: Zeyu Zhang, Yiran Wang, Biao Wu, Shuo Chen, Zhiyuan Zhang, Shiya Huang, Wenbo Zhang, Meng Fang, Ling Chen, Yang Zhao
Dernière mise à jour: 2024-08-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.11286
Source PDF: https://arxiv.org/pdf/2405.11286
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.