Avancées dans la génération de mouvements humains
De nouvelles méthodes améliorent la qualité de l'animation grâce à des techniques de composition innovantes.
― 8 min lire
Table des matières
- Le défi de la rareté des données
- Introduction de nouvelles méthodes de composition
- Composition séquentielle expliquée
- Composition parallèle en action
- Composition de modèles pour un contrôle fin
- L'importance des priors de mouvement
- Évaluation des nouvelles méthodes
- Conclusion
- Directions futures
- Études utilisateurs et retour d'expérience
- Dernières pensées
- Source originale
- Liens de référence
La génération de mouvements humains, c'est le processus de création de mouvements qui imitent les actions humaines réelles. Récemment, il y a eu des développements excitants dans ce domaine, grâce aux avancées technologiques et aux nouveaux modèles capables de produire des animations de haute qualité. Ces modèles peuvent prendre des entrées comme du texte pour générer du mouvement, ce qui les rend utiles pour des applications dans le gaming et l'animation.
Le défi de la rareté des données
Un des plus gros défis de la génération de mouvements humains, c'est le manque de données de mouvement disponibles. Les méthodes traditionnelles reposent souvent sur la technologie de capture de mouvement ou des animations créées par des artistes. Les deux approches peuvent être coûteuses et aboutir à des jeux de données réduits qui ne couvrent pas une grande variété de mouvements. La plupart des modèles actuels sont formés sur des séquences courtes et d'une seule personne, ce qui rend difficile la génération d'interactions entre plusieurs personnes ou de longues séquences de mouvements.
Introduction de nouvelles méthodes de composition
Pour s'attaquer à ces problèmes, trois nouvelles méthodes de combinaison de mouvements ont été proposées :
Composition séquentielle : Cette méthode génère un long mouvement en assemblant des séquences plus courtes. En contrôlant l'entrée textuelle pour chaque partie, l'animation devient cohérente.
Composition parallèle : Cette approche permet de générer des mouvements pour deux personnes interagissant en même temps à partir d'un prompt textuel. Chaque personne peut avoir des mouvements distincts, mais ils sont créés simultanément.
Composition de modèles : Cette méthode mélange différents modèles pour contrôler divers aspects du mouvement. Par exemple, un modèle pourrait se concentrer sur les mouvements des bras tandis qu'un autre gère les mouvements des jambes.
Composition séquentielle expliquée
La méthode de composition séquentielle, appelée DoubleTake, permet aux utilisateurs de créer des animations étendues en combinant des clips plus courts. Ça fonctionne en générant chaque segment du mouvement tout en gardant à l'esprit les mouvements avant et après. Cette approche garantit que les transitions entre les différents segments soient fluides et naturelles.
DoubleTake fonctionne en deux phases. Dans la première phase, chaque segment de mouvement est généré en tenant compte des segments environnants. La seconde phase affine les transitions entre ces segments, améliorant leur réalisme. Cette méthode a montré des résultats prometteurs, démontrant la capacité de créer de longs mouvements continus, même avec un modèle qui était à l'origine formé sur des clips plus courts.
Composition parallèle en action
La composition parallèle se concentre sur la création d'animations à deux personnes. En entraînant deux modèles fixes, chacun responsable des mouvements d'un personnage, le processus d'interaction devient plus simple. Une couche de communication légère, appelée ComMDM, est mise en place pour aider les deux modèles à partager des informations pendant le processus de génération. Cela permet une interaction plus coordonnée entre les personnages, même avec une quantité limitée de données d'entraînement.
L'idée, c'est de permettre à chaque personnage de rester dans les limites d'un mouvement réaliste tout en leur permettant de réagir aux actions de l'autre. Cette approche a un potentiel pour des applications plus larges, surtout dans le gaming et le storytelling animé.
Composition de modèles pour un contrôle fin
La composition de modèles permet un contrôle détaillé sur divers mouvements en combinant différents modèles entraînés pour des tâches spécifiques. Par exemple, un modèle entraîné pour contrôler le mouvement du bras gauche d'un personnage peut être mélangé avec un autre modèle axé sur les mouvements des jambes. Cette méthode, appelée DiffusionBlending, permet des animations complexes où plusieurs aspects du mouvement peuvent être définis.
Cette technique garantit que l'animation résultante est cohérente et correspond correctement aux caractéristiques de contrôle définies par l'utilisateur. En mélangeant plusieurs modèles ajustés, les utilisateurs peuvent créer des mouvements très spécifiques qui paraissent toujours fluides et naturels.
L'importance des priors de mouvement
Les priors de mouvement sont des modèles fondamentaux qui guident la génération de mouvements humains. Ces priors capturent l'essence de la façon dont les humains se déplacent et servent de base pour générer de nouvelles séquences. Ils aident à combler le fossé là où les données sont rares en permettant la génération de mouvements qui s'alignent avec les modèles appris.
Les méthodes proposées utilisent efficacement des modèles pré-entraînés, ce qui signifie qu'elles tirent parti des connaissances acquises à partir de vastes ensembles de données. Cela permet plus de flexibilité dans la génération de nouveaux mouvements sans avoir besoin de nouveaux ensembles de données extensifs.
Évaluation des nouvelles méthodes
Les nouvelles méthodes de composition ont été évaluées pour leur performance dans la génération de mouvements humains. Les tests ont montré que ces méthodes peuvent produire des animations de haute qualité qui sont cohérentes sur de longues séquences. Elles surclassent également les techniques précédentes qui se concentraient uniquement sur la génération de mouvements courts.
En utilisant ces méthodes, il est possible de créer des animations qui sont non seulement plus longues mais aussi plus riches en détails. Les évaluations indiquent une amélioration significative lors de la génération d'interactions impliquant plusieurs personnages, soulignant l'importance de la coordination dans l'animation.
Conclusion
En résumé, les avancées dans la génération de mouvements humains montrent de belles promesses. L'introduction des méthodes de composition séquentielle, parallèle et de modèles permet de synthétiser des mouvements de manière innovante. En utilisant efficacement les priors de mouvement, ces techniques peuvent surmonter les limitations posées par la rareté des données et permettre une liberté créative dans l'animation.
Ce travail ouvre la voie à de futurs développements dans le domaine, créant des opportunités pour des animations plus riches et réalistes. Avec une exploration continue et un perfectionnement, ces méthodes pourraient transformer la manière dont les animations sont créées, les rendant plus accessibles aux professionnels comme aux nouveaux venus dans l'industrie.
Directions futures
Le paysage de la génération de mouvements humains évolue rapidement. À l'avenir, il y a de nombreuses zones à améliorer et à explorer. Par exemple, améliorer la qualité des longues séquences et s'assurer qu'elles maintiennent la cohérence reste un défi. D'autres recherches pourraient se concentrer sur la création de modèles capables de s'adapter à des entrées plus diverses, y compris les interactions environnementales et les mouvements complexes des personnages.
Une autre zone à considérer est d'élargir les capacités de génération à deux personnes. Savoir créer un contact réaliste et des interactions entre les personnages est crucial pour développer des animations crédibles. Les avancées futures pourraient impliquer des ensembles de données d'entraînement plus grands, permettant aux modèles de capturer une plus large gamme d'interactions humaines.
De plus, les techniques développées pourraient être appliquées à d'autres domaines au-delà de l'animation, comme la robotique ou la réalité virtuelle. Adapter ces méthodes à de nouveaux domaines peut conduire à des applications innovantes, changeant fondamentalement notre approche de la génération de mouvements.
Études utilisateurs et retour d'expérience
Pour s'assurer que les nouvelles techniques répondent aux attentes des utilisateurs, la réalisation d'études utilisateurs est essentielle. Rassembler les retours d'expérience d'animateurs et d'utilisateurs aidera à affiner ces méthodes et à les rendre plus efficaces. Comprendre les besoins et les préférences des utilisateurs peut guider les itérations futures des modèles, conduisant à des améliorations qui répondent directement aux défis du monde réel.
En s'engageant avec la communauté et en intégrant les retours des utilisateurs, le développement de la génération de mouvements humains peut continuer à s'améliorer avec une pertinence pratique. Cet engagement aidera à combler le fossé entre des modèles sophistiqués et les besoins des utilisateurs finaux, favorisant une innovation ancrée dans des cas d'utilisation concrets.
Dernières pensées
Les avancées dans la génération de mouvements humains représentent une avancée significative dans le domaine de l'animation et au-delà. En tirant parti de nouvelles techniques et en comprenant les subtilités du mouvement humain, le potentiel de créer des animations captivantes et réalistes est plus grand que jamais.
Alors que la recherche continue et que les méthodes sont perfectionnées, l'avenir de la génération de mouvements humains s'annonce radieux. L'intégration d'approches innovantes et l'engagement continu à traiter les limitations des données promettent d'enrichir le monde de l'animation, le rendant plus accessible à un public plus large.
Titre: Human Motion Diffusion as a Generative Prior
Résumé: Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.
Auteurs: Yonatan Shafir, Guy Tevet, Roy Kapon, Amit H. Bermano
Dernière mise à jour: 2023-08-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.01418
Source PDF: https://arxiv.org/pdf/2303.01418
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.