Approche innovante pour la synthèse de mouvement de personnage
MCS-T propose une nouvelle façon de créer des mouvements de personnages réalistes en utilisant des données passées.
― 8 min lire
Table des matières
Créer des mouvements réalistes pour les personnages dans les jeux vidéo et les simulations, c'est un objectif courant en infographie. Grâce à l'apprentissage profond, on peut faire bouger ces personnages de manière fluide et contrôlée sans passer trop de temps sur des ajustements manuels. Cet article présente une nouvelle approche appelée le Transformer conscient des Signaux de contrôle multi-échelle (MCS-T) pour atteindre cet objectif.
Contexte
Il existe plein de méthodes pour aider les ordinateurs à générer des mouvements humains. Traditionnellement, ça impliquait d'utiliser beaucoup d'infos supplémentaires, comme les phases de mouvement, pour guider l'ordinateur. Mais cette dépendance à des détails supplémentaires limite souvent la capacité de ces systèmes à s'adapter à de nouvelles situations. On pense que les mouvements passés peuvent donner des indices précieux pour créer de nouveaux mouvements sans avoir besoin d'infos supplémentaires.
Le défi de la Synthèse de mouvement
Générer un mouvement dynamique à partir de simples signaux de contrôle peut être difficile. Les signaux de contrôle sont souvent faibles, ce qui signifie qu'il peut y avoir plein de façons différentes dont un personnage pourrait bouger. Les méthodes existantes s'appuient généralement sur des infos supplémentaires liées au contact d'un personnage avec le sol pour savoir comment bouger. Cependant, ces infos ne sont pas toujours disponibles, et les collecter peut prendre du temps.
Approches précédentes
Les méthodes antérieures, comme les réseaux de neurones récurrents (RNN), ont essayé de prédire les mouvements futurs en se basant sur les mouvements passés. Ces méthodes fonctionnent mieux quand il y a beaucoup de données de mouvement passées à utiliser. Pourtant, elles ont souvent du mal à suivre les changements rapides de mouvement, menant à des réponses lentes.
Transformer conscient des signaux de contrôle multi-échelle (MCS-T)
Le MCS-T propose une nouvelle approche pour générer des mouvements. Au lieu de se fier à des données externes comme les phases, il se concentre sur les mouvements passés du personnage. Il utilise une structure spéciale appelée Encodeur-Décodeur.
Structure d'encodeur et de décodeur
L'encodeur prend des modèles de mouvement historiques et les décompose en différentes échelles utilisant des représentations de squelette. En examinant ces différents niveaux de détail, l'encodeur apprend les mouvements du personnage au fil du temps. Il identifie des aspects importants du mouvement sans avoir besoin d'infos supplémentaires.
Le décodeur utilise ensuite ces modèles appris avec les signaux de contrôle pour générer la prochaine pose du personnage. Ce système permet d'être plus réactif et de créer des transitions entre différents mouvements de manière plus fluide.
Configuration expérimentale
Pour tester l'efficacité du MCS-T, on l'a évalué sur un ensemble de données rempli de divers types de mouvements de marche. Cet ensemble était riche en différents mouvements, terrains et vitesses. La performance du MCS-T a été comparée à d'autres méthodes qui dépendent généralement d'infos supplémentaires.
Données de capture de mouvement
Les données de mouvement utilisées pour les expériences provenaient de plusieurs sources, et comprenaient des milliers d'échantillons de mouvement. Un personnage bipède a été utilisé pendant les expériences, ce qui signifie qu'il avait deux jambes et bougeait comme un humain.
Résultats
Qualité du mouvement
Les résultats expérimentaux ont montré que le MCS-T peut créer des mouvements à la fois réactifs et dynamiques, comparables aux méthodes traditionnelles qui dépendent d'infos supplémentaires. Il a réussi à générer des mouvements fluides dans différents scénarios.
Réactivité du mouvement
Un des critères clés de la qualité du mouvement était la rapidité avec laquelle un personnage pouvait s'adapter à de nouvelles commandes. Le MCS-T a surpassé les modèles précédents en répondant rapidement aux changements, produisant des mouvements qui semblaient naturels plutôt que robotiques.
Avantages du MCS-T
Le MCS-T a plusieurs avantages par rapport aux méthodes précédentes qui reposent sur des systèmes plus complexes.
Conception indépendante des tâches
Comme le MCS-T n'a pas besoin d'infos supplémentaires sur les phases ou les états de contact spécifiques, il peut fonctionner de manière flexible à travers divers types de mouvements. Cette caractéristique le rend plus facile à utiliser dans différentes applications sans nécessiter de modifications étendues.
Efficacité dans la génération de mouvement
En utilisant une approche multi-échelle, le MCS-T peut analyser efficacement les mouvements des personnages. Au lieu d'utiliser de grandes quantités de données pour créer des modèles complexes, il apprend des mouvements passés et génère de nouveaux en temps réel.
Travaux connexes
Bien que le MCS-T offre une approche novatrice, il est important de prendre en compte d'autres méthodes qui ont été développées pour la synthèse de mouvement.
Méthodes cinématiques
Certaines méthodes se sont concentrées uniquement sur la structure physique du personnage sans considérer les forces derrière leurs mouvements. Par exemple, les méthodes basées sur la recherche visent à trouver des chemins dans un graphe représentant des séquences de mouvement. Bien que cette méthode soit efficace, elle nécessite souvent des connaissances expertes pour créer des correspondances utiles.
Approches de réseaux de neurones
D'autres approches utilisent des réseaux de neurones pour prédire des mouvements directement à partir des poses précédentes. Les RNN et d'autres architectures ont montré des promesses, mais elles ont souvent du mal avec des transitions lentes et peuvent être rigides dans leurs réponses.
Modèles génératifs
Les modèles génératifs tentent de créer une gamme de mouvements possibles plutôt que de simplement prédire une seule pose. Ces modèles ne dépendent souvent pas d'infos externes, mais nécessitent un ensemble de données équilibré pour éviter des limites dans la synthèse de mouvement.
Avantages des squelettes multi-échelle
Le MCS-T implique l'utilisation de squelettes multi-échelles pour représenter le mouvement. Cette méthode offre une meilleure compréhension des divers modèles de mouvement et enrichit la qualité globale du mouvement.
Squelettes de niveaux grossiers et fins
L'approche décompose les mouvements en niveaux grossiers et fins. Le niveau grossier donne une vue d'ensemble de la pose du personnage, tandis que le niveau fin capture des mouvements détaillés. Cette combinaison aide à améliorer la réactivité lors des transitions entre différentes actions.
Conscience des signaux de contrôle
Une des caractéristiques clés du MCS-T est son mécanisme conscient des signaux de contrôle. Le décodeur utilise les signaux de contrôle comme guide pour prédire les prochains mouvements. Ce design permet au système d'être étroitement lié aux entrées de l'utilisateur en temps réel, menant à des actions plus réactives.
Limitations et travaux futurs
Bien que le MCS-T montre un grand potentiel, il n'est pas sans limitations.
Défis avec les mouvements rares
Certains mouvements spécialisés peuvent ne pas être bien synthétisés car ils n'apparaissent pas fréquemment dans les données d'entraînement. Donc, résoudre les problèmes liés aux actions moins courantes pourrait améliorer la performance globale.
Risques d'accumulation d'erreurs
Si un personnage reste coincé dans une pose étrange à cause de petites erreurs de modèle, cela peut conduire à des mouvements non naturels. Cependant, le système peut se remettre de ces situations si de nouveaux signaux de contrôle sont fournis.
À l'avenir, les chercheurs prévoient d'améliorer encore le MCS-T en explorant des stratégies adaptatives pour sélectionner les cadres passés. Cela pourrait conduire à une génération de mouvements encore plus affinée.
Conclusion
En résumé, le MCS-T représente une approche innovante pour la synthèse de mouvement des personnages en infographie. En utilisant les données de mouvement passées et une méthode multi-échelle, il produit efficacement des mouvements réactifs et dynamiques sans avoir besoin d'infos auxiliaires étendues. Les expériences démontrent son efficacité, en faisant un candidat solide pour diverses applications dans les jeux, la robotique et les environnements virtuels. De futures améliorations pourraient l'aider à gérer un éventail de mouvements plus large et à diminuer les risques liés à l'accumulation d'erreurs.
Titre: Multi-Scale Control Signal-Aware Transformer for Motion Synthesis without Phase
Résumé: Synthesizing controllable motion for a character using deep learning has been a promising approach due to its potential to learn a compact model without laborious feature engineering. To produce dynamic motion from weak control signals such as desired paths, existing methods often require auxiliary information such as phases for alleviating motion ambiguity, which limits their generalisation capability. As past poses often contain useful auxiliary hints, in this paper, we propose a task-agnostic deep learning method, namely Multi-scale Control Signal-aware Transformer (MCS-T), with an attention based encoder-decoder architecture to discover the auxiliary information implicitly for synthesizing controllable motion without explicitly requiring auxiliary information such as phase. Specifically, an encoder is devised to adaptively formulate the motion patterns of a character's past poses with multi-scale skeletons, and a decoder driven by control signals to further synthesize and predict the character's state by paying context-specialised attention to the encoded past motion patterns. As a result, it helps alleviate the issues of low responsiveness and slow transition which often happen in conventional methods not using auxiliary information. Both qualitative and quantitative experimental results on an existing biped locomotion dataset, which involves diverse types of motion transitions, demonstrate the effectiveness of our method. In particular, MCS-T is able to successfully generate motions comparable to those generated by the methods using auxiliary information.
Auteurs: Lintao Wang, Kun Hu, Lei Bai, Yu Ding, Wanli Ouyang, Zhiyong Wang
Dernière mise à jour: 2023-03-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.01685
Source PDF: https://arxiv.org/pdf/2303.01685
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.