Évaluer les techniques d'animation texte-en-mouvement
Un aperçu pour améliorer la génération de mouvements humains à partir de descriptions textuelles.
― 7 min lire
Table des matières
Créer des mouvements humains réalistes en animation est super important pour plein de domaines, comme les films et les jeux vidéo. Dernièrement, y'a de plus en plus d'engouement pour générer ces mouvements à partir de descriptions textuelles, ce qu'on appelle le text-to-motion. En gros, les utilisateurs peuvent décrire les actions qu'ils veulent que le personnage fasse, comme courir ou sauter, et l'animation peut générer les mouvements correspondants.
Pourquoi le Text-to-Motion est Important
La génération de text-to-motion facilite la vie des créateurs pour contrôler comment bougent les personnages. Avec un langage simple, les utilisateurs peuvent préciser ce qu'ils veulent que le personnage fasse. Ça peut être des actions générales comme courir ou des mouvements spécifiques comme donner un coup de pied ou lancer. Le but, c’est de produire une séquence de mouvements qui a l'air réaliste et correspond à la description donnée.
Le Besoin de Bonnes Métriques d'Évaluation
Pour améliorer la génération de mouvements humains à partir de textes, c'est essentiel d'avoir un moyen fiable d'évaluer la qualité des mouvements générés. Bien que le jugement humain soit souvent vu comme la meilleure méthode, c'est long et coûteux, surtout quand on regarde beaucoup d'échantillons. L'aléatoire dans beaucoup de modèles modernes rend ça encore plus compliqué, car ça nécessite plusieurs essais pour obtenir des résultats précis.
Notre objectif principal est d'identifier la meilleure métrique automatisée pour évaluer les mouvements humains générés à partir de descriptions textuelles. Par "meilleure", on entend la métrique qui est la plus en phase avec les évaluations humaines. Il y a déjà plusieurs métriques en usage, mais aucune n'a vraiment résolu ce problème. Établir des métriques qui corrèlent bien avec les retours humains est crucial pour faire avancer les méthodes de génération text-to-motion.
Nouvelles Métriques Proposées
Pour soutenir les métriques existantes, on propose de nouvelles qui améliorent la corrélation avec les retours humains. Ces nouvelles métriques sont faites pour être utilisées dans l'entraînement des modèles, ce qui facilite l'amélioration des performances. Une métrique à noter est MoBERT, un modèle qui fournit des scores d'évaluation directement liés à la manière dont les humains jugent les mouvements générés.
Quand on évalue la qualité des mouvements humains, on se concentre sur deux aspects principaux :
Naturel : Ça mesure à quel point le mouvement a l'air réaliste pour les spectateurs. Les mouvements qui semblent bizarres ou peu Naturels, ou qui manquent d’actions appropriées, obtiennent un score bas.
Fidélité : Ça vérifie à quel point le mouvement généré correspond à la description textuelle. Si des parties clés de la description manquent ou que des actions inutiles sont ajoutées, le score est plus bas.
Contributions Clés
On a fait plusieurs contributions importantes dans ce domaine :
- Créé un dataset avec des paires de mouvements et de descriptions textuelles, avec des notes humaines pour le Naturel et la Fidélité.
- Évalué les métriques automatisées existantes utilisées dans la génération text-to-motion en les comparant aux jugements humains.
- Développé de nouvelles métriques automatisées performantes, y compris MoBERT, qui montre de fortes corrélations avec les évaluations humaines pour cette tâche.
Recherche de Fond sur la Génération de Mouvements Humains
Différentes recherches ont examiné la génération de mouvements humains, divisées en méthodes non conditionnées et conditionnées. Les premières méthodes reposaient sur des modèles statistiques alors que les approches récentes explorent des techniques d'apprentissage profond. Certaines études se sont concentrées sur la prévision des mouvements futurs basés sur des actions passées en utilisant des modèles comme les Autoencodeurs Variationnels (VAE) ou les Réseaux Antagonistes Génératifs (GAN).
Pour la génération de mouvements conditionnés, les chercheurs ont testé différentes manières de définir des conditions. Les premiers efforts utilisaient des approches simples, tandis que les études plus récentes intégraient des connexions plus sophistiquées, permettant un contrôle détaillé sur les mouvements individuels et le timing.
Évaluation de la Génération de Mouvements
De nombreuses métriques ont été utilisées pour évaluer les sorties text-to-motion. Les premières méthodes calculaien les erreurs moyennes entre les mouvements réels et générés. Cependant, des métriques plus avancées, comme la Distance de Fréchet (FID), mesurent à quel point les mouvements générés correspondent à une distribution de mouvements réels.
Collecte de Prompts de Mouvements
Pour créer notre dataset, on a collecté des prompts de mouvements pour assurer la diversité. En utilisant un modèle de langage avancé, on a formé une large gamme de prompts et généré divers mouvements pour l'évaluation. Chaque modèle produisait un nombre donné de cadres de mouvements, et on a prêté une attention particulière à la qualité de la représentation du mouvement pendant l'évaluation.
Collecte de Notations Humaines
On a recueilli des notations humaines via une plateforme en ligne. Pour maintenir la qualité, on a mis en place divers contrôles et sélectionné des paires mouvement-texte à présenter aux évaluateurs. Leurs retours ont été collectés et moyennés pour fournir des scores clairs de Naturel et de Fidélité pour chaque mouvement.
Évaluation des Métriques Automatisées
On a évalué de nombreuses métriques automatisées existantes avec nos nouvelles pour voir à quel point elles étaient en phase avec les jugements humains. Cela a impliqué de regarder à la fois les scores de mouvements individuels et les scores moyens pour l'ensemble des modèles. La nouvelle métrique, MoBERT, a largement surpassé les options existantes, fournissant une mesure fiable pour évaluer les mouvements générés.
Résultats Clés
Nos évaluations ont conduit à plusieurs constats intéressants. Les métriques d'erreur de coordonnées traditionnelles ont montré de bonnes performances, surtout au niveau du modèle. Bien que des métriques plus récentes comme R-Precision et FID aient montré un certain potentiel, elles ont été en deçà des alternatives établies.
MoBERT s'est démarqué comme le meilleur performer. Il a produit des résultats cohérents à la fois pour des mouvements individuels et pour les comparaisons globales de modèles. Sa capacité à fonctionner sans dépendre de mouvements de référence ouvre de nouvelles possibilités pour évaluer les animations générées.
Défis avec les Métriques Actuelles
Bien que certaines métriques aient montré de bonnes performances, elles présentent toutes des défis. Par exemple, les métriques basées sur les erreurs moyennes peuvent avoir du mal à capturer pleinement la qualité du mouvement généré. À mesure que les techniques de génération de mouvements évoluent, il est essentiel que les métriques d'évaluation évoluent aussi.
Directions Futures
Vu les résultats, on recommande d'utiliser MoBERT avec d'autres métriques pour évaluer la génération text-to-motion. Cette approche fournira une évaluation plus complète et encouragera des améliorations dans la façon dont on génère des animations. De plus, rassembler des retours humains plus diversifiés affinera encore les outils qu'on utilise pour évaluer la génération de mouvements.
Conclusion
Le parcours de l'évaluation de la génération de mouvements humains à partir de textes est en cours. Bien que des avancées significatives aient été faites, l'amélioration continue est essentielle. L'introduction de nouvelles métriques comme MoBERT aide à faire avancer le domaine. En combinant ces outils avec l'insight humain, on peut améliorer le réalisme et la qualité des personnages animés, les rendant plus engageants pour le public dans les films et les jeux.
À mesure que la technologie continue de progresser, les normes pour la génération de mouvements et leur évaluation évolueront, menant à encore plus d'innovations dans l'animation.
Titre: What is the Best Automated Metric for Text to Motion Generation?
Résumé: There is growing interest in generating skeleton-based human motions from natural language descriptions. While most efforts have focused on developing better neural architectures for this task, there has been no significant work on determining the proper evaluation metric. Human evaluation is the ultimate accuracy measure for this task, and automated metrics should correlate well with human quality judgments. Since descriptions are compatible with many motions, determining the right metric is critical for evaluating and designing effective generative models. This paper systematically studies which metrics best align with human evaluations and proposes new metrics that align even better. Our findings indicate that none of the metrics currently used for this task show even a moderate correlation with human judgments on a sample level. However, for assessing average model performance, commonly used metrics such as R-Precision and less-used coordinate errors show strong correlations. Additionally, several recently developed metrics are not recommended due to their low correlation compared to alternatives. We also introduce a novel metric based on a multimodal BERT-like model, MoBERT, which offers strongly human-correlated sample-level evaluations while maintaining near-perfect model-level correlation. Our results demonstrate that this new metric exhibits extensive benefits over all current alternatives.
Auteurs: Jordan Voas, Yili Wang, Qixing Huang, Raymond Mooney
Dernière mise à jour: 2023-09-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.10248
Source PDF: https://arxiv.org/pdf/2309.10248
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://dl.acm.org/ccs.cfm
- https://doi.org/10.48550/arxiv.2209.14916
- https://doi.org/10.48550/arxiv.1706.03762
- https://doi.org/10.48550/arxiv.2204.06125
- https://doi.org/10.48550/arxiv.2209.14792
- https://doi.org/10.48550/arxiv.1904.09675
- https://github.com/jvoas655/MoBERT
- https://doi.org/10.48550/arxiv.1312.6114
- https://doi.org/10.48550/arxiv.1707.04993
- https://doi.org/10.48550/arxiv.1406.2661
- https://doi.org/10.48550/arxiv.1711.09561
- https://doi.org/10.48550/arxiv.2104.05670
- https://doi.org/10.48550/arxiv.2205.08535