Avancées dans la génération de mouvements de danse en groupe
Une nouvelle méthode pour créer des danses de groupe qui restent synchronisées avec la musique.
― 9 min lire
Table des matières
Créer des Mouvements de danse en groupe qui collent à la musique, c'est pas simple et ça a plein d'utilités dans le monde réel. Beaucoup de méthodes ont essayé de s'attaquer à ce problème. Mais la plupart se concentrent juste sur le fait de rendre les mouvements de danse jolis tout en se limitant à un nombre fixe de danseurs basé sur leurs données d'entraînement. Ça limite leur capacité à s'adapter à différentes situations.
Notre étude vise à résoudre ce problème de la chorégraphie en groupe en permettant à pleins de danseurs de bouger tout en ayant l'air naturel et en phase. On introduit une nouvelle approche qui utilise des phases pour générer des mouvements de danse, ce qui nous permet de créer des danses réalistes pour n'importe quel nombre de danseurs sans utiliser trop de mémoire. Nos tests montrent que cette méthode fonctionne mieux que les techniques les plus récentes disponibles.
Contexte
Avec le boom des plateformes de médias sociaux, les vidéos de danse sont devenues hyper populaires, avec des millions de vidéos créées chaque jour. Dernièrement, des efforts dans le domaine de la vision par ordinateur se concentrent sur la génération de mouvements de danse réalistes en réponse à la musique, impactant des domaines comme l'animation, les idoles virtuelles et l'éducation à la danse. Les artistes et éducateurs peuvent tirer parti de ces avancées pour améliorer leur travail créatif et l'expérience globale de danse pour les performers et le public.
Même si on a fait pas mal de progrès pour les danseurs solos, créer des mouvements de danse en groupe qui soient à la fois réalistes et synchronisés avec la musique reste un défi. Un gros dataset a été introduit pour aider à créer de la chorégraphie de groupe. Certaines études ont examiné les différentes caractéristiques de la danse en groupe, comme le fait de s'assurer que les mouvements sont cohérents et diversifiés. Pourtant, malgré tout ça, beaucoup de méthodes sont limitées à générer des danses pour un nombre fixe de danseurs, ce qui ne fonctionne pas bien dans des situations réelles.
L'objectif principal est d'augmenter le nombre de danseurs tout en gardant la danse fluide et synchronisée. On se concentre sur le fait de rendre notre approche complète, capable de produire des danses pour un nombre illimité de danseurs tout en préservant la qualité.
Défis Existants
Il y a deux grandes catégories dans le contrôle des mouvements : les méthodes déterministes et probabilistiques. Les méthodes déterministes cherchent à mapper les signaux d'entrée directement aux mouvements de danse. Mais souvent, ça donne des mouvements un peu artificiels parce que ça a tendance à lisser les gestes. Les méthodes probabilistiques capturent une variété de mouvements possibles pour une condition donnée, permettant des sorties diversifiées.
Récemment, certaines études ont montré que capturer les caractéristiques de danse dans le domaine de la fréquence est utile pour la génération de mouvements. Différentes compétences de danse peuvent être décrites à l'aide de variables de phase qui aident à maintenir le timing et la synchronisation des mouvements. Au lieu d'utiliser les phases comme des signaux supplémentaires pour la synthèse des mouvements, notre approche apprend à générer les phases directement selon l'entrée musicale, simplifiant le processus.
Notre Approche
Le cœur de notre méthode est un modèle basé sur les phases conçu pour la génération de danses en groupe. On appelle ce modèle Phase-conditioned Dance VAE (PDVAE), et il se concentre sur l'apprentissage de la représentation des mouvements de danse à l'aide de paramètres de phase. Cette approche diffère des méthodes traditionnelles qui dépendent d'un seul vecteur latent, qui ne représente pas efficacement toute la gamme d'informations temporelles dans les mouvements de danse.
Notre méthode capture les mouvements de plusieurs danseurs en même temps sans consommer trop de ressources informatiques. En utilisant une nouvelle façon de structurer l'Espace latent avec des paramètres de phase issus des données du domaine de la fréquence, on permet une génération de danse en groupe plus flexible et évolutive.
Structure du Modèle
Le PDVAE est structuré en trois parties : un encodeur, un réseau prior, et un Décodeur. Pendant l'entraînement, l'encodeur traite les entrées de mouvement et de musique dans un espace latent spécial. Le réseau prior apprend à prédire une distribution de mouvements possibles basée uniquement sur la musique. Enfin, le décodeur reconstruit les mouvements de danse à partir de l'espace latent. Cette structure nous permet de générer de nouveaux mouvements de manière efficace et fiable.
Utilisation des Paramètres de Phase
Le modèle se concentre sur l'apprentissage d'un chemin fluide de mouvements de danse basé sur le timing et la périodicité. Les mouvements de chaque danseur peuvent sembler différents visuellement, mais ils partagent des timings et des motifs périodiques similaires. En modélisant la distribution latente de ces mouvements de danse à travers des phases, on obtient une meilleure compréhension des caractéristiques clés des mouvements.
La sortie de l'encodeur est une série de courbes qui capturent divers aspects du mouvement, comme le timing et la transition. Au lieu de reconstruire directement la danse d'entrée, on impose une structure périodique dans l'espace latent pour s'assurer que le réseau puisse apprendre efficacement les caractéristiques du mouvement.
Le Décodeur
Pour interpréter l'espace latent en mouvements de danse réels, on utilise un décodeur qui incorpore les paramètres de phase appris. Ce décodeur prend les paramètres avec les caractéristiques musicales et produit des mouvements de danse qui s'alignent avec ce que la musique suggère. Un élément clé est de s'assurer que les mouvements de chaque danseur restent distincts tout en s'intégrant dans le rythme général de la pièce.
Réseau Prior
Comme les données réelles ne sont pas disponibles lors des prédictions, on a besoin d'un réseau prior qui puisse correspondre à la distribution postérieure des mouvements de danse basés sur les entrées musicales. Le réseau prior utilise des mécanismes d'auto-attention pour capturer le contexte global de la musique, l'aidant à prédire une large gamme de mouvements possibles.
Processus d'Entraînement
Tout au long de l'entraînement, on vise la cohérence parmi les danseurs d'un groupe tout en s'assurant que les mouvements de chaque danseur s'alignent avec la musique. On y parvient en appliquant une fonction de perte spécifique qui minimise les écarts entre les danseurs d'un même groupe. Cet effort supplémentaire aide à maintenir un mouvement cohérent parmi les participants.
Expériences et Datasets
On a utilisé deux principaux datasets pour nos expériences. Le premier contient de la musique et des mouvements de danse en groupe, tandis que le second est spécifiquement axé sur les mouvements de danse générés en réponse à des extraits musicaux. Notre méthode a été entraînée et testée selon des divisions prédéfinies au sein de ces datasets pour garantir cohérence et fiabilité.
Métriques d'Évaluation
Pour évaluer la qualité des mouvements individuels et de groupe générés par notre modèle, on a utilisé plusieurs métriques. Pour les mouvements individuels, on a regardé le réalisme, à quel point la danse collait à la musique, et la diversité parmi les mouvements générés. Pour les danses de groupe, on a focalisé sur le réalisme, la synchronisation, et la fréquence des collisions entre danseurs pendant leurs mouvements.
Résultats et Comparaisons
Les résultats de nos expériences montrent que notre modèle performe nettement mieux que les méthodes existantes pour la génération de danse en groupe. Il produit constamment des mouvements de haute qualité, même quand le nombre de danseurs augmente. Alors que d'autres modèles peinent avec des limitations de mémoire, notre approche maintient efficacité et performance dans toutes les évaluations.
Étude Utilisateur
On a aussi mené des études utilisateurs pour évaluer le réalisme des sorties de danse générées par notre modèle. Les participants ont noté le réalisme des clips de danse avec un nombre variable de danseurs. Les retours ont montré que même si le réalisme diminuait généralement avec plus de danseurs, notre approche maintenait un niveau de réalisme plus élevé par rapport à d'autres méthodes.
Analyse des Limitations
Bien que notre modèle montre un grand potentiel, il faut reconnaître certains défis. Des problèmes comme l'échantillonnage instable ou des incohérences peuvent survenir, surtout lorsque les mouvements générés s'écartent des modèles appris. S'attaquer à ces défis sera important dans la recherche future pour améliorer la fiabilité et la robustesse des résultats générés.
Conclusion
Notre approche pour la génération scalable de danse en groupe démontre un avancement significatif dans le domaine. En se concentrant sur les paramètres de phase et une structure de modèle appropriée, on peut générer des mouvements de danse de haute qualité tout en s'adaptant à n'importe quel nombre de danseurs. Cette méthode ouvre de nouvelles voies pour des applications dans divers domaines, y compris le divertissement, l'éducation, et la technologie.
En continuant à affiner nos techniques et à traiter les défis existants, on est super excités par les développements futurs possibles dans ce domaine. En s'appuyant sur cette base, on espère contribuer à des expériences de danse plus riches et dynamiques pour les performers et le public.
Titre: Scalable Group Choreography via Variational Phase Manifold Learning
Résumé: Generating group dance motion from the music is a challenging task with several industrial applications. Although several methods have been proposed to tackle this problem, most of them prioritize optimizing the fidelity in dancing movement, constrained by predetermined dancer counts in datasets. This limitation impedes adaptability to real-world applications. Our study addresses the scalability problem in group choreography while preserving naturalness and synchronization. In particular, we propose a phase-based variational generative model for group dance generation on learning a generative manifold. Our method achieves high-fidelity group dance motion and enables the generation with an unlimited number of dancers while consuming only a minimal and constant amount of memory. The intensive experiments on two public datasets show that our proposed method outperforms recent state-of-the-art approaches by a large margin and is scalable to a great number of dancers beyond the training data.
Auteurs: Nhat Le, Khoa Do, Xuan Bui, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen
Dernière mise à jour: 2024-07-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.18839
Source PDF: https://arxiv.org/pdf/2407.18839
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.