Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Interaction homme-machine# Apprentissage automatique

Avancées dans la génération de mouvements humains grâce aux modèles de diffusion

Une nouvelle méthode améliore la création de mouvements humains réalistes grâce à l'IA.

Michael Adewole, Oluwaseyi Giwa, Favour Nerrise, Martins Osifeko, Ajibola Oyedeji

― 9 min lire


Génération de mouvementGénération de mouvementhumain par IAl'efficacité de création de mouvement.Nouveau modèle de diffusion booste
Table des matières

La génération de mouvements humains est un domaine de recherche super intéressant, important pour plein d'industries comme l'animation, les jeux vidéo et la robotique. Ce boulot vise à améliorer la façon dont les mouvements humains sont créés, surtout dans deux domaines : le motion stitching et l'in-betweening. Les techniques actuelles demandent souvent beaucoup de boulot manuel et ont du mal à créer des séquences de mouvements plus longues. Pour améliorer ça, une nouvelle méthode utilisant un modèle de diffusion a été introduite. Ce modèle utilise un système qui aide à générer automatiquement des mouvements humains réalistes.

C'est quoi le Motion Stitching et l'In-Betweening ?

Le motion stitching, c'est créer une séquence de mouvements fluide qui relie différentes poses clés. Ces poses clés peuvent être n'importe quel moment de la séquence de mouvements. D'un autre côté, l'in-betweening, c'est le processus de génération des images qui se trouvent entre les images clés pour créer un mouvement fluide. Bien qu'il existe quelques modèles qui peuvent générer des mouvements continus, très peu se concentrent spécifiquement sur le task de motion stitching.

Les dispositifs de capture de mouvement et l'animation manuelle sont deux méthodes courantes pour créer des mouvements humains. Cependant, les systèmes de capture de mouvement peuvent coûter cher, et l'animation manuelle demande des compétences et de la patience. Du coup, beaucoup d'industries recherchent des données de mouvement humain de haute qualité qui peuvent être produites plus facilement et à moindre coût.

L'importance de l'IA dans la génération de mouvements

Au fil des ans, la recherche dans la génération de mouvements humains a beaucoup profité des avancées en intelligence artificielle. Les modèles de réseaux de neurones, comme les transformateurs de diffusion, les réseaux antagonistes génératifs (GAN), et d'autres, ont montré des résultats prometteurs dans la création de mouvements humains réalistes. Ces modèles peuvent aider à surmonter les limites des méthodes traditionnelles, rendant plus facile la création d'animations de haute qualité qui semblent naturelles.

Défis des méthodes de génération de mouvements actuelles

Malgré les progrès dans ce domaine, il existe encore des défis importants, surtout en ce qui concerne le motion stitching. La plupart des études existantes se concentrent sur la génération de mouvements continus à partir de données existantes, mais ne s'attaquent pas explicitement à la façon de relier différentes parties des mouvements. Quelques tentatives ont été faites pour améliorer les prévisions de mouvements à court terme en utilisant différentes architectures, mais elles restent limitées car elles nécessitent que toutes les images de mouvement soient organisées d'une certaine manière.

Des travaux récents ont essayé de traiter ce problème en utilisant des architectures avancées qui gèrent les transitions de mouvement variées. Bien que ces méthodes montrent du potentiel, elles fonctionnent souvent dans leurs propres cadres étroits et peuvent ne pas exploiter pleinement les relations entre les différentes images de mouvement.

Présentation du modèle de diffusion

Pour surmonter ces défis, une nouvelle approche utilisant un modèle de diffusion a été proposée. Le processus commence par prendre des images de mouvement d'entrée et les encoder avec leur position dans la séquence. Ces informations sont envoyées dans un transformateur, qui aide à capturer comment les images de mouvement se relatent les unes aux autres. La sortie de ce premier transformateur est ensuite utilisée avec un bruit aléatoire initial comme entrée pour un autre transformateur qui prédit à quoi devrait ressembler le mouvement propre.

Cette méthode permet au modèle de peaufiner encore et encore la génération de mouvement en évaluant le bruit introduit à chaque étape et en le corrigeant. En faisant cela pendant plusieurs itérations, le modèle peut créer des séquences de mouvements fluides et réalistes à partir des poses d'entrée.

Contributions clés de la recherche

Les principales contributions de cette étude comprennent :

  1. Un nouveau modèle de diffusion qui peut générer un mouvement humain réaliste, complétant les morceaux manquants d'une séquence de mouvement.
  2. Une évaluation approfondie de l'efficacité de cette méthode pour les tâches de génération de mouvements à court et long terme.

Travaux connexes en génération de mouvements humains

En regardant les travaux précédents dans la génération de mouvements humains, les chercheurs ont classé différentes méthodes selon le type d'entrée utilisé pour créer le mouvement. Ces classifications incluent :

  • Texte-à-Mouvement : Générer un mouvement à partir d'un texte descriptif.
  • Classe d'Action-à-Mouvement : Produire un mouvement basé sur des classes prédéfinies comme "courir" ou "sauter".
  • Mouvement Précédent-à-Mouvement : Utiliser des données de mouvement précédentes pour générer de nouvelles séquences.
  • Vidéo-à-Mouvement : Créer des séquences de mouvement à partir d'images vidéo passées.

Ces approches ont connu différents niveaux de succès. Par exemple, certaines méthodes se concentrent sur l'utilisation de texte pour créer un mouvement, tandis que d'autres regardent une série d'images vidéo pour prédire ce qui se passe ensuite. Parmi celles-ci, l'utilisation de données de mouvement précédentes s'est avérée particulièrement pertinente pour les efforts de recherche actuels.

Comprendre la représentation de rotation

Quand on entraîne des modèles pour générer du mouvement, la façon dont la rotation est représentée est super importante. Différentes méthodes existent, mais les quaternions sont souvent préférés car ils permettent de fournir des transitions fluides sans problèmes comme les discontinuités. Une bonne représentation de rotation contribue à la stabilité et à la précision du processus d'apprentissage.

Le processus de diffusion expliqué

Le modèle de diffusion fonctionne en deux étapes principales : le processus avant et le processus inverse. Dans l'étape avant, le modèle ajoute progressivement du bruit aux données propres au fil du temps. En gros, ça déforme les données originales dans un état d'entropie élevée, ce qui les fait ressembler à du bruit aléatoire.

Le processus inverse, c'est là que la magie opère. Il vise à prendre ces données bruitées et à prédire à quoi devrait ressembler le mouvement propre. Cela se fait de manière itérative, et à chaque étape, le modèle affine ses prédictions jusqu'à obtenir un mouvement propre final.

Entraînement du modèle

Pour entraîner le modèle, plusieurs ensembles de données ont été utilisés, y compris divers ensembles de capture de mouvement humain. Ces ensembles contiennent plein de mouvements et d'activités différents. Le modèle a été entraîné sur un nombre substantiel d'images, lui permettant d'apprendre différents types de mouvements. Pendant l'entraînement, le modèle s'est concentré sur la minimisation des erreurs dans la prédiction des mouvements, garantissant que la sortie générée ressemblait de près aux mouvements humains réels.

Métriques d'évaluation pour la qualité du mouvement

Pour déterminer combien le modèle performe, plusieurs métriques d'évaluation ont été utilisées :

  1. Frechet Inception Distance (FID) : Ça mesure à quel point le mouvement généré ressemble à un mouvement réel en comparant leurs caractéristiques.
  2. Diversité : Ça mesure à quel point les mouvements générés sont variés à travers différentes entrées.
  3. Multimodalité : Ça vérifie combien de sorties différentes le modèle peut générer pour des conditions d'entrée similaires.

Ces métriques assurent que le modèle ne crée pas seulement un mouvement réaliste mais peut aussi fournir une variété de sorties pour la même entrée, le rendant plus utile dans des applications pratiques.

Résultats et insights

Les résultats de l'évaluation ont montré que le modèle de diffusion était capable de générer des séquences de mouvements de haute qualité. Les évaluations visuelles ont démontré la fluidité et le réalisme des mouvements générés, fournissant des exemples clairs de la façon dont le modèle passe d'une pose à l'autre au fil du temps.

De plus, les évaluations quantitatives ont révélé que le modèle pouvait maintenir un bon niveau de diversité et de multimodalité dans ses sorties. Bien que cela tende à diminuer avec des longueurs d'entrée plus longues, la performance globale indique que le modèle a un potentiel significatif.

Directions futures

Bien que cette recherche ait fait des progrès notables dans la génération de mouvements, des défis restent. La performance du modèle peut se dégrader avec de petites conditions d'entrée, et il y a de la marge pour améliorer la production de sorties plus réalistes lorsque les poses d'entrée ne sont pas idéales. Les travaux futurs pourraient impliquer l'incorporation d'informations contextuelles supplémentaires, comme des descriptions textuelles, pour mieux guider le processus de génération.

En élargissant les conditions d'entrée disponibles pour le modèle, il y a un potentiel pour capturer un contexte plus riche, ce qui est essentiel pour des tâches de génération de mouvements plus longues.

Conclusion

La génération de mouvements humains continue d'évoluer avec l'aide de nouvelles technologies. En utilisant des méthodes comme les modèles de diffusion, les chercheurs peuvent créer des mouvements humains plus réalistes qui ont des applications dans de nombreux domaines. À mesure que ce domaine de recherche progresse, il est probable que nous verrons encore plus de façons innovantes de créer des mouvements humains qui semblent naturels et captivants.

Source originale

Titre: Human Motion Synthesis_ A Diffusion Approach for Motion Stitching and In-Betweening

Résumé: Human motion generation is an important area of research in many fields. In this work, we tackle the problem of motion stitching and in-betweening. Current methods either require manual efforts, or are incapable of handling longer sequences. To address these challenges, we propose a diffusion model with a transformer-based denoiser to generate realistic human motion. Our method demonstrated strong performance in generating in-betweening sequences, transforming a variable number of input poses into smooth and realistic motion sequences consisting of 75 frames at 15 fps, resulting in a total duration of 5 seconds. We present the performance evaluation of our method using quantitative metrics such as Frechet Inception Distance (FID), Diversity, and Multimodality, along with visual assessments of the generated outputs.

Auteurs: Michael Adewole, Oluwaseyi Giwa, Favour Nerrise, Martins Osifeko, Ajibola Oyedeji

Dernière mise à jour: 2024-09-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.06791

Source PDF: https://arxiv.org/pdf/2409.06791

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires