Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Avancées dans le transfert de posture humaine basé sur la vidéo

Présentation d'une nouvelle méthode pour une animation fluide des poses humaines dans les vidéos.

― 7 min lire


Nouvelle méthode pourNouvelle méthode pourl'animation de posesmodulation avancées.humaine avec des techniques deRévolutionner le transfert de pose
Table des matières

Le transfert de pose humaine basé sur la vidéo, c'est un process qui prend une image simple d'une personne et l'anime avec des poses d'une autre source. C'est pas évident parce que transférer des motifs détaillés sur les vêtements et capturer différentes poses peut poser des problèmes comme des textures bizarres et des images qui clignotent. Beaucoup de méthodes actuelles ont du mal avec ces soucis, ce qui donne des résultats pas top.

Pour surmonter ces défis, on a introduit une nouvelle technique appelée Modulation de Mouvement Déformable (DMM). Ce procédé utilise une méthode spéciale pour ajuster l'alignement des caractéristiques et le transfert de styles, assurant que la séquence animée soit fluide et cohérente. Plutôt que d'utiliser les méthodes habituelles de transfert de style, notre méthode s'adapte à la forme de l'objet, ce qui donne de meilleurs résultats.

On utilise aussi une approche bidirectionnelle pour capturer des infos de mouvement cachées à partir d'images qui peuvent avoir du bruit, ce qui aide à améliorer la qualité générale de la prédiction de mouvement. Nos expériences montrent que cette méthode surpasse largement les techniques existantes tant en qualité d'image qu'en mouvement continu.

Défis du Transfert de Pose Humaine Basé sur la Vidéo

Animer une personne dans une vidéo peut être compliqué, surtout à cause de poses inconsistantes et de textures mal alignées. Ces problèmes surviennent quand les poses qu'on veut utiliser ne s'alignent pas bien avec l'image originale, donnant des animations qui ont l'air artificielles.

Actuellement, pas mal de méthodes traitent ces problèmes de trois manières : en utilisant des modèles de génération antérieurs, des mécanismes d'attention ou des techniques de déformation de flux. Mais souvent, ces méthodes produisent des images floues ou de mauvaise qualité visuelle. Certaines techniques tentent d'aligner des objets dans l'espace 3D, mais elles peuvent avoir du mal avec les zones invisibles.

Importance de la Cohérence temporelle

Pour que la séquence générée ait l'air naturelle, il est essentiel de garder un sentiment de continuité dans le mouvement. Contrairement à d'autres tâches comme remplir des sections d'image manquantes, ce process dépend souvent de données de pose bruyantes venant de sources externes qui peuvent être inexactes. Ça ajoute une couche de complexité, surtout pour capturer des motifs détaillés sur les vêtements.

Traditionnellement, on a utilisé des réseaux neuronaux récurrents pour maintenir la cohérence temporelle en entrant les résultats générés précédemment dans l'étape actuelle. Mais cette approche a ses limites et ne produit souvent pas d'animations de haute qualité.

Notre Solution : Modulation de Mouvement Déformable

Pour améliorer la qualité des séquences vidéo générées, on a proposé un nouveau mécanisme de modulation connu sous le nom de Modulation de Mouvement Déformable (DMM). Cette méthode innovante fonctionne en permettant des ajustements locaux basés sur les caractéristiques des images adjacentes pour créer des transitions fluides et des transferts de style précis.

Composants Clés de DMM

DMM a trois parties principales :

  1. Décalage de Mouvement : Ce composant estime comment les caractéristiques des images adjacentes devraient changer, en se basant sur leurs relations géométriques respectives.

  2. Masque de mouvement : Le masque de mouvement est utilisé pour estimer les changements locaux nécessaires pour créer des transitions fluides lors de la génération d'images.

  3. Poids de Style : Cette partie de DMM ajuste comment les styles sont transférés de l'image source, en s'assurant que les animations résultantes maintiennent cohérence et qualité.

En combinant ces éléments, DMM parvient à produire des animations de haute qualité avec des transitions fluides entre les images.

Propagation de Caractéristiques Bidirectionnelle

En plus de DMM, on utilise une technique de propagation de caractéristiques bidirectionnelle. Ça veut dire que l'information peut circuler dans les deux sens pendant le traitement des images vidéo. Cette approche aide à combler les lacunes dans les données et garantit que les images générées sont non seulement de haute qualité mais aussi cohérentes au fil du temps.

Avec la combinaison de DMM et cette approche bidirectionnelle, notre méthode peut gérer plus efficacement les défis posés par des poses inexactes et générer des animations réalistes.

Travaux Connus sur le Transfert de Pose Humaine

Plusieurs méthodes ont été développées pour traiter le transfert de pose humaine, qui peuvent être généralement classées en trois types :

  1. Méthodes Basées sur des Antécédents : Ces techniques combinent les images générées avec des caractéristiques restantes des images précédentes pour améliorer la qualité et la précision de la sortie.

  2. Approches Basées sur l'Attention : Ces méthodes cherchent des correspondances denses dans l'espace des caractéristiques pour obtenir un meilleur alignement durant la transformation.

  3. Techniques Basées sur le Flux : Les méthodes basées sur le flux alignent les caractéristiques de l'image source à la pose cible en estimant l'information de flux entre les deux.

Malgré leurs avantages, ces méthodes peuvent toujours entraîner des problèmes comme des images floues et des prédictions peu fiables, les rendant moins efficaces pour des tâches complexes.

Critères d'Évaluation pour Notre Méthode

Pour évaluer la performance de notre méthode, on examine diverses métriques qui mesurent la qualité visuelle et la cohérence temporelle. Certaines métriques clés comprennent :

  • Index de Similarité Structurelle (SSIM) : Cette métrique mesure à quel point deux images sont similaires en termes de structure.

  • Rapport Signal-Niveau de Bruit de Pointe (PSNR) : Cela évalue la qualité des images générées en les comparant aux images originales.

  • Distance Fréchet Inception (FID) : Cette métrique mesure la différence entre les images générées et les images originales dans un espace perceptuel.

  • Distance Vidéo Fréchet (FVD) : Cela mesure la cohérence des séquences vidéo dans le temps, offrant un aperçu de la manière dont notre méthode maintient la qualité tout au long de l'animation.

Expériences et Résultats

Pour tester notre méthode, on a utilisé deux ensembles de données vidéo haute résolution. Le premier ensemble, appelé FashionVideo, inclut 600 vidéos avec divers styles de vêtements, poses et arrière-plans. Le deuxième ensemble, iPER, contient des vidéos avec une large gamme de poses et d'arrière-plans. En utilisant ces ensembles, on visait à créer et analyser l'efficacité de notre approche dans des scénarios réels.

Résultats Quantitatifs

Notre approche a constamment surpassé les méthodes existantes sur plusieurs métriques. Les résultats montrent des améliorations significatives, notamment en termes de score FVD, montrant d'excellentes capacités à produire des animations cohérentes sans perturbations visuelles.

Résultats Qualitatifs

En plus des résultats numériques, on a aussi examiné la qualité visuelle des animations générées. On a constaté que notre méthode excellait à maintenir les caractéristiques visuelles des vêtements et des traits humains sous divers angles de vue. Ça permet d'avoir des animations plus réalistes et engageantes.

Conclusions

Dans ce travail, on a présenté un nouveau cadre pour le transfert de pose humaine basé sur la vidéo utilisant la Modulation de Mouvement Déformable (DMM). Notre méthode aborde efficacement les défis de désalignement spatial et de poses inconsistantes, résultant en des vidéos animées de haute qualité. La combinaison de DMM et de la propagation bidirectionnelle offre une solution robuste à un problème complexe.

Avec le potentiel pour diverses applications, comme des recommandations de mode et des essayages virtuels, notre méthode ouvre des possibilités passionnantes dans le domaine de la synthèse vidéo. La forte performance dans les évaluations quantitatives et qualitatives suggère que notre cadre a des implications significatives pour de futures recherches et développements dans ce domaine.

Source originale

Titre: Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer

Résumé: Video-based human pose transfer is a video-to-video generation task that animates a plain source human image based on a series of target human poses. Considering the difficulties in transferring highly structural patterns on the garments and discontinuous poses, existing methods often generate unsatisfactory results such as distorted textures and flickering artifacts. To address these issues, we propose a novel Deformable Motion Modulation (DMM) that utilizes geometric kernel offset with adaptive weight modulation to simultaneously perform feature alignment and style transfer. Different from normal style modulation used in style transfer, the proposed modulation mechanism adaptively reconstructs smoothed frames from style codes according to the object shape through an irregular receptive field of view. To enhance the spatio-temporal consistency, we leverage bidirectional propagation to extract the hidden motion information from a warped image sequence generated by noisy poses. The proposed feature propagation significantly enhances the motion prediction ability by forward and backward propagation. Both quantitative and qualitative experimental results demonstrate superiority over the state-of-the-arts in terms of image fidelity and visual continuity. The source code is publicly available at github.com/rocketappslab/bdmm.

Auteurs: Wing-Yin Yu, Lai-Man Po, Ray C. C. Cheung, Yuzhi Zhao, Yu Xue, Kun Li

Dernière mise à jour: 2023-07-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.07754

Source PDF: https://arxiv.org/pdf/2307.07754

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires