Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Méthode innovante pour la génération de vidéos et de profondeur

Une nouvelle approche génère des vidéos d'actions humaines de haute qualité avec des infos de profondeur.

― 11 min lire


Percée dans la synthèsePercée dans la synthèsevidéo et de profondeurprofondeur.actions humaines avec une précision enRévolutionner la visualisation des
Table des matières

Ces derniers temps, on a fait de gros progrès dans la génération de Vidéos qui mettent l'accent sur les activités humaines. Cependant, combiner la génération de vidéos avec des informations de Profondeur est encore un domaine qui a besoin de plus d'attention. Les méthodes actuelles pour estimer la profondeur à partir d'une seule image galèrent souvent quand il s'agit de vidéos, et les techniques qui utilisent plusieurs vues d'une scène ont souvent du mal à montrer avec précision comment une personne a l'air et se déplace.

Cet article présente une nouvelle méthode appelée IDOL pour générer des vidéos de haute qualité sur des actions humaines accompagnées de leurs informations de profondeur correspondantes. L'approche inclut deux innovations principales pour améliorer les résultats. Premièrement, un nouveau type de modèle appelé un U-Net dual-modal unifié est introduit. Ce modèle permet un échange fluide d'informations entre les processus de génération de vidéos et de profondeur. Deuxièmement, une fonction de perte unique aide à garder les vidéos générées et les informations de profondeur alignées de manière précise.

Les capacités de contrôle du contenu vidéo, comme changer la façon dont les gens se déplacent ou leur apparence, ont suscité beaucoup d'intérêt. Avec l'avancement rapide des modèles génératifs, la qualité des vidéos s'est considérablement améliorée. Cependant, la plupart des recherches se sont uniquement concentrées sur la création de vidéos plates en 2D, ce qui limite leur utilisation dans des applications qui nécessitent une perception de la profondeur, comme la réalité virtuelle et augmentée ou les jeux vidéo avancés.

Génération conjointe vidéo-profondeur

On se concentre sur la génération simultanée de vidéos et d'informations de profondeur pour des actions humaines comme danser et des activités quotidiennes. L'idée est de créer une vidéo qui inclut une personne en mouvement tout en générant une carte qui montre la profondeur de la scène. L'objectif est d'apprendre une représentation complète de la figure humaine, ce qui améliore non seulement l'apparence de la vidéo, mais permet aussi des applications qui nécessitent une compréhension de la profondeur dans les espaces.

À partir d'une image d'une personne, d'une image d'arrière-plan, et d'une pose que la personne doit prendre, notre méthode peut générer une vidéo de haute qualité avec les cartes de profondeur, créant une expérience vidéo réaliste en deux dimensions et demie (2.5D).

Défis dans la génération vidéo-profondeur

Il y a plusieurs défis dans cette tâche. D'abord, les méthodes existantes qui estiment la profondeur à partir d'une seule vue ne fonctionnent généralement pas bien lorsqu'elles sont appliquées à du contenu généré. En revanche, les méthodes utilisant plusieurs vues peuvent créer des cartes de profondeur, mais se concentrent souvent sur la synthèse d'images individuelles plutôt que sur la compréhension du mouvement et de l'apparence complets d'une personne.

La tâche de générer vidéo et profondeur ensemble est complexe pour deux raisons principales. La vidéo et la profondeur sont deux types de données différents : les vidéos sont composées de cadres colorés, tandis que les cartes de profondeur sont généralement des images à canal unique représentant la distance. La plupart des modèles de diffusion actuels ont été formés uniquement pour fonctionner avec des images individuelles, rendant difficile la création d'un modèle capable de gérer les deux types de données en même temps.

De plus, garder la mise en page spatiale cohérente entre la vidéo générée et la profondeur est un problème de longue date dans le domaine. Même lorsque l'on contrôle la pose humaine, il y a toujours un risque que les données vidéo et profondeur ne s'alignent pas bien, surtout quand la génération se produit dans un espace caché.

Pour relever ces défis, notre cadre est conçu pour créer une vidéo centrée sur l’humain et des cartes de profondeur correspondantes dans un processus unifié. Pour commencer, nous traitons les cartes de profondeur comme des images colorées en leur appliquant une échelle de couleur, ce qui aide à combler le fossé entre la génération de vidéos et celle de profondeur. Des recherches montrent que l'inclusion d'informations de profondeur dans le processus de génération améliore la compréhension de la structure, ce qui peut conduire à un meilleur résultat global.

U-Net dual-modal unifié

Notre approche principale est d'utiliser un U-Net dual-modal unifié, qui implique le partage de paramètres entre les processus de génération de vidéos et de profondeur. Ce modèle inclut une étiquette spéciale pour indiquer quel type de données - vidéo ou profondeur - est actuellement au centre de l'attention, permettant ainsi un meilleur apprentissage conjoint. L'objectif est d'améliorer la qualité de génération tout en utilisant moins de paramètres que les méthodes traditionnelles.

Ce design inclut aussi une couche d'attention cross-modal qui facilite le flux d'informations entre les caractéristiques vidéo et profondeur pendant le processus de génération. Cet aspect est crucial pour aligner efficacement les sorties vidéo et profondeur.

Assurer l'alignement dans la vidéo et la profondeur

Pour s'assurer que les sorties vidéo et profondeur sont correctement alignées, nous introduisons une fonction de Perte de cohérence de mouvement. Cette fonction garantit que les motifs de mouvement dans les caractéristiques vidéo et profondeur sont synchronisés, menant à un résultat final plus cohérent. De plus, nous utilisons une perte de cohérence pour les cartes d'attention croisée afin d'améliorer encore l'alignement.

Contribution globale

Les principales contributions de notre travail incluent la création d'une méthode pour la génération conjointe vidéo-profondeur, la conception d'un U-Net dual-modal unifié pour générer les deux types d'informations, et l'implémentation de fonctions de perte visant à assurer l'alignement entre les sorties vidéo et profondeur. Nos expériences sur divers ensembles de données montrent que notre méthode surpasse les techniques existantes, résultant en des vidéos et cartes de profondeur de meilleure qualité.

Travaux connexes

Modèles de diffusion contrôlables

Au fil du temps, les modèles de diffusion ont évolué et incluent maintenant des approches capables de générer des images de haute qualité en travaillant dans un espace latent. Des techniques récentes ajoutent des modules flexibles à des modèles existants pour permettre un contrôle plus fin sur la sortie en fonction d'entrées supplémentaires comme des croquis et des informations de profondeur.

Techniques d'animation d'images

L'animation d'images implique la création d'une vidéo où des éléments d'une image source se déplacent selon un mouvement de référence. Les méthodes traditionnelles exigent des détails spécifiques sur les objets cibles, comme des traits faciaux ou des mouvements. Certaines techniques plus avancées apprennent à partir de champs de mouvement dans les vidéos de conduite pour améliorer la qualité de l'animation.

Synthèse multimodal

Des modèles de diffusion ont été développés pour synthétiser des vues en utilisant plusieurs images. Bien qu'ils puissent générer des cartes de profondeur, ils ont souvent du mal à représenter avec précision le mouvement et l'apparence dans des scénarios centrés sur les humains.

Méthodologie

Formulation du problème

Pour clarifier le problème que nous abordons : à partir d'une image montrant une figure humaine, d'une scène de fond, et d'une séquence de poses pour la figure, l'objectif est de produire une vidéo qui anime précisément la figure tout en l'intégrant dans l'arrière-plan. Les cartes de profondeur devraient refléter avec précision les distances dans la scène.

Architecture du U-Net dual-modal unifié

L'architecture que nous proposons est un U-Net dual-modal unifié, qui nous permet de travailler à la fois avec des données vidéo et de profondeur de manière partagée. En indiquant le type de données traitées, notre réseau peut adapter son approche en conséquence, améliorant la génération sur les deux fronts.

Mécanisme d'attention cross-modal

Un mécanisme d'attention multi-modal est intégré pour s'assurer que les caractéristiques vidéo et profondeur peuvent travailler ensemble efficacement. L'auto-attention est centrée sur les dimensions spatiales, favorisant l'alignement entre les deux types de données.

Apprentissage de la cohérence entre vidéo et profondeur

Pour aborder le problème courant de désalignement entre les sorties vidéo et profondeur, nous utilisons deux fonctions de perte principales pour l'apprentissage de la cohérence. La première est une perte de cohérence de mouvement qui garantit des motifs de mouvement synchronisés entre les caractéristiques, tandis que la seconde est une perte axée sur l'alignement des cartes d'attention croisées provenant du flux vidéo et du flux de profondeur.

Expérimentations et résultats

Sources de données

Pour vérifier notre méthode, nous réalisons des expériences sur deux ensembles de données publiques : TikTok, qui comprend des vidéos de danse, et NTU120, qui contient des vidéos d'activités quotidiennes. Chaque ensemble de données comprend des ensembles d'entraînement et d'évaluation avec des distinctions claires entre les sujets et les arrière-plans.

Métriques d'évaluation

Nous évaluons à la fois la qualité vidéo et la qualité de synthèse de la profondeur. Pour évaluer la qualité vidéo, nous employons des métriques qui mesurent la fidélité des cadres générés et leur cohérence dans le temps. Pour l'évaluation de la profondeur, nous comparons les cartes de profondeur générées avec des estimations réelles de profondeur à partir des images originales.

Comparaison avec les méthodes existantes

Notre méthode est comparée aux techniques de pointe pour mettre en évidence son efficacité. Les résultats indiquent que notre approche produit systématiquement une meilleure qualité vidéo et une meilleure précision de profondeur dans les deux ensembles de données.

Généralisation à d'autres conceptions

Notre méthode montre de la polyvalence et peut s'adapter à différentes conceptions. Nous pouvons conditionner le modèle sur diverses représentations de mouvement, lui permettant de produire des résultats de haute qualité, quel que soit le style d'entrée.

Efficacité computationnelle

Enfin, nous évaluons les exigences computationnelles de notre modèle. Notre architecture unifiée permet un coût computationnel inférieur par rapport à d'autres méthodes, ce qui la rend adaptée aux applications pratiques malgré les complexités liées à la gestion de données dual-modales.

Discussion

Travaux futurs

Bien que notre méthode montre des résultats prometteurs, des défis subsistent. Le traitement simultané des données vidéo et de profondeur impose des exigences computationnelles significatives, notamment à des résolutions plus élevées. Une optimisation supplémentaire est nécessaire pour améliorer le potentiel d'application en temps réel. De plus, la dépendance à des cartes de profondeur de haute qualité peut limiter l'utilité dans des scénarios où ces données ne sont pas facilement disponibles.

Considérations éthiques

Notre modèle soulève des préoccupations quant à son utilisation éthique, telles que le potentiel de création de vidéos deepfake trompeuses et les impacts sur le droit d'auteur. Nous devons aborder ces risques de manière proactive pour garantir une utilisation responsable de la technologie.

Conclusion

En résumé, nous proposons un nouveau cadre puissant conçu pour la génération conjointe vidéo-profondeur. L'U-Net dual-modal unifié augmente la capacité à produire les deux types de données avec une qualité améliorée. Notre approche intègre des fonctions de perte avancées pour maintenir l'alignement entre les vidéos générées et les cartes de profondeur. Des tests approfondis montrent une amélioration significative par rapport aux méthodes existantes, confirmant l'adaptabilité et le potentiel de notre méthode pour diverses applications dans le domaine de la génération vidéo centrée sur l'humain.

Source originale

Titre: IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

Résumé: Significant advances have been made in human-centric video generation, yet the joint video-depth generation problem remains underexplored. Most existing monocular depth estimation methods may not generalize well to synthesized images or videos, and multi-view-based methods have difficulty controlling the human appearance and motion. In this work, we present IDOL (unIfied Dual-mOdal Latent diffusion) for high-quality human-centric joint video-depth generation. Our IDOL consists of two novel designs. First, to enable dual-modal generation and maximize the information exchange between video and depth generation, we propose a unified dual-modal U-Net, a parameter-sharing framework for joint video and depth denoising, wherein a modality label guides the denoising target, and cross-modal attention enables the mutual information flow. Second, to ensure a precise video-depth spatial alignment, we propose a motion consistency loss that enforces consistency between the video and depth feature motion fields, leading to harmonized outputs. Additionally, a cross-attention map consistency loss is applied to align the cross-attention map of the video denoising with that of the depth denoising, further facilitating spatial alignment. Extensive experiments on the TikTok and NTU120 datasets show our superior performance, significantly surpassing existing methods in terms of video FVD and depth accuracy.

Auteurs: Yuanhao Zhai, Kevin Lin, Linjie Li, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, David Doermann, Junsong Yuan, Zicheng Liu, Lijuan Wang

Dernière mise à jour: 2024-07-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.10937

Source PDF: https://arxiv.org/pdf/2407.10937

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires