Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la réinvention faciale en temps réel

MaskRenderer propose une avancée dans la réécriture faciale réaliste en utilisant un minimum d'entrée.

― 7 min lire


Percée dans la recréationPercée dans la recréationfacialepréservant l'identité.réinvention faciale en temps réel,Présentation de MaskRenderer :
Table des matières

MaskRenderer est un nouveau système conçu pour créer des répliques faciales réalistes en temps réel. Cette technologie permet de transférer les expressions et les mouvements du visage d'une personne sur le visage d'une autre en utilisant juste une image du visage cible. L'objectif principal est de garder l'identité originale du visage cible visible tout en imitant les expressions et les mouvements du visage source, qui est la personne observée.

Défis de la Répétition Faciale

La répétition faciale a fait de grands progrès, mais il y a encore beaucoup d'obstacles à surmonter. Parmi ces défis, on trouve :

  • Fuites d'Identité : Cela se produit lorsque le système ne parvient pas à préserver avec précision l'identité du visage cible.
  • Imitation des Mouvements de la Bouche : Répliquer avec précision les mouvements de la bouche, surtout pendant la parole, est particulièrement difficile.
  • Changements de Pose Importants : Capturer et imiter le visage d'une personne sous différents angles peut poser problème, surtout si des parties du visage sont bloquées ou obscurcies.

Comment fonctionne MaskRenderer

MaskRenderer s'attaque à ces défis en utilisant plusieurs techniques clés :

  1. Modèle Morphable 3D (3DMM) : Ce modèle aide à comprendre la structure 3D des visages, permettant une meilleure gestion des occlusions et des changements de pose ou d'expression.

  2. Fonction de perte triplet : Cette fonction aide à garantir que les différentes identités restent distinctes pendant l'entraînement, améliorant ainsi la capacité du système à maintenir l'identité du visage cible.

  3. Occlusion Multi-Échelle : Cette partie du système améliore la manière dont les zones manquantes du visage sont remplies ou restaurées.

À travers des tests complets, MaskRenderer a montré qu'il peut surclasser les modèles existants, en particulier lorsque les visages impliqués sont très différents.

Qu'est-ce que la Répétition Faciale Indépendante d'Identité ?

La répétition faciale indépendante d'identité signifie créer une série d'images faciales pour une personne cible où les expressions et les poses proviennent d'une autre personne. Cela permet au visage de la personne qui parle de contrôler l'image cible comme une marionnette. Cette technologie a du potentiel dans divers domaines, y compris :

  • Industrie du Film : Amélioration des effets spéciaux et du doublage.
  • Téléconférence : Rendant les interactions plus engageantes.
  • Réalité Virtuelle : Amélioration de l'immersion et du réalisme.

Importance de la Répétition de Haute Fidélité

Pour créer des répliques de haute qualité, il est nécessaire que le modèle :

  • Préserve l'identité de la personne cible.
  • Génère des visages réalistes.
  • Idéalement fonctionne avec une seule image du visage cible.

Avoir seulement une image peut être particulièrement utile dans les applications en temps réel, où la rapidité et l'efficacité sont cruciales.

Approches Actuelles de la Répétition Faciale

La plupart des méthodes existantes s'appuient sur une ou plusieurs représentations faciales pour capturer la structure et le mouvement des visages. Une manière courante de faire cela est d'utiliser des points de repère faciaux, qui sont des points spécifiques représentant des caractéristiques du visage. Cependant, s'appuyer fortement sur ces repères peut rendre le modèle sensible à des inexactitudes.

Des développements récents montrent que l'utilisation de caractéristiques faciales non supervisées améliore la représentation mieux que les méthodes supervisées traditionnelles. Pourtant, de nombreux modèles ne prennent en compte que les images 2D, ce qui peut manquer d'informations 3D importantes lors de la capture des changements faciaux.

Le Rôle des Modèles morphables 3D

Les Modèles Morphables 3D sont bénéfiques car ils fournissent une représentation 3D des visages, améliorant la compréhension de la façon dont les visages changent avec différentes expressions et angles. Ces modèles capturent des traits d'identité spécifiques, y compris :

  • La forme du visage
  • La texture de la peau
  • Les conditions d'éclairage

Même si ces modèles sont puissants, ils peuvent avoir du mal à détailler certains composants faciaux comme les yeux, les dents et les cheveux.

Comment MaskRenderer Surmonte les Limitations

MaskRenderer introduit un cadre qui fonctionne avec des visages cibles invisibles en utilisant une séquence d'images sources tout en gardant l'identité du visage cible intacte. Les sections suivantes expliquent ses principaux composants :

1. Intégration du 3DMM

MaskRenderer combine les avantages du 3DMM avec des transformations de mouvement 2D. Cela permet une représentation plus précise des mouvements faciaux, en particulier en ce qui concerne la bouche et les yeux.

2. Entraînement de Répétition Croisée

Contrairement à de nombreux modèles qui ne tiennent pas compte des identités diverses pendant l'entraînement, MaskRenderer utilise une fonction de perte triplet. Cela signifie que le système apprend mieux à garder les identités séparées, ce qui améliore les performances lorsque les visages source et cible sont très différents.

3. Masques d'Occlusion Multi-Échelle

La fonctionnalité d'occlusion multi-échelle aide à améliorer le processus de remplissage, qui est essentiel pour traiter les zones manquantes dans l'image. Cela améliore la qualité visuelle, notamment pour les parties du visage qui pourraient être obscurcies.

Méthodologie de MaskRenderer

Le fonctionnement interne de MaskRenderer peut être compris à travers ses quatre principales parties :

1. Module du Modèle Morphable 3D

Ce module génère une représentation 3D du visage cible et incorpore des paramètres du visage source pour garantir une représentation précise.

2. Détecteur de Caractéristiques Faciales

Cette partie identifie les caractéristiques faciales clés à partir des images source et de conduite. Ces caractéristiques sont nécessaires pour un traitement ultérieur.

3. Réseau de Mouvement Dense

Le réseau de mouvement dense relie l'image source à l'image de conduite, permettant le transfert des expressions et des mouvements de manière précise.

4. Générateur de Masques d'Occlusion Multi-Échelle

Ce générateur crée des masques d'occlusion qui aident à mettre en évidence les zones nécessitant un remplissage ou une reconstruction pour obtenir une image finale réaliste.

Entraînement de MaskRenderer

Le processus d'entraînement implique une approche auto-supervisée, où le modèle apprend de ses sorties précédentes. Différentes pertes sont utilisées pour améliorer les performances :

  • Perte Triplet : Cela aide à garantir la cohérence de l'identité à travers les images.
  • Perte de Déformation : Cela améliore la précision de la manière dont les caractéristiques source sont mappées à l'image de conduite.

Évaluation de MaskRenderer

Les performances du système sont évaluées à travers diverses métriques qui mesurent à la fois des aspects quantitatifs et qualitatifs :

  • Similarité d'Identité : Cela détermine dans quelle mesure l'identité cible est préservée.
  • Similarité de Pose : Cela mesure à quel point la pose est représentée avec précision dans l'image répétée.
  • Métriques de Qualité : Différentes comparaisons sont faites par rapport aux méthodes de pointe pour évaluer le réalisme.

Résultats et Conclusions

Les tests ont montré que MaskRenderer excelle à préserver l'identité du visage cible tout en transférant efficacement les expressions de la source. Voir cette technologie en action démontre sa capacité à gérer même de grandes variations dans la pose ou l'expression de manière efficace.

Conclusion

En résumé, MaskRenderer représente un pas en avant significatif dans le domaine de la répétition faciale indépendante d'identité. En combinant avec succès diverses techniques, il produit non seulement des répliques de haute qualité mais maintient aussi l'identité originale du visage cible. Avec ses capacités en temps réel, MaskRenderer ouvre de nouvelles possibilités dans de nombreuses applications, préparant le terrain pour des développements plus avancés à l'avenir.

Source originale

Titre: MaskRenderer: 3D-Infused Multi-Mask Realistic Face Reenactment

Résumé: We present a novel end-to-end identity-agnostic face reenactment system, MaskRenderer, that can generate realistic, high fidelity frames in real-time. Although recent face reenactment works have shown promising results, there are still significant challenges such as identity leakage and imitating mouth movements, especially for large pose changes and occluded faces. MaskRenderer tackles these problems by using (i) a 3DMM to model 3D face structure to better handle pose changes, occlusion, and mouth movements compared to 2D representations; (ii) a triplet loss function to embed the cross-reenactment during training for better identity preservation; and (iii) multi-scale occlusion, improving inpainting and restoring missing areas. Comprehensive quantitative and qualitative experiments conducted on the VoxCeleb1 test set, demonstrate that MaskRenderer outperforms state-of-the-art models on unseen faces, especially when the Source and Driving identities are very different.

Auteurs: Tina Behrouzi, Atefeh Shahroudnejad, Payam Mousavi

Dernière mise à jour: 2023-09-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.05095

Source PDF: https://arxiv.org/pdf/2309.05095

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires