Avancées dans la technologie de l'échange de visages
RobustSwap réduit la fuite d'attributs dans l'échange de visages pour un meilleur réalisme.
― 8 min lire
Table des matières
Le swap de visage, c’est une technologie qui déchire et qui nous permet de choper les traits du visage d’une personne pour les coller sur le visage d’une autre personne dans une image. Cette technique a plein d’utilités, comme créer des avatars virtuels, des effets dans des films, et plus encore. Mais un gros défi du face swapping, c’est de garder les traits de la personne ciblée intacts tout en reflétant bien l’identité de la personne source. Ça va au-delà d’un simple échange de visages, c’est s’assurer que la nouvelle image ait l’air naturelle et qu’elle se sente bien.
Les méthodes actuelles galèrent un peu avec ce qu’on appelle "le leakage d’attributs". Ça veut dire que des fois, les traits de l’image source se glissent dans l’image cible, causant des changements indésirables. Par exemple, si on utilise une personne qui porte des lunettes comme source, la face cible peut finir par avoir l’air de porter des lunettes, même si ce n'est pas le cas. Notre boulot, c’est de régler ce problème tout en créant des images et vidéos de super qualité à partir de swaps de visages.
Problèmes Actuels dans le Swap de Visage
Le swap de visage se concentre généralement sur deux trucs : l’identité de l’image source et les attributs de l’image cible. L’identité, c’est les traits comme la structure du visage, les yeux, le nez et la bouche. Les attributs incluent des choses comme la couleur des cheveux, l’expression, le fond, et l’éclairage. Trouver le bon équilibre entre ces deux éléments, c’est pas simple. Si c’est mal fait, les attributs de la source peuvent se retrouver dans l’image cible, foutant tout en l’air.
Les méthodes précédentes avaient souvent besoin de jeux de données spécifiques qui annotaient les Identités, ce qui limitait leur utilisation. Choper une grande quantité d’images de bonne qualité avec des étiquettes, c’est pas évident. Même quand ils arrivaient à récupérer les données nécessaires, ces méthodes devaient souvent ajuster plein de paramètres (hyperparamètres) pour bien fonctionner.
Les méthodes de swap de visage les plus récentes reposent aussi sur un système qu’on appelle StyleGAN. Ce procédé est super pour créer des images mais a encore des soucis pour garder les attributs de la cible. Les modèles passés ne donnaient pas toujours les meilleurs résultats pour préserver des attributs comme le teint de peau, le style de cheveux ou l’expression faciale de l’image cible, ce qui a mené à ce qu’on appelle le "leakage d’apparence".
Notre Approche
Pour relever ces défis, on a conçu un modèle de swap de visage qu’on a appelé RobustSwap. Ce modèle nous permet de mélanger les identités faciales de l’image source dans l’image cible tout en gardant les traits de la cible intacts. On a réussi ça en examinant le fonctionnement interne de StyleGAN et en découvrant quels réglages fonctionnaient le mieux pour le swap de visage. Notre modèle se démarque parce qu’il a été conçu pour éviter les pièges courants des approches précédentes.
Une partie clé de notre méthode implique d’utiliser des Modèles morphables 3D (3DMM). Ces modèles nous aident à capturer des détails sur les formes et expressions faciales. En combinant des données des images source et cible, on crée une image bien équilibrée qui montre l’identité source tout en respectant les attributs de la cible. Cette combinaison aide à éviter que des traits non désirés issus de l’image source ne fuient.
Méthodologie
Analyse de l’Espace Latent de StyleGAN
StyleGAN est un outil puissant pour générer des images. Il a une structure qui lui permet de décomposer les images en parties et de les manipuler efficacement. On a pris le temps d'analyser l'espace latent de StyleGAN, qui est en gros une collection de toutes les manières possibles d'agencer et de changer les traits dans une image. Cette analyse nous aide à comprendre comment mieux combiner les traits des deux images tout en minimisant le leakage d’attributs.
On a découvert qu’en utilisant des combinaisons spécifiques de vecteurs latents dans StyleGAN, on pouvait minimiser l’influence non désirée de l’image source. En expérimentant avec différentes combinaisons, on a pu trouver un équilibre qui maintenait les attributs de la cible tout en reflétant l’identité de la source.
Utilisation de Modèles Morphables 3D
Pour mieux maintenir l'intégrité structurelle des visages qu’on manipulait, on a intégré les 3DMM. Ce modèle fournit des informations détaillées sur la structure faciale, ce qui nous permet d'injecter des détails précis de forme de l’image source tout en gardant la pose de la cible. Ce point est crucial car ça veut dire qu’on peut créer des images qui sont non seulement jolies mais qui gardent aussi des expressions faciales et des angles réalistes.
On a utilisé ces infos en conjonction avec une nouvelle méthode qu’on a développée appelée "perte de repère partiel", qui se concentre sur un ensemble spécifique de points sur le visage. En faisant ça, on s’assure que le modèle prête attention à des traits importants tout en gardant le look et la sensation générale de l’image cible.
Résultats
Qualité d’Image
Notre modèle a été testé contre plusieurs méthodes de swap de visage existantes. On s’est concentré sur la mesure de comment bien notre modèle préservait à la fois l’identité et les attributs des images. Les résultats ont montré que RobustSwap fournissait une sortie supérieure, avec des images plus claires et moins de fuites de traits non désirés de la source.
Dans nos exemples, on pouvait clairement voir que RobustSwap gardait les teintes de peau, les expressions faciales, et les poses des images cibles beaucoup mieux que les modèles précédents. C’était particulièrement évident en comparant comment les yeux, la bouche, et d’autres traits correspondaient à l’image cible originale.
Qualité Vidéo
Un autre aspect important de notre travail était de tester les capacités du modèle avec des vidéos. Créer des effets vidéo fluides nécessite plus que de bonnes images fixes ; ça demande une cohérence à travers les frames. Notre modèle a aussi excellé ici. Même sans être entraîné spécifiquement sur des données vidéo, RobustSwap pouvait produire des vidéos de haute qualité qui se sentaient naturelles et cohérentes.
Les tests ont montré que notre modèle pouvait gérer efficacement les transitions entre les frames sans perdre l’identité ou les attributs de la cible. C'était une amélioration notable par rapport aux anciens modèles, qui avaient souvent du mal à maintenir un look cohérent d'une frame à l'autre.
Retours d’Utilisateurs
Pour s’assurer que notre modèle répondait aux besoins des vrais utilisateurs, on a fait des sondages et on a recueilli des retours de participants qui ont visionné des images et vidéos swapées. Ils ont été invités à noter divers éléments, comme à quel point l'identité était bien correspondante, à quel point l’image avait l’air naturelle, et la qualité globale.
Nos résultats ont montré que les utilisateurs ont noté RobustSwap haut la main sur tous les points. Beaucoup de participants ont remarqué que les images avaient l’air plus crédibles et que les transitions dans les vidéos étaient plus fluides par rapport aux autres modèles.
Conclusion
Le swap de visage est un domaine passionnant avec plein d'utilisations potentielles, mais ça a ses défis. Grâce à une analyse soignée de l’architecture de StyleGAN et à des techniques innovantes comme le 3DMM, on a développé RobustSwap, un modèle de swap de visage qui résout efficacement le problème du leakage d’attributs.
Notre modèle permet un mélange fluide des identités tout en s’assurant que les traits cibles restent intacts. Avec des résultats positifs aussi bien sur les images que sur les vidéos, RobustSwap se démarque dans le domaine, promettant d'améliorer la qualité du swap de visage dans diverses applications. Les futurs chercheurs peuvent s’appuyer sur ce travail, explorant de nouvelles méthodologies et techniques pour des technologies de swap de visage encore meilleures.
En se concentrant sur l’équilibre entre la préservation de l’identité et des attributs, on établit un nouveau standard pour la qualité et le réalisme du swap de visage, garantissant un look naturel dans tous types de médias.
Titre: RobustSwap: A Simple yet Robust Face Swapping Model against Attribute Leakage
Résumé: Face swapping aims at injecting a source image's identity (i.e., facial features) into a target image, while strictly preserving the target's attributes, which are irrelevant to identity. However, we observed that previous approaches still suffer from source attribute leakage, where the source image's attributes interfere with the target image's. In this paper, we analyze the latent space of StyleGAN and find the adequate combination of the latents geared for face swapping task. Based on the findings, we develop a simple yet robust face swapping model, RobustSwap, which is resistant to the potential source attribute leakage. Moreover, we exploit the coordination of 3DMM's implicit and explicit information as a guidance to incorporate the structure of the source image and the precise pose of the target image. Despite our method solely utilizing an image dataset without identity labels for training, our model has the capability to generate high-fidelity and temporally consistent videos. Through extensive qualitative and quantitative evaluations, we demonstrate that our method shows significant improvements compared with the previous face swapping models in synthesizing both images and videos. Project page is available at https://robustswap.github.io/
Auteurs: Jaeseong Lee, Taewoo Kim, Sunghyun Park, Younggun Lee, Jaegul Choo
Dernière mise à jour: 2023-03-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.15768
Source PDF: https://arxiv.org/pdf/2303.15768
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.