Avancées dans la génération d'expressions faciales réalistes
Cet article parle d'améliorer la génération d'expressions faciales en utilisant des unités d'action.
― 9 min lire
Table des matières
- Contexte
- Explication des Unités d'Action
- Le défi de générer des expressions réalistes
- L'encodeur AU
- Entraîner le modèle
- Améliorer la génération d'expression
- Intégrer des textes et des images
- Évaluer le modèle
- Comparaisons avec des méthodes existantes
- L'importance de la nuance émotionnelle
- Aborder les impacts sociétaux
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Créer des images qui montrent des visages humains avec de vraies émotions, c'est super important dans plein de domaines comme les films, les jeux et l'art. Les récents progrès en technologie informatique ont facilité la génération d'images ressemblant à des humains. Mais même avec tout ça, faire en sorte que les ordis créent des Expressions faciales réalistes reste un défi. Beaucoup de Modèles produisent encore des expressions banales et neutres qui n'arrivent pas à capturer les émotions complexes que les gens montrent dans la vraie vie.
Cet article parle de comment on peut améliorer la génération d'expressions faciales en utilisant une technique qui se concentre sur les mouvements individuels des muscles du visage. Cette technique se base sur ce qu'on appelle les Unités d'action (AUs). En combinant ces AUs, on peut créer une large gamme d'expressions faciales qui sont plus nuancées et réalistes.
Contexte
Les expressions faciales sont essentielles pour communiquer. Elles aident à transmettre des émotions et des intentions. Les modèles actuels ont souvent du mal à représenter toute la gamme de ces expressions et se retrouvent souvent à n’utiliser des états émotionnels basiques et prévisibles comme la joie ou la tristesse. Cette limitation rend difficile la création de personnages crédibles dans le récit visuel.
Les Unités d'Action (AUs) sont un moyen de décomposer les expressions faciales en morceaux plus petits et plus gérables. Chaque AU représente un mouvement spécifique des muscles du visage. Par exemple, l'AU qui relève le sourcil intérieur ou l'AU qui tire les coins des lèvres peuvent être combinés pour créer différentes expressions. En utilisant les AUs, on peut mieux contrôler comment on génère différentes expressions faciales.
Explication des Unités d'Action
Le Système de codage des actions faciales (FACS) est un système bien connu pour analyser les mouvements du visage. Il identifie 30 AUs de base qui correspondent à différents mouvements musculaires. Par exemple, relever le sourcil intérieur peut indiquer la surprise. Les AUs offrent une manière claire de manipuler les mouvements faciaux, permettant une large gamme d'expressions sans être limité aux étiquettes émotionnelles conventionnelles.
Un des principaux avantages d'utiliser les AUs, c'est qu'ils permettent un contrôle localisé. Au lieu de juste dire "fais en sorte que le personnage soit heureux", on peut préciser quels muscles du visage doivent bouger et à quel point. Cette approche détaillée permet aux créateurs de montrer des émotions subtiles et même des expressions non conventionnelles qui ne sont pas forcément liées à une émotion spécifique, comme le scepticisme ou la concentration.
Le défi de générer des expressions réalistes
Bien que les AUs offrent un super moyen de générer des expressions faciales réalistes, les intégrer dans les modèles existants peut être compliqué. La plupart des modèles sont conçus pour fonctionner avec des catégories émotionnelles plus générales, ce qui rend l'utilisation efficace des AUs difficile. Pour régler ça, on a développé un encodeur AU, qui traduit les entrées brutes d'AUs en un format qui peut fonctionner avec les modèles de génération actuels.
L'encodeur AU
L'encodeur AU est une partie essentielle de la méthode proposée. Il prend les entrées brutes d'AUs et les transforme en un format structuré qui peut être intégré aux modèles de génération d'images existants. Cet encodeur s'occupe de deux tâches importantes :
Continuité de l'Intensité : Il garantit que l'intensité des AUs varie en douceur. Par exemple, si un muscle facial est activé à différents niveaux, l'encodeur doit refléter cette variation avec précision.
Apprentissage des interactions : Il apprend comment les AUs interagissent les uns avec les autres. Par exemple, comment le fait de relever le sourcil intérieur (AU1) change quand on le combine avec d'autres AUs comme tirer les coins des lèvres (AU12). Cette compréhension permet au modèle de créer des expressions plus cohérentes et réalistes.
Entraîner le modèle
Développer un modèle fiable nécessite des données d'entraînement solides. Pourtant, beaucoup de datasets existants manquent des annotations AU nécessaires. Pour contourner ça, on a utilisé une combinaison de datasets dans notre entraînement. On a filtré les images pour la qualité et ensuite utilisé des outils pour annoter automatiquement les AUs. Ce processus nous a permis de créer un dataset plus robuste qui facilite un meilleur apprentissage des expressions faciales.
En entraînant l'encodeur AU sur ce dataset, on a pu le rendre plus efficace pour produire des expressions faciales qui correspondent de près à nos AUs d'entrée.
Améliorer la génération d'expression
Dans notre méthode, on se concentre sur deux aspects principaux de la génération d'expressions : la capacité à ajuster l'intensité et à combiner les AUs pour des expressions plus complexes. Cela signifie que les utilisateurs peuvent spécifier à quel point ils veulent qu'une expression faciale soit forte ou subtile.
Par exemple, si on demande à un modèle de montrer un personnage heureux, l'utilisateur peut contrôler à quel point le sourire est visible. Si l'utilisateur préfère un sourire timide, il peut ajuster les niveaux d'intensité des AUs pour refléter ce sentiment. Ce contrôle est crucial pour créer des personnages crédibles dans les récits.
Intégrer des textes et des images
Notre approche permet aussi de combiner les entrées textuelles avec les AUs et les images. Ça veut dire qu'un créateur peut fournir des descriptions écrites de ce qu'il veut, en plus des AUs spécifiques. Le modèle va alors générer une image qui s'aligne à la fois sur le texte et les conditions des AUs.
Par exemple, si un utilisateur veut créer un personnage avec un sourire espiègle tout en ayant l'air surpris, il peut entrer le texte correspondant avec les AUs qui correspondent à un sourire espiègle et à la surprise. Le modèle générera alors un personnage qui correspond à la description.
Évaluer le modèle
Pour évaluer l'efficacité de notre méthode, on a fait des tests avec plusieurs variations d’AUs. On a regardé à quel point le modèle pouvait recréer des expressions faciales en fonction des AUs fournis et à quel point il respectait le prompt original. On a constaté que notre méthode surpassait constamment les techniques précédentes en produisant des expressions faciales nuancées et précises.
Comparaisons avec des méthodes existantes
Comparée aux méthodes traditionnelles, l'approche proposée permet un contrôle plus fin des expressions faciales. Par exemple, utiliser uniquement des catégories émotionnelles standards menait souvent à des résultats génériques où la subtilité était perdue. En revanche, l'utilisation des AUs a permis des ajustements plus précis et des résultats plus réalistes.
Beaucoup de modèles existants ne proposent que des options limitées pour la génération d'expressions, se concentrant principalement sur des émotions basiques. Bien que certains progrès récents aient amélioré ça en permettant une plus grande variété d'expressions, ils peinent encore à gérer le contrôle localisé et l'intensité. Notre travail vise à surmonter ces limites et fournir un outil qui permet une expression émotionnelle plus profonde dans les images générées.
L'importance de la nuance émotionnelle
Quand on crée du contenu avec des personnages humains, capturer la nuance émotionnelle est vital. Les audiences veulent se connecter avec les personnages à un niveau plus profond, et cette connexion vient souvent des subtilités dans leurs expressions. En utilisant les AUs, notre méthode permet un paysage émotionnel plus riche dans la narration visuelle.
Par exemple, un personnage dans une histoire pourrait ressentir un mélange d'émotions pendant un moment crucial. Ils pourraient se sentir heureux tout en étant anxieux, et ce mélange peut être exprimé grâce à des AUs soigneusement sélectionnés. Notre cadre permet aux créateurs de rendre ces sentiments complexes visibles, améliorant l'engagement des spectateurs.
Aborder les impacts sociétaux
Comme avec toute technologie qui implique des caractéristiques humaines, il y a des implications sociétales à considérer. Les modèles d'apprentissage automatique peuvent apprendre sans le vouloir des biais présents dans leurs datasets d'entraînement. C'est particulièrement préoccupant quand il s'agit d'expressions faciales qui varient selon les cultures et les communautés.
Pour atténuer ces biais, il est important que les datasets utilisés pour l'entraînement soient diversifiés et incluent une large variété de types et d'expressions faciales. Notre approche s'efforce d'inclure une gamme d'ethnies et de cultures pour réduire le risque de perpétuer des biais dans les images générées.
Directions futures
La capacité de générer des expressions faciales nuancées ouvre de nombreuses possibilités pour la recherche et les applications futures. Il y a du potentiel pour améliorer encore les capacités d'édition d'expressions, permettant aux créateurs de spécifier des changements exacts aux mouvements faciaux dans les images existantes.
En plus, on espère affiner nos techniques pour mieux gérer la nature continue et multi-étiquettes des AUs. S'attaquer à ces défis permettra un contrôle encore plus détaillé des expressions faciales et élargira la gamme d'expressions qui peuvent être générées avec précision.
Conclusion
Créer des expressions faciales réalistes dans les images générées est une partie essentielle du récit et du développement des personnages. En se concentrant sur les Unités d'Action, on fournit une méthode qui permet un contrôle précis des mouvements faciaux et des émotions.
Grâce à cette approche, les créateurs peuvent transcender les catégorisations émotionnelles basiques et explorer un langage émotionnel plus riche dans leur travail. Notre méthode non seulement prépare le terrain pour une meilleure génération d'expressions faciales mais ouvre aussi de nouvelles avenues pour la créativité et l'expression dans les arts numériques.
Titre: Towards Localized Fine-Grained Control for Facial Expression Generation
Résumé: Generative models have surged in popularity recently due to their ability to produce high-quality images and video. However, steering these models to produce images with specific attributes and precise control remains challenging. Humans, particularly their faces, are central to content generation due to their ability to convey rich expressions and intent. Current generative models mostly generate flat neutral expressions and characterless smiles without authenticity. Other basic expressions like anger are possible, but are limited to the stereotypical expression, while other unconventional facial expressions like doubtful are difficult to reliably generate. In this work, we propose the use of AUs (action units) for facial expression control in face generation. AUs describe individual facial muscle movements based on facial anatomy, allowing precise and localized control over the intensity of facial movements. By combining different action units, we unlock the ability to create unconventional facial expressions that go beyond typical emotional models, enabling nuanced and authentic reactions reflective of real-world expressions. The proposed method can be seamlessly integrated with both text and image prompts using adapters, offering precise and intuitive control of the generated results. Code and dataset are available in {https://github.com/tvaranka/fineface}.
Auteurs: Tuomas Varanka, Huai-Qian Khor, Yante Li, Mengting Wei, Hanwei Kung, Nicu Sebe, Guoying Zhao
Dernière mise à jour: 2024-07-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.20175
Source PDF: https://arxiv.org/pdf/2407.20175
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/huggingface/diffusers
- https://media.icml.cc/Conferences/CVPR2023/cvpr2023-author_kit-v1_1-1.zip
- https://github.com/wacv-pcs/WACV-2023-Author-Kit
- https://github.com/MCG-NKU/CVPR_Template
- https://github.com/tvaranka/fineface
- https://arxiv.org/pdf/2403.18978
- https://huggingface.co/stabilityai/stable-diffusion-2-1-base
- https://huggingface.co/h94/IP-Adapter-FaceID