Comparer la compréhension des expressions faciales chez les humains et l'IA
Cette étude analyse comment les modèles de deep learning reconnaissent les expressions faciales par rapport aux humains.
― 10 min lire
Table des matières
- L'importance des expressions faciales
- La croissance de la reconnaissance automatique des expressions faciales
- Anthropomorphisme cognitif et IA
- Comparaison du comportement humain et de l'IA
- Méthodes d'analyse des expressions humaines
- Focalisation de cette étude
- Objectifs de la recherche
- Revue de la littérature sur la reconnaissance des expressions faciales
- Types de datasets utilisés
- Prétraitement et augmentation des données
- Aperçu des architectures de CNN
- Entraînement et évaluation des réseaux
- Mesurer la performance
- Comprendre les régions importantes pour la reconnaissance
- Observations des cartes thermiques
- Comparaison des modèles pré-entraînés et non pré-entraînés
- Comparaison des cartes thermiques de l'IA et des humains
- Principales conclusions de la comparaison
- Dendrogrammes et analyse de similarité
- Conclusion
- Perspectives futures
- Source originale
La reconnaissance des expressions faciales (FER) est super importante pour comprendre le comportement humain. Avec la montée de l'apprentissage profond, certains modèles peuvent maintenant identifier les expressions faciales mieux que les humains. Cependant, on ne sait toujours pas à quel point ces modèles reproduisent vraiment la façon dont les humains comprennent les expressions faciales. Cette étude se penche sur la similarité entre les modèles d'apprentissage profond et la perception humaine en examinant douze modèles différents, y compris des classificateurs d'images généralistes et ceux spécifiquement conçus pour la FER.
L'importance des expressions faciales
Les expressions faciales donnent des infos précieuses dans la communication humaine. Elles représentent visuellement les émotions, offrant des indices qui aident les autres à comprendre ce que quelqu'un ressent. Bien que certains pensent que les expressions faciales peuvent différer entre les cultures, de nombreuses études soutiennent que certaines expressions de base sont universellement reconnues, comme la colère, le bonheur, la surprise, le dégoût, la tristesse et la peur.
La croissance de la reconnaissance automatique des expressions faciales
Ces dernières années, les chercheurs se sont activement penchés sur le développement de systèmes de FER automatiques à cause de leurs utilisations pratiques, comme dans le domaine médical, l'analyse du comportement humain et l'interaction homme-machine. Au départ, le focus était sur l'extraction de caractéristiques des images faciales. Cependant, avec les avancées en apprentissage profond, notamment avec des techniques comme les Réseaux de Neurones Convolutifs (CNN), ces systèmes ont fait des progrès remarquables dans la reconnaissance des expressions faciales.
Anthropomorphisme cognitif et IA
Les humains ont souvent tendance à prêter des qualités humaines aux systèmes d'IA, en supposant qu'ils fonctionnent comme nous. Bien qu'un modèle d'apprentissage profond puisse atteindre une grande précision dans la reconnaissance des expressions, cela ne signifie pas que les processus derrière cette reconnaissance sont les mêmes que ceux de la pensée humaine. Des études récentes ont commencé à évaluer les similarités entre l'apprentissage profond et la vision humaine, mais les comparaisons détaillées sont encore rares.
Comparaison du comportement humain et de l'IA
Certains chercheurs ont analysé comment les humains classifient les expressions par rapport à la façon dont le font les modèles d'IA. Ils suggèrent des façons d'améliorer les modèles pour mieux s'aligner sur la façon dont les humains reconnaissent les émotions. Cela peut aider à réduire les erreurs et à améliorer la performance des réseaux d'apprentissage profond.
Méthodes d'analyse des expressions humaines
Les chercheurs utilisent différents systèmes pour étudier les mouvements faciaux humains, comme le Système de codage des actions faciales (FACS). Le FACS décompose les mouvements du visage en Unités d'Action, qui correspondent à des mouvements musculaires spécifiques. En analysant ces unités, les humains peuvent identifier des expressions communes et leurs émotions associées.
Focalisation de cette étude
Cette étude se concentre sur les réseaux d'apprentissage profond entraînés pour reconnaître les expressions faciales. Le but est de voir si ces réseaux observent les mêmes mouvements faciaux que les humains et à quel point leur traitement est similaire. On applique des techniques d'IA explicable pour analyser à quel point ces réseaux reproduisent un traitement semblable à celui des humains.
Objectifs de la recherche
Deux objectifs principaux guident ce travail :
- Examiner les similarités entre les réseaux d'apprentissage profond et les unités d'action faciale en utilisant des techniques d'explicabilité.
- Comparer différents CNN pour déterminer s'ils mettent en avant des régions faciales similaires lors de la reconnaissance des expressions.
Revue de la littérature sur la reconnaissance des expressions faciales
Il y a eu peu de recherches comparant la perception humaine et les systèmes d'apprentissage profond en FER. Bien que certaines études aient exploré l'IA explicable dans ce domaine, la plupart ne se sont pas concentrées sur les similarités ou différences dans la façon dont les humains et l'IA perçoivent les expressions. D'autres travaux ont étudié si les réseaux de neurones apprenaient les unités d'action faciale dans des tâches de reconnaissance. Cependant, aucune de ces études n'a réalisé une comparaison approfondie de la façon dont les modèles apprennent par rapport à la manière dont les humains perçoivent les indices faciaux.
Types de datasets utilisés
Plusieurs datasets standards sont couramment utilisés dans les études sur les expressions faciales, incluant :
- Le dataset Extended Cohn-Kanade (CK+)
- Le dataset BU-4DFE
- Le dataset JAFFE
- Le dataset WSEFEP
- Le dataset FEGA (Facial Expression, Gender and Age)
Ces datasets contiennent des images ou des séquences de différents sujets exprimant diverses émotions.
Prétraitement et augmentation des données
Avant l'entraînement, les images doivent être standardisées. Cela implique de détecter les visages, de les aligner en fonction de points clés du visage, de convertir les images en niveaux de gris et de les redimensionner pour l'entrée des CNN. Des techniques d'augmentation des données comme le changement de luminosité et l'altération des positions faciales sont également utilisées pour améliorer le dataset d'entraînement.
Aperçu des architectures de CNN
Douze modèles CNN différents ont été entraînés pour reconnaître les expressions faciales. Cela inclut neuf modèles populaires et trois spécifiquement conçus pour la FER. Certains de ces modèles sont bien établis dans les domaines de la vision par ordinateur et des neurosciences.
- AlexNet, WeiNet, SongNet, SilNet : Ces modèles ont des structures plus simples.
- VGG16 et VGG19 : Ceux-ci utilisent des filtres convolutionnels 3x3 et possèdent des architectures plus profondes.
- ResNet50 et ResNet101V2 : Ceux-ci permettent des réseaux plus profonds grâce à des connexions de saut.
- InceptionV3 et Xception : Ces modèles emploient des techniques avancées pour améliorer la performance.
- MobileNetV3 et EfficientNetV2 : Ciblés pour l'efficacité, surtout sur les appareils mobiles.
Chaque modèle a été entraîné et évalué sur différents datasets, en se concentrant sur leur efficacité à reconnaître et catégoriser les expressions faciales.
Entraînement et évaluation des réseaux
Chaque modèle a subi une validation croisée en k-fold pour les tests. Les participants étaient regroupés pour assurer une évaluation équitable à travers différents datasets. Un entraînement préliminaire a aidé à déterminer le nombre d'époques nécessaires pour chaque modèle pour atteindre de bonnes performances.
Mesurer la performance
Les modèles ont été évalués sur leur précision à travers les ensembles de test. La plupart des réseaux ont bien performé, avec des précisions variant autour de 80% à 84%, bien que certains, comme ResNet50, aient eu une performance légèrement inférieure.
Comprendre les régions importantes pour la reconnaissance
Des cartes thermiques générées par les CNN ont mis en évidence les régions faciales jugées importantes pour reconnaître chaque expression. Analyser ces cartes thermiques offre des insights sur les zones du visage sur lesquelles les réseaux se concentrent pour leurs classifications.
Observations des cartes thermiques
- Colère : Les régions pertinentes s'étendent sur le visage, particulièrement autour de la bouche et du front.
- Dégoût : Le nez et la bouche ont joué un rôle critique dans la classification.
- Peur : La bouche et le menton étaient significatifs, ainsi que les yeux.
- Bonheur : La bouche était la caractéristique centrale.
- Tristesse : Les zones importantes étaient plus dispersées sur le visage.
- Surprise : Les régions des yeux et de la bouche étaient particulièrement cruciales.
Ces motifs sont cohérents et s'alignent avec les perceptions humaines des expressions.
Comparaison des modèles pré-entraînés et non pré-entraînés
Les cartes thermiques des réseaux pré-entraînés montrent souvent une importance plus localisée par rapport à celles qui n'ont pas été pré-entraînées, qui affichent généralement des régions d'intérêt plus dispersées. Cet alignement peut influencer la cohérence et la précision de la reconnaissance des expressions.
Comparaison des cartes thermiques de l'IA et des humains
Pour évaluer à quel point les réseaux sont similaires à la perception humaine des expressions, des métriques IoU (Intersection over Union) ont été utilisées pour comparer les cartes thermiques aux masques d'Ekman dérivés des unités d'action. Les résultats ont indiqué que, bien que certains modèles aient mieux performé que d'autres, aucun n'a atteint un accord significatif avec les masques d'Ekman définis par les humains.
Principales conclusions de la comparaison
- Performance IoU : La meilleure moyenne d'IoU était d'environ 0.33, indiquant un alignement limité entre les modèles d'IA et la compréhension humaine.
- Spécificité des expressions : L'expression de dégoût a montré une correspondance remarquablement meilleure que les autres, avec certains modèles atteignant des scores élevés.
- Manque de cohérence : Bien que certains réseaux se concentrent sur des zones similaires, le manque général d'accord avec les définitions d'Ekman montre que la reconnaissance par l'IA pourrait ne pas refléter celle des humains.
Dendrogrammes et analyse de similarité
Des dendrogrammes, construits à l'aide de coefficients de corrélation normalisés, ont aidé à visualiser les similarités entre les cartes thermiques de différents réseaux. Deux clusters principaux sont apparus : un pour les réseaux utilisant des poids pré-entraînés et un autre pour ceux entraînés de zéro. Cela suggère que le pré-entraînement peut aider les modèles à converger vers des solutions similaires.
Conclusion
À l'aide de diverses architectures de CNN, cette recherche avait pour but d'enquêter sur la relation entre la reconnaissance des expressions faciales par les humains et l'IA. Bien que la plupart des réseaux aient atteint une précision satisfaisante dans la reconnaissance des expressions, les résultats montrent des écarts significatifs dans la façon dont ils interprètent les régions faciales importantes. Notamment, les modèles pré-entraînés avaient tendance à s'aligner davantage que ceux entraînés de zéro. Cependant, la faible similarité générale entre les modèles d'IA et les régions perçues par les humains indique qu'il y a encore du travail à faire pour améliorer la compréhension et l'alignement.
Perspectives futures
Il y a encore plein d'aspects à explorer. Les recherches futures pourraient se pencher sur d'autres types de modèles au-delà des CNN. Il est aussi essentiel de se demander si aligner la vision de l'IA à la perception humaine est crucial pour instaurer la confiance dans les systèmes automatiques. Globalement, améliorer la relation entre la reconnaissance humaine et celle de l'IA pourrait renforcer à la fois la performance et la confiance des utilisateurs dans les systèmes d'analyse des expressions faciales.
Titre: Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI
Résumé: Facial expression recognition is vital for human behavior analysis, and deep learning has enabled models that can outperform humans. However, it is unclear how closely they mimic human processing. This study aims to explore the similarity between deep neural networks and human perception by comparing twelve different networks, including both general object classifiers and FER-specific models. We employ an innovative global explainable AI method to generate heatmaps, revealing crucial facial regions for the twelve networks trained on six facial expressions. We assess these results both quantitatively and qualitatively, comparing them to ground truth masks based on Friesen and Ekman's description and among them. We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons. We generate 72 heatmaps to highlight critical regions for each expression and architecture. Qualitatively, models with pre-trained weights show more similarity in heatmaps compared to those without pre-training. Specifically, eye and nose areas influence certain facial expressions, while the mouth is consistently important across all models and expressions. Quantitatively, we find low average IoU values (avg. 0.2702) across all expressions and architectures. The best-performing architecture averages 0.3269, while the worst-performing one averages 0.2066. Dendrograms, built with the normalized correlation coefficient, reveal two main clusters for most expressions: models with pre-training and models without pre-training. Findings suggest limited alignment between human and AI facial expression recognition, with network architectures influencing the similarity, as similar architectures prioritize similar facial regions.
Auteurs: F. Xavier Gaya-Morey, Silvia Ramis-Guarinos, Cristina Manresa-Yee, Jose M. Buades-Rubio
Dernière mise à jour: 2024-09-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.11835
Source PDF: https://arxiv.org/pdf/2401.11835
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.