Estimation de l'âge avancé avec l'apprentissage contrastif des masques multi-vues
Une nouvelle méthode améliore la prédiction de l'âge en utilisant des caractéristiques faciales et des réseaux de neurones graphiques.
― 11 min lire
Table des matières
- La Tâche d'Estimation de l'Âge
- L'Évolution des Méthodes d'Estimation d'Âge
- Le Rôle des Réseaux de neurones graphiques
- La Nouvelle Approche MMCL-GCN
- Extraction des Caractéristiques
- Estimation de l'Âge
- Travaux Connus
- Apprentissage Contrastif
- Modélisation d'Images Masquées
- L'Utilisation des GNN
- La Structure du MMCL-GCN
- Extraction des Caractéristiques
- Estimation de l'Âge
- Évaluation Expérimentale
- Présentation des Ensembles de Données
- Processus d'Entraînement et d'Ajustement
- Critères d'Évaluation
- Résultats et Analyse
- Conclusion
- Source originale
Estimer l'âge d'une personne à partir de ses traits du visage a plein d'utilités dans notre vie quotidienne, comme la sécurité, le marketing et les réseaux sociaux. Mais, prédire l'âge avec des images faciales peut être compliqué parce que l'âge peut être influencé par plein de facteurs, comme le genre, la race, les expressions faciales, et même la manière dont la personne s'habille ou pose.
Ces dernières années, les chercheurs ont essayé plein de méthodes différentes pour estimer l'âge. Les anciennes méthodes utilisaient souvent des techniques manuelles pour extraire des caractéristiques des images, mais ces techniques ne fonctionnaient pas bien avec les images variées et complexes du monde réel. Beaucoup de nouvelles méthodes utilisent des techniques avancées comme les Réseaux de Neurones Convolutifs (CNN) pour mieux comprendre les visages et estimer les âges de manière fiable. Bien que les CNN aient apporté des améliorations, ils peuvent avoir du mal avec les formes et structures irrégulières des visages.
Cet article parle d'une nouvelle approche appelée Multi-view Mask Contrastive Learning Graph Convolutional Neural Network (MMCL-GCN) qui vise à rendre l'Estimation d'âge plus facile et plus précise. Cette méthode comprend plusieurs étapes, qui incluent l'Extraction de caractéristiques des images et une estimation d'âge plus efficace.
La Tâche d'Estimation de l'Âge
Le but principal de l'estimation d'âge est de prédire l'âge d'une personne en utilisant ses traits faciaux. Cette tâche est utile dans divers domaines, y compris la sécurité publique et le marketing. Cependant, l'estimation d'âge peut être complexe à cause de nombreux facteurs qui influencent l'apparence, comme le genre et la race, ainsi que des facteurs externes comme les expressions faciales et même les arrière-plans.
Les méthodes traditionnelles s'appuyaient généralement sur cinq approches principales : classification, régression, distribution d'étiquettes, classement et méthodes hybrides. Ces anciennes méthodes dépendaient souvent de modèles manuellement créés et de méthodes de traitement d'images basiques pour extraire des caractéristiques et prédire des âges avec des techniques d'apprentissage automatique comme les arbres de décision.
Avec les progrès technologiques, l'introduction des CNN a permis une meilleure reconnaissance des visages et des prédictions d'âge plus fiables. Les chercheurs ont commencé à utiliser les CNN de différentes manières, comme en employant des régressors locaux pour définir les données d'âge et en utilisant des forêts de régression pour de meilleures estimations d'âge. Bien que ces méthodes plus récentes aient amélioré les performances, elles avaient encore des limitations pour modéliser des caractéristiques faciales complexes.
L'Évolution des Méthodes d'Estimation d'Âge
Finalement, l'essor des Transformers dans les tâches visuelles a conduit à des approches encore plus novatrices pour l'estimation d'âge. Les chercheurs ont commencé à développer des modèles qui utilisaient divers aspects des traits faciaux de manière plus efficace. Par exemple, plusieurs études ont proposé d'utiliser des méthodes comme le spatial FAT pour modéliser les attributs faciaux et apprendre à partir de patchs locaux pour mieux capturer des informations faciales importantes.
Bien que les CNN et les Transformers aient montré des résultats prometteurs dans l'estimation d'âge, ils fonctionnent souvent dans un espace de données structuré traditionnel, ce qui peut limiter leur flexibilité lors de l'analyse d'images faciales complexes.
Réseaux de neurones graphiques
Le Rôle desLes Réseaux de Neurones Graphiques (GNN) ont émergé comme une solution potentielle pour relever les défis posés par les méthodes traditionnelles. Les GNN peuvent représenter les images de manière plus naturelle, en se concentrant sur des points faciaux clés plutôt qu'en considérant les images juste comme une grille. Les GNN permettent une meilleure extraction des relations complexes entre les traits faciaux, ce qui est particulièrement pertinent pour les tâches d'estimation d'âge.
En décomposant une image en segments plus petits, les GNN peuvent mieux capturer des informations contextuelles importantes et des relations entre les traits faciaux. Cette flexibilité permet aux GNN de traiter des images complexes de manières que les CNN et les Transformers ne peuvent pas.
La Nouvelle Approche MMCL-GCN
Pour améliorer l'estimation d'âge, le MMCL-GCN combine les forces des GNN avec des techniques d'Apprentissage auto-supervisé. Cette nouvelle structure a deux grandes étapes : extraction des caractéristiques et estimation de l'âge.
Extraction des Caractéristiques
Dans l'étape d'extraction des caractéristiques, le MMCL-GCN utilise une structure de graphe pour représenter les images faciales en entrée. Cet article introduit une nouvelle méthode appelée Multi-view Mask Contrastive Learning (MMCL), qui aide à apprendre les caractéristiques complexes et les sémantiques présentes dans les images de visages. Le MMCL implique l'utilisation d'un réseau siamese asymétrique pour reconstruire les informations manquantes à partir du graphe original.
La structure en ligne encodeur-décodeur aide à récupérer les caractéristiques nécessaires, tandis que l'encodeur cible aide à apprendre des représentations importantes. Cette combinaison conduit à un processus d'extraction de caractéristiques plus puissant et efficace.
Pour rendre le processus d'extraction de caractéristiques plus efficace, le MMCL adopte aussi plusieurs stratégies d'augmentation pour s'assurer que l'encodeur en ligne et l'encodeur cible fonctionnent bien ensemble. Cela permet au modèle d'apprendre des caractéristiques plus complètes.
Estimation de l'Âge
Une fois les caractéristiques extraites, le modèle passe à l'étape d'estimation de l'âge. Cette étape utilise une machine d'apprentissage extrême multi-couche (ML-IELM) spécialement conçue pour utiliser efficacement les caractéristiques extraites pour prédire l'âge. Un classificateur est utilisé pour catégoriser l'âge en groupes, tandis qu'un régressor est utilisé pour fournir une estimation d'âge exacte.
L'approche MMCL-GCN a démontré qu'elle peut réduire les erreurs dans l'estimation d'âge en apprenant efficacement les caractéristiques liées à l'âge présentes dans les images faciales.
Travaux Connus
Dans le domaine de l'apprentissage auto-supervisé, deux méthodes importantes ont attiré pas mal d'attention : l'apprentissage contrastif et la modélisation d'images masquées.
Apprentissage Contrastif
L'apprentissage contrastif aide à créer des représentations à partir de données non étiquetées, rendant les tâches en aval plus faciles. Il fonctionne en rapprochant les points de données similaires tout en éloignant les points dissemblables. Différents travaux de base en apprentissage contrastif ont exploré diverses stratégies pour améliorer la performance, y compris l'utilisation de banques de mémoire pour stocker des échantillons négatifs et l'emploi de fortes techniques d'augmentation de données.
Bien que l'apprentissage contrastif ait montré des promesses, il se concentre souvent sur des caractéristiques globales, négligeant l'information locale qui peut être cruciale pour des tâches comme l'estimation d'âge.
Modélisation d'Images Masquées
La modélisation d'images masquées, inspirée par des techniques utilisées dans le traitement du langage naturel, vise à reconstruire les parties manquantes des images. En apprenant à prédire ces sections manquantes, le modèle développe une meilleure compréhension des caractéristiques locales. Cependant, il a été noté que la modélisation masquée a tendance à manquer de concentration sur la relation entre différentes images, ce qui peut limiter son efficacité.
Ces dernières années, il y a eu des tentatives de combiner l'apprentissage contrastif et la modélisation masquée pour mieux extraire des caractéristiques. Cette synergie vise à tirer parti des forces des deux méthodes, offrant un modèle d'apprentissage de représentation plus robuste.
L'Utilisation des GNN
Les GNN ont gagné en popularité en tant qu'outils efficaces pour étudier des données structurées en graphe. Grâce à leur capacité à agréger des informations de manière itérative et à mettre à jour les représentations, les GNN ont obtenu des résultats exceptionnels dans des tâches comme la classification de nœuds et la prédiction de liens. Dans le contexte de l'estimation d'âge, les GNN permettent des analyses plus flexibles et complètes des traits faciaux, en particulier pour comprendre les relations et connexions entre eux.
La Structure du MMCL-GCN
Le MMCL-GCN se compose de deux grandes étapes : extraction des caractéristiques et estimation de l'âge.
Extraction des Caractéristiques
Lors de l'extraction des caractéristiques, les images d'entrée sont représentées par une structure de graphe. Le mécanisme MMCL utilise plusieurs vues pour apprendre des aspects structurels et sémantiques complexes des images faciales. Le réseau siamese asymétrique aide à reconstruire les informations manquantes, permettant une extraction robuste des caractéristiques latentes.
La structure encodeur-décodeur en ligne se concentre sur la capture des caractéristiques locales, tandis que l'encodeur cible améliore les représentations nécessaires pour un apprentissage contrastif efficace. Ensemble, ces composants travaillent à créer une méthode d'extraction de caractéristiques puissante qui peut s'adapter à différents types d'images faciales.
Estimation de l'Âge
Dans l'étape d'estimation d'âge, les fonctionnalités recueillies par l'encodeur en ligne sont envoyées au modèle ML-IELM. Cette structure est particulièrement bien adaptée pour traiter des données de haute dimension, ce qui la rend efficace pour les tâches de classification et de régression. Le ML-IELM peut classer les traits faciaux en groupes d'âge spécifiques et fournir des prédictions d'âge précises.
La synergie entre le cadre MMCL et le ML-IELM permet de capturer des relations complexes entre les différentes caractéristiques liées à l'âge dans les images faciales, résultant en un processus d'estimation d'âge plus efficace et précis.
Évaluation Expérimentale
L'efficacité de l'approche MMCL-GCN a été validée à travers de nombreuses expériences sur plusieurs ensembles de données, incluant IMDB-WIKI, MORPH-II, Adience Benchmark, et LAP-2016. Ces ensembles de données fournissent une base solide pour comparer le modèle proposé avec les méthodes à la pointe de la technologie.
Présentation des Ensembles de Données
IMDB-WIKI : Cet ensemble de données est l'un des plus grands pour l'estimation d'âge, avec plus de 460,000 images de visages issues d'IMDB et de Wikipedia. Bien qu'il soit principalement utilisé pour un pré-entraînement, il inclut un bruit varié dû aux différentes expressions faciales et arrière-plans.
MORPH-II : Cet ensemble de données largement utilisé comprend plus de 55,000 images de 13,000 individus. Il offre diverses représentations d'âge, ce qui le rend précieux pour l'entraînement et l'évaluation.
Adience Benchmark : Cet ensemble de données contient plus de 26,000 images prises dans des scénarios réels, présentant des défis en termes de pose, éclairage, et bruit.
LAP-2016 : Cet ensemble de données comprend environ 7,591 images, étiquetées pour l'estimation d'âge. Il aide à évaluer les performances des modèles dans des intervalles d'âge variés.
Processus d'Entraînement et d'Ajustement
Le modèle MMCL-GCN subit d'abord un pré-entraînement non supervisé sur l'ensemble de données ImageNet-1K. Ensuite, il est encore entraîné en utilisant l'ensemble de données IMDB-WIKI de manière supervisée. Différentes techniques, y compris des mesures de dropout, assurent que le modèle est bien optimisé pendant l'entraînement et l'ajustement.
Critères d'Évaluation
Les performances du modèle sont évaluées en utilisant l'erreur absolue moyenne (MAE), le score cumulatif (CS), et le score normal (N-score). Ces métriques aident à évaluer l'exactitude et la fiabilité des prédictions d'âge faites par le MMCL-GCN.
Résultats et Analyse
Les résultats obtenus des expériences indiquent que le modèle MMCL-GCN surpasse significativement de nombreuses méthodes traditionnelles d'estimation d'âge, atteignant des métriques compétitives à travers divers ensembles de données. Ce succès peut être attribué à la combinaison unique d'extraction de caractéristiques basée sur les GNN et du processus d'estimation d'âge ML-IELM.
Le modèle montre de solides performances dans l'ensemble de données MORPH-II grâce à ses capacités robustes d'extraction de caractéristiques. De même, il démontre des résultats impressionnants dans l'ensemble de données LAP-2016, où le processus de marquage rigoureux permet une évaluation plus fiable.
Conclusion
L'introduction du MMCL-GCN propose une solution innovante pour la tâche complexe d'estimation d'âge à partir d'images faciales. En combinant les avantages des réseaux de neurones graphiques avec des techniques d'apprentissage efficaces, cette méthode offre un cadre puissant et flexible pour extraire des caractéristiques pertinentes et prédire des âges de manière précise.
La recherche continue vise à explorer davantage les capacités des GNN dans la vision par ordinateur, en particulier concernant des applications au-delà de l'estimation d'âge. Ce travail, soutenu par diverses fondations de recherche, met en lumière le potentiel de progrès continu dans le domaine.
Titre: A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation
Résumé: The age estimation task aims to use facial features to predict the age of people and is widely used in public security, marketing, identification, and other fields. However, the features are mainly concentrated in facial keypoints, and existing CNN and Transformer-based methods have inflexibility and redundancy for modeling complex irregular structures. Therefore, this paper proposes a Multi-view Mask Contrastive Learning Graph Convolutional Neural Network (MMCL-GCN) for age estimation. Specifically, the overall structure of the MMCL-GCN network contains a feature extraction stage and an age estimation stage. In the feature extraction stage, we introduce a graph structure to construct face images as input and then design a Multi-view Mask Contrastive Learning (MMCL) mechanism to learn complex structural and semantic information about face images. The learning mechanism employs an asymmetric siamese network architecture, which utilizes an online encoder-decoder structure to reconstruct the missing information from the original graph and utilizes the target encoder to learn latent representations for contrastive learning. Furthermore, to promote the two learning mechanisms better compatible and complementary, we adopt two augmentation strategies and optimize the joint losses. In the age estimation stage, we design a Multi-layer Extreme Learning Machine (ML-IELM) with identity mapping to fully use the features extracted by the online encoder. Then, a classifier and a regressor were constructed based on ML-IELM, which were used to identify the age grouping interval and accurately estimate the final age. Extensive experiments show that MMCL-GCN can effectively reduce the error of age estimation on benchmark datasets such as Adience, MORPH-II, and LAP-2016.
Auteurs: Yiping Zhang, Yuntao Shou, Tao Meng, Wei Ai, Keqin Li
Dernière mise à jour: 2024-07-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.16234
Source PDF: https://arxiv.org/pdf/2407.16234
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.