Avancées dans l'estimation de l'âge à partir d'images faciales
Une nouvelle méthode améliore l'estimation de l'âge à partir d'images faciales tout en réduisant l'influence de l'identité.
― 6 min lire
Table des matières
Estimer l'âge d'une personne à partir de son image faciale, c'est un sujet de plus en plus populaire. C'est pas toujours facile, parce que récupérer plein d'images d'une même personne à différents âges, c'est galère. Du coup, ici, on propose d'utiliser des datasets existants qui montrent différentes personnes à divers âges. L'idée, c'est de trouver des caractéristiques liées à l'âge tout en minimisant l'influence de l'identité sur les résultats.
Le défi de l'estimation d'âge
L'estimation d'âge consiste à analyser les caractéristiques visuelles présentes sur les images faciales. Différents aspects du visage, comme les rides et la texture de la peau, évoluent avec l'âge. Mais chaque personne a une structure faciale unique, ce qui complique l'identification des caractéristiques liées à l'âge. La plupart des méthodes actuelles utilisent de grands ensembles de données, mais rassembler une série d'images d'une même personne tout au long de sa vie, c'est pas simple.
Traditionnellement, les méthodes d'estimation d'âge se divisent en trois catégories : classification, régression et classement. Récemment, de nouvelles techniques comme l'apprentissage auto-supervisé ont fait leur apparition. Cependant, beaucoup de ces méthodes se concentrent trop sur l'identification d'une personne au lieu de son âge, ce qui peut entraîner des erreurs.
Comment ça marche
La méthode proposée vise à améliorer l'estimation d'âge grâce à une technique appelée Apprentissage contrastif. Cette technique compare les images pour mettre en avant les caractéristiques liées à l'âge tout en minimisant celles liées à l'identité. Pour ça, on utilise des ensembles de trois images. Une image fait office d'ancre, une ressemble par son âge mais diffère par son identité, et la troisième est différente en âge et en identité.
En regardant ces images ensemble, le système essaie de réduire l'influence de l'identité sur la prédiction d'âge. Ça veut dire qu'il peut se concentrer sur des détails plus fins qui indiquent l'âge, sans être biaisé par qui est la personne.
Ensembles de données et protocoles
La méthode a été testée sur deux ensembles de données accessibles au public : MORPH II et FG-NET. Le dataset MORPH II contient plus de 55 000 images d'environ 13 600 individus, avec des âges allant de 16 à 77 ans. FG-NET a plus de 1 000 images de 82 individus, allant des nouveau-nés à 69 ans. Ces ensembles de données ont été utilisés dans diverses études, ce qui les rend idéaux pour comparer les résultats.
Étapes de mise en œuvre
Avant l'analyse, toutes les images ont été alignées pour garantir la cohérence. Un modèle appelé ResNet-18 a été utilisé pour extraire des caractéristiques de ces images normalisées. Pendant l'entraînement, différentes augmentations d'images, comme des retournements et des transformations aléatoires, ont aidé à améliorer la capacité du modèle à généraliser.
L'entraînement a été réalisé avec un optimiseurs appelé Adam, qui ajuste les taux d'apprentissage au cours de l'entraînement. Le modèle a été évalué sur la base de l'Erreur Absolue Moyenne (MAE), qui mesure la différence entre les âges prédit et réels.
Résultats et comparaisons
En évaluant la performance du modèle proposé sur le dataset MORPH II, les résultats étaient prometteurs avec une MAE faible, ce qui veut dire que ses prédictions d'âge étaient assez précises. Comparé à d'autres méthodes qui nécessitent de grands ensembles de données externes pour l'entraînement, ce modèle a bien fonctionné en utilisant uniquement les données disponibles.
La performance sur le dataset FG-NET était aussi solide. Le point clé, c'est que la méthode a bien marché à travers différents groupes d'âge sans avoir besoin de données supplémentaires, ce qui est un gros avantage.
Focalisation sur les caractéristiques
Pour s'assurer que le modèle se concentrait sur les caractéristiques liées à l'âge, les chercheurs ont comparé la variance des caractéristiques extraites des visages ayant la même identité. Une variance plus faible indiquerait que le modèle s'appuyait trop sur des caractéristiques liées à l'identité, ce qui n'est pas souhaitable pour une tâche de prédiction d'âge. La méthode a montré une variance plus élevée dans les caractéristiques extraites par rapport aux méthodes traditionnelles, ce qui suggère qu'elle a réussi à mettre en avant des détails liés à l'âge.
Analyse visuelle
Une analyse Grad-CAM a été effectuée pour visualiser quelles parties du visage le modèle ciblait lors de l'estimation d'âge. Cette analyse a montré que le modèle proposé se concentrait sur des régions faciales spécifiques plus liées à l'âge, comme le front pour les personnes d'âge moyen et les zones autour de la bouche pour les plus jeunes. Ce focus sur des caractéristiques particulières indique que le modèle ne se contente pas de s'appuyer sur des structures faciales génériques, mais recherche des signes spécifiques à l'âge.
Évaluation des fonctions de perte
La recherche a aussi exploré comment différentes fonctions de perte impactaient la performance. En comparant diverses combinaisons de fonctions de perte, il est devenu évident que certaines configurations fonctionnaient mieux que d'autres. L'interaction entre la similarité cosinus et la perte de marge triplet était particulièrement efficace, permettant au modèle d'obtenir de meilleurs résultats sur des petits et gros ensembles de données.
À travers des tests rigoureux, l'étude a trouvé qu'en utilisant une combinaison des deux types de fonctions de perte, on obtenait les meilleures performances. En particulier, les modèles qui incluaient la perte de marge triplet ont montré une meilleure précision, surtout sur les petits ensembles de données.
Conclusion
En résumé, la méthode introduite pour l'estimation d'âge à partir d'images faciales utilise l'apprentissage contrastif pour réduire efficacement l'impact de l'identité sur la prédiction d'âge. En se concentrant sur les caractéristiques pertinentes associées au vieillissement tout en minimisant l'influence des traits liés à l'identité, cette approche a montré de solides performances sur divers ensembles de données.
La recherche a souligné qu'en sélectionnant soigneusement comment comparer les images et quelles caractéristiques mettre en avant, il est possible de faire des prédictions d'âge précises sans dépendre d'ensembles de données étendus de visages individuels. Cette méthode montre un potentiel pour des applications futures dans des domaines comme la sécurité, le marketing, et la santé où comprendre l'âge à partir d'images peut fournir des informations précieuses.
Titre: Age Prediction From Face Images Via Contrastive Learning
Résumé: This paper presents a novel approach for accurately estimating age from face images, which overcomes the challenge of collecting a large dataset of individuals with the same identity at different ages. Instead, we leverage readily available face datasets of different people at different ages and aim to extract age-related features using contrastive learning. Our method emphasizes these relevant features while suppressing identity-related features using a combination of cosine similarity and triplet margin losses. We demonstrate the effectiveness of our proposed approach by achieving state-of-the-art performance on two public datasets, FG-NET and MORPH-II.
Auteurs: Yeongnam Chae, Poulami Raha, Mijung Kim, Bjorn Stenger
Dernière mise à jour: 2023-08-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.11896
Source PDF: https://arxiv.org/pdf/2308.11896
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.