Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la reconnaissance des expressions faciales avec l'apprentissage actif

Une méthode en deux étapes améliore la précision dans la reconnaissance des expressions faciales.

― 8 min lire


Reconnaissance desReconnaissance desémotions faciales refaitedétection des émotions.précision et l'efficacité de laDe nouvelles méthodes améliorent la
Table des matières

La Reconnaissance des expressions faciales (FER) consiste à détecter et interpréter les émotions humaines à partir des expressions du visage. Ce domaine a suscité de l'intérêt car il peut être appliqué dans plein de secteurs comme la technologie intelligente, la santé et les systèmes automobiles. Les avancées récentes en apprentissage profond ont beaucoup amélioré la performance de la FER. Cependant, un gros défi dans ce domaine est le besoin de grandes quantités de Données étiquetées, ce qui peut être difficile à collecter et coûteux en termes de temps et d'argent.

Le défi des données étiquetées

En apprentissage machine, les données étiquetées sont des exemples qui ont été marqués avec la bonne réponse. Pour la FER, ça veut dire que les images de visages doivent être étiquetées avec les émotions qu'elles expriment, comme la joie, la tristesse, la colère, etc. Rassembler et étiqueter ces images peut demander beaucoup de ressources.

Certaines études antérieures ont essayé de réduire la dépendance aux grands jeux de données étiquetées en utilisant des techniques non supervisées ; pourtant, une méthode prometteuse qui n'a pas été beaucoup explorée dans la FER est l'Apprentissage Actif. L'apprentissage actif est un processus où le modèle choisit quels échantillons non étiquetés doivent être étiquetés ensuite en fonction de leur valeur potentielle pour améliorer l'apprentissage.

Le concept d'apprentissage actif

L'apprentissage actif commence avec un petit ensemble d'échantillons étiquetés. Le modèle s'entraîne sur ces échantillons initiaux, et au fur et à mesure qu'il apprend, il choisit des échantillons supplémentaires dans le pool non étiqueté qu'il pense être les plus bénéfiques pour son entraînement. En se concentrant sur ces échantillons représentatifs, le modèle utilise au mieux un budget d'étiquetage limité.

Malgré ses avantages, l'apprentissage actif n'a pas bien fonctionné pour la FER dans des études antérieures. Un problème commun est connu sous le nom de "Problème de démarrage à froid". Cela se produit lorsque les échantillons étiquetés initiaux ne représentent pas adéquatement l'ensemble du jeu de données, ce qui peut mener à de mauvaises prédictions au fur et à mesure que le modèle apprend.

Une solution en deux étapes

Pour s'attaquer aux limites de l'apprentissage actif dans la FER, une méthode en deux étapes a été proposée. Dans la première étape, un modèle est pré-entraîné en utilisant toutes les données non étiquetées disponibles. Ce pré-entraînement auto-supervisé aide le modèle à apprendre les caractéristiques sous-jacentes des données sans avoir besoin d'étiquettes. Après cet entraînement initial, le modèle est ensuite affiné en utilisant l'apprentissage actif.

En apprenant d'abord à partir de toutes les données non étiquetées disponibles, le modèle pré-entraîné peut sélectionner des échantillons plus utiles lorsqu'il commence le processus d'apprentissage actif, améliorant ainsi la performance globale du modèle.

Test des méthodes

Dans la recherche, différentes méthodes d'apprentissage actif ont été testées sur trois jeux de données FER publics : FER13, RAF-DB et KDEF. Huit techniques d'apprentissage actif différentes ont été comparées, y compris des méthodes qui se concentrent sur l'incertitude des prédictions.

Les résultats ont montré que les approches d'apprentissage actif courantes n'amélioraient pas significativement la performance dans les tâches de FER, en grande partie à cause du problème de démarrage à froid. Étonnamment, des méthodes plus simples comme "Least Confidence" ont mieux performé que des techniques plus complexes.

Impact du problème de démarrage à froid

Le problème de démarrage à froid s'est révélé être un défi notable. Dans ce cas, si le lot initial de données étiquetées est trop petit ou pas représentatif, le modèle échoue à apprendre efficacement. En conséquence, la qualité des échantillons sélectionnés dans les cycles suivants en pâtit, ce qui peut négativement affecter la précision globale du modèle.

L'approche en deux étapes, qui combine l'Apprentissage auto-supervisé et l'apprentissage actif, vise à réduire le problème de démarrage à froid. En utilisant le pré-entraînement auto-supervisé, le modèle est mieux équipé pour faire des sélections éclairées lors de la phase d'apprentissage actif, entraînant de meilleurs résultats dans la reconnaissance des émotions à partir des expressions faciales.

Amélioration des performances

La méthode en deux étapes a montré des améliorations par rapport aux approches traditionnelles d'apprentissage actif. Plus précisément, la méthode a obtenu de meilleures performances par rapport à l'échantillonnage aléatoire. En termes pratiques, cela signifie que le modèle a pu identifier les expressions émotionnelles avec plus de précision que s'il avait simplement choisi des échantillons au hasard sans aucune stratégie.

Par exemple, en utilisant cette approche en deux étapes, il y a eu des améliorations notables de la performance sur différents jeux de données. Même pour le plus petit jeu de données KDEF, qui souffrait précédemment du problème de démarrage à froid, la méthode proposée a abouti à une meilleure précision.

Conclusions clés

L'étude a mis en avant plusieurs conclusions clés :

  1. Les méthodes d'apprentissage actif existantes ont montré des bénéfices limités dans les tâches de FER à cause du problème de démarrage à froid.
  2. Des approches plus simples, comme Least Confidence, surpassent souvent des méthodes plus complexes.
  3. Le problème de démarrage à froid est plus prononcé dans les plus petits jeux de données, entraînant une mauvaise performance.
  4. La solution en deux étapes proposée, combinant apprentissage auto-supervisé et apprentissage actif, a efficacement abordé les problèmes liés au démarrage à froid et amélioré la performance globale.

Importance de l'apprentissage auto-supervisé

L'apprentissage auto-supervisé joue un rôle important dans cette approche. Il permet au modèle d'apprendre à partir de données non étiquetées avant de se confronter aux complexités de l'apprentissage actif. Différentes techniques d'apprentissage auto-supervisé ont été testées, montrant que des méthodes comme SimCLR ont fourni les meilleurs résultats. Au final, le choix de cadre d'entraînement auto-supervisé peut grandement influencer le succès du processus d'apprentissage actif.

Implications pratiques

Dans des applications réelles de FER, ces résultats peuvent aider à réduire les coûts et le temps associés à l'étiquetage des données. En utilisant l'approche en deux étapes proposée, les développeurs peuvent créer des systèmes de reconnaissance d'expressions faciales plus efficaces sans avoir besoin de grandes quantités de données étiquetées.

Cette efficacité peut mener à une meilleure intégration de la technologie FER dans les appareils intelligents, les applications de santé et les solutions automobiles, où comprendre les émotions humaines peut améliorer l'expérience utilisateur et la sécurité.

Directions futures

Bien que l'étude montre des résultats prometteurs, il reste encore des marges d'amélioration. D'autres recherches peuvent se concentrer sur des approches alternatives à l'apprentissage actif qui pourraient mieux fonctionner dans certains scénarios. Investiguer le biais et l'équité dans les systèmes de détection des émotions est un autre domaine important pour de futurs travaux. S'assurer que les systèmes FER fonctionnent bien à travers divers groupes démographiques est crucial pour des applications éthiques.

De plus, explorer différentes stratégies d'apprentissage actif ou affiner davantage les méthodes d'apprentissage auto-supervisé pourrait donner des modèles encore meilleurs pour reconnaître les émotions humaines.

Conclusion

La recherche met en lumière l'importance de s'attaquer aux défis de la reconnaissance des expressions faciales, en particulier le besoin de grands jeux de données étiquetées. En utilisant l'apprentissage actif et le pré-entraînement auto-supervisé, il est possible de naviguer plus efficacement ces défis.

Grâce à la solution en deux étapes proposée, le processus d'apprentissage actif peut être amélioré, menant à une reconnaissance des expressions faciales plus précise. Alors que la technologie continue d'évoluer, trouver des méthodes efficaces pour entraîner des modèles avec des données étiquetées limitées sera essentiel pour de futures avancées dans le domaine.

Source originale

Titre: Active Learning with Contrastive Pre-training for Facial Expression Recognition

Résumé: Deep learning has played a significant role in the success of facial expression recognition (FER), thanks to large models and vast amounts of labelled data. However, obtaining labelled data requires a tremendous amount of human effort, time, and financial resources. Even though some prior works have focused on reducing the need for large amounts of labelled data using different unsupervised methods, another promising approach called active learning is barely explored in the context of FER. This approach involves selecting and labelling the most representative samples from an unlabelled set to make the best use of a limited 'labelling budget'. In this paper, we implement and study 8 recent active learning methods on three public FER datasets, FER13, RAF-DB, and KDEF. Our findings show that existing active learning methods do not perform well in the context of FER, likely suffering from a phenomenon called 'Cold Start', which occurs when the initial set of labelled samples is not well representative of the entire dataset. To address this issue, we propose contrastive self-supervised pre-training, which first learns the underlying representations based on the entire unlabelled dataset. We then follow this with the active learning methods and observe that our 2-step approach shows up to 9.2% improvement over random sampling and up to 6.7% improvement over the best existing active learning baseline without the pre-training. We will make the code for this study public upon publication at: github.com/ShuvenduRoy/ActiveFER.

Auteurs: Shuvendu Roy, Ali Etemad

Dernière mise à jour: 2023-07-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.02744

Source PDF: https://arxiv.org/pdf/2307.02744

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires