Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la reconnaissance des expressions faciales avec l'apprentissage auto-supervisé

Cette étude améliore la reconnaissance des émotions grâce à des méthodes auto-supervisées multi-modales.

― 7 min lire


Percée dans laPercée dans lareconnaissance desexpressions facialesmachines.détection des émotions dans lesDe nouvelles méthodes améliorent la
Table des matières

La reconnaissance des expressions faciales (FER) est super importante pour la communication humaine. Quand on parle, on utilise la voix et les expressions faciales pour comprendre les émotions. Cette technologie peut aider les machines à piger ces émotions aussi. Le défi, c’est d'apprendre aux machines à reconnaître ces expressions sans avoir besoin de beaucoup de données étiquetées, ce qui peut être cher et long à rassembler.

Actuellement, il y a plein de vidéos en ligne montrant des gens exprimant différentes émotions. Ce travail vise à créer une méthode qui peut apprendre de ces vidéos sans qu'elles aient besoin d'être étiquetées avec des émotions spécifiques. On se concentre sur un processus appelé Apprentissage auto-supervisé, qui permet au modèle d'apprendre des données elles-mêmes sans avoir besoin d'étiquettes supplémentaires.

Pourquoi l'apprentissage multimodal ?

La communication humaine repose sur plusieurs signaux comme les expressions faciales, le ton de la voix et les gestes. Pour créer un système qui comprend ces signaux, il est essentiel de combiner différents types de données. Dans cette étude, on utilise des vidéos, de l'audio et des sous-titres pour apprendre à une machine à reconnaître les émotions.

Le système qu'on a développé utilise trois tâches principales :

  1. Apprentissage contrastif : Cette méthode enseigne au modèle à regrouper les expressions similaires et à séparer celles qui sont différentes.
  2. Clustering : Ça aide le modèle à comprendre la structure générale des données en regroupant des représentations similaires.
  3. Reconstruction des données : Ça permet au modèle d'apprendre en prédisant à quoi les données devraient ressembler en fonction de ce qu'il apprend.

Chaque tâche apporte des bénéfices uniques, et quand on les combine, elles aident le modèle à apprendre plus efficacement.

Ensembles de données utilisés

On a utilisé plusieurs ensembles de données pour entraîner et tester nos modèles :

  1. VoxCeleb2 : Cet ensemble contient plein de vidéos de différentes personnes parlant. Il fournit de l'audio et des sous-titres, mais ne labelise pas les émotions.
  2. CAER : Tiré de la série "Friends", cet ensemble inclut 13 000 vidéos et audios, étiquetés avec des expressions émotionnelles de base.
  3. MELD : Semblable à CAER, cet ensemble vient aussi de "Friends" et a des vidéos axées sur des personnages individuels, avec des étiquettes émotionnelles.
  4. CMU-MOSEI : Cet ensemble inclut 3 000 vidéos de YouTube, montrant des gens parlant directement à la caméra. Il fournit des évaluations émotionnelles sur une échelle, qui peuvent être discrétisées en étiquettes.

En utilisant ces ensembles de données, on vise à entraîner nos modèles de sorte qu'ils puissent comprendre les émotions à partir de données du monde réel.

Construction du modèle

Notre modèle se compose de différentes parties qui travaillent ensemble pour traiter les données multimodales.

Extraction de caractéristiques

On commence par extraire des caractéristiques des données d'entrée. Ça veut dire qu'on prend les informations nécessaires des vidéos, des pistes audio et des sous-titres. Pour les images vidéo, on utilise un réseau de neurones bien connu appelé ResNet. Pour l'audio, on convertit le son en un format visuel appelé un spectrogramme Mel. Enfin, on utilise un modèle appelé DistilBERT pour extraire des caractéristiques des sous-titres texte.

L'architecture principale

Notre architecture se compose de trois têtes principales :

  1. Tête de représentation : Cette partie crée des représentations de données pour les tâches d'entraînement.
  2. Tête de projection : Cela transforme les données d'entrée en projections pour un meilleur apprentissage.
  3. Tête de clustering : Cela produit les embeddings qui sont essentiels pour les tâches de clustering.

Chaque tête joue un rôle important dans le bon fonctionnement du modèle.

Techniques d'apprentissage auto-supervisé

Apprentissage contrastif

Dans l'apprentissage contrastif, on apprend au modèle à rassembler des instances similaires et à éloigner celles qui sont dissemblables. Ce processus est crucial car il aide le modèle à comprendre la relation entre différentes expressions. Le modèle apprend à voir que différents mouvements faciaux peuvent transmettre des émotions similaires.

Clustering

Le clustering est utilisé pour regrouper des représentations similaires ensemble. En apprenant à regrouper des instances sur la base de leurs similarités, le modèle peut améliorer sa compréhension de la manière dont les expressions sont liées entre elles. Au lieu de traiter chaque instance séparément, le clustering permet au modèle de voir la vue d'ensemble.

Reconstruction des données

La reconstruction des données implique que le modèle prédit à quoi les données d'entrée devraient ressembler. Cette tâche aide le modèle à apprendre la structure sous-jacente des données, ce qui peut être bénéfique pour comprendre des expressions faciales complexes.

Combinaison des tâches

Pour rendre notre modèle plus puissant, on combine les trois tâches mentionnées ci-dessus. En faisant cela, on vise à tirer parti des forces de chaque tâche. Le processus implique un apprentissage conjoint à partir des tâches contrastives, de clustering et de reconstruction, afin que le modèle puisse capturer des représentations plus riches des expressions faciales.

Évaluation du modèle

Après avoir construit notre modèle, on a réalisé des expériences pour évaluer ses performances. On l'a comparé à plusieurs références pour voir à quel point il peut reconnaître les expressions faciales. Les résultats ont montré que notre modèle surpassait beaucoup d'autres modèles auto-supervisés et supervisés.

Métriques de performance

On a utilisé plusieurs métriques pour évaluer la performance, y compris la précision, le score F1, la précision et le rappel. En utilisant ces métriques, on peut mesurer quantitativement la performance du modèle sur différents ensembles de données.

Résultats et analyse

Notre modèle, nommé ConCluGen, a montré des améliorations significatives par rapport aux méthodes de pointe. En particulier, il a surpassé bien des modèles qui étaient axés sur les tâches de FER, démontrant l'efficacité de l'apprentissage auto-supervisé.

Comparaison avec d'autres modèles

On a comparé ConCluGen avec d'autres modèles pour voir où il se situait. Les résultats ont indiqué que notre modèle, qui a appris de plusieurs types de données, était plus efficace que les modèles qui n'utilisaient qu'un seul type de données ou qui étaient entièrement supervisés.

Avantages de l'apprentissage multimodal

Les expériences ont confirmé que l'utilisation de plusieurs modalités (vidéo, texte et audio) améliorait la capacité du modèle à reconnaître les expressions faciales. L'ajout de caractéristiques textuelles, en particulier, a fourni un contexte précieux qui a aidé à améliorer les performances.

Perspectives sur les stratégies d'apprentissage

On a constaté que combiner l'apprentissage contrastif avec le clustering menait à de meilleures performances par rapport à l'utilisation de l'une ou l'autre méthode seule. Cela suggère que ces méthodes se complètent bien, aidant le modèle à saisir les relations sémantiques entre les expressions faciales.

Conclusion

Dans cette recherche, on a développé une méthode auto-supervisée multitâches et multimodale pour reconnaître les expressions faciales. Nos résultats montrent qu'utiliser une combinaison de tâches et de différents types de données conduit à une meilleure performance pour comprendre les émotions. La méthode est prometteuse pour les applications où les machines doivent reconnaître les émotions humaines dans des scénarios du monde réel.

À l'avenir, on prévoit d'élargir notre approche en incluant d'autres modalités, comme les points de repère faciaux, pour améliorer encore le modèle. On vise aussi à tester notre méthode sur d'autres tâches, comme la détection des unités d'action faciales ou l'analyse des sentiments. Les modèles et le code développés dans cette étude sont partagés publiquement pour que d'autres puissent s'appuyer sur ce travail.

Source originale

Titre: Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition

Résumé: Human communication is multi-modal; e.g., face-to-face interaction involves auditory signals (speech) and visual signals (face movements and hand gestures). Hence, it is essential to exploit multiple modalities when designing machine learning-based facial expression recognition systems. In addition, given the ever-growing quantities of video data that capture human facial expressions, such systems should utilize raw unlabeled videos without requiring expensive annotations. Therefore, in this work, we employ a multitask multi-modal self-supervised learning method for facial expression recognition from in-the-wild video data. Our model combines three self-supervised objective functions: First, a multi-modal contrastive loss, that pulls diverse data modalities of the same video together in the representation space. Second, a multi-modal clustering loss that preserves the semantic structure of input data in the representation space. Finally, a multi-modal data reconstruction loss. We conduct a comprehensive study on this multimodal multi-task self-supervised learning method on three facial expression recognition benchmarks. To that end, we examine the performance of learning through different combinations of self-supervised tasks on the facial expression recognition downstream task. Our model ConCluGen outperforms several multi-modal self-supervised and fully supervised baselines on the CMU-MOSEI dataset. Our results generally show that multi-modal self-supervision tasks offer large performance gains for challenging tasks such as facial expression recognition, while also reducing the amount of manual annotations required. We release our pre-trained models as well as source code publicly

Auteurs: Marah Halawa, Florian Blume, Pia Bideau, Martin Maier, Rasha Abdel Rahman, Olaf Hellwich

Dernière mise à jour: 2024-09-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.10904

Source PDF: https://arxiv.org/pdf/2404.10904

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires