Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes

Améliorer la reconnaissance des émotions avec une augmentation par pondération de distance

Une nouvelle méthode améliore la précision de la prédiction des émotions en utilisant des techniques d'augmentation de données.

― 8 min lire


Améliorer la précision deAméliorer la précision dela prédiction desémotionsmodèles de reconnaissance des émotions.distance améliore la précision desL'augmentation par pondération de
Table des matières

Personnaliser la manière dont les machines reconnaissent les émotions est super important pour mieux comprendre les sentiments de chacun. Cette Personnalisation peut aider à améliorer la précision dans la prédiction des émotions comme le bonheur, la tristesse ou le stress. Par contre, obtenir suffisamment de données pour chaque individu peut être galère. Cet article présente une nouvelle méthode qui utilise l'Augmentation de données pour résoudre le problème des données limitées en essayant de personnaliser les prédictions émotionnelles en se basant sur deux facteurs clés : la Valence (qui mesure les sentiments positifs ou négatifs) et l'Excitation (qui mesure le niveau d'excitation).

Le défi de la personnalisation

Dans le domaine de la reconnaissance des émotions, chaque personne exprime ses sentiments de manière unique, influencée par ses origines et sa culture. Certains expriment leurs émotions à travers leur voix, tandis que d'autres peuvent utiliser des expressions faciales ou même des signaux physiologiques comme le rythme cardiaque. Ces différences rendent difficile la création de modèles universels pour prédire les émotions.

Beaucoup de techniques ont essayé d'améliorer la personnalisation dans la reconnaissance des émotions. Certains chercheurs ont utilisé l'apprentissage par transfert, qui consiste à prendre un modèle général entraîné sur un gros ensemble de données et à l'adapter avec des données d'un individu spécifique. D'autres se sont penchés sur l'entraînement en groupe, où des données d'individus similaires sont utilisées pour améliorer les prédictions.

Malgré ces efforts, atteindre une personnalisation efficace reste un défi. Les données limitées pour chaque individu rendent difficile l'apprentissage des modèles. Le manque de données de bonne qualité peut affecter de manière significative la performance des modèles personnalisés.

Présentation de l'augmentation par pondération de distance (DWA)

Cet article présente une nouvelle approche appelée augmentation par pondération de distance (DWA). L'objectif de la DWA est d'améliorer les prédictions de valence et d'excitation en élargissant les données disponibles pour chaque individu. La DWA fonctionne en ajoutant des échantillons similaires d'un ensemble de données global plus grand pour combler les lacunes dans les données individuelles.

La méthode DWA se déroule en deux grandes étapes. D'abord, elle crée un pool d'augmentation de segments à partir de l'ensemble de données global. Ensuite, elle identifie des segments similaires pour chaque individu en fonction d'une métrique de distance définie. Cela aide à développer un modèle plus personnalisé qui capture mieux l'état émotionnel de chaque personne.

Comment fonctionne la DWA

La DWA commence par regrouper tous les échantillons à partir d'un ensemble de données général. Ensuite, pour chaque segment d'individu, elle mesure à quel point il est similaire à d'autres segments dans le pool. Les échantillons les plus similaires sont sélectionnés en fonction des métriques de distance, qui aident à mesurer à quel point les segments sont liés. Ce processus permet à la DWA de créer un ensemble de données plus complet pour chaque individu, ce qui peut mener à des prédictions émotionnelles améliorées.

Métriques de distance

La DWA utilise trois méthodes différentes pour mesurer la distance :

  1. Distance Centroid L2 : Cette méthode calcule la distance en fonction des caractéristiques moyennes des segments. Une distance plus petite indique une plus grande similarité entre les segments.

  2. Distance du Produit Scalaire Centroid : Cette approche utilise le produit scalaire pour mesurer à quel point deux segments sont liés. Un produit scalaire plus élevé indique une plus grande similarité.

  3. Distance Cosinus : Cette métrique se concentre sur l'orientation des vecteurs de caractéristiques plutôt que sur leur taille réelle. Elle est souvent utilisée dans des espaces de grande dimension et aide à déterminer la similarité de manière plus nuancée.

Différentes métriques de distance peuvent donner des résultats différents, donc il est crucial d'expérimenter avec chacune pour voir laquelle fonctionne le mieux pour un ensemble de données ou une tâche particulière.

Configuration expérimentale

Pour tester la DWA, les chercheurs ont utilisé un ensemble de données spécifique comprenant des vidéos, de l'audio et des signaux physiologiques d'individus parlant en conversations. L'ensemble de données a été divisé en ensembles d'entraînement, de développement et de test en fonction des personnes plutôt que du temps. Cette configuration permet aux chercheurs de former le modèle sur des données d'un grand groupe de personnes, puis de le personnaliser pour le plus petit groupe d'individus en cours de test.

Les chercheurs ont également comparé la performance de la DWA avec des modèles de référence qui n'utilisaient pas de personnalisation. Ils se sont concentrés sur la performance de différentes caractéristiques (comme les données vidéo ou audio) dans différentes conditions.

Résultats et découvertes

Les résultats ont montré que la personnalisation a un impact significatif sur la performance. Les modèles génériques (ceux non personnalisés) ont eu du mal à atteindre une haute précision dans la prédiction des émotions, beaucoup affichant des scores en dessous de 0,53. Cependant, après personnalisation, de nombreuses caractéristiques ont vu des améliorations significatives. Par exemple, certaines caractéristiques sont passées de scores aussi bas que 0,23 à 0,79 grâce à l'augmentation de la DWA.

Lorsque la DWA a été appliquée, il a été constaté qu'elle aidait à améliorer la performance des caractéristiques qui étaient initialement à la traîne. Par exemple, la caractéristique audio eGeMAPS a vu sa performance passer de 0,56 à 0,70, montrant à quel point la DWA était précieuse pour améliorer la précision des prédictions.

DWA et caractéristiques spécifiques

L'efficacité de la DWA a été observée différemment selon les types de caractéristiques. Pour les caractéristiques vidéo, les caractéristiques FaceNet512 et ViT ont montré des améliorations notables après l'application de la DWA, atteignant des scores CCC supérieurs à 0,70. En revanche, la caractéristique Fau, qui performait le mieux sans la DWA, a en fait vu sa performance diminuer lorsque la DWA a été appliquée. Cela indique que la DWA est plus bénéfique pour les caractéristiques qui manquent de performance.

Pour les caractéristiques audio, eGeMAPS a été le meilleur performer, s'améliorant considérablement avec la DWA. D'autres caractéristiques comme DeepSpectrum en ont également bénéficié, mais les améliorations étaient plus limitées.

Améliorations de l'excitation vs. de la valence

Une des leçons clés a été que la DWA peut mener à des améliorations dans la prédiction de l'excitation ou de la valence, mais pas forcément des deux en même temps. Certaines caractéristiques se sont améliorées dans la prédiction de la valence tandis que d'autres ont été meilleures pour la prédiction de l'excitation. Cela souligne la complexité des émotions et la nécessité d'approches adaptées quand on travaille avec différents types de données émotionnelles.

Réglage des hyperparamètres

Le nombre d'échantillons ajoutés à chaque segment lors de l'augmentation a joué un rôle crucial dans la performance du modèle. Les chercheurs ont expérimenté différentes valeurs pour trouver celles qui offraient les meilleurs résultats. Il s'est avéré que le nombre idéal d'échantillons variait, ce qui signifie que le réglage de cet aspect est essentiel pour obtenir la meilleure performance.

Techniques de fusion tardive

Les chercheurs ont également exploré une stratégie de fusion tardive pour combiner les prédictions de différentes caractéristiques. Cette méthode a aidé à améliorer encore la performance globale, indiquant que l'utilisation d'un mélange de caractéristiques pourrait conduire à une meilleure précision dans la prédiction des émotions.

Conclusions et perspectives d'avenir

En résumé, la méthode d'augmentation par pondération de distance a montré des promesses dans l'amélioration de la personnalisation pour les tâches de reconnaissance des émotions. En s'appuyant sur des données d'un ensemble de données plus large, la DWA a réussi à améliorer l'exactitude des prédictions pour la valence et l'excitation, en particulier pour les caractéristiques qui avaient initialement du mal.

Pour les travaux futurs, il y a plusieurs pistes à explorer. Les chercheurs peuvent étudier des métriques de distance supplémentaires pour voir si elles donnent de meilleurs résultats. Une autre zone pourrait impliquer d'expérimenter avec la manière de pondérer les échantillons similaires, ce qui pourrait conduire à une performance encore meilleure du modèle. Enfin, comprendre pourquoi certaines caractéristiques ne profitent pas de la DWA pourrait aider à affiner l'approche et à la rendre plus largement applicable à différents ensembles de données et tâches.

Le chemin vers la perfection de la reconnaissance des émotions continue, mais des méthodes comme la DWA ouvrent la voie à des prédictions plus personnalisées et précises, aidant les machines à mieux comprendre la complexité des émotions humaines.

Source originale

Titre: Improving Personalisation in Valence and Arousal Prediction using Data Augmentation

Résumé: In the field of emotion recognition and Human-Machine Interaction (HMI), personalised approaches have exhibited their efficacy in capturing individual-specific characteristics and enhancing affective prediction accuracy. However, personalisation techniques often face the challenge of limited data for target individuals. This paper presents our work on an enhanced personalisation strategy, that leverages data augmentation to develop tailored models for continuous valence and arousal prediction. Our proposed approach, Distance Weighting Augmentation (DWA), employs a weighting-based augmentation method that expands a target individual's dataset, leveraging distance metrics to identify similar samples at the segment-level. Experimental results on the MuSe-Personalisation 2023 Challenge dataset demonstrate that our method significantly improves the performance of features sets which have low baseline performance, on the test set. This improvement in poor-performing features comes without sacrificing performance on high-performing features. In particular, our method achieves a maximum combined testing CCC of 0.78, compared to the reported baseline score of 0.76 (reproduced at 0.72). It also achieved a peak arousal and valence scores of 0.81 and 0.76, compared to reproduced baseline scores of 0.76 and 0.67 respectively. Through this work, we make significant contributions to the advancement of personalised affective computing models, enhancing the practicality and adaptability of data-level personalisation in real world contexts.

Auteurs: Munachiso Nwadike, Jialin Li, Hanan Salam

Dernière mise à jour: 2024-04-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.09042

Source PDF: https://arxiv.org/pdf/2404.09042

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires