Analyser la parole pour détecter des problèmes de santé mentale
Un nouveau jeu de données aide à identifier les signes de dépression et d'anxiété grâce à l'analyse de la parole.
― 8 min lire
Table des matières
- Le Besoin de Bonnes Données
- Qu'est-ce que DEPAC ?
- Défis des Évaluations Traditionnelles
- Pourquoi l'Analyse de la Parole ?
- Datasets Précédents
- Comment DEPAC est Collecté
- Démographie des Participants
- Tâches Vocales dans DEPAC
- Assurance Qualité des Enregistrements
- Caractéristiques Clés Extraites
- Modèles Prédictifs
- Performance des Modèles
- Conclusion
- Source originale
- Liens de référence
Les problèmes de santé mentale comme la Dépression et l'Anxiété sont des gros soucis dans le monde entier. Ces conditions touchent plein de monde et peuvent causer divers défis au quotidien. L'idée d'utiliser la technologie pour aider à diagnostiquer ces conditions a pris de l'ampleur. Avec les avancées en intelligence artificielle, on peut maintenant analyser la parole pour identifier des signes de détresse mentale. Cette approche pourrait vraiment aider à réduire la souffrance des personnes touchées.
Le Besoin de Bonnes Données
Pour développer une technologie qui peut détecter automatiquement la dépression et l'anxiété, il faut des données de haute qualité. Ces données doivent être riches et équilibrées pour garantir des résultats précis. Pour répondre à ce besoin, un nouveau dataset audio a été créé, spécialement conçu pour analyser la détresse mentale. Ce dataset, appelé DEPAC, inclut diverses tâches vocales et des informations démographiques sur les participants.
Qu'est-ce que DEPAC ?
DEPAC ça veut dire DEPression et Anxiety Crowdsourced corpus. Ce dataset contient des enregistrements audio de personnes réalisant des tâches vocales. Les enregistrements ont été étiquetés selon des outils de dépistage standards pour la dépression et l'anxiété. Le dataset inclut plusieurs tâches par personne, offrant une collection complète d'échantillons de discours.
Les créateurs de ce dataset ont veillé à inclure une variété de caractéristiques liées à la parole, y compris des propriétés acoustiques (comme le ton et la hauteur) et des éléments linguistiques (comme le choix des mots et la structure des phrases). Cette variété aide à identifier les indicateurs de problèmes de santé mentale.
Défis des Évaluations Traditionnelles
En général, les évaluations de santé mentale impliquent des questionnaires et des interviews. Des outils comme l'échelle de dépression de Hamilton et l'inventaire de dépression de Beck sont utilisés pour mesurer la gravité de la dépression. Cependant, ces méthodes peuvent être imparfaites. Elles nécessitent souvent des rapports subjectifs des individus, ce qui peut mener à des inexactitudes, surtout si la personne hésite à révéler ses véritables sentiments.
De plus, les méthodes traditionnelles ne capturent pas toujours la complexité des problèmes de santé mentale. Par exemple, le trouble dépressif majeur présente une large gamme de symptômes, et le manque d'évaluation standardisée rend difficile même pour les professionnels formés de poser un diagnostic précis.
Pourquoi l'Analyse de la Parole ?
La langue et la parole peuvent en dire long sur l'état mental d'une personne. Pour les individus souffrant de dépression, certains schémas de parole émergent souvent. Ils peuvent parler plus lentement, utiliser plus souvent des mots négatifs, ou se concentrer sur les pronoms à la première personne. Analyser ces schémas peut fournir des insights précieux sur leur santé mentale.
L'analyse automatisée de la parole peut être un moyen rapide et efficace d'évaluer la santé mentale d'un individu. Cette méthode nécessite seulement un court enregistrement audio, ce qui la rend moins contraignante que de longs questionnaires. Mais pour créer des modèles efficaces, avoir accès à des datasets de haute qualité est crucial.
Datasets Précédents
Par le passé, il y a eu plusieurs tentatives d'utiliser la parole pour détecter la dépression. Par exemple, le défi de reconnaissance des émotions audio-visuelles a introduit un corpus de langage dépressif, contenant des enregistrements limités dans différentes langues. Cependant, ces anciens datasets avaient des limitations importantes. Ils avaient souvent de petites tailles d'échantillons ou manquaient de variété en termes de tâches vocales.
Ces problèmes ont rendu difficile le développement de modèles d'apprentissage automatique fiables. Pour pallier ces lacunes, DEPAC offre une collection plus grande et plus diversifiée d'échantillons de parole spécifiquement axée sur la détection de l'anxiété et de la dépression.
Comment DEPAC est Collecté
Le dataset DEPAC a été construit en utilisant une approche de crowdsourcing. Les participants ont effectué diverses tâches vocales via une plateforme en ligne, où ils ont été rémunérés pour leur temps. Les tâches comprenaient la description d'images, le maintien de sons et la narration d'histoires personnelles. Chaque enregistrement a ensuite été transcrit et collecté avec des détails démographiques.
Démographie des Participants
Le dataset comprend une large gamme de participants, y compris différents âges, niveaux d'éducation et genres. Cette diversité est essentielle pour créer un dataset qui reflète la population générale et capture les diverses expressions des problèmes de santé mentale.
Tâches Vocales dans DEPAC
Les participants au projet DEPAC ont complété plusieurs tâches spécifiques conçues pour susciter divers schémas de parole. Ces tâches incluent :
Tâche de Phonème : Les participants ont maintenu un son phonémique aussi longtemps qu'ils le pouvaient pour analyser leur stabilité vocale.
Fluidité Phonémique : Dans cette tâche, les individus ont été évalués sur le nombre de mots qu'ils pouvaient générer commençant par une lettre spécifique dans un temps limité.
Description d'Image : Les participants ont décrit une image statique, permettant un discours spontané qui pourrait révéler leurs processus de pensée et états émotionnels.
Fluidité Sémantique : Les participants ont été invités à lister des expériences futures positives, ce qui peut refléter leur vision de la vie.
Narration Incitée : Les individus ont décrit une expérience personnelle ou un sujet basé sur une incitation donnée, révélant leur traitement cognitif et émotionnel.
Ces tâches ont été spécifiquement choisies pour s'assurer qu'elles généreraient des données de parole pouvant servir d'indicateurs de santé mentale.
Assurance Qualité des Enregistrements
Pour maintenir un haut niveau de qualité, chaque échantillon audio a subi un processus de transcription et de contrôle de qualité rigoureux. Des professionnels formés ont veillé à ce que les transcriptions reflètent fidèlement le contenu prononcé. Tous les enregistrements avec un bruit de fond significatif ou d'autres problèmes ont été exclus pour améliorer la fiabilité du dataset.
Caractéristiques Clés Extraites
Un large ensemble de caractéristiques a été extrait des échantillons audio pour évaluer la santé mentale avec précision. Ces caractéristiques peuvent être regroupées en deux grandes catégories : les Caractéristiques acoustiques et linguistiques.
Caractéristiques Acoustiques
Ces caractéristiques impliquent l'analyse des aspects sonores de la parole, y compris :
- Caractéristiques Spectrales : Des éléments comme le volume et le ton.
- Caractéristiques Liées à la Voix : Des éléments qui indiquent la stabilité et la cohérence de la voix.
- Caractéristiques Durées : Des mesures liées à la durée des sons ou des pauses pendant la parole.
Caractéristiques linguistiques
Cela implique d'examiner le contenu de ce qui est dit, y compris :
- Cartographie du Discours : Comment les idées sont organisées et connectées dans le discours.
- Complexité Syntactique : La complexité des phrases utilisées.
- Analyse des Sentiments : Évaluation du contenu émotionnel dans le langage.
Ces caractéristiques offrent une compréhension complète de la façon dont les caractéristiques de la parole sont liées aux problèmes de santé mentale.
Modèles Prédictifs
Une fois les données collectées et organisées, divers modèles d'apprentissage automatique ont été formés en utilisant les caractéristiques extraites. Ces modèles ont été évalués pour prédire la gravité de la dépression et de l'anxiété en fonction des enregistrements audio.
Grâce à une analyse comparative, il a été constaté que les modèles utilisant des informations démographiques étaient souvent plus efficaces que ceux basés uniquement sur des caractéristiques acoustiques. Cependant, combiner les deux types d'informations a donné encore de meilleurs résultats.
Performance des Modèles
Les modèles développés à partir du dataset DEPAC ont montré des résultats prometteurs pour prédire les conditions de santé mentale. Ils ont mieux performé que beaucoup de modèles formés sur des datasets plus anciens et plus petits. Cela souligne l'efficacité à la fois du dataset et de l'ensemble de caractéristiques pour identifier avec précision les signes de problèmes de santé mentale.
Conclusion
La création du dataset DEPAC représente une avancée significative dans la recherche sur la santé mentale. En tirant parti des avancées dans l'analyse de la parole et l'apprentissage automatique, il y a un potentiel pour des méthodes plus précises et efficaces de détection de la dépression et de l'anxiété. Cela pourrait mener à un meilleur soutien et à un traitement pour les personnes luttant contre ces conditions. Les tâches variées et les données riches collectées dans DEPAC posent une base solide pour les futures études visant à améliorer le diagnostic et la compréhension de la santé mentale.
Titre: DEPAC: a Corpus for Depression and Anxiety Detection from Speech
Résumé: Mental distress like depression and anxiety contribute to the largest proportion of the global burden of diseases. Automated diagnosis systems of such disorders, empowered by recent innovations in Artificial Intelligence, can pave the way to reduce the sufferings of the affected individuals. Development of such systems requires information-rich and balanced corpora. In this work, we introduce a novel mental distress analysis audio dataset DEPAC, labeled based on established thresholds on depression and anxiety standard screening tools. This large dataset comprises multiple speech tasks per individual, as well as relevant demographic information. Alongside, we present a feature set consisting of hand-curated acoustic and linguistic features, which were found effective in identifying signs of mental illnesses in human speech. Finally, we justify the quality and effectiveness of our proposed audio corpus and feature set in predicting depression severity by comparing the performance of baseline machine learning models built on this dataset with baseline models trained on other well-known depression corpora.
Auteurs: Mashrura Tasnim, Malikeh Ehghaghi, Brian Diep, Jekaterina Novikova
Dernière mise à jour: 2023-06-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.12443
Source PDF: https://arxiv.org/pdf/2306.12443
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.