Analyser l'anxiété sociale à travers les posts sur les réseaux sociaux
Cette étude examine les discussions sur le trouble d'anxiété sociale sur Reddit pour des infos sur la santé mentale.
― 6 min lire
Table des matières
Les réseaux sociaux ont changé la façon dont les gens communiquent. Ça permet aux gens de partager facilement leurs pensées et émotions. Cette ouverture donne un aperçu de ce que les gens ressentent par rapport à leur santé. Un sujet intéressant, c'est le Trouble d'anxiété sociale (TAS). Beaucoup de gens souffrent de ce problème de santé mentale, qui peut avoir un impact sérieux sur leur vie.
Cette étude utilise des posts du subreddit r/socialanxiety. C'est une communauté où les gens parlent de leurs expériences avec le TAS. L'ensemble de données comprend 6 390 posts d'utilisateurs âgés de 12 à 25 ans. Chaque post a un ID unique, le contenu textuel et une étiquette qui indique si la personne a reçu un diagnostic de TAS.
Nettoyage des données
Les données recueillies contenaient plein d'erreurs. Il y avait des fautes de frappe, du langage familier et des fautes grammaticales qui compliquaient la clarté des infos. Pour améliorer ça, il a fallu nettoyer les données. Le processus de nettoyage comprenait plusieurs étapes :
- Toutes les lettres du texte ont été mises en minuscules.
- Tous les liens web commençant par "https://" ont été retirés et remplacés par un espace.
- Tous les signes de ponctuation ont été enlevés du texte.
- Les caractères spéciaux, sauf les espaces et les points, ont été supprimés pour ne garder que les mots utiles.
- Les mots contenant des chiffres ont également été enlevés.
L'ensemble de données avait deux types de contenu : les posts et les commentaires. Les posts incluaient un titre et un corps, tandis que les commentaires n'avaient que du texte. Les deux types contenaient des infos utiles, donc ils devaient être traités de manière similaire. Pour ça, une nouvelle colonne appelée 'title_text' a été créée pour les posts en combinant le titre et le corps. Pour les commentaires, seul le texte a été utilisé. De cette manière, l'info des deux types était au même endroit, rendant l'analyse plus facile.
Utilisation de modèles avancés pour l'analyse textuelle
Dans cette recherche, des modèles BERT pré-entraînés ont été utilisés. Ces modèles avaient déjà appris des aspects importants de la langue. Ils ont été utilisés pour classifier le texte. Trois modèles différents ont été utilisés ensemble pour tirer parti de leurs forces et améliorer les résultats. Ces modèles, RoBERTa, XLNet et ERNIE 2.0, sont connus pour leurs compétences dans diverses tâches linguistiques, y compris la classification de texte.
Chaque modèle a ses forces. RoBERTa est bon pour comprendre comment les mots se relient les uns aux autres sur de plus longues distances. XLNet est meilleur pour traiter du texte brouillon et flou. ERNIE 2.0 est doué pour saisir le contexte des mots et des phrases. En utilisant une approche d'ensemble, plusieurs modèles ont été formés pour travailler ensemble.
Chaque modèle a été ajusté séparément. Ensuite, les étiquettes prédites par chaque modèle pour chaque post ont été rassemblées. Un système de vote a été utilisé pour décider de l'étiquette finale. L'étiquette qui apparaissait le plus souvent a été choisie comme la bonne.
Configuration des modèles
Pour entraîner ces modèles, des versions pré-entraînées de HuggingFace ont été utilisées, et elles ont été ajustées avec un outil appelé PyTorch. Chaque modèle (RoBERTa, ERNIE 2.0 et XLNet) a été entraîné pendant cinq tours, ou époques. Le taux d'apprentissage a été réduit à un rythme défini, en commençant à 0,01, et l'optimiseur AdamW a été utilisé pour faciliter le processus d'entraînement. La longueur maximale pour l'entrée texte a été fixée à 512 caractères.
L'entraînement a eu lieu sur un notebook Google Colab. Cette configuration incluait un GPU T4, qui a 16 Go de mémoire et 48 cœurs CUDA, ce qui le rend suffisamment puissant pour cette tâche.
Évaluation des performances
Les résultats des meilleurs systèmes ont été résumés, montrant comment ils ont performé sur l'ensemble de test. Le système a bien fonctionné, surpassant le Score F1 médian sur l'ensemble de test de 1,8 % et dépassant le score F1 moyen de 4,9 %. Cette évaluation a donné un aperçu de ce qui a bien fonctionné et de ce qui n'a pas fonctionné, aidant à améliorer l'approche pour les études futures.
Intéressant, RoBERTa a montré des performances similaires au modèle d'ensemble en regardant les résultats globaux des tests. Cependant, le modèle d'ensemble était meilleur pour trouver les posts qui rapportaient un diagnostic de trouble d'anxiété sociale, comme le montre le taux de rappel plus élevé.
Aperçu des résultats
Les résultats du système ont été mesurés en utilisant le F1-Score, la précision et le rappel. Cela a permis de comprendre clairement comment les modèles ont fonctionné. Le modèle d'ensemble a atteint un impressionnant score F1 de 84,2 % pour sa tâche.
Conclusion
Le travail réalisé par une équipe utilisant des modèles avancés pour le traitement du langage a mis en avant l'efficacité de la combinaison de différents modèles. Utiliser RoBERTa, ERNIE 2.0 et XLNet ensemble a montré que leurs forces pouvaient mener à une meilleure performance globale. Cette approche a donné des résultats notables, montrant la valeur d'utiliser plusieurs modèles dans des tâches de traitement du langage naturel.
Le succès de cette méthode souligne l'importance d'utiliser des technologies avancées pour analyser les réseaux sociaux sur des sujets de santé. En regardant les posts liés à l'anxiété sociale, des informations précieuses sur les expériences et les besoins des patients peuvent être recueillies. Cela permet de mieux comprendre les problèmes de santé mentale observés dans la communauté.
Avec les réseaux sociaux devenant une grande partie de la vie quotidienne, le potentiel d'apprendre grâce à eux est immense. Ça peut fournir un aperçu de ce que ressentent les personnes ayant des problèmes de santé et ce dont elles ont besoin. En analysant les posts dans les communautés en ligne, les chercheurs peuvent trouver des infos précieuses qui pourraient autrement être difficiles à déceler.
Cette approche est aussi importante pour le futur. Plus les gens se tournent vers les réseaux sociaux pour partager leurs expériences, plus il y aura de données à analyser. Les techniques utilisées dans cette recherche peuvent être appliquées à d'autres domaines de la santé et du bien-être.
Pour résumer, utiliser des modèles avancés pour analyser les données des réseaux sociaux peut mener à une meilleure compréhension des problèmes de santé mentale comme le trouble d'anxiété sociale. Cette recherche aide à montrer à quel point les réseaux sociaux peuvent être utiles pour voir les expériences de santé des gens, offrant un outil pour améliorer les soins et le soutien.
Titre: Binary classification of English Reddit posts self-reporting a social anxiety disorder diagnosis
Résumé: This paper presents the system developed by Team ThaparUni for the Social Media Mining for Health Applications (SMM4H) 2023 Shared Task 4. The task involved binary classification of English Reddit posts, focusing on self-reporting social anxiety disorder (SAD) diagnoses. The final system employed a combination of three models: RoBERTa, ERNIE, and XLNet, and results obtained from all three models were integrated. The results, specifically in the context of mental health-related content analysis on social media platforms, show the possibility and viability of using multiple models in binary classification tasks.
Auteurs: Sharandeep Singh, J. Bedi
Dernière mise à jour: 2023-11-13 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.11.10.23298362
Source PDF: https://www.medrxiv.org/content/10.1101/2023.11.10.23298362.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.