Die Untersuchung von Emotionen, die mit Depressionen verbunden sind
Eine Studie präsentiert einen Datensatz, der sich auf Emotionen im Zusammenhang mit Depressionen konzentriert.
― 9 min Lesedauer
Inhaltsverzeichnis
- Verständnis von Depression
- Frühere Forschung
- Erstellung des Datensatzes
- Emotionsdefinitionen
- Annotierungsprozess
- Datensatzaufteilung
- Grundanalyse des Datensatzes
- Korrelation zwischen Emotionen
- Sprachmuster im Datensatz
- Vergleich mit anderen Datensätzen
- Aufgabenbeschreibung
- Experimentelle Ergebnisse
- Fehleranalyse
- Einschränkungen
- Fazit
- Originalquelle
- Referenz Links
Emotionen spielen eine grosse Rolle dabei, wie Menschen miteinander interagieren. Verschiedene Situationen können unterschiedliche emotionale Reaktionen hervorrufen. Bei negativen Emotionen können diese zu ernsthaften Problemen für die Psychische Gesundheit führen. Daher ist es wichtig, genau zu betrachten, wie diese Emotionen entstehen und welche Auswirkungen sie auf die Einzelnen haben.
Ein neuer Datensatz namens DepressionEmo wurde erstellt, um acht verschiedene Emotionen zu identifizieren, die mit Depressionen verbunden sind. Dieser Datensatz basiert auf über 6.000 längeren Beiträgen, die von Reddit gesammelt wurden. Die Daten wurden mithilfe eines Abstimmungssystems zwischen verschiedenen KI-Modellen sortiert und von menschlichen Annotatoren überprüft, um die Qualität sicherzustellen. Die Studie untersuchte dann die Zusammenhänge zwischen diesen Emotionen, wie sie sich über die Zeit zeigen und ihre Sprachverwendung.
Wir haben auch verschiedene Methoden zum Klassifizieren von Texten getestet, die in zwei Hauptkategorien unterteilt sind. Die erste Gruppe umfasst maschinelles Lernen wie Support Vector Machine (SVM), XGBoost und Light GBM. Die zweite Gruppe beinhaltet Deep Learning-Methoden wie BERT, GAN-BERT und BART. Unter diesen machte das BART-Modell auf sich aufmerksam, da es die besten Ergebnisse bei der Identifizierung verschiedener Emotionen erzielte und sich als besonders effektiv bei der Erkennung von suizidalen Absichten in Posts erwies.
Verständnis von Depression
Depression betrifft weltweit etwa 300 Millionen Menschen. Das bedeutet, dass 1 von 25 Personen in ihrem Leben mit den Auswirkungen konfrontiert wird. Sie kann die Lebensqualität erheblich verringern und stellt ein grosses globales Gesundheitsproblem dar. Menschen, die unter schweren Depressionen leiden, haben ein höheres Risiko für ernsthafte Probleme, einschliesslich Isolation und eine höhere Wahrscheinlichkeit, suizidale Gedanken zu haben.
Menschen, die mit Depressionen kämpfen, fühlen oft eine Reihe von Emotionen wie Traurigkeit, Wut und Leere, was es ihnen schwer machen kann, zu kommunizieren oder Hilfe zu suchen. Viele nutzen soziale Medien, um ihre Gefühle auszudrücken. Die Fähigkeit, die emotionalen Nuancen in diesen Beiträgen zu erkennen, ist entscheidend, besonders angesichts der grossen Menge an Inhalten, die online verfügbar sind.
Natursprachliche Verarbeitung (NLP) und Deep Learning-Tools werden immer effektiver eingesetzt, um diese Emotionen automatisch zu erkennen. Diese Methode hilft aufzuzeigen, warum einige Nutzer suizidale Gedanken haben könnten.
Frühere Forschung
Forschung zur Depressionsdiagnose nutzt oft Methoden des maschinellen Lernens und Deep Learning. Deep Learning ist oft effektiver, weil es die Bedeutung hinter Wörtern besser erfassen kann als traditionelle Methoden, insbesondere wenn es um grosse Datenmengen geht. Verschiedene Techniken wie Wort-Embedding und bi-direktionale Long Short-Term Memory (bi-LSTM)-Netzwerke wurden verwendet, um Depressionen in Texten zu erkennen.
Daten von Twitter und Facebook wurden analysiert, um Anzeichen von Depression zu finden, und Reddit wurde auch für ähnliche Studien herangezogen. Verschiedene Arten von Online-Inhalten, einschliesslich Blogbeiträgen, werden analysiert, um Anzeichen für depressives Verhalten zu identifizieren.
Der DepressionEmo-Datensatz sticht hervor, weil er acht spezifische Emotionen isoliert, die in langen Reddit-Posts mit Depressionen verbunden sind. Dieser Datensatz unterscheidet sich von vielen anderen, indem er sich speziell auf die Sprache konzentriert, die in emotional aufgeladenen Kontexten verwendet wird.
Erstellung des Datensatzes
Um den DepressionEmo-Datensatz zu erstellen, haben wir Beiträge aus verschiedenen Subreddits gesammelt, in denen Menschen oft ihre Kämpfe mit Depressionen teilen. Wir haben gezielt nach Texten gesucht, die spezifische Schlüsselwörter im Zusammenhang mit Depressionen enthielten.
Aus einem anfänglichen Pool von rund 8.000 Beispielen haben wir ihn auf 6.000 basierend auf der Qualität und Länge der Beiträge eingegrenzt. Beiträge, die zu kurz waren oder hauptsächlich aus Ratschlägen bestanden, wurden ausgeschlossen.
Jeder Beitrag hat verschiedene Felder, darunter den Titel, den Haupttext, Upvotes, das Datum und identifizierte Emotionen. Ein erster Schritt war, den Titel und den Haupttext zu einem einheitlichen Textfeld zu kombinieren. Wir haben auch Richtlinien festgelegt, um sicherzustellen, dass nur Beiträge angemessener Länge beibehalten wurden, damit das Modell sich auf bedeutungsvolle Inhalte konzentrieren kann.
Emotionsdefinitionen
Für diesen Datensatz haben wir uns auf acht Hauptemotionen konzentriert, die häufig im Zusammenhang mit Depressionen auftreten:
Wut: Eine starke emotionale Reaktion, die zu negativen Gefühlen über sich selbst und andere führen kann. Dies kann ein wesentlicher Beitrag zur Entwicklung von Depressionen sein.
Kognitive Dysfunktion: Bezieht sich auf Schwierigkeiten, klar zu denken oder Gedanken auszudrücken. Sie kann sich als Vergesslichkeit oder langsame Verarbeitung äussern.
Leere: Ein Gefühl emotionaler Leere oder Taubheit, das über typische Traurigkeit hinausgeht. Es kann ein Gefühl der Trennung von anderen erzeugen.
Hoffnungslosigkeit: Eine kritische Emotion, die direkt mit Depressionen verbunden ist und einen Mangel an Glauben anzeigt, dass sich die Dinge verbessern können.
Einsamkeit: Ein tiefes Gefühl der Isolation, das auch in Gesellschaft anderer auftreten kann.
Traurigkeit: Eine natürliche Emotion, die durch Verlust oder spezifische Ereignisse ausgelöst wird und oft als zentrales Symptom von Depressionen erkannt wird.
Suizidale Absicht: Der Wunsch, das eigene Leben zu beenden, ein schwerwiegender emotionaler Zustand, der ein grosses Problem für die psychische Gesundheit darstellt.
Wertlosigkeit: Ein tiefes Gefühl, wenig Wert oder Bedeutung zu haben, oft verbunden mit Depressionen.
Annotierungsprozess
Humanes Labeling kann teuer sein, also haben wir eine Kombination von KI-Modellen für die anfängliche Emotion klassifikation in den Beiträgen verwendet. Wir haben es als ein Multilabel-Problem betrachtet, bei dem ein Beitrag mehrere Emotionen gleichzeitig ausdrücken kann.
Vier vortrainierte Modelle wurden eingesetzt, um jeden Text zu klassifizieren. Die endgültigen Emotionen wurden durch einen Mehrheitsentscheid bestimmt, wobei die Emotionen ausgewählt wurden, die am häufigsten in diesen Modellen vorkamen.
Um zu überprüfen, wie gut die Annotationen gemacht wurden, haben drei Studenten eine Stichprobe von 100 Beiträgen ausgewertet. Ihre Ergebnisse wurden dann mithilfe verschiedener statistischer Masse verglichen, um Qualität und Zuverlässigkeit sicherzustellen.
Datensatzaufteilung
Nach der Erstellung des Datensatzes haben wir ihn zufällig in drei Teile aufgeteilt: Training, Validierung und Test. Diese Verteilung stellt sicher, dass jede Teilmenge eine gute Vertretung aller acht Emotionen enthält. Der Trainingssatz hatte die meisten Beispiele, um das Modell gut zu trainieren, während die Validierungs- und Testsets später zur Messung der Leistung verwendet wurden.
Grundanalyse des Datensatzes
In diesem Abschnitt haben wir eine grundlegende Analyse durchgeführt, um zu verstehen, wie sich die Textlängen über die Beiträge verteilten und wie die Emotionen im Laufe der Zeit verteilt waren.
Wir fanden heraus, dass die Länge der Beiträge im Allgemeinen ausgewogen war, wobei die meisten Beispiele innerhalb der festgelegten Grenzen lagen. Wir haben auch eine Analyse durchgeführt, wie häufig jede Emotion vorkam, wobei Traurigkeit die häufigste Emotion war, die im Datensatz identifiziert wurde.
Korrelation zwischen Emotionen
Wir haben analysiert, wie verschiedene Emotionen innerhalb der Texte miteinander verbunden sein könnten. Zum Beispiel wurden Hoffnungslosigkeit und Wertlosigkeit oft zusammen gefunden, was darauf hindeutet, dass Menschen beide Gefühle in ihren Beiträgen ausdrücken könnten. Auf der anderen Seite zeigte Wut und Einsamkeit weniger Korrelation, was darauf hindeutet, dass sie nicht häufig gemeinsam auftreten.
Sprachmuster im Datensatz
Wir haben auch die Sprache untersucht, die in den Beiträgen verwendet wurde, indem wir ein Tool namens LIWC (Linguistic Inquiry and Word Count) eingesetzt haben. Dies half uns zu bewerten, wie bestimmte Wörter und Phrasen mit verschiedenen Emotionen verbunden waren.
Zum Beispiel wurden selbstbezogene und negative Wörter häufig von denen verwendet, die Depressionen ausdrücken. Positive Sprache im Zusammenhang mit Freundschaft oder Liebe war seltener. Diese Einsichten halfen uns, unser Verständnis dafür zu vertiefen, wie Nutzer ihre Gefühle online kommunizieren.
Vergleich mit anderen Datensätzen
Um die Erstellung des DepressionEmo-Datensatzes zu rechtfertigen, haben wir ihn mit anderen bestehenden Datensätzen verglichen, die sich auf Depressionen konzentrieren. Die meisten anderen Datensätze neigen dazu, binäre Klassifikationen zu betonen, wie ob jemand depressiv ist oder nicht, oft mit weniger Emotionen und kürzeren Textlängen.
Im Gegensatz dazu konzentriert sich DepressionEmo auf die Multilabel-Klassifikation, indem es eine Reihe von Emotionen identifiziert, die mit Depressionen zusammenhängen, und somit eine Lücke in den vorhandenen Ressourcen füllt.
Aufgabenbeschreibung
Die Hauptaufgabe besteht darin, die Emotionen zu erkennen, die in jedem Text vorhanden sind. Das bedeutet, dass jeder Beitrag eine oder mehrere Emotionen gleichzeitig widerspiegeln könnte.
Wir haben mehrere Klassifikationsmethoden ausgewählt und diese in maschinelles Lernen und Deep Learning-Ansätze kategorisiert. Für das maschinelle Lernen werden SVM, Light GBM und XGBoost verwendet, während das Deep Learning BERT, GAN-BERT und BART einbezieht.
Experimentelle Ergebnisse
Aus den Experimenten haben wir herausgefunden, dass Deep Learning-Methoden im Allgemeinen traditionelle maschinelle Lernmethoden übertreffen. Unter diesen erwies sich BART als der beste Performer.
BART erzielte bemerkenswerte Ergebnisse, gefolgt von BERT. SVM hatte die beste Präzisionsbewertung, schnitt jedoch in anderen Bereichen schlechter ab. Die Deep Learning-Methoden waren in der Lage, die komplexen Bedeutungen hinter Wörtern zu erfassen, was zu ihrer besseren Leistung führte.
Fehleranalyse
Wir führten zwei Arten von Analysen durch, um Fehler in der Beschriftung zu untersuchen. Die erste betrachtete die Bevölkerungsanteile, um zu sehen, wie eng die Annotationen mit den tatsächlichen Etiketten übereinstimmten. Die zweite beinhaltete eine Verwirrungsmatrixanalyse, um genauer zu untersuchen, wie gut verschiedene Annotatoren mit den tatsächlichen Etiketten übereinstimmten.
Die Ergebnisse zeigten, dass es im Allgemeinen eine gute Übereinstimmung unter den verschiedenen Annotatoren gab, jedoch einige Diskrepanzen festgestellt wurden, insbesondere bei den Emotionen Hoffnungslosigkeit und Einsamkeit.
Einschränkungen
Der Datensatz hat bestimmte Einschränkungen, hauptsächlich aufgrund seiner kleineren Grösse für eine Multilabel-Klassifikationsaufgabe. Dies kann seine Fähigkeit beeinträchtigen, das gesamte Spektrum der Emotionen und deren Kombinationen zu erfassen.
Eine weitere Einschränkung bezieht sich auf den menschlichen Annotierungsprozess, der von der Einbeziehung mehrerer Annotatoren oder mehrerer Runden der Beschriftung profitieren könnte, um die Genauigkeit zu verbessern und Fehler zu reduzieren.
Fazit
Zusammenfassend haben wir den DepressionEmo-Datensatz entwickelt, um Emotionen, die mit Depressionen in sozialen Medien in Verbindung stehen, besser zu identifizieren. Der Prozess umfasste eine umfangreiche Datensammlung und gründliche Qualitätsprüfungen. Nach der Erstellung des Datensatzes führten wir verschiedene Analysen durch und bestätigten die Vorteile von Deep Learning-Methoden im Vergleich zu traditionellen Techniken.
Die Ergebnisse hoben das Potenzial des Datensatzes hervor, wichtige Einblicke in die emotionalen Zustände von Individuen, die Anzeichen von Depression zeigen, zu liefern. Zukünftige Pläne beinhalten die Erweiterung des Datensatzes und die Verfeinerung seiner Qualität, indem mehr Daten und fortschrittliche Klassifikationsmethoden integriert werden, um ihn als wichtige Ressource für weitere Forschungen im Bereich der psychischen Gesundheit zu etablieren.
Titel: DepressionEmo: A novel dataset for multilabel classification of depression emotions
Zusammenfassung: Emotions are integral to human social interactions, with diverse responses elicited by various situational contexts. Particularly, the prevalence of negative emotional states has been correlated with negative outcomes for mental health, necessitating a comprehensive analysis of their occurrence and impact on individuals. In this paper, we introduce a novel dataset named DepressionEmo designed to detect 8 emotions associated with depression by 6037 examples of long Reddit user posts. This dataset was created through a majority vote over inputs by zero-shot classifications from pre-trained models and validating the quality by annotators and ChatGPT, exhibiting an acceptable level of interrater reliability between annotators. The correlation between emotions, their distribution over time, and linguistic analysis are conducted on DepressionEmo. Besides, we provide several text classification methods classified into two groups: machine learning methods such as SVM, XGBoost, and Light GBM; and deep learning methods such as BERT, GAN-BERT, and BART. The pretrained BART model, bart-base allows us to obtain the highest F1- Macro of 0.76, showing its outperformance compared to other methods evaluated in our analysis. Across all emotions, the highest F1-Macro value is achieved by suicide intent, indicating a certain value of our dataset in identifying emotions in individuals with depression symptoms through text analysis. The curated dataset is publicly available at: https://github.com/abuBakarSiddiqurRahman/DepressionEmo.
Autoren: Abu Bakar Siddiqur Rahman, Hoang-Thang Ta, Lotfollah Najjar, Azad Azadmanesh, Ali Saffet Gönül
Letzte Aktualisierung: 2024-01-09 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2401.04655
Quell-PDF: https://arxiv.org/pdf/2401.04655
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.