Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Examinando las emociones relacionadas con la depresión

Un estudio presenta un conjunto de datos centrado en emociones relacionadas con la depresión.

― 10 minilectura


Perspectivas emocionalesPerspectivas emocionalessobre la depresióndepresión.emociones críticas relacionadas con laUn nuevo conjunto de datos revela
Tabla de contenidos

Las emociones juegan un papel importante en cómo las personas interactúan entre sí. Diferentes situaciones pueden provocar diversas respuestas emocionales. Cuando se trata de emociones negativas, pueden llevar a problemas serios para la Salud Mental. Por eso, es esencial analizar detenidamente cómo ocurren estas emociones y qué efectos tienen en las personas.

Se ha creado un nuevo conjunto de datos llamado DepressionEmo para ayudar a identificar ocho emociones diferentes relacionadas con la depresión. Este conjunto de datos se basa en más de 6,000 publicaciones largas recopiladas de Reddit. Los datos fueron clasificados usando un sistema de votación entre diferentes modelos de IA y verificados por anotadores humanos para asegurar calidad. El estudio luego examinó los vínculos entre estas emociones, cómo aparecen con el tiempo y su uso del lenguaje.

También probamos diferentes métodos para clasificar textos, divididos en dos categorías principales. El primer grupo incluye métodos de aprendizaje automático como Support Vector Machine (SVM), XGBoost y Light GBM. El segundo grupo involucra métodos de aprendizaje profundo como BERT, GAN-BERT y BART. Entre estos, el modelo BART destacó, logrando la mejor puntuación en la identificación de diferentes emociones, demostrando ser particularmente efectivo en reconocer la intención suicida en las publicaciones.

Entendiendo la Depresión

La depresión afecta a alrededor de 300 millones de personas en todo el mundo. Esto significa que 1 de cada 25 personas experimentará su impacto en su vida. Puede reducir significativamente la calidad de vida y supone un gran problema de salud global. Aquellos que enfrentan casos severos de depresión tienen un mayor riesgo de problemas serios, como el aislamiento y una mayor probabilidad de considerar el suicidio.

Las personas que lidian con la depresión a menudo sienten una gama de emociones como tristeza, ira y vacío, lo que puede dificultarles comunicarse o pedir ayuda. Muchos usan plataformas de redes sociales para expresar sus sentimientos. Reconocer los matices emocionales en estas publicaciones es vital, especialmente dada la gran cantidad de contenido disponible en línea.

Las herramientas de Procesamiento de Lenguaje Natural (NLP) y aprendizaje profundo se están usando de manera más efectiva para identificar automáticamente estas emociones. Este método ayuda a aclarar por qué algunos usuarios podrían tener pensamientos suicidas.

Investigación Previa

La investigación sobre la detección de depresión a menudo utiliza métodos de aprendizaje automático y profundo. El aprendizaje profundo generalmente es más efectivo porque captura mejor el significado detrás de las palabras que los métodos tradicionales, especialmente al tratar con grandes volúmenes de datos. Se han utilizado varias técnicas, como embedding de palabras y redes de Memoria a Largo y Corto Plazo bidireccionales (bi-LSTM), para detectar depresión en textos.

Se han analizado datos de Twitter y Facebook para encontrar signos de depresión, y Reddit también ha sido utilizado para estudios similares. Se analizan varios tipos de contenido en línea, incluidos blogs, para identificar signos de comportamiento depresivo.

El conjunto de datos DepressionEmo se destaca porque aísla ocho emociones específicas vinculadas a la depresión en publicaciones largas de Reddit. Este conjunto de datos difiere de muchos otros al enfocarse específicamente en el lenguaje utilizado en contextos cargados de Emoción.

Creando el Conjunto de Datos

Para construir el conjunto de datos DepressionEmo, recopilamos publicaciones de varios subreddits donde la gente suele compartir sus luchas con la depresión. Buscamos textos que incluyeran palabras clave relacionadas con la depresión.

De una piscina inicial de aproximadamente 8,000 ejemplos, lo reducimos a 6,000 basado en la calidad y longitud de las publicaciones. Se excluyeron las publicaciones que eran demasiado cortas o que trataban principalmente de dar consejos.

Cada publicación tiene diferentes campos, incluyendo el título, el cuerpo principal, los votos positivos, la fecha y las emociones identificadas. Un paso inicial fue combinar el título y el cuerpo principal para crear un solo campo de texto. También establecimos pautas para asegurar que solo se conservaran publicaciones de longitud apropiada, permitiendo que el modelo se enfocara en contenido significativo.

Definiciones de Emociones

Para el propósito de este conjunto de datos, nos enfocamos en ocho emociones principales que aparecen frecuentemente en el contexto de la depresión:

  1. Ira: Una fuerte respuesta emocional que puede llevar a sentimientos negativos sobre uno mismo y los demás. Esto puede ser un gran contribuyente al desarrollo de la depresión.

  2. Disfunción Cognitiva: Esto se refiere a dificultades para pensar con claridad o expresar pensamientos. Puede manifestarse como olvido o procesamiento lento.

  3. Vacío: Una sensación de vacío emocional o entumecimiento que va más allá de la tristeza típica. Puede crear una sensación de desconexión de los demás.

  4. Desesperanza: Una emoción crítica vinculada directamente a la depresión, que significa una falta de creencia de que las cosas pueden mejorar.

  5. Soledad: Una profunda sensación de aislamiento que puede ocurrir incluso cuando se está rodeado de otros.

  6. Tristeza: Una emoción natural provocada por la pérdida o eventos específicos, a menudo reconocida como un síntoma central de la depresión.

  7. Intención Suicida: El deseo de acabar con la vida, un estado emocional severo que presenta una gran preocupación para la salud mental.

  8. Inutilidad: Un sentimiento profundo de tener poco valor o valía, a menudo asociado con la depresión.

Proceso de Anotación

La etiquetación humana puede ser costosa, así que usamos una combinación de modelos de IA para la Clasificación inicial de emociones en las publicaciones. Lo tratamos como un problema multilabel, donde una publicación podría expresar múltiples emociones a la vez.

Se emplearon cuatro modelos preentrenados para clasificar cada texto. Las emociones finales se determinaron a través de un proceso de votación mayoritaria, donde se seleccionaron las emociones que aparecieron con más frecuencia entre estos modelos.

Para verificar qué tan bien se realizaron las anotaciones, tres estudiantes evaluaron una muestra de 100 publicaciones. Sus resultados se compararon usando diferentes medidas estadísticas para garantizar calidad y confiabilidad.

División del Conjunto de Datos

Después de crear el conjunto de datos, lo dividimos aleatoriamente en tres partes: entrenamiento, validación y prueba. Esta distribución asegura que cada subconjunto contenga una buena representación de las ocho emociones. El conjunto de entrenamiento tenía la mayor cantidad de ejemplos para entrenar bien el modelo, mientras que los conjuntos de validación y prueba se utilizaron para medir el rendimiento más tarde.

Análisis Básico del Conjunto de Datos

En esta sección, realizamos análisis básicos para entender cómo varió la longitud del texto entre las publicaciones y cómo se distribuyeron las emociones a lo largo del tiempo.

Encontramos que la longitud de las publicaciones estaba generalmente equilibrada, con la mayoría de los ejemplos dentro de los límites establecidos. También realizamos un análisis de con qué frecuencia apareció cada emoción, siendo la tristeza la emoción más común identificada en el conjunto de datos.

Correlación Entre Emociones

Analizamos cómo diferentes emociones podrían estar conectadas entre sí dentro de los textos. Por ejemplo, la desesperanza y la inutilidad a menudo se encontraban juntas, lo que implica que las personas podrían expresar ambos sentimientos en sus publicaciones. Por otro lado, la ira y la soledad mostraron menos correlación, indicando que pueden no ocurrir con frecuencia juntas.

Patrones de Lenguaje en el Conjunto de Datos

También examinamos el lenguaje utilizado en las publicaciones empleando una herramienta llamada LIWC (Linguistic Inquiry and Word Count). Esto nos ayudó a evaluar cómo ciertas palabras y frases estaban asociadas con diferentes emociones.

Por ejemplo, palabras y términos negativos y centrados en uno mismo se usaban comúnmente entre aquellos que expresaban depresión. El lenguaje positivo relacionado con la amistad o el amor era menos frecuente. Esta información ayudó a profundizar nuestra comprensión de cómo los usuarios comunican sus sentimientos en línea.

Comparando con Otros Conjuntos de Datos

Para justificar la creación del conjunto de datos DepressionEmo, lo comparámos con otros conjuntos de datos existentes centrados en la depresión. La mayoría de los otros conjuntos de datos tienden a enfatizar clasificaciones binarias, como si alguien está deprimido o no, a menudo con menos emociones y longitudes de texto más cortas.

En contraste, DepressionEmo se enfoca en clasificación multilabel, identificando claramente una gama de emociones relacionadas con la depresión, llenando así un vacío en los recursos existentes.

Descripción de la Tarea

La tarea principal implica detectar cuáles de las ocho emociones están presentes en cada texto. Esto significa que cada publicación podría reflejar una o más emociones simultáneamente.

Seleccionamos varios métodos de clasificación, categorizándolos en enfoques de aprendizaje automático y profundo. Para el aprendizaje automático, se utilizan SVM, Light GBM y XGBoost, mientras que el aprendizaje profundo incorpora BERT, GAN-BERT y BART.

Hallazgos Experimentales

De los experimentos, descubrimos que los métodos de aprendizaje profundo generalmente superaron a los métodos tradicionales de aprendizaje automático. Entre estos, BART emergió como el mejor.

Notablemente, BART logró las puntuaciones más altas, seguido de cerca por BERT. SVM tuvo la mejor puntuación de precisión pero no tuvo un buen desempeño en otras áreas. Los métodos de aprendizaje profundo fueron hábiles en capturar los significados complejos detrás de las palabras, lo que explica su mejor rendimiento.

Análisis de Errores

Realizamos dos tipos de análisis para investigar errores en la etiquetación. El primero examinó proporciones poblacionales para ver qué tan de cerca las anotaciones coincidían con las etiquetas verdaderas. El segundo involucró un análisis de matriz de confusión para profundizar en qué tan bien diferentes anotadores estuvieron de acuerdo con las etiquetas verdaderas.

Los hallazgos indicaron que, aunque generalmente había un buen acuerdo entre los varios anotadores, se notaron algunas discrepancias, específicamente con las emociones de desesperanza y soledad.

Limitaciones

El conjunto de datos enfrenta ciertas limitaciones, principalmente debido a su tamaño más pequeño para una tarea de clasificación multilabel. Esto puede obstaculizar su capacidad para capturar el espectro completo de emociones y sus combinaciones.

Otra limitación se relaciona con el proceso de anotación humana, que podría beneficiarse de involucrar a más anotadores o múltiples rondas de etiquetado para mejorar la precisión y reducir errores.

Conclusión

En resumen, desarrollamos el conjunto de datos DepressionEmo para identificar mejor las emociones asociadas con la depresión en publicaciones de redes sociales. El proceso incluyó una extensa recopilación de datos y rigurosas verificaciones de calidad. Después de la creación del conjunto de datos, realizamos diversos análisis y confirmamos las ventajas de los métodos de aprendizaje profundo en comparación con las técnicas tradicionales.

Los resultados subrayaron el potencial del conjunto de datos para revelar información importante sobre los estados emocionales de las personas que muestran signos de depresión. Los planes futuros buscan expandir el conjunto de datos y refinar su calidad integrando más datos y métodos de clasificación avanzados, estableciéndolo como un recurso vital para futuras investigaciones en salud mental.

Fuente original

Título: DepressionEmo: A novel dataset for multilabel classification of depression emotions

Resumen: Emotions are integral to human social interactions, with diverse responses elicited by various situational contexts. Particularly, the prevalence of negative emotional states has been correlated with negative outcomes for mental health, necessitating a comprehensive analysis of their occurrence and impact on individuals. In this paper, we introduce a novel dataset named DepressionEmo designed to detect 8 emotions associated with depression by 6037 examples of long Reddit user posts. This dataset was created through a majority vote over inputs by zero-shot classifications from pre-trained models and validating the quality by annotators and ChatGPT, exhibiting an acceptable level of interrater reliability between annotators. The correlation between emotions, their distribution over time, and linguistic analysis are conducted on DepressionEmo. Besides, we provide several text classification methods classified into two groups: machine learning methods such as SVM, XGBoost, and Light GBM; and deep learning methods such as BERT, GAN-BERT, and BART. The pretrained BART model, bart-base allows us to obtain the highest F1- Macro of 0.76, showing its outperformance compared to other methods evaluated in our analysis. Across all emotions, the highest F1-Macro value is achieved by suicide intent, indicating a certain value of our dataset in identifying emotions in individuals with depression symptoms through text analysis. The curated dataset is publicly available at: https://github.com/abuBakarSiddiqurRahman/DepressionEmo.

Autores: Abu Bakar Siddiqur Rahman, Hoang-Thang Ta, Lotfollah Najjar, Azad Azadmanesh, Ali Saffet Gönül

Última actualización: 2024-01-09 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2401.04655

Fuente PDF: https://arxiv.org/pdf/2401.04655

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares