Examinando Emoções Ligadas à Depressão
Um estudo apresenta um conjunto de dados focado nas emoções relacionadas à depressão.
― 10 min ler
Índice
- Entendendo a Depressão
- Pesquisas Anteriores
- Criando o Conjunto de Dados
- Definições de Emoção
- Processo de Anotação
- Divisão do Conjunto de Dados
- Análise Básica do Conjunto de Dados
- Correlação Entre Emoções
- Padrões de Linguagem no Conjunto de Dados
- Comparando com Outros Conjuntos de Dados
- Descrição da Tarefa
- Descobertas Experimentais
- Análise de Erros
- Limitações
- Conclusão
- Fonte original
- Ligações de referência
As emoções têm um papel grande em como as pessoas interagem umas com as outras. Situações diferentes podem despertar várias respostas emocionais. Quando falamos de emoções negativas, elas podem causar sérios problemas pra Saúde Mental. Isso torna essencial olhar de perto como essas emoções surgem e quais efeitos elas têm nas pessoas.
Um novo conjunto de dados chamado DepressionEmo foi criado pra ajudar a identificar oito emoções diferentes ligadas à depressão. Esse conjunto é baseado em mais de 6.000 posts longos coletados do Reddit. Os dados foram organizados usando um sistema de votação entre diferentes modelos de IA e verificados por anotações humanas pra garantir qualidade. O estudo então analisou as ligações entre essas emoções, como elas aparecem ao longo do tempo e seu uso da linguagem.
A gente também testou diferentes métodos pra classificar texto, divididos em duas categorias principais. O primeiro grupo inclui métodos de machine learning como Support Vector Machine (SVM), XGBoost e Light GBM. O segundo grupo envolve métodos de deep learning como BERT, GAN-BERT e BART. Dentre eles, o modelo BART se destacou, alcançando a melhor pontuação na identificação de diferentes emoções, provando ser particularmente eficaz em reconhecer intenção suicida em posts.
Entendendo a Depressão
A depressão afeta cerca de 300 milhões de pessoas ao redor do mundo. Isso significa que 1 em cada 25 pessoas vai sentir seu impacto em suas vidas. Ela pode reduzir significativamente a qualidade de vida e é um grande problema de saúde global. Aqueles que enfrentam casos severos de depressão estão em maior risco de sérios problemas, incluindo isolamento e uma maior probabilidade de considerar suicídio.
Pessoas lidando com depressão costumam sentir uma gama de emoções como tristeza, raiva e vazio, o que pode dificultar a comunicação ou a busca por ajuda. Muitos usam redes sociais pra expressar seus sentimentos. Conseguir reconhecer as nuances emocionais nesses posts é vital, especialmente dado o grande volume de conteúdo disponível online.
Ferramentas de Processamento de Linguagem Natural (NLP) e deep learning estão sendo usadas de forma mais eficaz pra identificar essas emoções automaticamente. Esse método ajuda a esclarecer por que alguns usuários podem ter pensamentos suicidas.
Pesquisas Anteriores
Pesquisas sobre detecção de depressão costumam usar métodos de machine learning e deep learning. O deep learning é muitas vezes mais eficaz porque consegue capturar melhor o significado por trás das palavras do que os métodos tradicionais, especialmente ao lidar com grandes volumes de dados. Várias técnicas, como word embedding e redes bi-direcionais de Memória de Longo e Curto Prazo (bi-LSTM), têm sido usadas pra detectar depressão em texto.
Dados do Twitter e do Facebook foram analisados pra encontrar sinais de depressão, e o Reddit também foi utilizado pra estudos semelhantes. Vários tipos de conteúdo online, incluindo posts de blogs, são analisados pra identificar sinais de comportamento depressivo.
O conjunto de dados DepressionEmo se destaca porque isola oito emoções específicas ligadas à depressão em posts longos do Reddit. Esse conjunto difere de muitos outros por focar especificamente na linguagem usada em contextos carregados de Emoção.
Criando o Conjunto de Dados
Pra construir o conjunto de dados DepressionEmo, a gente coletou posts de vários subreddits onde as pessoas costumam compartilhar suas lutas com a depressão. Nós procuramos especificamente por textos que incluíssem palavras-chave relacionadas à depressão.
De uma pool inicial de cerca de 8.000 exemplos, nós reduzimos pra 6.000 com base na qualidade e no comprimento dos posts. Posts que eram muito curtos ou que falavam principalmente sobre dar conselhos foram excluídos.
Cada post tem diferentes campos, incluindo título, corpo principal, upvotes, data e emoções identificadas. Uma etapa inicial foi combinar o título e o corpo principal pra criar um único campo de texto. Nós também estabelecemos diretrizes pra garantir que apenas posts de comprimento apropriado fossem mantidos, permitindo que o modelo focasse em conteúdo significativo.
Definições de Emoção
Pra esse conjunto de dados, focamos em oito emoções principais que aparecem frequentemente no contexto da depressão:
Raiva: Uma resposta emocional forte que pode levar a sentimentos negativos sobre si mesmo e os outros. Isso pode ser um grande contribuinte pro desenvolvimento da depressão.
Disfunção Cognitiva: Refere-se a dificuldades em pensar claramente ou expressar pensamentos. Pode se manifestar como esquecimento ou processamento lento.
Vazio: Uma sensação de vazio emocional ou insensibilidade que vai além da tristeza típica. Pode criar uma sensação de desconexão dos outros.
Desesperança: Uma emoção crítica ligada diretamente à depressão, significando a falta de crença que as coisas podem melhorar.
Solidão: Uma profunda sensação de isolamento que pode ocorrer mesmo quando cercado por outras pessoas.
Tristeza: Uma emoção natural desencadeada por perda ou eventos específicos, reconhecida frequentemente como um sintoma central da depressão.
Intenção Suicida: O desejo de terminar com a própria vida, um estado emocional severo que representa uma grande preocupação com a saúde mental.
Inutilidade: Uma sensação profunda de ter pouco valor ou importância, frequentemente associada à depressão.
Anotação
Processo deRotular manualmente pode ser caro, então usamos uma combinação de modelos de IA pra Classificação inicial das emoções nos posts. Tratamos isso como um problema multilabel, onde um post pode expressar várias emoções ao mesmo tempo.
Quatro modelos pré-treinados foram empregados pra classificar cada texto. As emoções finais foram determinadas por um processo de votação majoritária, onde as emoções que apareciam com mais frequência entre esses modelos foram selecionadas.
Pra checar como as anotações foram feitas, três estudantes avaliaram uma amostra de 100 posts. Os resultados deles foram comparados usando diferentes medidas estatísticas pra garantir qualidade e confiabilidade.
Divisão do Conjunto de Dados
Após criar o conjunto de dados, nós dividimos aleatoriamente em três partes: treinamento, validação e teste. Essa distribuição garante que cada subconjunto contenha uma boa representação de todas as oito emoções. O conjunto de treinamento teve mais exemplos pra treinar bem o modelo, enquanto os conjuntos de validação e teste foram usados pra medir o desempenho depois.
Análise Básica do Conjunto de Dados
Nessa seção, fizemos análises básicas pra entender como o comprimento do texto variava entre os posts e como as emoções estavam distribuídas ao longo do tempo.
Nós descobrimos que o comprimento dos posts era geralmente equilibrado, com a maioria dos exemplos caindo dentro dos limites estabelecidos. Também realizamos uma análise de quão frequentemente cada emoção apareceu, sendo a tristeza a emoção mais comum identificada no conjunto de dados.
Correlação Entre Emoções
Analisamos como diferentes emoções podem estar conectadas umas às outras dentro dos textos. Por exemplo, desesperança e inutilidade frequentemente apareciam juntas, implicando que as pessoas podem expressar ambos os sentimentos em seus posts. Por outro lado, raiva e solidão mostraram menos correlação, indicando que podem não ocorrer frequentemente juntas.
Padrões de Linguagem no Conjunto de Dados
A gente também olhou pra linguagem usada nos posts usando uma ferramenta chamada LIWC (Linguistic Inquiry and Word Count). Isso ajudou a avaliar como certas palavras e frases estavam associadas a diferentes emoções.
Por exemplo, palavras auto centradas e negativas eram comumente usadas entre aqueles que expressavam depressão. A linguagem positiva relacionada a amizade ou amor era menos frequente. Esse insight ajudou a aprofundar nosso entendimento de como os usuários comunicam seus sentimentos online.
Comparando com Outros Conjuntos de Dados
Pra justificar a criação do conjunto de dados DepressionEmo, nós o comparamos com outros conjuntos existentes focados em depressão. A maioria dos outros conjuntos tende a enfatizar classificações binárias, como se alguém está deprimido ou não, muitas vezes com menos emoções e comprimentos de texto menores.
Em contraste, o DepressionEmo foca em classificação multilabel, identificando claramente uma gama de emoções que se referem à depressão, preenchendo assim uma lacuna nos recursos existentes.
Descrição da Tarefa
A tarefa principal envolve detectar quais das oito emoções estão presentes em cada texto. Isso significa que cada post pode refletir uma ou mais emoções ao mesmo tempo.
Selecionamos vários métodos de classificação, categorizando-os em abordagens de machine learning e deep learning. Para machine learning, SVM, Light GBM e XGBoost são utilizados, enquanto deep learning incorpora BERT, GAN-BERT e BART.
Descobertas Experimentais
A partir dos experimentos, descobrimos que os métodos de deep learning geralmente superaram os métodos tradicionais de machine learning. Dentre esses, o BART surgiu como o melhor desempenho.
Notavelmente, o BART alcançou as maiores pontuações, seguido de perto pelo BERT. O SVM teve a melhor pontuação de precisão, mas ficou aquém em outras áreas. Os métodos de deep learning foram habilidosos em capturar os significados complexos por trás das palavras, que explicam seu melhor desempenho.
Análise de Erros
Fizemos dois tipos de análises pra investigar erros na rotulação. O primeiro olhou para as proporções populacionais pra ver quão próximas as anotações estavam dos rótulos verdadeiros. O segundo envolveu uma análise de matriz de confusão pra explorar mais a fundo como diferentes anotadores concordaram com os rótulos verdadeiros.
As descobertas indicaram que, embora houvesse geralmente boa concordância entre os vários anotadores, algumas discrepâncias foram notadas, especificamente com as emoções de desesperança e solidão.
Limitações
O conjunto de dados enfrenta certas limitações, principalmente devido ao seu tamanho menor pra uma tarefa de classificação multilabel. Isso pode dificultar sua capacidade de capturar todo o espectro de emoções e suas combinações.
Outra limitação está relacionada ao processo de anotação humana, que poderia se beneficiar de envolver mais anotadores ou múltiplas rodadas de rotulação pra aumentar a precisão e reduzir erros.
Conclusão
Em resumo, nós desenvolvemos o conjunto de dados DepressionEmo pra identificar melhor as emoções associadas à depressão em posts de redes sociais. O processo incluiu coleta extensa de dados e rigorosas verificações de qualidade. Após a criação do conjunto, realizamos várias análises e confirmamos as vantagens dos métodos de deep learning em comparação com as técnicas tradicionais.
Os resultados destacaram o potencial do conjunto de dados pra revelar insights importantes sobre os estados emocionais de indivíduos que mostram sinais de depressão. Os planos futuros visam expandir o conjunto e refinar sua qualidade ao integrar mais dados e métodos de classificação avançados, estabelecendo-o como um recurso vital pra mais pesquisas em saúde mental.
Título: DepressionEmo: A novel dataset for multilabel classification of depression emotions
Resumo: Emotions are integral to human social interactions, with diverse responses elicited by various situational contexts. Particularly, the prevalence of negative emotional states has been correlated with negative outcomes for mental health, necessitating a comprehensive analysis of their occurrence and impact on individuals. In this paper, we introduce a novel dataset named DepressionEmo designed to detect 8 emotions associated with depression by 6037 examples of long Reddit user posts. This dataset was created through a majority vote over inputs by zero-shot classifications from pre-trained models and validating the quality by annotators and ChatGPT, exhibiting an acceptable level of interrater reliability between annotators. The correlation between emotions, their distribution over time, and linguistic analysis are conducted on DepressionEmo. Besides, we provide several text classification methods classified into two groups: machine learning methods such as SVM, XGBoost, and Light GBM; and deep learning methods such as BERT, GAN-BERT, and BART. The pretrained BART model, bart-base allows us to obtain the highest F1- Macro of 0.76, showing its outperformance compared to other methods evaluated in our analysis. Across all emotions, the highest F1-Macro value is achieved by suicide intent, indicating a certain value of our dataset in identifying emotions in individuals with depression symptoms through text analysis. The curated dataset is publicly available at: https://github.com/abuBakarSiddiqurRahman/DepressionEmo.
Autores: Abu Bakar Siddiqur Rahman, Hoang-Thang Ta, Lotfollah Najjar, Azad Azadmanesh, Ali Saffet Gönül
Última atualização: 2024-01-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2401.04655
Fonte PDF: https://arxiv.org/pdf/2401.04655
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.