Analisando Tendências de Saúde nas Redes Sociais
Um olhar sobre como os dados das redes sociais impactam as percepções de saúde pública.
― 6 min ler
Índice
Nos últimos anos, as redes sociais se tornaram uma fonte importante de informação sobre saúde. A galera compartilha suas experiências, pensamentos e sentimentos sobre questões de saúde, especialmente durante eventos grandes como a pandemia de Covid-19. Isso gera uma quantidade enorme de texto que pode ser analisada para entender mais sobre a saúde pública. Uma forma de analisar esses dados é por meio de competições e workshops que focam em Processamento de Linguagem Natural (PLN), que ajuda a entender e categorizar dados textuais.
A Importância de Analisar Dados das Redes Sociais
Durante a pandemia de Covid-19, muita gente recorreu a plataformas como Twitter e Reddit para falar sobre sua saúde e experiências. Essa discussão online fornece uma fonte rica de informação. Ajuda pesquisadores e organizações de saúde a entender como as pessoas estão se sentindo, o que estão passando e como a pandemia as afeta emocional e fisicamente.
Pra dar sentido a esses dados, foram criados workshops onde equipes competem pra desenvolver modelos que conseguem analisar e categorizar esse tipo de informação com precisão. Essas competições incentivam a inovação e técnicas avançadas no campo de PLN.
O Workshop SMM4H
O workshop Social Media Mining for Health Applications (SMM4H) foca em extrair e padronizar informações relacionadas à saúde das redes sociais. Nas últimas edições, as equipes participaram de tarefas que exigiam analisar tweets sobre Covid-19. Essas tarefas envolviam distinguir entre tweets que relataram um diagnóstico de Covid-19 e aqueles que discutiram terapias para condições de saúde.
Visão Geral das Tarefas
Na última edição do workshop, teve várias tarefas, mas nossa equipe se concentrou em duas específicas.
Tarefa 1: Classificação Binária de Tweets
A primeira tarefa envolveu identificar tweets que ou se auto-relatavam como um diagnóstico de Covid-19 ou reportavam um diagnóstico clínico. O objetivo era criar um modelo que conseguisse fazer essa distinção de forma eficiente.
Tarefa 2: Classificação Multiclasse de Sentimentos sobre Terapias
A segunda tarefa tinha a meta de classificar os sentimentos expressos em tweets sobre terapias para condições de saúde. Os tweets foram categorizados em três grupos: positivo, neutro e negativo em relação à terapia discutida.
Metodologia
Pra construir nossos modelos, seguimos um processo estruturado com várias etapas.
Processamento de Dados
Antes de analisarmos os dados, precisávamos limpá-los e prepará-los. Isso envolveu remover palavras e caracteres desnecessários. Alguns passos incluíram:
- Remover palavras comuns que não têm muito significado (stopwords).
- Eliminar caracteres especiais e não padrões.
- Limpar espaços e links no texto.
Esses passos garantiram que os dados estavam em um formato adequado para análise.
Engenharia de Features
Depois de processar os dados, partimos pra engenharia de features. Essa etapa focou em transformar os dados limpos em um formato que nossos modelos pudessem trabalhar. Usamos uma técnica chamada Frequência de Termo-Frequência Inversa de Documento (TF-IDF) nos nossos modelos. Esse método ajuda a converter dados textuais em valores numéricos que representam quão importante uma palavra é em relação a um tweet.
Modelos de Aprendizado de Máquina
Em seguida, aplicamos diferentes classificadores de aprendizado de máquina aos nossos dados processados. Cada modelo tem seu jeito de aprender com os dados.
Máquina de Vetores de Suporte (SVM)
O SVM é um modelo forte para tarefas de classificação. Ele tenta encontrar a melhor forma de separar pontos de dados em diferentes classes. Faz isso criando uma fronteira que maximiza a distância entre os pontos mais próximos de classes diferentes.
Passivo-Agressivo (PA)
O modelo PA é eficaz para classificação binária. Ele observa os dados de treinamento e atualiza seus parâmetros baseado em se as previsões estão corretas ou não. Esse modelo pode ser bem agressivo em seus ajustes pra melhorar a precisão.
Perceptron de Múltiplas Camadas (MLP)
O MLP é um tipo de rede neural que é bom em reconhecer padrões. Tem camadas de nós interconectados que processam os dados de formas complexas.
Floresta Aleatória (RF)
RF é uma forma avançada de árvores de decisão. Ele combina várias árvores pra fazer uma previsão final baseada na votação da maioria.
Avaliação do Modelo
Depois de treinar os modelos, avaliamos seu desempenho usando um conjunto de dados de teste fornecido pelos organizadores do workshop. Esse conjunto de teste continha milhares de tweets que nossos modelos não tinham visto antes. Medimos o quão bem cada modelo se saiu usando três métricas principais: precisão, recall e F1-score.
Resultados da Tarefa 1
Pra Tarefa 1, quando testamos os modelos nos dados de teste cego, descobrimos que o classificador PA teve o melhor desempenho, alcançando um F1-score de 63.7%. Isso significa que ele foi particularmente bom em identificar tweets que reportavam diagnósticos de Covid-19.
Resultados da Tarefa 2
Na Tarefa 2, o classificador SVM superou os outros, alcançando um F1-score de 71.4%. Isso mostrou que ele classificou efetivamente o sentimento dos tweets que discutiam terapias.
Discussão
Com esse trabalho, comparamos diferentes modelos de aprendizado de máquina sob as condições desafiadoras de analisar tweets relacionados à saúde. As descobertas destacam como diferentes técnicas podem gerar resultados variados dependendo da tarefa específica.
Na Tarefa 1, o modelo PA foi mais preciso que o SVM. No entanto, na Tarefa 2, o SVM liderou. Esses resultados sugerem que não existe uma solução única pra analisar dados. Cada modelo tem seus pontos fortes e fracos dependendo da natureza do conteúdo que está sendo examinado.
Direções Futuras
Olhando pra frente, tem várias formas de melhorar a análise de dados das redes sociais. Por exemplo, usar técnicas de aprendizado profundo que envolvem embeddings de palavras poderia fornecer insights adicionais e melhorar a performance. Modelos baseados em transformadores também podem aprimorar a capacidade de entender contexto e sentimentos em dados textuais complexos.
Além disso, à medida que as redes sociais continuam a evoluir, acompanhar novas tendências e a forma como os usuários se comunicam vai ser crucial pra interpretar com precisão discussões relacionadas à saúde.
Conclusão
A análise de dados das redes sociais oferece informações valiosas sobre a saúde pública. Ao participar de workshops como o SMM4H, pesquisadores podem desenvolver e refinar modelos que entendem melhor esses dados. Com os avanços contínuos em tecnologia e métodos, o futuro parece promissor para o campo de aplicações de saúde usando mineração de redes sociais. Os insights obtidos a partir dessa análise podem acabar levando a respostas e estratégias melhores em saúde pública.
Título: BFCI at #SMM4H 2023: Integration of Machine Learning and TF-IDF for Covid-19 Tweets Analysis
Resumo: Extracting information from texts generated by users of social media platforms becomes a crucial task. In this paper, we describe the systems submitted to the SMM4H shared tasks 1 and 2. The aims of these two tasks are binary and multi-class classification of English tweets. We developed a machine learning-based model integrated with TF-IDF as a feature extraction approach. Four classification algorithms have been implemented namely, support vector machines, passive-aggressive classifier, multi-layer perceptron and random forest. For task 1, the passive-aggressive classifier reported f1-score of 63.7%. For task 2, multi-layer perceptron reported f1-score of 71.4%.
Autores: Hamada Nayel, N. Ashraf, M. Aldawsari
Última atualização: 2023-11-20 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.11.18.23297862
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.18.23297862.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.