Usando o Twitter pra Estudar a Comunicação do Autismo
A pesquisa analisa dados do Twitter pra entender os padrões de comunicação do autismo.
― 7 min ler
Índice
O transtorno do espectro autista (TEA) é um problema de desenvolvimento que afeta milhões de pessoas. Ele causa mudanças no comportamento, pensamento e interação com os outros. Um dos desafios do TEA é que os sintomas mudam conforme as pessoas envelhecem. Isso pode causar confusão, já que os sintomas podem ser confundidos com outras questões, como ansiedade ou problemas de atenção. O diagnóstico precoce é essencial para melhores opções de tratamento, mas não tem testes padrão suficientes disponíveis. Essa falta pode atrasar a obtenção da ajuda certa, o que pode aumentar o risco de depressão ou pensamentos de automutilação em algumas pessoas.
Redes Sociais e Pesquisa sobre TEA
As plataformas de redes sociais se tornaram ferramentas úteis para monitorar a saúde pública em tempo real. Essas plataformas coletam muita informação que os Pesquisadores podem analisar sem invadir a vida das pessoas. Esses Dados podem ajudar a entender os sinais comportamentais relacionados ao TEA e outros problemas de saúde mental. Uma dessas plataformas, o Twitter, é especialmente valiosa devido à sua grande base de usuários e à natureza do seu conteúdo. Com cerca de 450 milhões de usuários ativos, o Twitter oferece uma maneira rápida de compartilhar pensamentos, informações e experiências, facilitando para os pesquisadores coletar dados observacionais em comparação com pesquisas tradicionais.
Utilizando o Twitter para Insights sobre TEA
Muitos estudos investigaram o TEA usando métodos diferentes, como a aparência, movimentos ou como a pessoa se comunica. No entanto, poucos se concentraram em dados de redes sociais, especialmente no Twitter. Outras plataformas como Reddit e Facebook também fornecem informações valiosas sobre saúde mental e comportamento. Baseando-se em estudos anteriores, os pesquisadores criaram um novo e extenso conjunto de dados do Twitter para investigar como indivíduos autistas se comunicam em comparação com aqueles sem TEA.
Processo de Coleta de Dados
Nos últimos anos, hashtags específicas como #MeToo e #BlackLivesMatter desempenharam um papel crucial em aumentar a conscientização sobre questões sociais. No contexto do TEA, hashtags como #ActuallyAutistic ganharam popularidade, focando nas vozes de indivíduos autistas em vez das de pais ou cuidadores. Para entender como os indivíduos autistas se expressam, os pesquisadores coletaram Tweets de usuários que se identificavam com o TEA usando essa hashtag.
Para coletar os dados, os pesquisadores usaram uma ferramenta chamada snscrape, que permite coletar tweets sem precisar de acesso especializado. Eles miraram em tweets em inglês que continham a hashtag #ActuallyAutistic de 2014 a 2022. Identificaram usuários que mencionavam termos relacionados ao autismo em seus perfis e coletaram seus tweets, resultando em mais de 3 milhões de tweets de mais de 17.000 indivíduos.
Os pesquisadores também buscaram um grupo de controle para comparar os tweets de quem tem TEA com os de quem não tem. Eles coletaram tweets aleatórios, garantindo que não incluíssem usuários que tinham palavras-chave relacionadas ao autismo em seus perfis. Isso resultou em outro grande conjunto de dados com mais de 3 milhões de tweets de um número considerável de usuários.
Organizando e Rotulando os Dados
Para treinar modelos de aprendizado de máquina de forma eficaz, os pesquisadores precisavam rotular seus dados com precisão. Eles marcaram os tweets de indivíduos com TEA como "autismo" e todos os outros tweets como "grupo de controle". Essa rotulagem foi essencial para construir um modelo eficaz que diferenciava os dois grupos. Eles até notaram que rotular dados pode levar muito tempo e esforço, e que abordagens alternativas podem às vezes simplificar o processo.
Preparando os Dados para Análise
Trabalhar com dados do Twitter pode ser desafiador porque a linguagem usada nos tweets muitas vezes contém gírias, emojis e outras distrações. Para tornar os dados utilizáveis, os pesquisadores precisaram limpar e pré-processar. Isso incluiu remover linguagem inadequada, dividir o texto em palavras individuais, eliminar caracteres desnecessários e padronizar todas as palavras em letras minúsculas. Eles também removeram palavras comuns que não adicionam significado e aplicaram técnicas para simplificar ainda mais o texto.
Classificando Tweets e Usuários
Para construir um classificador que distingue entre tweets de indivíduos autistas e aqueles de outros, os pesquisadores dividiram seus conjuntos de dados em grupos de treinamento e teste. Essa separação ajuda a evitar a repetição de dados que poderia confundir o modelo. Eles então processaram os tweets e usaram vários métodos de aprendizado de máquina para analisar quais modelos funcionavam melhor para identificar o conteúdo.
Para a classificação de tweets, os pesquisadores experimentaram diferentes algoritmos. Após avaliar os resultados, descobriram que a regressão logística teve um bom desempenho. Para a classificação de usuários, utilizaram um modelo avançado chamado modelo bidirecional de memória de curto e longo prazo com atenção (Bi-LSTM) para analisar todos os tweets de usuários que haviam postado várias vezes.
Resultados do Estudo
Os classificadores foram bem eficazes, com a classificação de tweets alcançando uma taxa de acerto de 73% e a classificação de usuários chegando a 87% de precisão. Essas descobertas indicam diferenças significativas na forma como indivíduos autistas se expressam em comparação com os outros. Os dados não apenas oferecem insights sobre padrões de Comunicação, mas também enfatizam o papel das redes sociais na compreensão do TEA e questões relacionadas.
Limitações e Direções Futuras
Embora a pesquisa tenha achados promissores, existem algumas limitações. Primeiro, o estudo se baseou na autoidentificação dos usuários, o que significa que não houve confirmação oficial de seu status autista. Usar especialistas para validar essa informação poderia melhorar a confiabilidade dos achados. Além disso, a linguagem utilizada foi limitada ao inglês, o que pode excluir contribuições valiosas de falantes de outras línguas. A diversidade do conjunto de dados também é uma preocupação, pois cobre principalmente usuários mais jovens de grupos socioeconômicos específicos.
Olhando para o futuro, há muitas possibilidades para mais exploração. Os pesquisadores podem considerar usar modelos de linguagem avançados para melhor classificação de texto. Também há potencial em combinar diferentes tipos de dados, como áudio e vídeo, para fornecer uma compreensão mais abrangente do tema. Além disso, uma análise de gênero poderia ser realizada para explorar diferenças nas taxas de diagnóstico de TEA entre vários grupos.
Conclusão
O trabalho realizado nesta pesquisa destaca o potencial significativo das redes sociais no estudo de questões complexas como o autismo. Aproveitando as grandes quantidades de dados gerados online, os pesquisadores podem obter insights cruciais que podem informar estratégias de saúde pública e planos de tratamento. O conjunto de dados criado por meio deste estudo é um recurso valioso para pesquisadores e clínicos que buscam entender melhor o TEA, abrindo caminho para avanços futuros na área. A esperança é que pesquisas contínuas possam levar a ferramentas e métodos aprimorados para a detecção precoce e apoio a indivíduos com autismo.
Título: #ActuallyAutistic Twitter dataset for precision diagnosis of Autism Spectrum Disorder (ASD)
Resumo: The increasing usage of social media platforms has given rise to an unprecedented surge in user- generated content with millions of users sharing their thoughts, experiences, and health-related information. Because of this social media has turned out to be a useful means to study and understand public health. Twitter is one such platform that has proven to be a valuable source of such information for both public and health officials. We present a novel dataset consisting of 6,515,470 tweets collected from users self identifying with autism using "#ActuallyAutistic" and a control group. The dataset also has supporting information such as posting dates, follower count, geographical location, and interaction metrics. We illustrate the utility of the dataset through common Natural Language Processing (NLP) applications such as sentiment analysis, tweet and user classification, and topic modeling. The textual differences in social media communications can help researchers and clinicians to conduct symptomatology studies, in natural settings, by establishing effective biomarkers to distinguish an autistic individual from their typical peers. For better accessibility, reusability and new research insights, we have released the dataset publicly.
Autores: Aditi Jaiswal, P. Washington
Última atualização: 2023-09-20 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.09.19.23295799
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.09.19.23295799.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.