Classificando Tweets sobre Transtornos Infantis
Um estudo classifica tweets de pais sobre transtornos na infância.
― 6 min ler
Índice
Transtornos na infância como TDAH, Autismo, atrasos na fala e Asma podem afetar muito o crescimento e a saúde de uma criança, e esses problemas costumam durar até a vida adulta. Nos EUA, cerca de 1 em cada 6 crianças entre 3 e 17 anos apresenta algum problema de desenvolvimento, sendo o TDAH e o autismo exemplos comuns. Estudos anteriores usaram o Twitter para encontrar relatos sobre essas condições, mas não analisaram de perto os tweets em que os pais mencionam que seus filhos têm esses problemas. Isso abre uma oportunidade de usar dados do Twitter para entender melhor essas condições nas crianças.
Descrição da Tarefa e dos Dados
Um workshop chamado SMM4H-2024 foca em usar grandes modelos de linguagem para estudar redes sociais. Participamos de uma tarefa específica que envolve classificar tweets. O objetivo é diferenciar tweets de pais que mencionam ter um filho com TDAH, autismo, atrasos na fala ou asma de tweets que apenas mencionam esses transtornos sem indicar que são sobre seus filhos.
Foram fornecidos três conjuntos de dados: um para treino, um para validação e um para teste. Os conjuntos de treino e validação tinham rótulos, enquanto o conjunto de teste não. Todos os conjuntos consistem em tweets de usuários que relataram sua gravidez no Twitter e mencionam uma criança com um transtorno, além de tweets que apenas mencionam um transtorno. O número total de tweets inclui 7.398 para treino, 389 para validação e 1.947 para teste.
Um classificador de referência usando um modelo específico alcançou um F1-score de 0.927 para identificar tweets que relatam ter um filho com um transtorno nos dados de teste.
Modelos Usados
Testamos três modelos de linguagem diferentes: BioLinkBERT, RoBERTa e BERTweet. O BioLinkBERT é bom para entender linguagem médica; o RoBERTa brilha em tarefas de linguagem geral; e o BERTweet é particularmente eficaz para tweets. Treinamos cada modelo usando o conjunto de dados de treino e checamos o quão bem eles se saíram usando o conjunto de validação.
Regime de Treinamento
Informações detalhadas sobre como treinamos os modelos estão incluídas em um apêndice. Configurações-chave para o treinamento, como taxa de aprendizado e tamanho do lote, foram decididas nas seções seguintes.
Otimização de Hiperparâmetros
Otimizamos as configurações dos modelos usando uma ferramenta que ajuda a gerenciar e ajustar modelos de aprendizado de máquina. Mais detalhes sobre as configurações também podem ser encontrados em um apêndice.
Experimentos Preliminares
Cada um dos modelos que escolhemos foi treinado por três rodadas, com dez ciclos de treinamento para cada rodada. Após cada ciclo, verificamos o F1-score para ver como cada modelo estava se saindo com os dados de validação. Salvamos o melhor desempenho de cada modelo em cada rodada. Os resultados estão resumidos em um apêndice.
De nossas descobertas, o RoBERTa e o BERTweet mostraram desempenhos semelhantes nos dados de validação, ambos se saindo muito melhor que o BioLinkBERT, mesmo que o BioLinkBERT tivesse sido treinado em um grande conjunto de dados médicos. Como resultado, decidimos descartar o BioLinkBERT de testes futuros.
Estratégia de Conjunto
Ao treinar grandes modelos em conjuntos de dados pequenos, pode ser complicado ter resultados consistentes porque pequenas mudanças nos dados de treinamento ou pontos de partida aleatórios podem levar a resultados diferentes. Para resolver esse problema e melhorar a confiabilidade de nossas previsões, combinamos vários modelos. Criamos dois grupos separados de modelos usando os melhores resultados de nossas execuções com RoBERTa e BERTweet. Todos os modelos em cada grupo usaram as mesmas configurações, diferindo apenas nas condições iniciais aleatórias. Depois, usamos um método de votação para chegar a uma previsão final com base nesses modelos.
Os resultados mostraram que o grupo do modelo BERTweet teve desempenho melhor que o grupo RoBERTa. Isso se deve principalmente ao fato de que as variações no desempenho nas três rodadas foram menores para o BERTweet. Também notamos que os resultados do grupo BERTweet corresponderam ao melhor resultado de uma das execuções do RoBERTa.
Resultados de Desempenho
Como a melhor execução do RoBERTa e o grupo do BERTweet tiveram sucesso semelhante com os dados de validação, testamos ambos em um conjunto separado de dados de teste não vistos. Os resultados mostraram que o grupo do BERTweet superou em muito o desempenho médio visto em todas as submissões da equipe, além de superar o classificador de referência em 1,18%. Mesmo que ambos os classificadores tenham se saído de forma semelhante em testes de validação, o grupo do BERTweet se saiu muito melhor quando analisamos os dados de teste. Uma razão pode ser que as diferentes execuções do modelo BERTweet podem ter capturado vários padrões nos dados.
Quando refinamos modelos complexos de linguagem, frequentemente enfrentamos inconsistência de desempenho com conjuntos de dados pequenos. Para contornar isso, combinamos previsões de várias versões do modelo BERTweet para obter melhores resultados. Essa abordagem levou a melhorias notáveis em nossas pontuações finais.
Conclusão
Tanto a melhor execução do RoBERTa quanto o grupo do BERTweet mostraram um desempenho forte no conjunto de dados de validação. No entanto, o grupo do BERTweet se destacou quando avaliamos no conjunto de dados de teste, alcançando pontuações maiores em comparação com o modelo inicial usado como referência. O sucesso do grupo do BERTweet gera interesse em investigar mais sobre como adicionar mais execuções ao grupo pode influenciar o desempenho. Essa investigação pode levar a resultados ainda melhores na compreensão e classificação de tweets relacionados a transtornos na infância. No geral, nosso trabalho sugere que combinar resultados de múltiplos modelos pode aprimorar previsões, especialmente ao lidar com pequenas quantidades de dados.
Título: Tweets Classification for Digital Epidemiology of Childhood Health Outcomes Using Pre-Trained Language Models
Resumo: This paper presents our approaches for the SMM4H24 Shared Task 5 on the binary classification of English tweets reporting childrens medical disorders. Our first approach involves fine-tuning a single RoBERTa-large model, while the second approach entails ensembling the results of three fine-tuned BERTweet-large models. We demonstrate that although both approaches exhibit identical performance on validation data, the BERTweet-large ensemble excels on test data. Our best-performing system achieves an F1-score of 0.938 on test data, out-performing the benchmark classifier by 1.18%.
Autores: Dasun Srimal Wickrama Arachchi Athukoralage, T. Atapattu, M. Thilakaratne, K. Falkner
Última atualização: 2024-06-12 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2024.06.11.24308776
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.06.11.24308776.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.