Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Salute pubblica e globale

Classificando Tweets sobre Transtornos Infantis

Um estudo classifica tweets de pais sobre transtornos na infância.

― 6 min ler


Analisando Tweets sobreAnalisando Tweets sobreTranstornostweets sobre transtornos na infância.Estudo melhora a classificação de
Índice

Transtornos na infância como TDAH, Autismo, atrasos na fala e Asma podem afetar muito o crescimento e a saúde de uma criança, e esses problemas costumam durar até a vida adulta. Nos EUA, cerca de 1 em cada 6 crianças entre 3 e 17 anos apresenta algum problema de desenvolvimento, sendo o TDAH e o autismo exemplos comuns. Estudos anteriores usaram o Twitter para encontrar relatos sobre essas condições, mas não analisaram de perto os tweets em que os pais mencionam que seus filhos têm esses problemas. Isso abre uma oportunidade de usar dados do Twitter para entender melhor essas condições nas crianças.

Descrição da Tarefa e dos Dados

Um workshop chamado SMM4H-2024 foca em usar grandes modelos de linguagem para estudar redes sociais. Participamos de uma tarefa específica que envolve classificar tweets. O objetivo é diferenciar tweets de pais que mencionam ter um filho com TDAH, autismo, atrasos na fala ou asma de tweets que apenas mencionam esses transtornos sem indicar que são sobre seus filhos.

Foram fornecidos três conjuntos de dados: um para treino, um para validação e um para teste. Os conjuntos de treino e validação tinham rótulos, enquanto o conjunto de teste não. Todos os conjuntos consistem em tweets de usuários que relataram sua gravidez no Twitter e mencionam uma criança com um transtorno, além de tweets que apenas mencionam um transtorno. O número total de tweets inclui 7.398 para treino, 389 para validação e 1.947 para teste.

Um classificador de referência usando um modelo específico alcançou um F1-score de 0.927 para identificar tweets que relatam ter um filho com um transtorno nos dados de teste.

Modelos Usados

Testamos três modelos de linguagem diferentes: BioLinkBERT, RoBERTa e BERTweet. O BioLinkBERT é bom para entender linguagem médica; o RoBERTa brilha em tarefas de linguagem geral; e o BERTweet é particularmente eficaz para tweets. Treinamos cada modelo usando o conjunto de dados de treino e checamos o quão bem eles se saíram usando o conjunto de validação.

Regime de Treinamento

Informações detalhadas sobre como treinamos os modelos estão incluídas em um apêndice. Configurações-chave para o treinamento, como taxa de aprendizado e tamanho do lote, foram decididas nas seções seguintes.

Otimização de Hiperparâmetros

Otimizamos as configurações dos modelos usando uma ferramenta que ajuda a gerenciar e ajustar modelos de aprendizado de máquina. Mais detalhes sobre as configurações também podem ser encontrados em um apêndice.

Experimentos Preliminares

Cada um dos modelos que escolhemos foi treinado por três rodadas, com dez ciclos de treinamento para cada rodada. Após cada ciclo, verificamos o F1-score para ver como cada modelo estava se saindo com os dados de validação. Salvamos o melhor desempenho de cada modelo em cada rodada. Os resultados estão resumidos em um apêndice.

De nossas descobertas, o RoBERTa e o BERTweet mostraram desempenhos semelhantes nos dados de validação, ambos se saindo muito melhor que o BioLinkBERT, mesmo que o BioLinkBERT tivesse sido treinado em um grande conjunto de dados médicos. Como resultado, decidimos descartar o BioLinkBERT de testes futuros.

Estratégia de Conjunto

Ao treinar grandes modelos em conjuntos de dados pequenos, pode ser complicado ter resultados consistentes porque pequenas mudanças nos dados de treinamento ou pontos de partida aleatórios podem levar a resultados diferentes. Para resolver esse problema e melhorar a confiabilidade de nossas previsões, combinamos vários modelos. Criamos dois grupos separados de modelos usando os melhores resultados de nossas execuções com RoBERTa e BERTweet. Todos os modelos em cada grupo usaram as mesmas configurações, diferindo apenas nas condições iniciais aleatórias. Depois, usamos um método de votação para chegar a uma previsão final com base nesses modelos.

Os resultados mostraram que o grupo do modelo BERTweet teve desempenho melhor que o grupo RoBERTa. Isso se deve principalmente ao fato de que as variações no desempenho nas três rodadas foram menores para o BERTweet. Também notamos que os resultados do grupo BERTweet corresponderam ao melhor resultado de uma das execuções do RoBERTa.

Resultados de Desempenho

Como a melhor execução do RoBERTa e o grupo do BERTweet tiveram sucesso semelhante com os dados de validação, testamos ambos em um conjunto separado de dados de teste não vistos. Os resultados mostraram que o grupo do BERTweet superou em muito o desempenho médio visto em todas as submissões da equipe, além de superar o classificador de referência em 1,18%. Mesmo que ambos os classificadores tenham se saído de forma semelhante em testes de validação, o grupo do BERTweet se saiu muito melhor quando analisamos os dados de teste. Uma razão pode ser que as diferentes execuções do modelo BERTweet podem ter capturado vários padrões nos dados.

Quando refinamos modelos complexos de linguagem, frequentemente enfrentamos inconsistência de desempenho com conjuntos de dados pequenos. Para contornar isso, combinamos previsões de várias versões do modelo BERTweet para obter melhores resultados. Essa abordagem levou a melhorias notáveis em nossas pontuações finais.

Conclusão

Tanto a melhor execução do RoBERTa quanto o grupo do BERTweet mostraram um desempenho forte no conjunto de dados de validação. No entanto, o grupo do BERTweet se destacou quando avaliamos no conjunto de dados de teste, alcançando pontuações maiores em comparação com o modelo inicial usado como referência. O sucesso do grupo do BERTweet gera interesse em investigar mais sobre como adicionar mais execuções ao grupo pode influenciar o desempenho. Essa investigação pode levar a resultados ainda melhores na compreensão e classificação de tweets relacionados a transtornos na infância. No geral, nosso trabalho sugere que combinar resultados de múltiplos modelos pode aprimorar previsões, especialmente ao lidar com pequenas quantidades de dados.

Artigos semelhantes