Detectando Teorias da Conspiração no Telegram
Um estudo sobre como detectar teorias da conspiração em mensagens do Telegram em alemão.
― 7 min ler
Índice
- Contexto
- Objetivo do Estudo
- Metodologia
- Coleta de Dados
- Abordagens de Modelo
- Questões de Pesquisa
- Resultados e Descobertas
- Resultados do Ajuste Fino
- Resultados do Modelo Baseado em Prompt
- Comparação de Abordagens
- Implicações dos Resultados
- Importância do Contexto
- Aplicações Práticas
- Monitoramento de Canais
- Desafios na Detecção
- Trabalho Futuro
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
O crescimento das Teorias da Conspiração (TCs) durante a pandemia de COVID-19 destaca a necessidade de maneiras eficazes de identificá-las nos espaços online. As teorias da conspiração podem se espalhar rapidamente e influenciar negativamente a visão das pessoas. Portanto, este artigo analisa métodos para detectar teorias da conspiração em mensagens em alemão no Telegram. Comparamos duas abordagens principais: ajustar modelos existentes e usar modelos baseados em prompts.
Contexto
Espaços online, especialmente plataformas de mídia social, são áreas chave onde teorias da conspiração prosperam. Essas teorias frequentemente prometem respostas simples em tempos complicados, como uma pandemia. Elas podem prejudicar a confiança pública nas instituições e levar a discursos de ódio e violência. Muitas ferramentas de detecção existentes se concentram no inglês e dependem de buscas por palavras-chave, o que pode deixar passar o quadro completo. Nosso objetivo é melhorar os métodos de detecção para conteúdo em alemão, já que isso foi menos estudado.
Objetivo do Estudo
Nosso objetivo é criar ferramentas melhores para detectar teorias da conspiração em mensagens em alemão no Telegram. Queremos ver se modelos projetados para o inglês podem ser adaptados para o alemão e se métodos baseados em prompts podem ter um desempenho tão bom quanto as abordagens tradicionais de Ajuste fino. Também vamos avaliar a eficácia desses modelos em diferentes tempos e contextos.
Metodologia
Coleta de Dados
Usamos um conjunto de dados chamado TelCovACT, que inclui cerca de 3.663 mensagens de canais de Telegram em alemão conhecidos por espalhar teorias da conspiração durante a pandemia. Essas mensagens foram coletadas sem depender de palavras-chave para filtrar o conteúdo. Esse método permite capturar uma gama mais ampla de narrativas conspiratórias que podem não incluir palavras-chave comuns usadas para identificar tais mensagens.
Abordagens de Modelo
Focamos em dois tipos principais de modelos:
Ajuste Fino Supervisionado: Isso envolve treinar modelos de linguagem existentes, como o BERT, em nosso conjunto de dados coletado. Ajustamos parâmetros e usamos uma abordagem bem estruturada para melhorar seu desempenho na identificação de teorias da conspiração.
Modelos Baseados em Prompt: Também testamos modelos generativos como GPT-3.5, GPT-4 e Llama 2. Esses modelos podem classificar textos com base em prompts, que exigem pouco ou nenhum treinamento adicional. Eles usam o texto de entrada para determinar se apoia teorias da conspiração.
Questões de Pesquisa
Queríamos responder a quatro perguntas principais:
- Modelos ajustados podem alcançar resultados semelhantes aos dos modelos em inglês?
- Quão bem esses modelos se adaptam a mudanças de contexto e tempo?
- Modelos baseados em prompts podem igualar ou superar o desempenho dos modelos ajustados?
- Como diferentes configurações de entrada afetam o desempenho do modelo?
Resultados e Descobertas
Resultados do Ajuste Fino
O modelo TelConGBERT, nosso modelo BERT ajustado, obteve uma alta pontuação F1 média macro de 0.85. Essa pontuação indica uma forte capacidade de identificar teorias da conspiração, especialmente quando o modelo foi treinado usando um conjunto de dados que não dependia de filtragem por palavras-chave. Quando testamos o modelo em dados mais novos, ele manteve um desempenho moderado a bom.
Resultados do Modelo Baseado em Prompt
Dentre os modelos baseados em prompts, o GPT-4 se destacou como o mais eficaz, alcançando uma pontuação F1 de 0.79 em um cenário de zero-shot. Isso indica que ele poderia identificar teorias da conspiração de forma eficaz sem treinamento prévio em exemplos específicos. O GPT-3.5 e o Llama 2 também produziram resultados, mas não foram tão robustos quanto os do GPT-4.
Comparação de Abordagens
Tanto os modelos ajustados quanto os modelos baseados em prompt mostraram potencial. Em alguns casos, eles alcançaram níveis semelhantes de precisão. No entanto, houve um desacordo significativo nas previsões entre os modelos em 15% dos dados de teste, indicando que uma avaliação mais profunda é necessária para aprimorar a consistência.
Implicações dos Resultados
Os resultados sugerem que ambas as abordagens têm valor na detecção de teorias da conspiração. Ajustar modelos existentes como o TelConGBERT proporciona resultados confiáveis, enquanto métodos baseados em prompts como o GPT-4 mostram potencial para flexibilidade e adaptabilidade. Essa flexibilidade é particularmente crucial em um cenário informativo em rápida mudança, como visto durante a pandemia.
Importância do Contexto
O estudo ilustra como o contexto e a presença de componentes narrativos chave podem afetar a detecção de teorias da conspiração. Narrativas complexas com muitos elementos são mais fáceis para os modelos classificarem em comparação com narrativas fragmentadas, que tendem a confundir os esforços de detecção.
Aplicações Práticas
Os resultados têm implicações práticas para organizações que monitoram comunicação online. Usar modelos como o TelConGBERT pode ajudar a rastrear teorias da conspiração de forma mais eficaz, auxiliando na luta contra a desinformação. A análise de grandes conjuntos de dados de vários canais do Telegram indicou que uma parte significativa das mensagens continha teorias da conspiração.
Monitoramento de Canais
Na nossa análise, mais de 11% das mensagens de 215 canais públicos do Telegram foram identificadas como contendo teorias da conspiração. Isso se traduz em uma quantidade substancial de conteúdo potencialmente prejudicial que pode influenciar a opinião pública.
Desafios na Detecção
Apesar dos resultados promissores, há desafios na detecção de teorias da conspiração. A complexidade inerente dessas narrativas torna difícil classificá-las. Os modelos podem ter dificuldades, especialmente com informações fragmentadas que faltam completude. Essa complexidade reflete a dificuldade que os anotadores humanos também enfrentam ao categorizar essas mensagens.
Trabalho Futuro
Para melhorar esses achados, pesquisas futuras podem buscar expandir ainda mais o conjunto de dados e explorar modelos adicionais. Colaborações com organizações que monitoram conteúdo online prejudicial poderiam aumentar a adaptabilidade desses modelos a cenários do mundo real. Técnicas de amostragem e anotações mais refinadas também podem fornecer dados mais claros para treinamento.
Considerações Éticas
Enquanto trabalhamos para melhorar os métodos de detecção, é essencial considerar as implicações éticas da automação na moderação de conteúdo. Classificações incorretas podem levar a consequências negativas, como penalizar discursos legítimos ou falhar em abordar conteúdos prejudiciais. É crucial equilibrar os benefícios da automação com a necessidade de detecção precisa e responsável.
Conclusão
Este estudo demonstra o potencial para melhorar a detecção de teorias da conspiração em textos em alemão usando tanto métodos de ajuste fino quanto baseados em prompts. As descobertas confirmam que modelos de linguagem sofisticados podem ser aplicados efetivamente neste contexto, oferecendo ferramentas vitais para gerenciar a desinformação. À medida que continuamos a refinar essas abordagens, o foco deve permanecer em aumentar sua aplicabilidade e confiabilidade em cenários do mundo real.
Pesquisas e desenvolvimentos contínuos nesta área contribuirão não apenas para uma melhor compreensão das teorias da conspiração, mas também para o desenvolvimento de soluções que possam abordar sua propagação nas plataformas de mídia social.
Título: Detection of Conspiracy Theories Beyond Keyword Bias in German-Language Telegram Using Large Language Models
Resumo: The automated detection of conspiracy theories online typically relies on supervised learning. However, creating respective training data requires expertise, time and mental resilience, given the often harmful content. Moreover, available datasets are predominantly in English and often keyword-based, introducing a token-level bias into the models. Our work addresses the task of detecting conspiracy theories in German Telegram messages. We compare the performance of supervised fine-tuning approaches using BERT-like models with prompt-based approaches using Llama2, GPT-3.5, and GPT-4 which require little or no additional training data. We use a dataset of $\sim\!\! 4,000$ messages collected during the COVID-19 pandemic, without the use of keyword filters. Our findings demonstrate that both approaches can be leveraged effectively: For supervised fine-tuning, we report an F1 score of $\sim\!\! 0.8$ for the positive class, making our model comparable to recent models trained on keyword-focused English corpora. We demonstrate our model's adaptability to intra-domain temporal shifts, achieving F1 scores of $\sim\!\! 0.7$. Among prompting variants, the best model is GPT-4, achieving an F1 score of $\sim\!\! 0.8$ for the positive class in a zero-shot setting and equipped with a custom conspiracy theory definition.
Autores: Milena Pustet, Elisabeth Steffen, Helena Mihaljević
Última atualização: 2024-04-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.17985
Fonte PDF: https://arxiv.org/pdf/2404.17985
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.