Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Redes Sociais e de Informação

Detectando Teorias da Conspiração no Telegram

Um estudo sobre como detectar teorias da conspiração em mensagens do Telegram em alemão.

― 7 min ler


Detecção de Teorias daDetecção de Teorias daConspiração no Telegramconspiração prejudiciais online.Métodos pra identificar teorias da
Índice

O crescimento das Teorias da Conspiração (TCs) durante a pandemia de COVID-19 destaca a necessidade de maneiras eficazes de identificá-las nos espaços online. As teorias da conspiração podem se espalhar rapidamente e influenciar negativamente a visão das pessoas. Portanto, este artigo analisa métodos para detectar teorias da conspiração em mensagens em alemão no Telegram. Comparamos duas abordagens principais: ajustar modelos existentes e usar modelos baseados em prompts.

Contexto

Espaços online, especialmente plataformas de mídia social, são áreas chave onde teorias da conspiração prosperam. Essas teorias frequentemente prometem respostas simples em tempos complicados, como uma pandemia. Elas podem prejudicar a confiança pública nas instituições e levar a discursos de ódio e violência. Muitas ferramentas de detecção existentes se concentram no inglês e dependem de buscas por palavras-chave, o que pode deixar passar o quadro completo. Nosso objetivo é melhorar os métodos de detecção para conteúdo em alemão, já que isso foi menos estudado.

Objetivo do Estudo

Nosso objetivo é criar ferramentas melhores para detectar teorias da conspiração em mensagens em alemão no Telegram. Queremos ver se modelos projetados para o inglês podem ser adaptados para o alemão e se métodos baseados em prompts podem ter um desempenho tão bom quanto as abordagens tradicionais de Ajuste fino. Também vamos avaliar a eficácia desses modelos em diferentes tempos e contextos.

Metodologia

Coleta de Dados

Usamos um conjunto de dados chamado TelCovACT, que inclui cerca de 3.663 mensagens de canais de Telegram em alemão conhecidos por espalhar teorias da conspiração durante a pandemia. Essas mensagens foram coletadas sem depender de palavras-chave para filtrar o conteúdo. Esse método permite capturar uma gama mais ampla de narrativas conspiratórias que podem não incluir palavras-chave comuns usadas para identificar tais mensagens.

Abordagens de Modelo

Focamos em dois tipos principais de modelos:

  1. Ajuste Fino Supervisionado: Isso envolve treinar modelos de linguagem existentes, como o BERT, em nosso conjunto de dados coletado. Ajustamos parâmetros e usamos uma abordagem bem estruturada para melhorar seu desempenho na identificação de teorias da conspiração.

  2. Modelos Baseados em Prompt: Também testamos modelos generativos como GPT-3.5, GPT-4 e Llama 2. Esses modelos podem classificar textos com base em prompts, que exigem pouco ou nenhum treinamento adicional. Eles usam o texto de entrada para determinar se apoia teorias da conspiração.

Questões de Pesquisa

Queríamos responder a quatro perguntas principais:

  1. Modelos ajustados podem alcançar resultados semelhantes aos dos modelos em inglês?
  2. Quão bem esses modelos se adaptam a mudanças de contexto e tempo?
  3. Modelos baseados em prompts podem igualar ou superar o desempenho dos modelos ajustados?
  4. Como diferentes configurações de entrada afetam o desempenho do modelo?

Resultados e Descobertas

Resultados do Ajuste Fino

O modelo TelConGBERT, nosso modelo BERT ajustado, obteve uma alta pontuação F1 média macro de 0.85. Essa pontuação indica uma forte capacidade de identificar teorias da conspiração, especialmente quando o modelo foi treinado usando um conjunto de dados que não dependia de filtragem por palavras-chave. Quando testamos o modelo em dados mais novos, ele manteve um desempenho moderado a bom.

Resultados do Modelo Baseado em Prompt

Dentre os modelos baseados em prompts, o GPT-4 se destacou como o mais eficaz, alcançando uma pontuação F1 de 0.79 em um cenário de zero-shot. Isso indica que ele poderia identificar teorias da conspiração de forma eficaz sem treinamento prévio em exemplos específicos. O GPT-3.5 e o Llama 2 também produziram resultados, mas não foram tão robustos quanto os do GPT-4.

Comparação de Abordagens

Tanto os modelos ajustados quanto os modelos baseados em prompt mostraram potencial. Em alguns casos, eles alcançaram níveis semelhantes de precisão. No entanto, houve um desacordo significativo nas previsões entre os modelos em 15% dos dados de teste, indicando que uma avaliação mais profunda é necessária para aprimorar a consistência.

Implicações dos Resultados

Os resultados sugerem que ambas as abordagens têm valor na detecção de teorias da conspiração. Ajustar modelos existentes como o TelConGBERT proporciona resultados confiáveis, enquanto métodos baseados em prompts como o GPT-4 mostram potencial para flexibilidade e adaptabilidade. Essa flexibilidade é particularmente crucial em um cenário informativo em rápida mudança, como visto durante a pandemia.

Importância do Contexto

O estudo ilustra como o contexto e a presença de componentes narrativos chave podem afetar a detecção de teorias da conspiração. Narrativas complexas com muitos elementos são mais fáceis para os modelos classificarem em comparação com narrativas fragmentadas, que tendem a confundir os esforços de detecção.

Aplicações Práticas

Os resultados têm implicações práticas para organizações que monitoram comunicação online. Usar modelos como o TelConGBERT pode ajudar a rastrear teorias da conspiração de forma mais eficaz, auxiliando na luta contra a desinformação. A análise de grandes conjuntos de dados de vários canais do Telegram indicou que uma parte significativa das mensagens continha teorias da conspiração.

Monitoramento de Canais

Na nossa análise, mais de 11% das mensagens de 215 canais públicos do Telegram foram identificadas como contendo teorias da conspiração. Isso se traduz em uma quantidade substancial de conteúdo potencialmente prejudicial que pode influenciar a opinião pública.

Desafios na Detecção

Apesar dos resultados promissores, há desafios na detecção de teorias da conspiração. A complexidade inerente dessas narrativas torna difícil classificá-las. Os modelos podem ter dificuldades, especialmente com informações fragmentadas que faltam completude. Essa complexidade reflete a dificuldade que os anotadores humanos também enfrentam ao categorizar essas mensagens.

Trabalho Futuro

Para melhorar esses achados, pesquisas futuras podem buscar expandir ainda mais o conjunto de dados e explorar modelos adicionais. Colaborações com organizações que monitoram conteúdo online prejudicial poderiam aumentar a adaptabilidade desses modelos a cenários do mundo real. Técnicas de amostragem e anotações mais refinadas também podem fornecer dados mais claros para treinamento.

Considerações Éticas

Enquanto trabalhamos para melhorar os métodos de detecção, é essencial considerar as implicações éticas da automação na moderação de conteúdo. Classificações incorretas podem levar a consequências negativas, como penalizar discursos legítimos ou falhar em abordar conteúdos prejudiciais. É crucial equilibrar os benefícios da automação com a necessidade de detecção precisa e responsável.

Conclusão

Este estudo demonstra o potencial para melhorar a detecção de teorias da conspiração em textos em alemão usando tanto métodos de ajuste fino quanto baseados em prompts. As descobertas confirmam que modelos de linguagem sofisticados podem ser aplicados efetivamente neste contexto, oferecendo ferramentas vitais para gerenciar a desinformação. À medida que continuamos a refinar essas abordagens, o foco deve permanecer em aumentar sua aplicabilidade e confiabilidade em cenários do mundo real.

Pesquisas e desenvolvimentos contínuos nesta área contribuirão não apenas para uma melhor compreensão das teorias da conspiração, mas também para o desenvolvimento de soluções que possam abordar sua propagação nas plataformas de mídia social.

Fonte original

Título: Detection of Conspiracy Theories Beyond Keyword Bias in German-Language Telegram Using Large Language Models

Resumo: The automated detection of conspiracy theories online typically relies on supervised learning. However, creating respective training data requires expertise, time and mental resilience, given the often harmful content. Moreover, available datasets are predominantly in English and often keyword-based, introducing a token-level bias into the models. Our work addresses the task of detecting conspiracy theories in German Telegram messages. We compare the performance of supervised fine-tuning approaches using BERT-like models with prompt-based approaches using Llama2, GPT-3.5, and GPT-4 which require little or no additional training data. We use a dataset of $\sim\!\! 4,000$ messages collected during the COVID-19 pandemic, without the use of keyword filters. Our findings demonstrate that both approaches can be leveraged effectively: For supervised fine-tuning, we report an F1 score of $\sim\!\! 0.8$ for the positive class, making our model comparable to recent models trained on keyword-focused English corpora. We demonstrate our model's adaptability to intra-domain temporal shifts, achieving F1 scores of $\sim\!\! 0.7$. Among prompting variants, the best model is GPT-4, achieving an F1 score of $\sim\!\! 0.8$ for the positive class in a zero-shot setting and equipped with a custom conspiracy theory definition.

Autores: Milena Pustet, Elisabeth Steffen, Helena Mihaljević

Última atualização: 2024-04-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.17985

Fonte PDF: https://arxiv.org/pdf/2404.17985

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes