Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Analisando Propaganda em Mídias Sociais com Código Alternado

Um estudo sobre como detectar técnicas de propaganda em posts bilíngues.

― 9 min ler


Detectando Propaganda emDetectando Propaganda emLínguas Mistasbilíngues nas redes sociais.técnicas de propaganda em postsUm estudo sobre como identificar
Índice

Propaganda é uma forma de compartilhar informação que tem como objetivo mudar os pensamentos e crenças das pessoas pra apoiar uma agenda específica. Hoje em dia, as redes sociais tornaram mais fácil e rápido a propagação da propaganda. Por causa disso, existe uma necessidade crescente de sistemas que consigam identificar propaganda automaticamente. A maioria das pesquisas até agora se concentrou em línguas populares como o inglês, enquanto as línguas que não são tão usadas receberam menos atenção.

Um tendência comum nas redes sociais é misturar diferentes idiomas em um mesmo post, isso é conhecido como code-switching. Essa mistura de línguas pode dificultar a detecção precisa de propaganda por máquinas. Portanto, a gente investigou como identificar Técnicas de propaganda em posts onde várias línguas são usadas.

Propósito do Estudo

Pra apoiar nossa pesquisa, criamos uma coleção de 1.030 posts que misturam inglês e Roman Urdu (Urdu escrito em letras latinas). Esses posts estão rotulados com 20 diferentes técnicas de propaganda. Compartilhando essa coleção, a gente espera ajudar outros que trabalham nessa área.

Fizemos vários experimentos com diferentes métodos e descobrimos que é crucial lidar diretamente com texto multilíngue, ao invés de depender de traduções. Também descobrimos que escolher a estratégia certa pra ajustar modelos é essencial pra ter sucesso.

A Importância das Redes Sociais

As redes sociais mudaram a forma como as pessoas acessam e compartilham informação. Com plataformas como Facebook, Twitter e Instagram, agora é fácil pra qualquer um se comunicar com grandes grupos. Infelizmente, a facilidade de espalhar informação levou a um aumento de informações falsas ou propaganda.

A propaganda sempre existiu, mas as redes sociais permitem que indivíduos e organizações espalhem suas ideias de forma rápida e ampla. Isso pode ter um impacto negativo, especialmente quando a desinformação se propaga em momentos críticos, como durante a pandemia de COVID-19.

Quando informações falsas circulam, isso pode gerar confusão, medo e desconfiança entre o público. A propaganda também pode influenciar as emoções e comportamentos das pessoas por razões políticas ou ideológicas. Por isso, é essencial identificar e combater a propaganda pra promover um fluxo mais saudável de informação precisa nas redes sociais.

O Crescimento de Comunidades Bilingues

O número de usuários bilíngues e multilíngues nas redes sociais aumentou bastante ao longo dos anos. Muitas pessoas agora misturam várias línguas em seus posts, tweets e chats. Essa prática é conhecida como code-switching, onde os usuários alternam entre idiomas na mesma conversa.

O code-switching acontece muitas vezes entre pessoas fluentes em múltiplas línguas, permitindo que elas expressem seus pensamentos de forma mais eficaz. Em resposta ao crescente número de usuários bilíngues, nosso estudo foca no inglês e no Roman Urdu, que tá se tornando popular pra comunicação online por ser fácil de digitar.

Desafios na Detecção de Propaganda

Enquanto muitos projetos de pesquisa exploraram diversas tarefas linguísticas, pouco se concentrou na detecção de propaganda em línguas de baixo recurso que envolvem code-switching. Pesquisas anteriores focaram principalmente em línguas de alto recurso como o inglês. Nosso trabalho representa uma primeira tentativa de abordar o problema de detectar propaganda em textos com code-switching.

Porém, existem várias dificuldades nesse processo, como:

  • Falta de Conjuntos de dados específicos
  • Dificuldade em conseguir anotações de alta qualidade
  • Necessidade de modelos bem ajustados

A gente pretende enfrentar esses desafios se concentrando na detecção de propaganda em posts de redes sociais.

Contribuições do Nosso Trabalho

Fizemos várias contribuições importantes através do nosso estudo:

  1. Estabelecemos uma nova tarefa pra identificar técnicas de propaganda em textos com code-switching.
  2. Criamos e anotamos um novo conjunto de dados com 1.030 textos com code-switching que combinam inglês e Roman Urdu. Rotulamos esses textos com 20 técnicas diferentes de propaganda.
  3. Avaliamos vários modelos, comparando seu desempenho na detecção de propaganda.

Contexto sobre Propaganda

A ideia de propaganda não é nova. Ela existe há séculos, evoluindo de reuniões e eventos pra textos e imagens em jornais. Ao longo da história, foi usada pra influenciar pessoas durante eventos significativos como a Revolução Americana e as Guerras Mundiais.

Hoje, o crescimento da internet levou a uma explosão de propaganda. A comunidade de IA reconheceu essa tendência e focou em encontrar maneiras de detectar propaganda em suas várias formas. Pesquisas iniciais visaram a propaganda em nível de documento, enquanto trabalhos mais recentes se concentraram em detalhes mais finos, incluindo técnicas em fragmentos de texto específicos.

Métodos de Coleta de Dados

Coletamos nosso conjunto de dados de fontes publicamente disponíveis, incluindo Twitter, Facebook, Instagram e YouTube. Nosso foco foi principalmente no Twitter, que forneceu 60% dos dados, enquanto o Facebook contribuiu com 25%.

Pra garantir uma coleção diversificada de textos, selecionamos quatro coletores de dados que conseguiram reunir exemplos em diferentes horários do dia. Inicialmente, foram coletados 2.000 exemplos, mas depois de filtrar, reduzimos pra 1.030 exemplos pra análise.

Processo de Anotação

Anotar técnicas de propaganda pode ser mais complexo do que rotular imagens ou avaliar sentimentos. Por isso, treinamos nossos anotadores cuidadosamente pra prepará-los pra essa tarefa desafiadora.

Os anotadores passaram por três estágios de treinamento, começando com memes que tinham texto. Eles rotularam de forma independente subconjuntos de memes e discutiram suas diferenças. A fase final envolveu feedback de um especialista, garantindo que os anotadores tivessem um entendimento profundo das técnicas de propaganda antes de passar pro novo conjunto de dados.

Consistência nos Dados

Pra manter a consistência em nosso conjunto de dados, estabelecemos uma abordagem sistemática pro nosso processo de anotação. Cada exemplo foi revisado por ambos os anotadores, que compararam suas anotações. Nos casos em que eles discordaram, tiveram discussões pra resolver o conflito e chegar a um consenso.

Verificações regulares com especialistas da área garantiram que a qualidade do conjunto de dados permanecesse alta e que qualquer erro fosse rapidamente corrigido.

Plataforma de Anotação Baseada na Web

Pra anotar nosso conjunto de dados com code-switching, criamos uma plataforma web usando Flask e HTML. Essa plataforma customizada nos permitiu incluir recursos únicos que atendem às nossas necessidades, mostrando que construir uma ferramenta especializada pode ser mais eficaz do que usar soluções já existentes.

Visão Geral do Conjunto de Dados

Depois de finalizar nosso conjunto de dados, coletamos algumas estatísticas básicas. No total, rotulamos 2.577 trechos com uma das 20 técnicas de propaganda. A média do comprimento dos trechos variou, com algumas técnicas tendo expressões mais longas do que outras.

Ficou claro que algumas classes de propaganda apareceram com mais frequência do que outras-quatro classes compuseram mais de 77% das instâncias. Os trechos mais longos geralmente estavam em técnicas que envolvem mensagens mais complexas.

Treinamento e Ajuste de Modelos

Para nossos experimentos, ajustamos vários modelos com base em suas capacidades linguísticas. Empregamos várias estratégias, incluindo:

  • Estratégia Fora do Domínio: Modelos foram treinados com dados extraídos de memes sem considerar imagens, e depois validados em nosso conjunto de dados com code-switching.
  • Estratégia Traduzida: Nesse método, traduzimos nossos dados com code-switching para o inglês pra o treinamento do modelo.
  • Estratégia de Code-Switching: Aqui, os modelos foram treinados nos textos originais com code-switching.

Através dessas abordagens, buscamos entender as diferenças de desempenho de cada estratégia.

Avaliação dos Modelos

Avaliamos o desempenho dos modelos com base em várias medidas. Em cenário após cenário, descobrimos que treinar modelos usando os dados originais com code-switching resultou em resultados melhores em comparação com o uso de traduções. Modelos treinados com esses dados foram mais eficazes em detectar propaganda do que aqueles que dependiam apenas de conteúdo traduzido.

Além disso, modelos cross-linguais que conseguiam transferir conhecimento entre línguas tiveram um desempenho melhor do que modelos focados apenas em uma língua.

Conclusão e Futuras Pesquisas

Esse estudo iluminou a tarefa de detectar técnicas de propaganda em textos de redes sociais com code-switching. Desenvolvemos um conjunto de dados disponível publicamente contendo 1.030 textos rotulados com 20 técnicas de propaganda. Nossa pesquisa demonstrou que trabalhar diretamente com textos multilíngues é mais eficaz do que traduzi-los para línguas de alto recurso.

Olhando pra frente, planeamos expandir nossa pesquisa pra incluir outras línguas de baixo recurso. Também temos a intenção de ampliar ainda mais nosso conjunto de dados e ajustar mais modelos de língua pra melhorar a detecção de propaganda em um nível mais granular.

Compreendendo as Técnicas de Propaganda

Definimos as 20 técnicas de propaganda usadas em nosso conjunto de dados, que são as seguintes:

  1. Linguagem Carregada: Palavras-chave com conotações emocionais fortes.
  2. Nomeação/Rotulagem: Usar termos depreciativos pra descrever indivíduos ou grupos.
  3. Repetição: Repetir uma mensagem pra que pareça mais convincente.
  4. Exagero/Minimização: Exagerar ou minimizar fatos pra influenciar opiniões.
  5. Dúvida: Questionar a credibilidade da informação ou das fontes.
  6. Apelo ao Medo/Preconceito: Criar medo pra conseguir apoio pra uma ideia.
  7. Apelo à Autoridade: Citar uma figura de autoridade pra validar uma afirmação.
  8. Patriotismo: Aproveitar o orgulho nacional pra justificar um argumento.
  9. Simplificação Causal Excessiva: Simplificar questões complexas a uma única causa.
  10. Slogans: Usar frases de efeito que evocam emoções fortes.
  11. Falsa Dicotomia/Dictadura: Apresentar duas opções extremas sem meio termo.
  12. Clichê que Termina o Pensamento: Usar frases que acabam com a discussão.
  13. E se...?: Evitar um argumento desviando pra outra questão.
  14. Redução a Hitler: Associar um argumento a figuras ou grupos odiados.
  15. Apresentando Dados Irrelevantes: Distraindo do ponto principal com informações não relacionadas.
  16. Aderência à Moda: Incentivar apoio baseado na pressão dos pares ou na opinião da maioria.
  17. Obfuscação: Usar linguagem confusa pra deixar o público na dúvida.
  18. Espantalho: Representar mal um argumento pra facilitar o ataque.
  19. Generalidades Cintilantes: Declarações vagas que apelam a valores sem evidências.
  20. Difamação: Danificar a reputação de alguém com afirmações falsas.

Ao entender e identificar essas técnicas, podemos trabalhar pra promover discussões mais saudáveis e informações mais verídicas nas redes sociais.

Fonte original

Título: Detecting Propaganda Techniques in Code-Switched Social Media Text

Resumo: Propaganda is a form of communication intended to influence the opinions and the mindset of the public to promote a particular agenda. With the rise of social media, propaganda has spread rapidly, leading to the need for automatic propaganda detection systems. Most work on propaganda detection has focused on high-resource languages, such as English, and little effort has been made to detect propaganda for low-resource languages. Yet, it is common to find a mix of multiple languages in social media communication, a phenomenon known as code-switching. Code-switching combines different languages within the same text, which poses a challenge for automatic systems. With this in mind, here we propose the novel task of detecting propaganda techniques in code-switched text. To support this task, we create a corpus of 1,030 texts code-switching between English and Roman Urdu, annotated with 20 propaganda techniques, which we make publicly available. We perform a number of experiments contrasting different experimental setups, and we find that it is important to model the multilinguality directly (rather than using translation) as well as to use the right fine-tuning strategy. The code and the dataset are publicly available at https://github.com/mbzuai-nlp/propaganda-codeswitched-text

Autores: Muhammad Umar Salman, Asif Hanif, Shady Shehata, Preslav Nakov

Última atualização: 2024-03-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14534

Fonte PDF: https://arxiv.org/pdf/2305.14534

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes