Identificando Propaganda em Artigos de Notícias
Esse artigo analisa como reconhecer propaganda usando métodos de aprendizado humano e de máquinas.
― 5 min ler
Índice
A Propaganda é uma forma de comunicação que tenta influenciar as crenças e ações das pessoas. Ela costuma usar estilos de linguagem específicos que podem ser reconhecidos e analisados. Este artigo explora como identificar essas características estilísticas na propaganda, focando em artigos de notícias de fontes conhecidas por espalhar desinformação.
O Conjunto de Dados
Foi criado um conjunto de dados a partir de várias fontes conhecidas por promover propaganda, especialmente durante o conflito que rola na Ucrânia. Esse conjunto inclui artigos de notícias em várias línguas de sites identificados por especialistas. O conjunto é diverso, contendo conteúdo que cobre uma gama de tópicos e usa diferentes idiomas.
Pra fazer uma comparação justa, artigos de jornais franceses tradicionais também foram incluídos no conjunto. Essa mistura ajudou a entender melhor como a propaganda se difere da notícia comum.
Anotação Humana
Um experimento foi feito onde as pessoas anotaram os artigos. Elas tiveram que rotular os artigos com base em critérios específicos, como se o conteúdo era manipulativo ou exagerado. Um total de 11 rótulos diferentes foi criado pra essa tarefa. Os anotadores foram solicitados a identificar se um artigo continha elementos como "Fake News," "Exagero," ou "Título Desonesto." Esse processo envolveu o julgamento humano pra determinar a presença dessas características em cada artigo.
Os resultados mostraram que as pessoas eram geralmente boas em identificar as diferenças entre artigos de propaganda e notícias regulares. Elas conseguiam reconhecer quais artigos pertenciam a qual categoria mesmo quando os dois tipos discutiam tópicos similares.
Análise das Anotações Humanas
Depois que os artigos foram anotados, os pesquisadores examinaram os resultados pra ver quão consistente era a galera que anotou. Eles mediram com que frequência os anotadores concordavam entre si ao rotular os artigos. As descobertas indicaram um nível moderado a alto de concordância entre os anotadores, mostrando que eles conseguiam distinguir de forma confiável entre os dois tipos de imprensa.
Certos rótulos foram usados com mais frequência em um tipo de artigo do que no outro. Por exemplo, rótulos relacionados à Manipulação, como "Exagero," eram muito mais comuns em artigos de propaganda em comparação com notícias normais.
Examinando Características Textuais
Depois do processo de anotação, o próximo passo foi analisar a linguagem usada nos artigos. Características específicas do texto, como vaguidade, Subjetividade e detalhes, foram examinadas pra entender o que tornava os artigos de propaganda distintos. Por exemplo, artigos de propaganda costumavam usar expressões vagas com mais frequência do que artigos regulares.
Os pesquisadores usaram ferramentas especiais pra calcular pontuações relacionadas a essas características nos artigos. A análise mostrou que pontuações mais altas de vaguidade tendiam a correlacionar com os rótulos de propaganda.
Aprendizado de Máquina para Classificação
Pra melhorar ainda mais a detecção de propaganda, modelos de aprendizado de máquina foram treinados. Esses modelos foram projetados pra classificar artigos como propaganda ou notícia regular com base nas características textuais identificadas antes. Diferentes tipos de modelos foram usados, alguns focando na estrutura das frases enquanto outros consideravam as características gerais do texto.
Os modelos foram treinados em um grande conjunto de artigos. Eles foram testados pra ver quão eficazmente conseguiam identificar propaganda em dados não vistos. Os resultados indicaram que os modelos se saíram bem nesse tópico específico, alcançando alta precisão na distinção entre propaganda e artigos regulares.
Características Principais da Propaganda
Os modelos de aprendizado de máquina identificaram certos marcadores que são comuns em artigos de propaganda. Analisando as contribuições de diferentes partes do texto, os pesquisadores conseguiram apontar palavras e frases específicas que muitas vezes sinalizavam propaganda. Por exemplo, artigos cheios de exagero ou linguagem subjetiva eram mais propensos a serem classificados como propaganda.
Além disso, o uso de pontuação se mostrou diferente entre os dois tipos de artigos. Artigos de propaganda tinham menos vírgulas e aspas, mas mais pontos finais em comparação com artigos de notícias regulares. Essa diferença sintática ofereceu mais insights sobre como a propaganda é estruturada.
Possíveis Preconceitos no Aprendizado de Máquina
Embora os modelos de aprendizado de máquina tenham apresentado um alto desempenho na detecção de propaganda, existem preocupações sobre preconceitos no conjunto de dados que podem afetar os resultados. Modelos treinados em tópicos específicos podem não se sair tão bem em outros assuntos. Como a qualidade do conjunto de dados pode variar, isso representa um desafio pra garantir que os modelos consigam generalizar bem pra outras áreas.
Conclusão e Direções Futuras
A pesquisa demonstrou maneiras eficazes de identificar propaganda através de anotações humanas e modelos de aprendizado de máquina. Ao analisar a linguagem e o estilo dos artigos, características distintas da propaganda foram descobertas. As descobertas sugerem que a linguagem propagandista geralmente contém exagero e vaguidade.
Esforços futuros devem focar em melhorar a explicabilidade dos modelos e sua capacidade de detectar propaganda em outros contextos. Também há necessidade de pesquisas contínuas pra analisar como a propaganda é percebida em diferentes línguas e contextos culturais.
Este trabalho fornece uma base pra investigações futuras sobre o complexo mundo da detecção de propaganda, que é essencial pra manter um discurso público saudável.
Título: Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification
Resumo: This paper investigates the language of propaganda and its stylistic features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a multisource, multilingual, multimodal dataset composed of news articles extracted from websites identified as propaganda sources by expert agencies. A limited sample from this set was randomly mixed with papers from the regular French press, and their URL masked, to conduct an annotation-experiment by humans, using 11 distinct labels. The results show that human annotators were able to reliably discriminate between the two types of press across each of the labels. We propose different NLP techniques to identify the cues used by the annotators, and to compare them with machine classification. They include the analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to serve as a baseline, and four different classifiers: two RoBERTa-based models, CATS using syntax, and one XGBoost combining syntactic and semantic features.
Autores: Géraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson, François Maine, François Bancilhon, Guillaume Gadek, Guillaume Gravier, Paul Égré
Última atualização: 2024-02-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.03780
Fonte PDF: https://arxiv.org/pdf/2402.03780
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.overleaf.com/project/6565fc04b0557d651874facd
- https://www.pewresearch.org/journalism/fact-sheet/news-platform-fact-sheet/
- https://github.com/hybrinfox/ppn
- https://www.sgdsn.gouv.fr/publications/maj-19062023-rrn-une-campagne-numerique-de-manipulation-de-linformation-complexe-et
- https://graphism.fr/wp-content/uploads/2017/03/charter-of-munich-english.pdf
- https://github.com/adrianchifu/FreSaDa
- https://huggingface.co/hybrinfox/ukraine-operation_propaganda-detection-EN
- https://huggingface.co/hybrinfox/ukraine-operation_propaganda-detection-FR
- https://universaldependencies.org/u/dep/all.html
- https://www.aclweb.org/portal/content/acl-code-ethics