Analisando o Viés do Estilo de Escrita na Mídia
Um novo método pra analisar viés da mídia através da análise do estilo de escrita.
― 10 min ler
Índice
- A Importância de Abordar o Viés na Mídia
- Método Proposto para Analisar o Viés no Estilo de Escrita
- Coleta e Preparação de Dados
- Medindo Similaridade entre Frases
- Medindo Similaridade entre Artigos
- Criando Redes para Análise
- Resultados e Descobertas
- Comparando Clusters de Redes com Viéses Conhecidos
- Análise de Sensibilidade
- Conclusão
- Fonte original
- Ligações de referência
Nos últimos anos, questões como fake news e mídia tendenciosa ficaram mais evidentes. Isso aumentou a necessidade de olhar com mais atenção para o viés na mídia, especialmente em como o estilo de escrita pode mostrar viés. O viés no estilo de escrita envolve duas ideias principais: Viés lexical, que fala sobre a escolha das palavras, e Viés de Enquadramento, que é sobre como a informação é apresentada. Este texto propõe uma nova maneira de analisar o viés no estilo de escrita usando técnicas de Processamento de Linguagem Natural, um campo que ensina máquinas a entender e analisar a linguagem humana.
O objetivo é criar um método que não dependa de especialistas humanos ou de um conhecimento específico sobre como diferentes veículos de mídia funcionam. Em vez disso, esse novo método analisa as semelhanças no conteúdo entre os artigos para descobrir como eles podem ser tendenciosos. Os resultados da análise de notícias sobre mandatos de vacinas mostram que esse método pode fornecer insights úteis sobre o viés na mídia. Ele também destaca que simplesmente rotular um veículo de mídia com um rótulo de viés não representa com precisão seu viés geral.
A Importância de Abordar o Viés na Mídia
O aumento de fake news e mídia tendenciosa teve efeitos negativos na sociedade. A mídia tendenciosa pode afastar as pessoas e contribuir para problemas como a "decadência da verdade", onde as pessoas perdem uma compreensão compartilhada dos fatos. Por isso, é crucial encontrar maneiras melhores de analisar e avaliar o viés na mídia. Muitas pessoas dependem de sites de terceiros para entender o viés na mídia. Embora esses sites possam oferecer algumas avaliações válidas, muitas vezes vêm com interpretações subjetivas e podem não se aplicar universalmente a diferentes culturas ou países.
Como resultado, há um crescente interesse em usar métodos computacionais para medir o viés na mídia. O viés no estilo de escrita se destaca como uma área chave a ser investigada. Já existem diferentes métodos para encontrar viés de estilo de escrita em textos da mídia, utilizando principalmente técnicas de processamento de linguagem natural. No entanto, muitos desses métodos são não supervisionados, o que significa que não usam dados rotulados para treinar. Essa falta de dados rotulados torna difícil obter resultados claros.
Vários estudos sugeriram o uso de modelos de aprendizado de máquina para identificar viés informativo. Esses estudos mostraram que o contexto em torno de frases com informações tendenciosas ajuda na detecção. Outros métodos baseados em rede também foram discutidos, focando na análise do viés de estilo de escrita. Esses métodos geralmente criam redes analisando artigos individuais, em vez de comparar diferentes fontes.
Além disso, as agências de notícias costumam compartilhar conteúdo, o que complica a análise. Veículos de mídia frequentemente reciclam texto, levando a desafios na determinação do viés exclusivo de estilo de escrita. Isso significa que é essencial considerar o conteúdo compartilhado ao analisar o estilo de escrita entre várias fontes.
Método Proposto para Analisar o Viés no Estilo de Escrita
Esta análise propõe um novo método para detectar o viés no estilo de escrita que leva em conta o conteúdo compartilhado entre diferentes mídias. Ele usa técnicas de similaridade de linguagem natural e uma abordagem em rede para avaliar como os artigos se relacionam entre si. Avaliamos esse método usando um conjunto de dados de artigos de notícias relacionados a mandatos de vacinas militares.
Essa abordagem nos permite ter uma visão mais clara do viés no estilo de escrita entre diferentes artigos e veículos de mídia, sem precisar saber como esses veículos criam seu conteúdo. Nossas descobertas mostram que os viéses de estilo de escrita podem mudar significativamente com base no evento sendo noticiado. Isso indica ainda mais que confiar em apenas um rótulo de viés para um veículo de mídia não é suficiente para captar toda a gama de seu viés.
Coleta e Preparação de Dados
O primeiro passo do nosso método é coletar e limpar os dados. Focamos em histórias de notícias sobre mandatos de vacinas militares nos EUA, que chamaram bastante atenção de ambos os lados políticos. Ao coletar histórias do Twitter, conseguimos capturar artigos que eram muito relevantes para discussões online e reunir uma variedade diversificada de fontes de notícias.
Usamos a API de busca do Twitter para coletar tweets contendo a frase "mandato de vacina militar" de 1º de fevereiro de 2022 a 5 de novembro de 2022. No total, coletamos cerca de 1,3 milhão de tweets, sendo que uma parte estava ligada a sites de notícias. Extraímos URLs únicas desses tweets, resultando em mais de 30.000 links únicos. Depois de extrair o texto desses sites, terminamos com cerca de 19.000 artigos e rotulamos esses com viés político conhecido, reduzindo para cerca de 7.000 artigos.
Depois de ter os artigos necessários, seguimos para o pré-processamento deles. Isso envolveu separar os artigos em eventos distintos e limpar o texto para análise. Queríamos focar no evento principal de cada tópico, minimizando outros viéses. Após refinar o conjunto de dados, estávamos prontos para analisar o viés no estilo de escrita.
Medindo Similaridade entre Frases
O próximo passo envolveu medir a similaridade entre frases nos artigos. Para fazer isso, usamos um processo em duas etapas: primeiro, criamos embeddings das frases e calculamos pontuações de sentimento para essas frases. Embeddamos cada frase em um espaço vetorial usando um modelo pré-treinado, permitindo identificar viéses sutis com mais facilidade.
Depois de obter os embeddings e as pontuações de sentimento, comparamos as frases entre diferentes artigos. Usar esses embeddings permite a identificação de frases semelhantes que podem ter pequenas diferenças na redação ou formatação. Consideramos frases semelhantes se elas tinham uma alta pontuação de similaridade cosseno, enquanto também medimos diferenças de sentimento para distinguir entre frases com viéses diferentes.
Medindo Similaridade entre Artigos
Com as similaridades entre frases em mãos, seguimos para calcular quão semelhantes eram os próprios artigos. Dado que artigos da mídia frequentemente reutilizam texto, estabelecemos uma abordagem de medição de similaridade em duas etapas. Primeiro, atribuímos caracteres únicos a cada frase, permitindo representar cada artigo como uma sequência desses caracteres. Fazendo isso, a ordem das frases e o conteúdo compartilhado são preservados.
Em seguida, calculamos a similaridade entre os artigos com base nessas representações de string. Esse método comparativo nos permitiu analisar efetivamente o viés no estilo de escrita, mesmo considerando a reutilização de texto comum nos relatórios da mídia.
Criando Redes para Análise
Com as similaridades entre artigos calculadas, construímos redes para examinar o viés no estilo de escrita. Essas redes consistem em artigos como nós e suas similaridades como links ponderados. Aplicando técnicas de análise de rede, pudemos explorar as relações entre os artigos e como o viés no estilo de escrita difere entre os domínios.
Das redes de artigo para artigo, derivamos redes de domínio para domínio usando métodos matemáticos. Isso forneceu uma visão mais ampla do viés no estilo de escrita no nível do domínio, permitindo analisar como diferentes veículos de mídia se relacionam em suas reportagens.
Resultados e Descobertas
Ao aplicar nosso método, criamos seis redes com base em dados de três eventos diferentes. Analisamos as estruturas dessas redes para gerar insights. Uma observação chave foi que a topologia da rede tendia a seguir uma estrutura de núcleo-periferia. Isso significa que havia alguns artigos ou veículos que eram altamente semelhantes (o núcleo), enquanto vários outros mostravam diferentes graus de similaridade (a periferia).
Esse padrão reflete a natureza de como os veículos de mídia costumam compartilhar e reutilizar conteúdo. O núcleo das redes geralmente continha fontes de mídia bem conhecidas, indicando as principais narrativas em torno desses eventos.
Também examinamos como a mídia reportou eventos individuais. Por exemplo, a cobertura do evento dos Cadetes da Força Aérea mostrou uma estrutura de núcleo mais definida em comparação com o evento dos Navy SEALs, que tinha um núcleo mais fraco. Essas observações estavam alinhadas com os tipos de fontes que reportavam cada evento e a natureza de sua cobertura.
Comparando Clusters de Redes com Viéses Conhecidos
Em seguida, queríamos ver quão bem os clusters formados a partir de nossas redes correspondiam a rótulos de viés conhecidos. Usando algoritmos de agrupamento estabelecidos, comparamos nossos clusters com rótulos de viés disponíveis publicamente. A análise revelou que não havia uma forte relação entre nossos clusters de rede e os viéses conhecidos.
No entanto, a rede de similaridade de domínio para o evento de Isenções Religiosas mostrou alguma relação com viéses conhecidos, sugerindo que a natureza dos relatórios da mídia pode influenciar como o viés é representado nos clusters.
De modo geral, as descobertas indicaram que artigos e domínios não mostravam uma forte preferência por usar material de outros dentro da mesma categoria de viés. Isso destaca a complexidade do viés na mídia e a necessidade de ferramentas mais afiadas para analisá-lo.
Análise de Sensibilidade
Também avaliamos como variar certos parâmetros em nosso método afetou os resultados. Alterando os limiares para correspondência semântica e de sentimento, conseguimos analisar como diferentes configurações influenciaram as redes produzidas.
Os resultados mostraram que as redes permaneceram estáveis com certas configurações de limiar, validando nossos parâmetros escolhidos. Isso sugere que o método é robusto e pode lidar com variações enquanto ainda produz resultados significativos.
Conclusão
Resumindo, propusemos uma nova maneira de examinar o viés no estilo de escrita na mídia através de um método que depende de análise computacional ao invés de opinião de especialistas. Ao investigar semelhanças a nível de frase e o conteúdo compartilhado entre artigos, revelamos como o viés pode variar significativamente entre eventos.
Nossa análise confirmou que simplesmente rotular uma fonte de mídia com um viés não é suficiente; contexto e o evento específico desempenham papéis cruciais na formação do viés. Embora nosso estudo tenha se concentrado em um escopo limitado de tópicos, as descobertas abrem portas para mais pesquisas sobre viés na mídia em diversas questões e eventos.
À medida que a mídia continua a evoluir, entender como os viéses se manifestam e podem ser analisados continuará a ser uma preocupação vital para a sociedade. Trabalhos futuros podem levar a métodos aprimorados para detectar viés e entender as nuances nas reportagens que afetam a percepção pública sobre questões importantes.
Título: Analysis of Media Writing Style Bias through Text-Embedding Networks
Resumo: With the rise of phenomena like `fake news' and the growth of heavily-biased media ecosystems, there has been increased attention on understanding and evaluating media bias. Of particular note in the evaluation of media bias is writing style bias, which includes lexical bias and framing bias. We propose a novel approach to evaluating writing style bias that utilizes natural language similarity estimation and a network-based representation of the shared content between articles to perform bias characterization. Our proposed method presents a new means of evaluating writing style bias that does not rely on human experts or knowledge of a media producer's publication procedures. The results of experimentation on real-world vaccine mandate data demonstrates the utility of the technique and how the standard bias labeling procedures of only having one bias label for a media producer is insufficient to truly characterize the bias of that media producer.
Autores: Iain J. Cruickshank, Jessica Zhu, Nathaniel D. Bastian
Última atualização: 2023-05-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.13098
Fonte PDF: https://arxiv.org/pdf/2305.13098
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://anonymous.4open.science/r/analysis-of-media-writing-style-bias-through-text-embedding-networks-C7F5
- https://github.com/ijcruic/analysis-of-media-writing-style-bias-through-text-embedding-networks
- https://developer.twitter.com/en/docs/twitter-api
- https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v2