Detectando a subjetividade em artigos de notícias
A pesquisa desenvolve uma coleção de frases para identificar subjetividade nas notícias.
― 6 min ler
A subjetividade na escrita se refere a opiniões pessoais, sentimentos e interpretações que influenciam como algo é apresentado. Esse conceito é especialmente importante em artigos de notícia, onde a expectativa geralmente é por uma reportagem objetiva. Mas, a subjetividade pode aparecer, afetando a forma como as informações são transmitidas. Para lidar com isso, pesquisadores criaram uma nova Coleção de frases para ajudar a detectar conteúdo subjetivo em artigos de notícias.
O que é Detecção de subjetividade?
Detecção de subjetividade é a tarefa de identificar se uma frase expressa uma opinião pessoal ou é estritamente factual. Essa tarefa pode ser super importante em várias aplicações, como resumir informações, extrair alegações e checar fatos. No entanto, reconhecer a subjetividade não é uma tarefa simples, mesmo para as pessoas. Diferentes interpretações da mesma frase podem causar discordâncias sobre se ela é subjetiva ou objetiva.
O Desafio de Coletar Dados
Criar coleções de frases para detecção de subjetividade é um processo complexo e muitas vezes caro. Muitos métodos tradicionais dependem de identificar palavras específicas ou usar listas de palavras já tagueadas como subjetivas. Essas abordagens podem falhar, já que muitas vezes dependem de ferramentas específicas para a língua, o que as torna menos eficazes para outras línguas.
Para superar essas dificuldades, os pesquisadores desenvolveram um novo conjunto de diretrizes para anotar frases. Essas diretrizes foram feitas para se aplicar a várias línguas e não apenas a uma específica. Ao criar uma nova coleção de frases em inglês, essa pesquisa visa facilitar a construção de modelos que consigam identificar subjetividade na escrita.
Construindo a Nova Coleção
Os pesquisadores coletaram um total de 1.049 frases, incluindo exemplos Subjetivos e Objetivos. Eles obtiveram essas frases de artigos sobre assuntos políticos em diferentes fontes de notícias online. A coleção consiste em 411 frases que expressam opiniões subjetivas e 638 que são puramente objetivas.
Para criar essa coleção, recrutaram vários anotadores que foram treinados para rotular cada frase. Os anotadores tiveram que discutir cuidadosamente casos ambíguos para chegar a um entendimento comum. Essa colaboração ajudou a refinar as diretrizes sobre o que conta como subjetivo ou objetivo.
Como Funciona o Processo de Anotação
O processo de anotação envolveu várias etapas. Inicialmente, pares de anotadores rotularam as frases de forma independente. Depois, eles se reuniram para discutir suas decisões em casos ambíguos. Essa colaboração permitiu resolver discordâncias e melhorar a consistência dos julgamentos. Para os casos em que não conseguiam entrar em acordo, um terceiro anotador entrava para tomar a decisão final.
Para garantir a qualidade, os pesquisadores mediram o nível de concordância entre os anotadores ao longo do processo. Eles descobriram que suas novas diretrizes levaram a uma melhor consistência em comparação com tentativas anteriores que dependiam apenas de listas de palavras ou léxicos.
Testando Modelos de Machine Learning
Uma vez que a coleção estava pronta, os pesquisadores testaram vários modelos de machine learning para ver como eles podiam classificar as frases como subjetivas ou objetivas. Eles avaliaram diferentes abordagens, incluindo classificadores tradicionais e modelos avançados baseados em transformadores. Esses modelos são conhecidos por sua capacidade de aprender com grandes conjuntos de dados e reconhecer padrões.
Os pesquisadores também exploraram diferentes configurações. Eles analisaram configurações monolíngues, onde os modelos foram treinados e testados na mesma língua, e configurações multilíngues, onde os modelos foram treinados em várias línguas. Eles testaram especificamente seus modelos tanto em um corpus em inglês quanto em italiano para entender como as abordagens se transfeririam entre as línguas.
Resultados dos Experimentos
Os resultados mostraram que os modelos baseados em transformadores tiveram o melhor desempenho na nova coleção. Quando treinados em configurações multilíngues, esses modelos mostraram um desempenho de classificação melhor em comparação com modelos tradicionais. Isso sugere que usar dados de múltiplas línguas pode melhorar a capacidade de detectar subjetividade nas frases.
Além disso, os pesquisadores notaram que seus modelos generalizavam bem entre as línguas. As métricas de desempenho mostraram que as frases na coleção em inglês poderiam ser usadas de forma eficaz para informar modelos que operam em italiano e vice-versa. Essa descoberta é promissora para pesquisas futuras que podem envolver outras línguas.
Implicações para Pesquisas Futuras
A nova coleção e as diretrizes abrem várias oportunidades para pesquisas futuras. Uma direção é expandir esse trabalho para incluir mais línguas e explorar as implicações mais amplas da detecção de subjetividade na cobertura de notícias globais. Os pesquisadores também sugeriram fazer uma análise cuidadosa dos erros cometidos na classificação das frases para entender melhor quais tipos de conteúdo subjetivo são mais difíceis de identificar.
Outra área para explorar é o efeito de preconceitos pessoais entre os anotadores. Como a subjetividade pode ser influenciada pelas experiências e passados dos indivíduos, entender e mitigar esses preconceitos é essencial para criar recursos justos e equilibrados.
Considerações Éticas
A pesquisa reconhece as implicações éticas da subjetividade na reportagem de notícias. Ao melhorar a detecção da subjetividade, o trabalho visa aumentar a consciência sobre possíveis preconceitos no conteúdo da mídia. É crucial que pesquisadores e jornalistas reconheçam como as opiniões pessoais podem moldar as informações apresentadas ao público.
Além disso, o corpus criado a partir dessa pesquisa é destinado apenas para fins acadêmicos. É importante abordar o uso desse recurso com cuidado para garantir que os insights obtidos não levem a mal-entendidos ou a mau uso em mãos menos cuidadosas.
Conclusão
O desenvolvimento de uma nova coleção e diretrizes claras de anotação para detecção de subjetividade em artigos de notícias oferece um recurso valioso para pesquisadores e profissionais. Ao focar tanto no inglês quanto no italiano, a pesquisa demonstra o potencial de uma abordagem multilíngue para melhorar a detecção de subjetividade. À medida que mais estudos exploram esse novo campo, a esperança é criar uma compreensão mais clara de como informações subjetivas influenciam as notícias e os impactos associados na percepção pública.
Título: A Corpus for Sentence-level Subjectivity Detection on English News Articles
Resumo: We develop novel annotation guidelines for sentence-level subjectivity detection, which are not limited to language-specific cues. We use our guidelines to collect NewsSD-ENG, a corpus of 638 objective and 411 subjective sentences extracted from English news articles on controversial topics. Our corpus paves the way for subjectivity detection in English and across other languages without relying on language-specific tools, such as lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task in mono-, multi-, and cross-language settings. For this purpose, we re-annotate an existing Italian corpus. We observe that models trained in the multilingual setting achieve the best performance on the task.
Autores: Francesco Antici, Andrea Galassi, Federico Ruggeri, Katerina Korre, Arianna Muti, Alessandra Bardi, Alice Fedotova, Alberto Barrón-Cedeño
Última atualização: 2024-05-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.18034
Fonte PDF: https://arxiv.org/pdf/2305.18034
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.dropbox.com/sh/pterfc16inz0h7b/AAB3csoKxYJNa11A-CZZt4xZa
- https://textblob.readthedocs.io/
- https://acl-org.github.io/ACLPUB/formatting.html
- https://2023.eacl.org/calls/papers/
- https://aclweb.org/anthology/anthology.bib.gz
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://www.acm.org/code-of-ethics