Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Computadores e sociedade# Recuperação de informação# Redes Sociais e de Informação

Abordando a desinformação com ferramentas automatizadas de verificação de fatos

Novas ferramentas têm como objetivo melhorar a precisão da checagem de fatos em meio ao aumento da desinformação.

― 7 min ler


Combatendo aCombatendo aDesinformação comTecnologiafatos contra afirmações falsas.melhoram a precisão na checagem deNovas ferramentas automatizadas
Índice

A desinformação é um problema que tá crescendo hoje em dia, afetando como as pessoas pensam e agem. Com as redes sociais e outras plataformas online permitindo que informações falsas se espalhem rápido, é super importante que a galera consiga confiar no que lê e compartilha. Plataformas de checagem de fatos, onde jornalistas conferem a veracidade das afirmações, ajudam a combater esse lance. Mas, checar os fatos manualmente pode levar tempo e não consegue acompanhar a rapidez da desinformação.

Recentemente, pesquisadores começaram a desenvolver ferramentas que automatizam partes do processo de checagem de fatos. Essas ferramentas, conhecidas como sistemas de Checagem Automática de Fatos (AFC), ajudam os checadores humanos acelerando a detecção de afirmações, recuperação de evidências e verificação das alegações. Apesar desses avanços, um problema comum ainda persiste. Muitos sistemas de AFC puxam evidências da internet, mas nem sempre checam quão confiáveis essas evidências são ou de onde elas vêm.

A Importância da Verificação de Evidências

Um dos grandes desafios é verificar a qualidade da informação que os sistemas de AFC usam. Por exemplo, se a evidência vem de sites não confiáveis ou é "vazada" de artigos de checagem, isso pode prejudicar a precisão dos modelos. Depender de evidências vazadas significa que os sistemas aprendem com informações que já foram checadas, dificultando a detecção de novas desinformações. Da mesma forma, usar evidências de baixa qualidade pode levar a resultados ruins.

Pra resolver esses problemas, uma nova abordagem de verificação e filtragem de evidências foi introduzida. Essa abordagem visa criar uma base mais confiável para os sistemas automatizados trabalharem. Um novo conjunto de dados foi criado, composto por artigos classificados como credíveis, não confiáveis ou checados, para treinar os sistemas de forma mais eficaz.

O Conjunto de Dados CREDível, Não Confiável ou VAZADO

O novo conjunto de dados criado se chama "CREDível, Não Confiável ou VAZADO." Ele contém 91.632 artigos organizados em três categorias: Credível, Não Confiável e Checado. Essa distribuição equilibrada permite um melhor treinamento dos sistemas automatizados. O objetivo é identificar a qualidade da informação usada pelos sistemas de AFC pra que eles consigam produzir resultados mais precisos.

O processo de construção desse conjunto de dados envolveu a fusão e aprimoramento de dados de vários conjuntos de dados já estabelecidos. Isso significa juntar artigos curtos e longos, além de seus metadados, pra criar uma visão ampla das informações disponíveis na internet. Cada artigo no conjunto de dados inclui detalhes como títulos, datas de publicação e URLs, garantindo uma seleção bem diversificada de informações.

Como Funciona a Rede de Verificação de Evidências

Depois de criar o conjunto de dados, os pesquisadores desenvolveram a Rede de Verificação de Evidências (EVVER-Net). Essa rede é um classificador de rede neural projetado pra distinguir entre evidências credíveis, não confiáveis e vazadas. Ela usa informações do conjunto de dados recém-desenvolvido pra ajudar a se treinar de forma precisa.

A rede é composta por diferentes modelos que lidam com artigos curtos, longos e aqueles que também consideram scores de credibilidade externa. Ao testar vários modelos de linguagem pré-treinados, os pesquisadores descobriram que a EVVER-Net conseguiu alcançar taxas de precisão impressionantes ao classificar artigos com base em suas evidências.

Melhorando os Sistemas de Checagem Automática de Fatos

A introdução da Rede de Verificação de Evidências melhorou significativamente a capacidade dos sistemas de AFC de filtrar fontes não confiáveis. Em experimentos, foi constatado que a rede podia aumentar bastante as taxas de precisão. Para artigos curtos, o melhor modelo alcançou uma precisão de 79,5%, enquanto para artigos longos, chegou a 89,0%. Ao incluir scores de credibilidade de domínio, esses números cresceram pra 91,5% e 94,4% para textos curtos e longos, respectivamente.

Essas melhorias destacam a importância de refinar o processo de verificação de evidências. A precisão dos sistemas automatizados aumenta muito quando eles conseguem contar com evidências confiáveis, permitindo que ofereçam serviços de checagem de fatos mais confiáveis.

O Papel dos Scores de Credibilidade de Domínio

Pra aumentar ainda mais a precisão da Rede de Verificação de Evidências, os pesquisadores introduziram os Scores de Credibilidade de Domínio (DCS). Esses scores avaliam a confiabilidade de diferentes fontes de notícias com base no histórico de reportagens factuais e viés. Integrar esses scores no processo de treinamento ajuda a rede a aprender a distinguir entre fontes confiáveis e não confiáveis de forma mais eficaz.

O sistema DCS categoriza as plataformas em diferentes níveis com base em sua credibilidade. Isso permite que os modelos avaliem as fontes de forma crítica e garantam que as evidências usadas reflitam um padrão mais alto de confiabilidade.

Analisando Conjuntos de Dados Existentes

Pra avaliar a eficácia da nova rede e do conjunto de dados, os pesquisadores analisaram vários conjuntos de dados de checagem de fatos amplamente utilizados. Essa análise tinha como objetivo identificar quanto de evidência vazada e não confiável esses conjuntos de dados existentes continham.

O estudo descobriu taxas preocupantes de informações não confiáveis em muitos conjuntos de dados, incluindo LIAR-PLUS e outros. Esses achados destacam a crescente necessidade de melhorar as práticas de verificação de evidências dentro do campo de AFC. Ao aplicar a EVVER-Net a esses conjuntos de dados, os pesquisadores confirmaram que muitos continham informações que deveriam ter sido filtradas.

Análise Qualitativa e Inferência

Além das avaliações quantitativas, os pesquisadores realizaram análises qualitativas pra ver como a Rede de Verificação de Evidências se saía em vários conjuntos de dados. Eles examinaram bancos de dados de checagem de fatos conhecidos e conjuntos de dados que combinam evidências de diferentes fontes.

Os resultados mostraram que a rede era capaz de identificar informações credíveis de forma precisa, mesmo quando processadas por várias fontes. Por exemplo, o classificador reconheceu com sucesso uma alta porcentagem de artigos checados, mostrando sua habilidade de discernir evidências confiáveis em meio a tanta desinformação.

Direções Futuras e Limitações

Embora esse trabalho faça progressos significativos na melhoria do processo de checagem de fatos, também tem algumas limitações. Por exemplo, ele foca principalmente em evidências textuais e não considera a influência de imagens ou vídeos, que também podem conter informações enganosas.

Pesquisas futuras devem tentar ampliar o escopo da Rede de Verificação de Evidências e do conjunto de dados, incluindo conteúdos multimídia. Além disso, examinar como a remoção de evidências vazadas afeta o desempenho dos sistemas de AFC poderia fornecer mais insights sobre como otimizar essas ferramentas.

O objetivo final é criar uma estrutura mais realista e confiável pra avaliar informações, garantindo que os sistemas automatizados consigam lidar de forma eficaz com novas desinformações que vão surgindo.

Conclusão

À medida que a desinformação continua a se espalhar, a necessidade de soluções avançadas de checagem de fatos se torna cada vez mais clara. O desenvolvimento do conjunto de dados CREDível, Não Confiável ou VAZADO e da Rede de Verificação de Evidências marca passos importantes pra enfrentar os desafios da checagem automática de fatos. Ao focar na qualidade e confiabilidade das evidências usadas nesses sistemas, podemos construir mais confiança nas informações que a galera recebe online.

No final das contas, o sucesso dessas ferramentas em combater a desinformação depende da capacidade delas de filtrar grandes quantidades de dados e identificar fontes confiáveis. Conforme a pesquisa continua a evoluir e melhorar esses mecanismos, podemos trabalhar em direção a um futuro onde informações confiáveis sejam a norma, e não a exceção.

Fonte original

Título: Credible, Unreliable or Leaked?: Evidence Verification for Enhanced Automated Fact-checking

Resumo: Automated fact-checking (AFC) is garnering increasing attention by researchers aiming to help fact-checkers combat the increasing spread of misinformation online. While many existing AFC methods incorporate external information from the Web to help examine the veracity of claims, they often overlook the importance of verifying the source and quality of collected "evidence". One overlooked challenge involves the reliance on "leaked evidence", information gathered directly from fact-checking websites and used to train AFC systems, resulting in an unrealistic setting for early misinformation detection. Similarly, the inclusion of information from unreliable sources can undermine the effectiveness of AFC systems. To address these challenges, we present a comprehensive approach to evidence verification and filtering. We create the "CREDible, Unreliable or LEaked" (CREDULE) dataset, which consists of 91,632 articles classified as Credible, Unreliable and Fact checked (Leaked). Additionally, we introduce the EVidence VERification Network (EVVER-Net), trained on CREDULE to detect leaked and unreliable evidence in both short and long texts. EVVER-Net can be used to filter evidence collected from the Web, thus enhancing the robustness of end-to-end AFC systems. We experiment with various language models and show that EVVER-Net can demonstrate impressive performance of up to 91.5% and 94.4% accuracy, while leveraging domain credibility scores along with short or long texts, respectively. Finally, we assess the evidence provided by widely-used fact-checking datasets including LIAR-PLUS, MOCHEG, FACTIFY, NewsCLIPpings+ and VERITE, some of which exhibit concerning rates of leaked and unreliable evidence.

Autores: Zacharias Chrysidis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis

Última atualização: 2024-04-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.18971

Fonte PDF: https://arxiv.org/pdf/2404.18971

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes