Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Melhorando a Precisão na Avaliação de Resumos de Texto

Um novo método melhora a avaliação da precisão de resumos usando Inferência de Linguagem Natural.

― 5 min ler


Nova Métrica paraNova Métrica paraPrecisão de Resumosumarização de forma eficaz.Um método pra avaliar a precisão da
Índice

As melhorias recentes em como resumimos textos, especialmente com modelos de linguagem grandes, têm mostrado resultados impressionantes. Porém, muitos resumos gerados automaticamente ainda têm problemas de Precisão, incluindo criar fatos ou incluir informações falsas. Isso levanta preocupações, especialmente porque os usuários podem confiar incorretamente nessas saídas.

Para lidar com esses problemas, vários métodos de avaliação da precisão dos resumos foram desenvolvidos. No entanto, muitas dessas novas medidas têm limitações. Elas geralmente são difíceis de entender, focam principalmente em documentos curtos como artigos de notícias e podem ser caras de calcular, especialmente aquelas baseadas em modelos de linguagem grandes.

Em resposta, propomos um novo método de avaliação da precisão de resumos que é mais fácil de entender e mais eficiente. Esse método usa uma técnica chamada Inferência de Linguagem Natural (NLI) para verificar quão bem as informações em um resumo se alinham com fatos específicos extraídos do texto original. Nosso método supera os benchmarks existentes e inclui uma avaliação humana para resumos mais longos.

Estado Atual da Resumir Texto

A Geração de Linguagem Natural (NLG) fez progressos significativos em várias áreas, como tradução automática e perguntas e respostas. A sumarização, no entanto, tem desafios únicos. Mesmo com métricas padrão como ROUGE mostrando alto desempenho, muitos resumos gerados automaticamente ainda contêm erros factuais.

O surgimento de modelos de linguagem grandes não resolveu esse problema. Suas saídas podem ser ainda mais enganosas, levando ao risco de espalhar informações falsas. Há uma necessidade urgente de métricas automáticas eficazes que possam destacar imprecisões factuais em resumos.

Várias métricas de Factualidade promissoras surgiram, mas muitas vezes têm um ou mais problemas: podem dar uma única pontuação para o resumo inteiro sem indicar quais partes são precisas ou falsas, focam principalmente em documentos curtos ou têm altos requisitos computacionais.

Visão Geral da Nossa Abordagem

Nosso método começa com a extração de afirmações de um resumo, depois alinha essas afirmações com trechos do documento original. Por fim, refinamos esses alinhamentos para melhorar a precisão.

Nossa abordagem, chamada Avaliação de Factualidade de Resumos com Base em Inferência de Linguagem Natural e Extração de Afirmações, oferece mais clareza e eficiência. Ela verifica a precisão de um resumo usando NLI para comparar informações do documento fonte com afirmações encontradas no resumo. Nossa métrica estabeleceu um novo recorde no benchmark AggreFact, que avalia a factualidade em resumos. Também estendemos nossa avaliação para resumos mais longos usando anotações humanas.

Processo de Extração de Afirmações

Na etapa de extração de afirmações, identificamos fatos atômicos específicos do resumo. Essas afirmações são então alinhadas com partes relevantes do documento original. Esse alinhamento é refinado usando um método para resolver co-referências, garantindo que diferentes maneiras de se referir às mesmas entidades sejam reconhecidas.

Avaliação de Desempenho

Conduzimos experimentos para testar a eficácia do nosso método. Usamos um grande conjunto de dados de resumos e afirmações para analisar nossos processos de extração e avaliação de afirmações. Nosso método teve um bom desempenho nos conjuntos de teste, mostrando uma precisão promissora em comparação com outras métricas existentes.

Resultados e Discussão

Nossas avaliações indicam que nosso método se destaca em termos de precisão e eficiência. Particularmente, ele se mostra eficaz na avaliação de resumos mais longos, que têm desafios únicos diferentes de textos mais curtos.

Observamos que nossas afirmações frequentemente correspondem a parágrafos dos documentos originais, refletindo a natureza abstrata dos resumos que analisamos. Essa capacidade de adaptar o processo de avaliação com base no nível de granularidade do texto permite que nossa métrica se destaque em formas de resumos curtos e longos.

Conclusão

Apresentamos uma nova métrica para avaliar a factualidade de resumos que combina várias técnicas avançadas, tornando-a altamente interpretável e eficaz. Nossos resultados em benchmarks padrões confirmam que nosso método alcança o melhor desempenho até agora. Além disso, mostramos sua praticidade na avaliação de resumos longos através de um processo de anotação humana.

O trabalho futuro irá buscar melhorar o desempenho do nosso modelo e estender sua aplicação para outras línguas, garantindo uma usabilidade e eficácia mais amplas. Acreditamos que os resultados estruturados da nossa métrica de avaliação fornecerão melhores insights sobre a precisão factual dos resumos de texto, abrindo caminho para novos avanços nessa área.

Fonte original

Título: FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction

Resumo: Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automatically-generated summaries exhibit factual inconsistencies, such as hallucinations. In response to this issue, various approaches for the evaluation of consistency for summarization have emerged. Yet, these newly-introduced metrics face several limitations, including lack of interpretability, focus on short document summaries (e.g., news articles), and computational impracticality, especially for LLM-based metrics. To address these shortcomings, we propose Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction (FENICE), a more interpretable and efficient factuality-oriented metric. FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary. Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation. Moreover, we extend our evaluation to a more challenging setting by conducting a human annotation process of long-form summarization. In the hope of fostering research in summarization factuality evaluation, we release the code of our metric and our factuality annotations of long-form summarization at https://github.com/Babelscape/FENICE.

Autores: Alessandro Scirè, Karim Ghonim, Roberto Navigli

Última atualização: 2024-08-31 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.02270

Fonte PDF: https://arxiv.org/pdf/2403.02270

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes