Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Melhorando a Resumação com Citações no AQFS

Um novo conjunto de dados melhora a precisão da sumarização garantindo citações corretas.

― 5 min ler


Citando Fontes em ModelosCitando Fontes em Modelosde Resumoresumo.precisão das citações em tarefas deNovo conjunto de dados melhora a
Índice

No mundo acelerado de hoje, a galera tá sempre procurando acesso rápido à informação. Quando vão pesquisar online, os usuários geralmente precisam juntar dados de várias fontes, o que pode ser bem demorado e complicado. A Resumificação Focada em Consulta Atribuída (AQFS) é uma tarefa que tem como objetivo ajudar os usuários resumindo informações de vários documentos e fornecendo as citações certas para as afirmações feitas nos resumos. Assim, os usuários conseguem verificar as fontes facilmente e acessar informações confiáveis.

A Necessidade de Citações em Resumos

Quando grandes modelos de linguagem (LLMs) geram resumos, é importante que eles citem as fontes das informações que apresentam. As citações acrescentam credibilidade e permitem que os usuários confiram a veracidade da informação. Porém, a maioria dos métodos de resumificação existentes não atende de forma adequada à necessidade de citação correta. Muitos modelos ou não fornecem citações ou fazem isso de maneira inconsistente, levando a confusões e desinformações.

Introdução ao Conjunto de Dados WebCiteS

Para enfrentar esses desafios, foi criado um novo conjunto de dados chamado WebCiteS. Esse conjunto contém 7.000 resumos anotados por humanos em chinês, completos com citações. Ele é baseado em consultas de usuários reais e resultados de busca de um popular motor de busca chinês, Sogou. O objetivo do WebCiteS é fornecer um recurso confiável para treinar e avaliar modelos focados em AQFS.

Desafios na Avaliação da Atribuição

Avaliar como os modelos atribuem informações é complicado. Muitos trabalhos existentes não fazem distinção entre erros de fundamentação (se a informação é precisa) e erros de citação (se o modelo cita as fontes corretamente). Essa falta de clareza dificulta a melhoria dos modelos. A nova abordagem adotada no conjunto de dados WebCiteS envolve o uso de métricas detalhadas que permitem uma avaliação mais sutil.

Metodologia do WebCiteS

O conjunto de dados WebCiteS é construído através de um processo em três etapas:

  1. Triagem Manual e Extração de Informações: Anotadores humanos leem consultas e documentos para extrair informações úteis que podem ser incluídas nos resumos.

  2. Geração de Resumos Candidatos Baseada em LLM: As informações extraídas são usadas para criar resumos candidatos usando modelos de linguagem como o ChatGPT. Esta etapa se concentra em evitar dados irrelevantes, gerando resumos apenas com informações valiosas.

  3. Refinamento Manual e Anotação de Citação: Anotadores revisam os resumos candidatos, escolhem as versões preferidas, refinam a qualidade e anotam informações de citação para garantir precisão.

Framework de Avaliação

Para avaliar o desempenho dos modelos que utilizam o conjunto de dados WebCiteS, foi estabelecido um framework de avaliação abrangente. Esse framework foca em duas dimensões importantes: utilidade da resumificação e atribuição.

Métricas de Utilidade da Resumificação

  1. Comprimento: O comprimento médio do resumo é reportado.

  2. Self-BLEU: Essa métrica mede a diversidade do texto gerado, ajudando a avaliar a coerência em respostas mais longas.

  3. Precisão e Recall das Afirmativas: Essas métricas avaliam quão precisamente o sistema captura informações relevantes dos resumos de referência.

Métricas de Avaliação de Atribuição

  1. Fundamentação: Isso verifica se as afirmações do resumo estão respaldadas pelos documentos de entrada.

  2. Qualidade da Citação: Avalia quão precisa e abrangente as citações apoiam as afirmações no resumo. Isso inclui a avaliação da precisão e recall das citações.

Resultados das Avaliações do WebCiteS

A avaliação dos modelos no conjunto de dados WebCiteS revela várias percepções:

  1. Erros de Citação Existem em Todos os Modelos: Mesmo quando um modelo gera informações precisas com base no contexto, erros de citação são comuns.

  2. Ajuste Fino Melhora o Desempenho: Modelos que passam por ajuste fino supervisionado mostram melhorias tanto na fundamentação quanto na qualidade da citação.

  3. Contextos Longos Desafiam os Modelos: Quando os modelos resumem documentos mais longos, eles se saem pior, indicando dificuldades em sintetizar e citar informações corretamente.

  4. Granularidade dos Documentos Importa: Dividir documentos em partes menores e mais focadas pode levar a um desempenho de atribuição pior, já que os modelos têm dificuldade em identificar as evidências de apoio necessárias.

Conclusão

O conjunto de dados WebCiteS e seu framework de avaliação associado fornecem um recurso valioso para melhorar como os modelos lidam com a atribuição em tarefas de resumificação. À medida que a demanda por informações confiáveis continua a crescer, aprimorar a capacidade dos modelos de gerar resumos precisos com citações corretas é crucial. Este trabalho destaca os desafios contínuos na área e estabelece uma base para futuras pesquisas voltadas a refinar os processos de AQFS e aumentar a confiança no conteúdo gerado.

Com esforços contínuos nessa área, o objetivo final é criar ferramentas que permitam aos usuários acessar informações precisas e confiáveis rapidamente, reduzindo a carga de verificação manual de dados. O futuro da recuperação e processamento de informações está em técnicas de resumificação eficazes que priorizam tanto a clareza quanto a credibilidade.

Fonte original

Título: WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations

Resumo: Enhancing the attribution in large language models (LLMs) is a crucial task. One feasible approach is to enable LLMs to cite external sources that support their generations. However, existing datasets and evaluation methods in this domain still exhibit notable limitations. In this work, we formulate the task of attributed query-focused summarization (AQFS) and present WebCiteS, a Chinese dataset featuring 7k human-annotated summaries with citations. WebCiteS derives from real-world user queries and web search results, offering a valuable resource for model training and evaluation. Prior works in attribution evaluation do not differentiate between groundedness errors and citation errors. They also fall short in automatically verifying sentences that draw partial support from multiple sources. We tackle these issues by developing detailed metrics and enabling the automatic evaluator to decompose the sentences into sub-claims for fine-grained verification. Our comprehensive evaluation of both open-source and proprietary models on WebCiteS highlights the challenge LLMs face in correctly citing sources, underscoring the necessity for further improvement. The dataset and code will be open-sourced to facilitate further research in this crucial field.

Autores: Haolin Deng, Chang Wang, Xin Li, Dezhang Yuan, Junlang Zhan, Tianhua Zhou, Jin Ma, Jun Gao, Ruifeng Xu

Última atualização: 2024-05-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.01774

Fonte PDF: https://arxiv.org/pdf/2403.01774

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes