Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Avaliação de Modelos de Linguagem: A Abordagem GraphEval

Um novo método pra avaliar a precisão nas saídas de modelos de linguagem.

― 4 min ler


GraphEval: Um Novo MétodoGraphEval: Um Novo Métodode Avaliaçãoresultados de modelos de linguagem.Abordagem inovadora pra avaliar os
Índice

Modelos de Linguagem Grande (LLMs) têm chamado muita atenção por causa da variedade de aplicações. Mas um problema sério que eles enfrentam é a "alucinação", que é quando eles geram respostas que parecem boas, mas não são verdadeiras. Este artigo fala sobre uma nova maneira de checar essas respostas quanto à precisão usando um sistema chamado GraphEval.

A Necessidade de Avaliação

Com os LLMs ficando cada vez mais complexos, encontrar jeitos de avaliar o que eles produzem tá se tornando essencial. Os métodos atuais para checar se os LLMs estão dando informações corretas muitas vezes falham. Eles podem não explicar bem suas decisões, podem perder partes da resposta e podem ser lentos e caros. O GraphEval oferece uma solução usando Grafos de Conhecimento (KGs) para representar informações de uma maneira estruturada, permitindo uma detecção melhor de imprecisões.

O que é o GraphEval?

O GraphEval foi criado pra dar uma visão de onde as Alucinações acontecem nas saídas dos LLMs. Mapeando a saída pra um KG, ele consegue apontar partes específicas da informação que estão erradas. Isso é diferente dos métodos anteriores que só davam uma ideia geral se a resposta estava certa ou não. Com o GraphEval, o processo é dividido pra mostrar exatamente quais partes são questionáveis.

Combinando GraphEval com Modelos de NLI

Usando o GraphEval junto com modelos de inferência de linguagem natural (NLI), vemos melhorias na detecção de imprecisões. Esse método não só checa a resposta como um todo, mas também foca em partes individuais da informação, levando a uma precisão maior em testes feitos pra medir alucinações.

Corrigindo Alucinações com o GraphCorrect

Além de detectar imprecisões, o GraphEval também ajuda a corrigi-las através de um método chamado GraphCorrect. Identificando quais partes da resposta provavelmente estão erradas, ele sugere correções apropriadas mantendo o restante da resposta intacto.

Desafios na Avaliação

Avaliar linguagens é complicado. Métodos anteriores como BLEU e ROUGE focavam em similaridade geral e tinham dificuldades em checar precisão factual. Métodos mais novos começaram a focar em entender a relação entre as declarações, mas muitos ainda perdem detalhes críticos. Com o aumento dos LLMs, agora há mais interesse em usar esses próprios modelos pra avaliar suas saídas.

O Processo de Construção de Grafos de Conhecimento

Criar KGs envolve várias etapas:

  1. Detecção de Entidades: Encontrar e listar as entidades principais no texto.
  2. Resolução de Coreferência: Identificar quando termos diferentes se referem à mesma entidade.
  3. Extração de Relações: Determinar como essas entidades estão relacionadas.

O GraphEval utiliza uma abordagem simples ao combinar esses processos pra construir um KG que pode ser usado para avaliação.

Processo de Detecção de Alucinações

Usar o GraphEval pra detecção de alucinações envolve esses passos:

  • Criação de KG: A resposta do LLM é inserida pra criar um KG.
  • Avaliação: Cada parte da informação no KG é checada contra o contexto pra identificar imprecisões.

Essa checagem sistemática ajuda a apontar onde as alucinações estão ocorrendo.

Avaliação Experimental

Nos nossos experimentos, usamos vários benchmarks pra testar o desempenho do GraphEval. Esses incluíram SummEval, QAGS-C e QAGS-X, que focam em tarefas de resumo e checagem de precisão factual. Os resultados mostraram que o GraphEval melhorou as taxas de detecção e forneceu relatórios detalhados sobre imprecisões.

Processo de Correção de Alucinações

O GraphCorrect funciona primeiro identificando quais triples provavelmente contêm alucinações e depois os corrige com base no contexto fornecido. Esse método garante que apenas as partes provavelmente erradas sejam modificadas, o que ajuda a manter a mensagem geral clara.

Conclusão

O GraphEval oferece uma nova maneira de avaliar e corrigir as respostas dos LLMs. Usando KGs pra uma representação estruturada da informação, ele destaca imprecisões de forma eficaz e ajuda a fazer as correções necessárias. A estrutura é valiosa pra pesquisas e desenvolvimentos futuros no campo da avaliação de LLMs. À medida que as técnicas pra construir KGs melhoram, o desempenho do GraphEval também vai aumentar, aprimorando nossa capacidade de trabalhar com LLMs de maneira segura e eficaz.

Fonte original

Título: GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

Resumo: Methods to evaluate Large Language Model (LLM) responses and detect inconsistencies, also known as hallucinations, with respect to the provided knowledge, are becoming increasingly important for LLM applications. Current metrics fall short in their ability to provide explainable decisions, systematically check all pieces of information in the response, and are often too computationally expensive to be used in practice. We present GraphEval: a hallucination evaluation framework based on representing information in Knowledge Graph (KG) structures. Our method identifies the specific triples in the KG that are prone to hallucinations and hence provides more insight into where in the response a hallucination has occurred, if at all, than previous methods. Furthermore, using our approach in conjunction with state-of-the-art natural language inference (NLI) models leads to an improvement in balanced accuracy on various hallucination benchmarks, compared to using the raw NLI models. Lastly, we explore the use of GraphEval for hallucination correction by leveraging the structure of the KG, a method we name GraphCorrect, and demonstrate that the majority of hallucinations can indeed be rectified.

Autores: Hannah Sansford, Nicholas Richardson, Hermina Petric Maretic, Juba Nait Saada

Última atualização: 2024-07-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.10793

Fonte PDF: https://arxiv.org/pdf/2407.10793

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes