Abordando Alucinações em Modelos de Linguagem
Um novo método pra detectar e classificar erros nas saídas de modelos de linguagem.
― 7 min ler
Índice
- A Necessidade de Detecção Detalhada
- Uma Taxonomia de Alucinações
- Criando um Padrão para Detecção de Alucinações em Detalhes
- Desenvolvendo um Novo Modelo para Detecção e Edição
- Avaliando o Desempenho do Nosso Modelo
- Desafios na Avaliação Automática
- Explorando Diferentes Técnicas de Recuperação
- Conclusão e Direções Futuras
- Fonte original
- Ligações de referência
Modelos de linguagem grandes (LMs) são programas de computador avançados que conseguem gerar texto parecido com o humano. Mas, muitas vezes, eles criam afirmações que não são verdadeiras ou precisas; isso é o que chamamos de Alucinações. Esses resultados errados podem ser um problema quando usamos LMs em aplicações da vida real onde a precisão é importante.
Os métodos atuais para detectar ou corrigir essas alucinações costumam focar em categorias amplas, o que quer dizer que eles podem deixar passar Erros mais sutis. Uma abordagem mais detalhada pode ajudar a entender os diferentes tipos de erros que esses modelos cometem e melhorar sua confiabilidade.
Neste trabalho, apresentamos uma nova abordagem para detectar automaticamente esses erros sutis, que chamamos de Detecção de alucinações em detalhes. Também criamos um sistema de classificação detalhado que divide as alucinações em seis tipos específicos. Isso ajuda a esclarecer que tipos de erros os LMs estão cometendo e como podemos resolver isso.
A Necessidade de Detecção Detalhada
À medida que os LMs vão se tornando mais populares, a necessidade de maneiras eficazes de identificar e corrigir erros aumenta. O termo "alucinação" refere-se a afirmações produzidas por LMs que são factualmente incorretas ou não verificáveis. Essas imprecisões podem dificultar a implementação dos LMs em várias aplicações, já que os usuários confiam que a informação esteja correta.
Estudos anteriores sobre LMs costumavam focar em checar se o texto gerado está alinhado com uma fonte específica de referência. No entanto, muitos LMs também produzem informações baseadas em conhecimento geral, em vez de alguma fonte específica. Isso pode levar a imprecisões que não são facilmente detectáveis.
Diante dessa situação, propomos um método mais detalhado para identificar erros, que inclui distinguir entre diferentes tipos de imprecisões. Isso é importante não só para a melhoria do modelo, mas também para processos de verificação humana.
Uma Taxonomia de Alucinações
Introduzimos um novo sistema de classificação para alucinações que ajuda a categorizar os diferentes tipos de erros factuais que podem surgir nas saídas dos LMs. Esse sistema é fundamentado na teoria linguística e é baseado na análise de especialistas do texto gerado. Essa taxonomia consiste em seis tipos distintos de alucinações:
Erros de Entidade Contraditória: Casos em que uma entidade específica mencionada em uma afirmação está errada. Por exemplo, se o modelo diz que uma pessoa nasceu na cidade errada.
Erros de Relação Contraditória: Esses erros envolvem as relações entre palavras. Por exemplo, se um modelo afirma que um país é a capital de outro quando na verdade não é.
Erros de Afirmação Contraditória: Nesta categoria, uma afirmação inteira contradiz fatos bem estabelecidos. Por exemplo, dizer que um evento histórico bem conhecido não aconteceu quando na verdade aconteceu.
Erros Inventados: Esse tipo refere-se a afirmações sobre conceitos ou entidades que não existem. Um exemplo seria um personagem fictício apresentado como uma figura histórica.
Erros Subjetivos: Essas são afirmações que refletem opiniões ou crenças pessoais em vez de informações factuais. Elas não podem ser julgadas como verdadeiras ou falsas de forma definitiva.
Erros Não Verificáveis: Incluem afirmações que contêm fatos, mas que não podem ser confirmados com evidências disponíveis. Por exemplo, reivindicações sobre experiências pessoais que não têm documentação pública.
Essa classificação detalhada permite que pesquisadores e desenvolvedores foquem em problemas específicos de forma mais eficaz.
Criando um Padrão para Detecção de Alucinações em Detalhes
Para avaliar nosso método de detecção de alucinações em detalhes, desenvolvemos um novo conjunto de dados que inclui julgamentos humanos sobre a precisão factual das saídas dos LMs. Esse padrão consiste em cerca de 400 respostas de LMs populares, como ChatGPT e Llama2-Chat, cobrindo várias áreas.
Nossa análise revelou que tanto o ChatGPT quanto o Llama2-Chat produzem alucinações em cerca de 60% e 75% de suas saídas, respectivamente. Além disso, a maioria dessas imprecisões se enquadra em categorias que não foram estudadas a fundo. Essa descoberta ressalta a importância de um sistema que pode identificar e categorizar esses erros com precisão.
Desenvolvendo um Novo Modelo para Detecção e Edição
Em resposta à necessidade de uma detecção melhor, desenvolvemos um modelo que consegue detectar e corrigir alucinações em detalhes. Esse modelo usa uma abordagem aumentada por recuperação, o que significa que ele pode acessar e utilizar informações relevantes de fontes externas ao gerar suas saídas.
Nosso modelo é treinado em dados sintéticos projetados para destacar vários tipos de erros. Esse processo de geração de dados envolveu criar exemplos com erros específicos e, em seguida, ensinar o modelo como identificar e corrigir essas imprecisões.
Descobrimos que o nosso modelo supera significativamente o ChatGPT quando se trata de detectar alucinações em detalhes. Ele também é eficaz em sugerir edições que melhoram a correção factual do texto gerado, resultando em melhorias mensuráveis na precisão.
Avaliando o Desempenho do Nosso Modelo
Para medir a eficácia da nossa abordagem, realizamos avaliações automáticas e humanas. Essas avaliações incluíram verificar o quão bem o modelo identificou diferentes tipos de alucinações e quão eficaz ele foi em sugerir correções.
Nossos resultados mostraram que o novo modelo teve um desempenho melhor na detecção de alucinações do que sistemas existentes. Ele conseguiu identificar mais imprecisões e fornecer edições apropriadas, levando a melhorias na factualidade geral.
Em particular, nosso modelo obteve melhores resultados em comparação ao ChatGPT e outros modelos de referência. Embora ainda haja espaço para aprimoramento, nossas descobertas demonstram um progresso significativo no campo da detecção de erros em detalhes.
Desafios na Avaliação Automática
Embora nossas avaliações automáticas ofereçam insights valiosos, elas podem não capturar totalmente todos os aspectos do desempenho do modelo. Avaliações humanas ajudam a abordar essa limitação ao fornecer uma compreensão mais detalhada de quão bem o modelo se sai em cenários do mundo real.
Os avaliadores checaram uma amostra aleatória de saídas do nosso modelo e do melhor modelo de referência. Eles avaliaram quantos dos erros detectados e das edições sugeridas estavam corretas. Esse processo adiciona uma camada de escrutínio que complementa as métricas automáticas.
Explorando Diferentes Técnicas de Recuperação
Além de melhorar a detecção, também investigamos vários métodos para recuperar informações adicionais para apoiar o processo de edição. Usar as técnicas de recuperação certas pode melhorar a qualidade das edições feitas no texto gerado.
Experimentamos recuperar os principais documentos com base em consultas específicas e misturamos diferentes fontes de dados para ver como isso afetava o desempenho. Nossa análise revelou que otimizar o processo de recuperação levou a melhorias nas tarefas de edição.
Conclusão e Direções Futuras
Este trabalho apresenta uma nova maneira de detectar e corrigir alucinações produzidas por modelos de linguagem. Ao desenvolver uma taxonomia em detalhes e criar um conjunto de dados padrão, fornecemos ferramentas para entender melhor e melhorar as saídas dos modelos de linguagem.
Nosso modelo mostra resultados promissores na identificação e correção de erros, mas ainda há trabalho a ser feito. Pesquisas futuras podem buscar refinar ainda mais o processo de detecção e explorar métodos adicionais para melhorar a precisão dos LMs.
À medida que os modelos de linguagem continuam a evoluir, priorizar a detecção de imprecisões factuais será crucial. Isso garante que essas ferramentas poderosas possam ser implementadas de forma eficaz em várias aplicações onde a precisão é essencial.
Título: Fine-grained Hallucination Detection and Editing for Language Models
Resumo: Large language models (LMs) are prone to generate factual errors, which are often called hallucinations. In this paper, we introduce a comprehensive taxonomy of hallucinations and argue that hallucinations manifest in diverse forms, each requiring varying degrees of careful assessments to verify factuality. We propose a novel task of automatic fine-grained hallucination detection and construct a new evaluation benchmark, FavaBench, that includes about one thousand fine-grained human judgments on three LM outputs across various domains. Our analysis reveals that ChatGPT and Llama2-Chat (70B, 7B) exhibit diverse types of hallucinations in the majority of their outputs in information-seeking scenarios. We train FAVA, a retrieval-augmented LM by carefully creating synthetic data to detect and correct fine-grained hallucinations. On our benchmark, our automatic and human evaluations show that FAVA significantly outperforms ChatGPT and GPT-4 on fine-grained hallucination detection, and edits suggested by FAVA improve the factuality of LM-generated text.
Autores: Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, Hannaneh Hajishirzi
Última atualização: 2024-08-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2401.06855
Fonte PDF: https://arxiv.org/pdf/2401.06855
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.