Melhorando Modelos de Linguagem com Amostragem REAL
Uma nova abordagem aumenta a precisão e a criatividade nas saídas dos modelos de linguagem.
― 6 min ler
Índice
Modelos de linguagem, ou LLMs, são ferramentas usadas pra gerar texto. Eles funcionam prevendo o que vem a seguir com base em um input dado. No entanto, muitos desses modelos têm dificuldade em serem precisos e criativos ao mesmo tempo. Quando eles geram texto, podem produzir informações falsas, além de serem repetitivos ou faltarem variedade. Esses problemas são frequentemente chamados de questões de Factualidade e Diversidade.
Pra lidar com essas preocupações, os pesquisadores estão buscando maneiras melhores de guiar como os LLMs criam respostas. Um método popular chamado amostragem de núcleo, que escolhe entre uma gama de palavras possíveis baseadas na probabilidade, tem sido amplamente utilizado. Porém, há uma troca: aumentar a diversidade das respostas pode levar a mais informações incorretas. Este artigo apresenta um novo método chamado amostragem REAL que visa melhorar tanto a factualidade quanto a diversidade sem sacrificar uma pela outra.
O Desafio da Alucinação
Um grande desafio com os LLMs é um problema conhecido como alucinação. Isso acontece quando o modelo gera informações que são inventadas ou incorretas. Por exemplo, pode afirmar com confiança um fato falso porque percebeu que era provável com base nos dados de treinamento. Isso é especialmente preocupante em tarefas abertas onde se espera que o modelo forneça resultados precisos e informativos.
Pesquisas mostram que os LLMs às vezes podem estar cientes de suas imprecisões, indicando que a forma como geram texto pode contribuir significativamente para a alucinação. Os métodos de amostragem atuais podem não abordar adequadamente esse problema, daí a necessidade de novas estratégias.
Amostragem REAL: Uma Visão Geral
A amostragem REAL é um novo método projetado pra lidar com os problemas duplos da alucinação enquanto melhora a diversidade. A base desse método é um modelo que prevê quando o modelo de linguagem pode gerar informações falsas. Fazendo isso, a amostragem REAL pode ajustar seu processo de seleção. Se há uma alta chance de erro, pode focar em palavras mais confiáveis. Por outro lado, quando as chances de cometer um erro são baixas, pode ampliar a seleção pra incluir opções mais diversas.
O método também se baseia em modelos menores que podem prever com precisão a probabilidade de alucinação. Mesmo que esses modelos menores não possuam todos os dados dos seus colegas maiores, eles ainda podem fornecer insights úteis pra ajustar o processo de amostragem.
Como Funciona a Amostragem REAL
No seu núcleo, a amostragem REAL modifica o processo de amostragem tradicional ao incorporar uma técnica pra estimar a Incerteza das previsões de palavras. Isso é feito examinando como as previsões do modelo mudam com o aumento do tamanho. Modelos maiores geralmente produzem previsões mais confiáveis, então ao observar como suas saídas diferem, podemos ter uma noção da incerteza inerente às escolhas de palavras seguintes.
O processo de amostragem envolve:
Previsão de Incerteza: Ao analisar as saídas de modelos de tamanhos variados, a amostragem REAL estima um valor de limiar pra o próximo token com base na incerteza observada.
Ajuste da Seleção: Com essa incerteza em mãos, a amostragem REAL pode ajustar a probabilidade de escolher uma palavra específica. Se a incerteza é alta, menos palavras são escolhidas. Se for baixa, mais opções ficam disponíveis, promovendo diversidade.
Otimização: O método otimiza continuamente comparando a precisão factual do conteúdo gerado com dados confiáveis conhecidos, como artigos da Wikipedia.
Avaliação de Desempenho
Pra avaliar a eficácia da amostragem REAL, vários benchmarks e comparações com métodos existentes foram realizados. Um benchmark notável foi o FactualityPrompts, que fornece uma forma estruturada de avaliar a precisão de sentenças geradas comparando-as a declarações factuais.
Os resultados indicaram que as sentenças geradas usando a amostragem REAL continham significativamente menos imprecisões e eram mais diversas em comparação com as geradas por métodos tradicionais como amostragem gananciosa e de núcleo. Essas melhorias em factualidade e diversidade foram consistentes entre diferentes modelos.
Avaliação Humana
Além das avaliações automatizadas, também foram feitas avaliações humanas pra medir a qualidade percebida das saídas. Os participantes foram convidados a avaliar vários aspectos como factualidade, fluência e qualidade geral do texto gerado por diferentes métodos.
O feedback revelou uma preferência notável pela amostragem REAL em relação aos métodos tradicionais. Os participantes relataram que o texto gerado não só era mais preciso, mas também mais interessante e mais fácil de ler.
Implicações para Aplicações Futuras
Os avanços feitos com a amostragem REAL podem ter implicações significativas em várias áreas que dependem da geração de linguagem. Por exemplo:
Chatbots e Assistentes Virtuais: À medida que essas ferramentas se tornam mais integradas na vida diária, garantir que forneçam respostas precisas e diversas é crítico. A amostragem REAL pode aumentar sua confiabilidade.
Criação de Conteúdo: Escritores e profissionais de marketing podem se beneficiar de ferramentas que geram ideias ou conteúdo com um grau maior de precisão e variedade, potencialmente revolucionando como o conteúdo é produzido.
Educação: Modelos de linguagem que apresentam informações de forma precisa podem servir como valiosas ferramentas educacionais, fornecendo aos alunos dados confiáveis para seus estudos.
Conclusão
A amostragem REAL apresenta uma abordagem promissora pra superar desafios de longa data no desempenho de modelos de linguagem. Ao abordar tanto a factualidade quanto a diversidade, este método demonstra que é possível melhorar as capacidades de contar histórias dos LLMs. À medida que a pesquisa continua e a amostragem REAL é refinada, suas possíveis aplicações em vários domínios podem reformular a forma como vemos e interagimos com a tecnologia de linguagem.
Com a fundação estabelecida pela amostragem REAL, é claro que avanços significativos podem ser feitos no campo da geração de linguagem, garantindo que esses modelos cada vez mais poderosos sirvam como fontes precisas e confiáveis de informação e criatividade.
O futuro dos LLMs parece promissor, com metodologias inovadoras como a amostragem REAL abrindo caminho para aplicações mais eficazes e confiáveis em diversos setores. A exploração contínua nesse campo sem dúvida resultará em ferramentas e estratégias ainda mais sofisticadas que aprimorem nossa interação com os modelos de linguagem, tornando-os mais benéficos para a sociedade como um todo.
Título: REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy
Resumo: Decoding methods for large language models (LLMs) usually struggle with the tradeoff between ensuring factuality and maintaining diversity. For example, a higher p threshold in the nucleus (top-p) sampling increases the diversity but decreases the factuality, and vice versa. In this paper, we propose REAL (Residual Entropy from Asymptotic Line) sampling, a decoding method that achieves improved factuality and diversity over nucleus sampling by predicting an adaptive threshold of $p$. Specifically, REAL sampling predicts the step-wise likelihood of an LLM to hallucinate, and lowers the p threshold when an LLM is likely to hallucinate. Otherwise, REAL sampling increases the p threshold to boost the diversity. To predict the step-wise hallucination likelihood without supervision, we construct a Token-level Hallucination Forecasting (THF) model to predict the asymptotic entropy (i.e., inherent uncertainty) of the next token by extrapolating the next-token entropies from a series of LLMs with different sizes. If a LLM's entropy is higher than the asymptotic entropy (i.e., the LLM is more uncertain than it should be), the THF model predicts a high hallucination hazard, which leads to a lower p threshold in REAL sampling. In the FactualityPrompts benchmark, we demonstrate that REAL sampling based on a 70M THF model can substantially improve the factuality and diversity of 7B LLMs simultaneously, judged by both retrieval-based metrics and human evaluation. After combined with contrastive decoding, REAL sampling outperforms 9 sampling methods, and generates texts that are more factual than the greedy sampling and more diverse than the nucleus sampling with $p=0.5$. Furthermore, the predicted asymptotic entropy is also a useful unsupervised signal for hallucination detection tasks.
Autores: Haw-Shiuan Chang, Nanyun Peng, Mohit Bansal, Anil Ramakrishna, Tagyoung Chung
Última atualização: 2024-06-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.07735
Fonte PDF: https://arxiv.org/pdf/2406.07735
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://medialab.di.unipi.it/wiki/
- https://github.com/jcpeterson/openwebtext
- https://github.com/AI21Labs/factor
- https://github.com/balevinstein/Probes/
- https://github.com/microsoft/HaDes
- https://github.com/nayeon7lee/FactualityPrompt
- https://platform.openai.com/playground?mode=chat
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines