Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Desafios dos Modelos de Linguagem com Aumento de Recuperação

Um estudo revela limitações em modelos de linguagem com recuperação aumentada para geração de texto.

― 5 min ler


Modelos de Recuperação:Modelos de Recuperação:Uma Oportunidade Perdidageração de texto.recuperação aumentada não melhoram aEstudo mostra que modelos com
Índice

Nos últimos anos, teve muito interesse em usar modelos de linguagem especiais que combinam a previsão de palavras padrão com fontes de informação externas. Esses modelos são chamados de modelos de linguagem aumentados por Recuperação. Eles funcionam prevendo a próxima palavra com base no que o modelo aprendeu no treinamento e em informações puxadas de um banco de dados de texto. Um método comum para melhorar essas previsões é conhecido como interpolação, que mistura as previsões do modelo com as que foram recuperadas do banco de dados.

Apesar da promessa desses modelos e das maneiras como eles podem reduzir a confusão nas previsões, estudos recentes mostraram que eles não melhoram significativamente a geração de texto aberto. Geração aberta refere-se a criar texto que não apenas preenche lacunas, mas gera uma continuação coerente e significativa com base em uma frase inicial. Essa tarefa é mais complexa do que simplesmente preencher a próxima palavra e requer uma forte compreensão de contexto e coerência em sequências mais longas de texto.

O Que Fizemos

A gente investigou o desempenho de dois modelos de linguagem aumentados por recuperação baseados em interpolação, comparando-os com modelos tradicionais que não acessam bancos de dados externos. O foco foi entender por que, apesar de terem scores de confusão mais baixos (conhecidos como Perplexidade), esses novos modelos não se saíram melhor na geração de texto significativo.

Nossa pesquisa envolveu criar um conjunto de prompts a partir de um conjunto de dados de texto bem conhecido e fazer os modelos gerar continuações. Depois, avaliamos essas saídas usando tanto ferramentas automáticas quanto revisores humanos para ver qual texto era de melhor Qualidade.

Resultados

Sem Melhora na Qualidade

A principal descoberta da nossa pesquisa é que, embora os novos modelos diminuam a pontuação de perplexidade, eles não trazem uma melhora significativa na qualidade do texto que geram. Ferramentas automáticas usadas para medir a qualidade da geração de texto mostraram que esses modelos não superaram os modelos tradicionais de referência. Na verdade, às vezes os modelos tradicionais geraram textos de melhor qualidade.

As avaliações humanas também apoiaram essa conclusão. Quando os revisores compararam o texto gerado pelos novos modelos com o dos modelos tradicionais, foi difícil escolher um vencedor claro. Na maioria das vezes, eles preferiram o texto gerado pelos modelos tradicionais.

Por Que Não Funcionaram?

A gente aprofundou nas razões para essa falta de melhoria. Dois problemas principais surgiram:

  1. Benefícios Limitados nas Previsões de Tokens: Mesmo que os novos modelos reduzissem a perplexidade geral, eles só melhoraram as previsões para um número pequeno de tokens. Na verdade, a maioria dos tokens foi prevista de forma menos eficaz com os novos modelos. As melhorias na perplexidade vieram de apenas algumas palavras sendo previstas de forma mais precisa. Ao construir sequências mais longas, esse pequeno benefício foi ofuscado por previsões piores para a maioria dos tokens.

  2. Deterioração da Qualidade da Recuperação: À medida que o texto é gerado sequencialmente, a qualidade da informação recuperada do banco de dados diminuiu. Isso aconteceu porque o modelo teve que confiar no texto gerado por ele mesmo como consultas para informações adicionais. Quando o texto gerado continha erros ou não era coerente, as informações recuperadas também se tornaram menos confiáveis. O modelo basicamente se tornou menos confiante e menos preciso à medida que gerava mais texto.

Avaliações e Métodos

Para avaliar esses modelos, usamos várias abordagens:

  • Métricas de Avaliação Automática: Métricas como MAUVE, que mede quão próximo o texto gerado está das distribuições de texto de referência, e a perplexidade de modelos de linguagem poderosos, ajudaram a analisar a qualidade do texto gerado.

  • Avaliação Humana: Contamos com avaliadores experientes que revisaram textos gerados de ambos os tipos de modelos. Eles avaliaram coisas como gramática, fluência e consistência lógica, dando feedback direto sobre quais textos pareciam mais coerentes e bem formados.

Resultados das Avaliações

Através das avaliações automáticas, ficou claro que usar os novos modelos muitas vezes não resultava em saídas melhores. As diferentes métricas que aplicamos indicaram que os modelos tradicionais mantinham uma qualidade superior.

Nas avaliações humanas, a preferência foi mais para os modelos tradicionais em vez dos novos. Os revisores indicaram que acharam o texto dos modelos tradicionais mais coerente e mais fácil de seguir, enquanto os textos dos modelos mais novos muitas vezes pareciam desconexos ou repetitivos.

Conclusão

Nosso estudo destaca falhas críticas na abordagem atual de integrar recuperação em modelos de linguagem para geração de texto. O problema subjacente parece ser que, enquanto os novos modelos conseguem uma perplexidade mais baixa, isso não se traduz em uma qualidade melhor na geração de texto. Os métodos de recuperação podem oferecer algumas vantagens em certos contextos, mas também podem introduzir complicações que prejudicam a qualidade geral da saída.

Acreditamos que nossas descobertas podem levar a avanços significativos em como os modelos de linguagem são projetados. O trabalho futuro poderia se concentrar em refinar como a recuperação é incorporada ao processo de geração, garantindo que isso melhore e não atrapalhe a fluência e coerência do texto gerado. Ao abordar essas questões, podemos trabalhar para criar modelos que realmente aproveitem tanto o poder preditivo quanto a informação externa para produzir textos de qualidade superior de forma eficiente.

Mais pesquisas são necessárias para explorar os fatores que afetam esses modelos e encontrar maneiras de aproveitar suas forças enquanto lidamos com as fraquezas que nossa análise revelou.

Fonte original

Título: KNN-LM Does Not Improve Open-ended Text Generation

Resumo: In this paper, we study the generation quality of interpolation-based retrieval-augmented language models (LMs). These methods, best exemplified by the KNN-LM, interpolate the LM's predicted distribution of the next word with a distribution formed from the most relevant retrievals for a given prefix. While the KNN-LM and related methods yield impressive decreases in perplexity, we discover that they do not exhibit corresponding improvements in open-ended generation quality, as measured by both automatic evaluation metrics (e.g., MAUVE) and human evaluations. Digging deeper, we find that interpolating with a retrieval distribution actually increases perplexity compared to a baseline Transformer LM for the majority of tokens in the WikiText-103 test set, even though the overall perplexity is lower due to a smaller number of tokens for which perplexity dramatically decreases after interpolation. However, when decoding a long sequence at inference time, significant improvements on this smaller subset of tokens are washed out by slightly worse predictions on most tokens. Furthermore, we discover that the entropy of the retrieval distribution increases faster than that of the base LM as the generated sequence becomes longer, which indicates that retrieval is less reliable when using model-generated text as queries (i.e., is subject to exposure bias). We hope that our analysis spurs future work on improved decoding algorithms and interpolation strategies for retrieval-augmented language models.

Autores: Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun Manjunatha, Mohit Iyyer

Última atualização: 2023-05-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14625

Fonte PDF: https://arxiv.org/pdf/2305.14625

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes