Modelos de Linguagem Recorentes: Melhorando a Memória e a Recordação
Analisando como a ordem dos dados afeta a memória em modelos de linguagem recorrentes.
― 6 min ler
Índice
Os avanços recentes em modelos de linguagem recorrentes estão levando esses modelos a um ponto onde podem competir com os modelos transformers, especialmente em tarefas de linguagem. Esses modelos mais novos, como Mamba e RWKV, são mais eficientes no uso de memória durante a inferência. No entanto, eles têm dificuldade em relembrar todas as informações quando recebem textos longos, o que torna o aprendizado a partir do contexto menos confiável. Um fator importante nesse problema é como esses modelos decidem o que lembrar ou esquecer.
Nesta discussão, vamos analisar como a sequência em que as informações são apresentadas a esses modelos afeta a capacidade deles de selecionar dados relevantes para armazenamento. Este estudo formaliza a ideia de que a dificuldade em relembrar informações é similar a um problema conhecido em ciência da computação chamado de disjunção de conjuntos. Vamos explorar maneiras de melhorar como esses modelos lidam com informações, visando tornar o aprendizado a partir do contexto mais confiável e eficiente.
Entendendo o Desafio
Os modelos de linguagem recorrentes têm uma memória mais limitada em comparação com os transformers, o que os coloca em desvantagem ao lidar com textos extensos. Esses modelos podem processar informações de entrada, mas muitas vezes esquecem detalhes importantes, o que leva a um desempenho pior em tarefas que exigem aprendizado em contexto. O desafio está em escolher efetivamente quais pedaços de informação lembrar de sequências de entrada longas.
O Papel da Ordem dos Dados
A ordem em que os dados são alimentados nos modelos recorrentes tem um impacto significativo em quão bem eles se saem em tarefas que exigem o relembrar de informações. Vamos apresentar descobertas que mostram como mudar a ordem dos dados pode aliviar ou agravar problemas de memória.
Quando os modelos recebem informações, a capacidade deles de relembrá-las pode ser influenciada pela forma como essas informações são estruturadas. Apresentar perguntas antes de documentos relevantes pode facilitar para os modelos lembrarem detalhes necessários.
Formalizando a Dificuldade de Recordar
Para analisar como a ordem dos dados afeta o relembrar, comparamos o problema de recordação em modelos recorrentes ao problema de disjunção de conjuntos, que verifica se dois conjuntos de itens compartilham algum elemento comum. O problema de disjunção de conjuntos é bem estudado em ciência da computação, especialmente em relação à eficiência da comunicação. No nosso contexto, usar os princípios por trás desse problema nos ajuda a entender os desafios de memória enfrentados pelos modelos.
Apresentamos evidências teóricas e empíricas que mostram que a memória necessária por esses modelos para resolver o problema de disjunção muda conforme a apresentação dos dados. Isso significa que, se o conjunto menor de elementos aparece primeiro, a tarefa de modelagem se torna mais simples.
Estratégias para Melhoria
Para abordar as limitações em memória e recordação, propomos duas estratégias principais:
Estratégia de Leia-Duas-Vezes: A primeira abordagem envolve repetir o contexto nos prompts para que o modelo veja todos os dados relevantes várias vezes. Esse método ajuda a garantir que o modelo lembre mais das informações que aparecem na sequência de entrada. Testes mostram melhorias de desempenho em diversas tarefas com essa estratégia.
Processamento Não-Causal: A segunda abordagem utiliza a atenção linear prefixo não-causal para lidar com prompts. Essa técnica permite que o modelo processe informações sem seguir estritamente uma ordem da esquerda para a direita, melhorando sua capacidade de recordar detalhes essenciais do contexto.
Desenvolvimentos Recentes
A natureza competitiva das arquiteturas recorrentes de memória fixa gerou uma corrida para otimizar a eficiência da memória enquanto mantém alto desempenho. Embora os modelos transformers tenham dominado geralmente as tarefas de modelagem de linguagem, os avanços nas arquiteturas recorrentes mostram promessas em fechar essa lacuna.
Apesar do progresso, ainda há um trade-off entre uso de memória e capacidade de recordação. Conforme os pesquisadores exploram maneiras de ajustar a alocação de memória e os mecanismos de seleção, entender as influências da ordem dos dados se torna crítico.
Evidências Empíricas
Em nossas investigações, comparamos vários modelos de linguagem recorrentes em tarefas que exigem recordação para ilustrar seu desempenho sob diferentes apresentações de dados. Os resultados mostram variações significativas na capacidade deles de relembrar informações com base em como os dados são estruturados e apresentados.
Por exemplo, modelos treinados com prompts de contexto repetidos tendem a ter um desempenho melhor do que aqueles que processam a entrada em uma única passada. Essa descoberta apoia nossa hipótese de que a memória pode ser aprimorada por meio de uma organização cuidadosa dos dados.
Conclusão
Com essas descobertas, destacamos a importância da ordem dos dados no desempenho dos modelos de linguagem recorrentes. A estratégia Leia-Duas-Vezes e as técnicas de processamento não-causal apresentam melhorias práticas para o uso da memória e a recordação de informações.
Conforme esses modelos continuam a avançar, uma exploração mais profunda em sua estrutura e nas sutilezas da apresentação de dados será essencial para maximizar seu potencial em aplicações do mundo real.
A capacidade de gerenciar eficientemente a memória enquanto relembram informações relevantes determinará a eficácia futura dos modelos de linguagem em várias tarefas, desde geração de texto até responder perguntas e mais além.
Trabalho Futuro
A pesquisa contínua sobre a estrutura da memória, mecanismos de seleção e estratégias de apresentação de dados será necessária. Queremos expandir essas descobertas investigando arquiteturas adicionais e refinando as estratégias propostas. O objetivo permanece aprimorar a confiabilidade e eficiência do aprendizado em contexto para modelos de linguagem recorrentes, garantindo que possam acompanhar as capacidades dos modelos transformers em aplicações práticas.
As percepções obtidas aqui não só contribuem para o avanço dos modelos de linguagem, mas também proporcionam uma compreensão mais profunda de como os princípios subjacentes de memória e seleção podem ser aplicados em diferentes campos da inteligência artificial.
Título: Just read twice: closing the recall gap for recurrent language models
Resumo: Recurrent large language models that compete with Transformers in language modeling perplexity are emerging at a rapid rate (e.g., Mamba, RWKV). Excitingly, these architectures use a constant amount of memory during inference. However, due to the limited memory, recurrent LMs cannot recall and use all the information in long contexts leading to brittle in-context learning (ICL) quality. A key challenge for efficient LMs is selecting what information to store versus discard. In this work, we observe the order in which information is shown to the LM impacts the selection difficulty. To formalize this, we show that the hardness of information recall reduces to the hardness of a problem called set disjointness (SD), a quintessential problem in communication complexity that requires a streaming algorithm (e.g., recurrent model) to decide whether inputted sets are disjoint. We empirically and theoretically show that the recurrent memory required to solve SD changes with set order, i.e., whether the smaller set appears first in-context. Our analysis suggests, to mitigate the reliance on data order, we can put information in the right order in-context or process prompts non-causally. Towards that end, we propose: (1) JRT-Prompt, where context gets repeated multiple times in the prompt, effectively showing the model all data orders. This gives $11.0 \pm 1.3$ points of improvement, averaged across $16$ recurrent LMs and the $6$ ICL tasks, with $11.9\times$ higher throughput than FlashAttention-2 for generation prefill (length $32$k, batch size $16$, NVidia H100). We then propose (2) JRT-RNN, which uses non-causal prefix-linear-attention to process prompts and provides $99\%$ of Transformer quality at $360$M params., $30$B tokens and $96\%$ at $1.3$B params., $50$B tokens on average across the tasks, with $19.2\times$ higher throughput for prefill than FA2.
Autores: Simran Arora, Aman Timalsina, Aaryan Singhal, Benjamin Spector, Sabri Eyuboglu, Xinyi Zhao, Ashish Rao, Atri Rudra, Christopher Ré
Última atualização: 2024-07-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.05483
Fonte PDF: https://arxiv.org/pdf/2407.05483
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/HazyResearch/zoology
- https://huggingface.co/collections/hazyresearch/based-65d77fb76f9c813c8b94339c
- https://huggingface.co/fla-hub
- https://huggingface.co/state-spaces
- https://github.com/Dao-AILab/flash-attention/tree/main
- https://github.com/HazyResearch/based
- https://github.com/state-spaces/mamba
- https://huggingface.co/hyen/CEPED-LLaMA-2-Chat-7B
- https://github.com/HazyResearch/ThunderKittens
- https://huggingface.co/datasets/hazyresearch/based-fda
- https://huggingface.co/datasets/hazyresearch/based-swde
- https://huggingface.co/datasets/hazyresearch/based-squad
- https://huggingface.co/datasets/mandarjoshi/trivia_qa
- https://huggingface.co/datasets/natural_questions
- https://huggingface.co/datasets/ucinlp/drop
- https://github.com/HazyResearch/prefix-linear-attention
- https://huggingface.co/collections/hazyresearch/