Novo Método para Compactar Prompts de Modelos de Linguagem

Índice

Contexto
Comparação de Métodos de Compressão de Prompts
Metodologia da PCRL
Resultados e Avaliação
Transferibilidade do Método PCRL
Conclusão e Contribuições
Detalhes de Implementação
Agradecimentos
Fonte original

Prompting é um método comum usado em modelos de linguagem (LMs) para realizar várias tarefas de linguagem de forma eficaz. Muitos usuários utilizam modelos de linguagem ajustados por instruções, como o ChatGPT, para lidar com problemas específicos usando prompts personalizados. No entanto, existem limitações com o comprimento dos prompts e o custo associado ao uso desses modelos. Isso gerou a necessidade de métodos para comprimir prompts enquanto ainda mantém sua eficácia.

As técnicas atuais para comprimir prompts geralmente dependem de tokens de embedding para capturar múltiplos significados. Esses métodos têm suas desvantagens, incluindo desafios de interpretação e reutilização entre diferentes modelos. Além disso, eles podem ter dificuldades ao trabalhar com APIs de caixa-preta. Este estudo apresenta uma nova técnica chamada Compressão de Prompts com Aprendizado por Reforço (PCRL), com o objetivo de superar esses problemas.

PCRL é um método de compressão de prompts que usa uma rede de política para editar os prompts diretamente. Funciona de forma eficiente em diversos tipos de LMs, que incluem arquiteturas só de decodificador e codificador-decodificador. Notavelmente, a PCRL pode ser treinada sem a necessidade de dados de gradiente ou amostras rotuladas. Foi demonstrado que reduz o número de tokens usados em prompts em uma média de 24,6% enquanto ainda mantém a Qualidade da Saída. Além disso, as técnicas aprendidas através desse método podem ser transferidas para modelos de linguagem maiores, e o estudo ajuda a esclarecer quais tokens têm importância nos prompts.

Contexto

Os LMs ajustados por instruções, como o ChatGPT, estão sendo cada vez mais usados para vários desafios em processamento de linguagem natural (NLP), fornecendo soluções através de prompts específicos direcionados a tarefas. A criação de prompts concisos que incluam apenas as informações necessárias é benéfica tanto para os usuários quanto para os provedores de serviços. Os usuários se beneficiam de custos mais baixos de API devido ao comprimento reduzido das consultas, enquanto os servidores enfrentam menos demanda computacional devido a designs de prompts mais curtos.

Uma abordagem comum para compressão de prompts envolve o uso de embeddings, que resumem o contexto original. No entanto, esse método vem com limitações, como a necessidade de determinar o número certo de tokens de embedding, dificuldades com interpretabilidade e problemas ao reutilizar modelos. Além disso, requer acesso a gradientes para os LMs, tornando-se menos prático para aqueles que utilizam serviços de API.

Outro método de compressão de prompts utiliza prompts discretos, ou tokens específicos do vocabulário. A pesquisa existente sobre esse método se concentrou principalmente em prompts criados manualmente, deixando espaço para melhorias. Até onde sabemos, este é o primeiro estudo a abordar a compressão de prompts discretos de forma eficaz.

Comparação de Métodos de Compressão de Prompts

Método	Generalização	Compressão Adaptativa	Sem Gradiente	Tokens Discretos
Prompt Manual
Wingate et al. (2022)
Mu et al. (2023)
Chevalier et al. (2023)
PCRL (Nosso)

Esta tabela delineia vários métodos de compressão de prompts com base em características desejáveis. A generalização refere-se à capacidade do modelo de lidar com novos prompts sem precisar de retraining. A compressão adaptativa ajusta o comprimento do prompt comprimido com base no comprimento do prompt original. Métodos sem gradiente não exigem informações de gradiente dos modelos. Prompts que usam tokens discretos podem frequentemente ser transferidos entre diferentes LMs.

Metodologia da PCRL

Este estudo introduz a PCRL como um método para compressão de prompts utilizando uma estrutura de aprendizado por reforço. A PCRL emprega técnicas semelhantes à sumarização extrativa, onde a política aprendida reduz tokens desnecessários. Para aumentar a eficiência computacional, um processo de decisão simultâneo determina se cada token deve ser incluído ou excluído.

O treinamento deste modelo envolve uma função de recompensa que equilibra o comprimento reduzido dos prompts comprimidos com a necessidade de manter seu significado original. Essa abordagem permite o treinamento sem acesso direto a gradientes dos modelos, tornando-o eficaz mesmo sem dados rotulados. Além disso, suporta treinamento consistente, independentemente de o modelo ter um design só de decodificador ou de codificador-decodificador.

O modelo PCRL alcançou uma taxa média de compressão de 24,6% durante experimentos com vários conjuntos de instruções, enquanto ainda entregava saídas de qualidade comparáveis aos prompts originais. A política também demonstrou a capacidade de transferir seu aprendizado para modelos maiores, fornecendo insights sobre a importância de diferentes tokens.

Resultados e Avaliação

Experimentos mostram que a PCRL comprime efetivamente os prompts para vários LMs. Os modelos usados para treinamento foram ajustados em uma gama diversificada de dados de instrução, imitando LMs que seguem instruções. O desempenho dos prompts comprimidos da PCRL foi avaliado em um conjunto de validação.

O conjunto de dados Alpaca+, utilizado para treinar LMs, inclui um vasto espectro de tarefas que ajudam a testar as habilidades de generalização dos modelos. O conjunto de dados compreende 104.664 tarefas únicas. O conjunto de validação é categorizado em três tipos: Prompts Vistos, Prompts Não Vistos e um conjunto de prompts criados por humanos que fornecem um desafio fora da distribuição.

Para avaliações, duas arquiteturas foram empregadas: GPT2-XL (um modelo só de decodificador) e FLAN-T5-XL (um modelo de codificador-decodificador). Cada modelo foi ajustado no conjunto de dados Alpaca+, garantindo que estivessem preparados para tarefas de inferência.

O desempenho da PCRL foi avaliado usando métricas como ROUGE-L, avaliações do ChatGPT e razões de compressão para medir a eficácia dos prompts comprimidos. Os resultados indicaram que o método PCRL teve um desempenho semelhante aos prompts originais em termos de qualidade de saída enquanto reduzia significativamente a contagem de tokens.

Transferibilidade do Método PCRL

Um benefício significativo do uso de prompts discretos é sua capacidade de transferência entre diferentes modelos, tornando a PCRL uma ferramenta prática para várias aplicações. O estudo avaliou a transferibilidade da política de compressão usando vários modelos, incluindo LLaMa2 e Falcon, ambos equipados com grandes contagens de parâmetros, e FLAN-T5-XXL.

Os resultados revelaram que a transferibilidade foi bem-sucedida, com as políticas de compressão aplicadas a vários LLMs produzindo resultados comparáveis. Essa flexibilidade destaca a robustez do método, demonstrando seu potencial para tarefas diversas em diferentes modelos.

Conclusão e Contribuições

Este estudo introduz a PCRL, uma política de compressão de prompt inovadora que utiliza técnicas de aprendizado por reforço. Ao reduzir efetivamente o comprimento do prompt de entrada, a PCRL aborda as limitações da janela de contexto e facilita custos de inferência mais baixos. O método é treinado usando apenas LMs de geração, exigindo menos dados rotulados e aproveitando arquiteturas leves.

As principais contribuições desta pesquisa incluem:

A introdução da compressão de prompts discretos enquadrada dentro de um contexto de aprendizado por reforço.
Demonstração do desempenho superior da PCRL em relação aos métodos de compressão existentes enquanto mantém a qualidade das saídas.
Exploração da importância dos tokens nos prompts, fornecendo insights que podem aprimorar ainda mais a técnica de compressão.

Pesquisas futuras podem considerar caminhos como a incorporação de métodos de paráfrase para refinar ainda mais a compressão de prompts, além de avaliar o sistema de recompensas para garantir que capture adequadamente a precisão semântica.

Detalhes de Implementação

Os modelos foram treinados em várias GPUs NVIDIA Tesla V100, com durações de treinamento de aproximadamente 10 horas para o GPT2-XL e 24 horas para o FLAN-T5-XL. Os comprimentos das sequências de entrada foram limitados a 128 tokens durante o treinamento, enquanto a avaliação permitiu até 512 tokens. O processo de geração usou previsões gananciosas sem técnicas adicionais como amostragem. O treinamento empregou um otimizador chamado AdamW e seguiu configurações específicas de hiperparâmetros para desempenho ideal.

Agradecimentos

O apoio para esta pesquisa foi fornecido pela Fundação Nacional de Pesquisa da Coreia (NRF) sob financiamento do MSIT.

Novo Método para Compactar Prompts de Modelos de Linguagem

Apresentando o PCRL, uma técnica pra compressão eficaz de prompts em modelos de linguagem.

Contexto

Comparação de Métodos de Compressão de Prompts

Metodologia da PCRL

Resultados e Avaliação

Transferibilidade do Método PCRL

Conclusão e Contribuições

Detalhes de Implementação

Agradecimentos

Tópicos referenciados

Novo Método para Compactar Prompts de Modelos de Linguagem

Apresentando o PCRL, uma técnica pra compressão eficaz de prompts em modelos de linguagem.

#Contexto

#Comparação de Métodos de Compressão de Prompts

#Metodologia da PCRL

#Resultados e Avaliação

#Transferibilidade do Método PCRL

#Conclusão e Contribuições

#Detalhes de Implementação

#Agradecimentos

Tópicos referenciados

Contexto

Comparação de Métodos de Compressão de Prompts

Metodologia da PCRL

Resultados e Avaliação

Transferibilidade do Método PCRL

Conclusão e Contribuições

Detalhes de Implementação

Agradecimentos