CRAFT: Uma Nova Abordagem para Respostas a Perguntas com Eficiência de Recursos

Índice

Fonte original
Ligações de referência

A Geração Aumentada por Recuperação (RAG) é um método que ajuda modelos de linguagem grandes (LLMs) a usarem informações externas para melhorar suas respostas a perguntas. Mas fazer com que esses sistemas funcionem bem e ainda sejam eficientes em recursos é um grande desafio. Trabalhos recentes mostraram que ajustar modelos menores pode dar resultados melhores do que usar modelos muito maiores, como o GPT-3.5. Uma abordagem promissora é combinar o Ajuste fino Aumentado por Recuperação (RAFT) com métodos de Ajuste Fino Eficiente em Parâmetros (PEFT), como a Adaptação de Baixa Classificação (LoRA), que estamos explorando na nossa pesquisa.

Nosso novo método, chamado CRAFT, junta RAFT com LoRA para tornar o ajuste fino mais rápido e menos exigente em termos de armazenamento e poder de processamento. Isso é especialmente importante em áreas onde os recursos são limitados, como no governo, saúde e finanças. Aqui, os sistemas podem não ter acesso à internet e usar menos recursos de hardware. O objetivo do CRAFT é ainda entregar um bom desempenho para responder perguntas sem precisar de muito poder computacional.

A Necessidade de Eficiência de Recursos

Em muitos setores críticos, como governo e saúde, os sistemas podem ficar isolados da internet por razões de privacidade e segurança. Isso cria desafios reais para a utilização de modelos de aprendizado de máquina, que geralmente precisam de acesso à internet e muitos recursos computacionais. Por causa dessas restrições, é importante encontrar maneiras de usar modelos avançados de perguntas e respostas de forma eficaz nesses ambientes.

Perguntas e Respostas em Domínio Específico

Responder perguntas em domínio específico é útil para obter informações relevantes de conjuntos de dados específicos. No entanto, os modelos que lidam com essas tarefas costumam exigir recursos computacionais significativos tanto para treinamento quanto para responder perguntas. Eles também precisam muitas vezes contar com acesso a modelos externos, o que nem sempre é possível em ambientes com recursos limitados.

A combinação de RAFT e LoRA ajuda a lidar com esses problemas. O RAFT fornece uma maneira de tornar os modelos de linguagem mais eficazes em responder perguntas, puxando conteúdo relevante de dados externos. Isso é fundamental, principalmente em ambientes onde modelos grandes podem não funcionar bem devido à capacidade limitada e outras restrições.

A LoRA funciona adicionando pequenos componentes treináveis a um modelo sem mudar o modelo maior em si. Esse método precisa de menos recursos enquanto ainda tem um bom desempenho, o que o torna ideal para ambientes com limites rígidos em hardware e conectividade à internet.

Escolhendo o Tamanho Certo do Modelo

Focamos em usar modelos com cerca de 7 a 8 bilhões de parâmetros, como o Llama3 e o Llama3.1. Esse tamanho equilibra entre ser poderoso o suficiente para tarefas complexas e ainda ser gerenciável em termos de necessidades de recursos. Modelos maiores, como o GPT-4, oferecem melhor desempenho, mas exigem poder computacional demais, o que pode ser problemático em situações com recursos limitados. Por outro lado, modelos menores muitas vezes não têm a capacidade necessária para lidar com tarefas de perguntas e respostas mais complexas de forma eficaz.

Objetivos da Pesquisa

Este estudo pretende alcançar vários objetivos, incluindo a redução do tempo e recursos necessários para o treinamento, acelerar o processo de geração de respostas, permitir a troca fácil de componentes e manter ou melhorar o desempenho geral. Ao unir as técnicas RAFT e LoRA, esperamos criar um sistema que atenda às necessidades de ambientes com recursos limitados sem sacrificar a qualidade.

Como Medimos o Sucesso

Para avaliar nossa abordagem, consideramos tanto o quão bem os modelos se saem em responder perguntas quanto quão eficientemente eles usam os recursos. Esse foco duplo nos ajuda a avaliar tanto a eficácia quanto a confiabilidade dos modelos que desenvolvemos.

Trabalhos Relacionados na Área

O RAG melhora os LLMs ao recuperar partes relevantes de bases de conhecimento, tornando-os menos propensos a gerar respostas incorretas. Contudo, desafios continuam, especialmente em campos especializados, onde modelos podem ter dificuldade em responder perguntas fora do escopo de seus dados de treinamento. O RAG precisa de um módulo de recuperação forte para garantir que informações relevantes possam ser puxadas corretamente.

O ajuste fino ajuda a melhorar o desempenho do RAG ao ajustar LLMs para atender melhor conjuntos de dados específicos. Diferentes estratégias foram estudadas, mas o RAFT mostrou-se promissor ao criar dados de treinamento a partir de um domínio específico e usá-los para ajustar modelos de forma eficaz. O processo envolve dividir um conjunto de dados maior em partes menores para revisão e gerar perguntas que possam ser respondidas com essas partes.

Métodos PEFT adaptam modelos pré-treinados para áreas específicas com muito menos parâmetros, tornando-os mais leves e mais fáceis de trabalhar. A LoRA é uma estratégia PEFT bem-sucedida que introduz parâmetros treináveis menores enquanto mantém a maior parte do modelo inalterada. Isso ajuda a reduzir a carga geral e mantém o desempenho equivalente ao de métodos tradicionais de ajuste fino.

Nosso Método: CRAFT

Utilizamos a abordagem RAFT para criar dados de treinamento, mas trocamos o modelo maior pelo modelo menor Llama3-70B-instruct para gerar perguntas e respostas. Essa troca ajuda a tornar o processo mais gerenciável, já que o modelo maior é usado apenas para geração de dados. O treinamento envolve organizar documentos com perguntas e respostas formatadas para otimizar o aprendizado.

Ao usar a LoRA, ajustamos os componentes menores e encontramos as melhores configurações para obter bons resultados. Isso é especialmente importante, já que nosso trabalho se concentra em modelos na faixa de 7-8 bilhões de parâmetros, que são práticos para ambientes que não conseguem acessar modelos maiores facilmente.

Configuração Experimental

Para nossos experimentos, usamos vários conjuntos de dados, incluindo HotPotQA, NarrativeQA, NewsQA, PubMedQA e WebGLM-QA. Cada um desses conjuntos de dados oferece desafios únicos que nos ajudam a avaliar a eficácia do modelo CRAFT. Os dados dessas fontes são segmentados em partes gerenciáveis que podem ser processadas de forma eficiente. Selecionamos amostras para garantir que nossos experimentos fiquem dentro dos limites de ambientes com recursos limitados, sem comprometer o desempenho.

Comparação com Baselines

Comparamos o CRAFT com um conjunto ideal de modelo RAG e um mais realista, onde erros de recuperação podem ocorrer. Descobertas mostram que o CRAFT se sai melhor na extração de informações dos documentos do que o modelo de propósito geral com RAG. As pontuações de várias avaliações indicam que o CRAFT supera consistentemente as linhas de base em diversos conjuntos de dados.

QA de Um-Estágio vs. QA de Múltiplos Estágios

O CRAFT mostra uma vantagem maior em situações de múltiplos estágios, onde é necessário raciocínio sobre várias peças de informação, em comparação com situações de um estágio, que requerem menos pensamento complexo. Os benefícios em cenários de múltiplos estágios são muito mais pronunciados, com ganhos substanciais em relação aos modelos de linha de base, destacando a força do CRAFT em tarefas de perguntas e respostas mais exigentes.

Eficiência de Recursos

Nossa análise demonstra como o CRAFT usa recursos de maneira mais eficaz do que métodos tradicionais. A combinação de RAFT e LoRA reduz significativamente o número de parâmetros treináveis, levando a um melhor uso da memória e velocidades de treinamento mais rápidas. Essa melhoria é crucial para configurações onde os recursos tecnológicos são limitados.

Conclusões e Direções Futuras

A introdução do CRAFT ilustra um método que combina RAFT e LoRA para adaptar modelos grandes para uso em ambientes onde os recursos são escassos, enquanto ainda entrega resultados de qualidade em tarefas de perguntas e respostas baseadas em conhecimento. Embora modelos maiores ainda sejam necessários para gerar certos tipos de conteúdo, usar versões quantizadas também poderia reduzir as necessidades de memória.

Pesquisas futuras podem explorar maneiras de desenvolver conjuntos de modelos menores que possam operar de forma eficaz sem depender de modelos grandes. Também há potencial para reduzir ainda mais o uso de memória pesquisando novas técnicas e integrando métodos de quantização. Esse trabalho abre portas para a realização de maior eficiência em aplicações de aprendizado de máquina, especialmente em setores onde os recursos são limitados.

CRAFT: Uma Nova Abordagem para Respostas a Perguntas com Eficiência de Recursos

CRAFT combina RAFT e LoRA para um questionamento eficiente em ambientes com poucos recursos.

A Necessidade de Eficiência de Recursos

Perguntas e Respostas em Domínio Específico

Escolhendo o Tamanho Certo do Modelo

Objetivos da Pesquisa

Como Medimos o Sucesso

Trabalhos Relacionados na Área

Nosso Método: CRAFT

Configuração Experimental

Comparação com Baselines

QA de Um-Estágio vs. QA de Múltiplos Estágios

Eficiência de Recursos

Conclusões e Direções Futuras

Ligações de referência

Tópicos referenciados

CRAFT: Uma Nova Abordagem para Respostas a Perguntas com Eficiência de Recursos

CRAFT combina RAFT e LoRA para um questionamento eficiente em ambientes com poucos recursos.

#A Necessidade de Eficiência de Recursos

#Perguntas e Respostas em Domínio Específico

#Escolhendo o Tamanho Certo do Modelo

#Objetivos da Pesquisa

#Como Medimos o Sucesso

#Trabalhos Relacionados na Área

#Nosso Método: CRAFT

#Configuração Experimental

#Comparação com Baselines

#QA de Um-Estágio vs. QA de Múltiplos Estágios

#Eficiência de Recursos

#Conclusões e Direções Futuras

Ligações de referência

Tópicos referenciados

A Necessidade de Eficiência de Recursos

Perguntas e Respostas em Domínio Específico

Escolhendo o Tamanho Certo do Modelo

Objetivos da Pesquisa

Como Medimos o Sucesso

Trabalhos Relacionados na Área

Nosso Método: CRAFT

Configuração Experimental

Comparação com Baselines

QA de Um-Estágio vs. QA de Múltiplos Estágios

Eficiência de Recursos

Conclusões e Direções Futuras