Simple Science

Ciência de ponta explicada de forma simples

# Informática # Computação e linguagem

CRAFT: Uma Nova Abordagem para Respostas a Perguntas com Eficiência de Recursos

CRAFT combina RAFT e LoRA para um questionamento eficiente em ambientes com poucos recursos.

Isaac Chung, Phat Vo, Arman C. Kizilkale, Aaron Reite

― 8 min ler


CRAFT Revoluciona a CRAFT Revoluciona a Resposta a Perguntas IA. resposta eficiente de perguntas sobre CRAFT otimiza recursos para uma
Índice

A Geração Aumentada por Recuperação (RAG) é um método que ajuda modelos de linguagem grandes (LLMs) a usarem informações externas para melhorar suas respostas a perguntas. Mas fazer com que esses sistemas funcionem bem e ainda sejam eficientes em recursos é um grande desafio. Trabalhos recentes mostraram que ajustar modelos menores pode dar resultados melhores do que usar modelos muito maiores, como o GPT-3.5. Uma abordagem promissora é combinar o Ajuste fino Aumentado por Recuperação (RAFT) com métodos de Ajuste Fino Eficiente em Parâmetros (PEFT), como a Adaptação de Baixa Classificação (LoRA), que estamos explorando na nossa pesquisa.

Nosso novo método, chamado CRAFT, junta RAFT com LoRA para tornar o ajuste fino mais rápido e menos exigente em termos de armazenamento e poder de processamento. Isso é especialmente importante em áreas onde os recursos são limitados, como no governo, saúde e finanças. Aqui, os sistemas podem não ter acesso à internet e usar menos recursos de hardware. O objetivo do CRAFT é ainda entregar um bom desempenho para responder perguntas sem precisar de muito poder computacional.

A Necessidade de Eficiência de Recursos

Em muitos setores críticos, como governo e saúde, os sistemas podem ficar isolados da internet por razões de privacidade e segurança. Isso cria desafios reais para a utilização de modelos de aprendizado de máquina, que geralmente precisam de acesso à internet e muitos recursos computacionais. Por causa dessas restrições, é importante encontrar maneiras de usar modelos avançados de perguntas e respostas de forma eficaz nesses ambientes.

Perguntas e Respostas em Domínio Específico

Responder perguntas em domínio específico é útil para obter informações relevantes de conjuntos de dados específicos. No entanto, os modelos que lidam com essas tarefas costumam exigir recursos computacionais significativos tanto para treinamento quanto para responder perguntas. Eles também precisam muitas vezes contar com acesso a modelos externos, o que nem sempre é possível em ambientes com recursos limitados.

A combinação de RAFT e LoRA ajuda a lidar com esses problemas. O RAFT fornece uma maneira de tornar os modelos de linguagem mais eficazes em responder perguntas, puxando conteúdo relevante de dados externos. Isso é fundamental, principalmente em ambientes onde modelos grandes podem não funcionar bem devido à capacidade limitada e outras restrições.

A LoRA funciona adicionando pequenos componentes treináveis a um modelo sem mudar o modelo maior em si. Esse método precisa de menos recursos enquanto ainda tem um bom desempenho, o que o torna ideal para ambientes com limites rígidos em hardware e conectividade à internet.

Escolhendo o Tamanho Certo do Modelo

Focamos em usar modelos com cerca de 7 a 8 bilhões de parâmetros, como o Llama3 e o Llama3.1. Esse tamanho equilibra entre ser poderoso o suficiente para tarefas complexas e ainda ser gerenciável em termos de necessidades de recursos. Modelos maiores, como o GPT-4, oferecem melhor desempenho, mas exigem poder computacional demais, o que pode ser problemático em situações com recursos limitados. Por outro lado, modelos menores muitas vezes não têm a capacidade necessária para lidar com tarefas de perguntas e respostas mais complexas de forma eficaz.

Objetivos da Pesquisa

Este estudo pretende alcançar vários objetivos, incluindo a redução do tempo e recursos necessários para o treinamento, acelerar o processo de geração de respostas, permitir a troca fácil de componentes e manter ou melhorar o desempenho geral. Ao unir as técnicas RAFT e LoRA, esperamos criar um sistema que atenda às necessidades de ambientes com recursos limitados sem sacrificar a qualidade.

Como Medimos o Sucesso

Para avaliar nossa abordagem, consideramos tanto o quão bem os modelos se saem em responder perguntas quanto quão eficientemente eles usam os recursos. Esse foco duplo nos ajuda a avaliar tanto a eficácia quanto a confiabilidade dos modelos que desenvolvemos.

Trabalhos Relacionados na Área

O RAG melhora os LLMs ao recuperar partes relevantes de bases de conhecimento, tornando-os menos propensos a gerar respostas incorretas. Contudo, desafios continuam, especialmente em campos especializados, onde modelos podem ter dificuldade em responder perguntas fora do escopo de seus dados de treinamento. O RAG precisa de um módulo de recuperação forte para garantir que informações relevantes possam ser puxadas corretamente.

O ajuste fino ajuda a melhorar o desempenho do RAG ao ajustar LLMs para atender melhor conjuntos de dados específicos. Diferentes estratégias foram estudadas, mas o RAFT mostrou-se promissor ao criar dados de treinamento a partir de um domínio específico e usá-los para ajustar modelos de forma eficaz. O processo envolve dividir um conjunto de dados maior em partes menores para revisão e gerar perguntas que possam ser respondidas com essas partes.

Métodos PEFT adaptam modelos pré-treinados para áreas específicas com muito menos parâmetros, tornando-os mais leves e mais fáceis de trabalhar. A LoRA é uma estratégia PEFT bem-sucedida que introduz parâmetros treináveis menores enquanto mantém a maior parte do modelo inalterada. Isso ajuda a reduzir a carga geral e mantém o desempenho equivalente ao de métodos tradicionais de ajuste fino.

Nosso Método: CRAFT

Utilizamos a abordagem RAFT para criar dados de treinamento, mas trocamos o modelo maior pelo modelo menor Llama3-70B-instruct para gerar perguntas e respostas. Essa troca ajuda a tornar o processo mais gerenciável, já que o modelo maior é usado apenas para geração de dados. O treinamento envolve organizar documentos com perguntas e respostas formatadas para otimizar o aprendizado.

Ao usar a LoRA, ajustamos os componentes menores e encontramos as melhores configurações para obter bons resultados. Isso é especialmente importante, já que nosso trabalho se concentra em modelos na faixa de 7-8 bilhões de parâmetros, que são práticos para ambientes que não conseguem acessar modelos maiores facilmente.

Configuração Experimental

Para nossos experimentos, usamos vários conjuntos de dados, incluindo HotPotQA, NarrativeQA, NewsQA, PubMedQA e WebGLM-QA. Cada um desses conjuntos de dados oferece desafios únicos que nos ajudam a avaliar a eficácia do modelo CRAFT. Os dados dessas fontes são segmentados em partes gerenciáveis que podem ser processadas de forma eficiente. Selecionamos amostras para garantir que nossos experimentos fiquem dentro dos limites de ambientes com recursos limitados, sem comprometer o desempenho.

Comparação com Baselines

Comparamos o CRAFT com um conjunto ideal de modelo RAG e um mais realista, onde erros de recuperação podem ocorrer. Descobertas mostram que o CRAFT se sai melhor na extração de informações dos documentos do que o modelo de propósito geral com RAG. As pontuações de várias avaliações indicam que o CRAFT supera consistentemente as linhas de base em diversos conjuntos de dados.

QA de Um-Estágio vs. QA de Múltiplos Estágios

O CRAFT mostra uma vantagem maior em situações de múltiplos estágios, onde é necessário raciocínio sobre várias peças de informação, em comparação com situações de um estágio, que requerem menos pensamento complexo. Os benefícios em cenários de múltiplos estágios são muito mais pronunciados, com ganhos substanciais em relação aos modelos de linha de base, destacando a força do CRAFT em tarefas de perguntas e respostas mais exigentes.

Eficiência de Recursos

Nossa análise demonstra como o CRAFT usa recursos de maneira mais eficaz do que métodos tradicionais. A combinação de RAFT e LoRA reduz significativamente o número de parâmetros treináveis, levando a um melhor uso da memória e velocidades de treinamento mais rápidas. Essa melhoria é crucial para configurações onde os recursos tecnológicos são limitados.

Conclusões e Direções Futuras

A introdução do CRAFT ilustra um método que combina RAFT e LoRA para adaptar modelos grandes para uso em ambientes onde os recursos são escassos, enquanto ainda entrega resultados de qualidade em tarefas de perguntas e respostas baseadas em conhecimento. Embora modelos maiores ainda sejam necessários para gerar certos tipos de conteúdo, usar versões quantizadas também poderia reduzir as necessidades de memória.

Pesquisas futuras podem explorar maneiras de desenvolver conjuntos de modelos menores que possam operar de forma eficaz sem depender de modelos grandes. Também há potencial para reduzir ainda mais o uso de memória pesquisando novas técnicas e integrando métodos de quantização. Esse trabalho abre portas para a realização de maior eficiência em aplicações de aprendizado de máquina, especialmente em setores onde os recursos são limitados.

Fonte original

Título: Efficient In-Domain Question Answering for Resource-Constrained Environments

Resumo: Retrieval Augmented Generation (RAG) is a common method for integrating external knowledge into pretrained Large Language Models (LLMs) to enhance accuracy and relevancy in question answering (QA) tasks. However, prompt engineering and resource efficiency remain significant bottlenecks in developing optimal and robust RAG solutions for real-world QA applications. Recent studies have shown success in using fine tuning to address these problems; in particular, Retrieval Augmented Fine Tuning (RAFT) applied to smaller 7B models has demonstrated superior performance compared to RAG setups with much larger models such as GPT-3.5. The combination of RAFT with parameter-efficient fine tuning (PEFT) techniques, such as Low-Rank Adaptation (LoRA), promises an even more efficient solution, yet remains an unexplored area. In this work, we combine RAFT with LoRA to reduce fine tuning and storage requirements and gain faster inference times while maintaining comparable RAG performance. This results in a more compute-efficient RAFT, or CRAFT, which is particularly useful for knowledge-intensive QA tasks in resource-constrained environments where internet access may be restricted and hardware resources limited.

Autores: Isaac Chung, Phat Vo, Arman C. Kizilkale, Aaron Reite

Última atualização: 2024-10-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.17648

Fonte PDF: https://arxiv.org/pdf/2409.17648

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes