Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Comparando RAG e Modelos de Linguagem de Longo Contexto

Analisando a eficácia do RAG e de LLMs de longo contexto no processamento de texto.

― 7 min ler


RAG vs. Modelos de LongoRAG vs. Modelos de LongoContextoprocessamento de texto.Uma avaliação crítica dos métodos de
Índice

No mundo dos modelos de linguagem, tem duas maneiras principais de lidar com textos longos: Recuperação Aumentada de Geração (RAG) e LLMs de Longo Contexto. RAG é um método que ajuda modelos de linguagem grandes (LLMs) a pegar informações úteis de outras fontes, facilitando a resposta a perguntas ou a criação de textos. Já os LLMs de Longo Contexto são feitos pra ler e entender pedaços de texto bem mais longos por conta própria.

Esse artigo dá uma olhada nas duas maneiras pra ver como elas se comparam em termos de Desempenho e custo. As novidades recentes em modelos de linguagem mostraram que alguns desses modelos conseguem lidar com bastante texto direto, o que torna importante entender qual método funciona melhor em diferentes situações.

A Função Básica do RAG

O RAG funciona primeiro procurando informações relacionadas a uma pergunta e depois usando isso pra ajudar o LLM a criar uma resposta. Esse método permite que o modelo acesse uma variedade de informações sem precisar lembrar de tudo. Usando uma etapa de recuperação, o RAG pode conseguir resultados mais econômicos, já que não precisa processar todo o texto de uma vez.

Mas, mesmo sendo um bom método, LLMs mais novos como Gemini e GPT-4 estão mostrando que conseguem entender longos contextos sem precisar recuperar informações adicionais. Por exemplo, o Gemini pode lidar com até 1 milhão de tokens, o que faz dele um dos modelos mais fortes em termos de tamanho de contexto.

Avaliando RAG e LLMs de Longo Contexto

Dado o progresso feito pelos modelos de longo contexto, é importante comparar a capacidade deles com a do RAG. O RAG ajuda a manter o foco apenas nas partes relevantes do texto, o que pode impedir que o modelo se distraia com informações desnecessárias. Porém, com um treinamento e tecnologia melhores, alguns LLMs podem entender passagens mais longas melhor que o RAG.

Pesquisas mostram que LLMs de longo contexto tendem a ter um desempenho melhor que o RAG quando recebem recursos suficientes. No entanto, o RAG tem suas forças em termos de Custos operacionais mais baixos. Essa descoberta sugere que combinar os dois métodos pode dar os melhores resultados, aproveitando a economia do RAG e o entendimento de longos contextos pelos LLMs.

Comparando as Duas Abordagens

Pra comparar RAG e LLMs de longo contexto, uma série de testes foram feitos em diferentes conjuntos de dados públicos. Esses testes visavam entender qual abordagem dá melhores resultados e em quais condições. Através de várias avaliações, ficou claro que modelos de longo contexto frequentemente superavam o RAG em desempenho médio quando tinham recursos suficientes.

Mas o que diferencia o RAG é a habilidade de manter os custos mais baixos. Quando um texto longo ultrapassa o que um modelo consegue lidar de uma vez, o RAG ainda pode dar respostas eficazes dividindo o texto em pedaços menores. Esse método geralmente é mais barato, já que o custo de usar LLMs costuma depender de quantas palavras são processadas.

Resultados da Comparação

A pesquisa destacou um cenário onde o RAG ainda pode ser útil, mesmo que não desempenhe tão bem quanto os LLMs de longo contexto. Em situações onde os textos de entrada são bem maiores do que um modelo geralmente consegue lidar, a habilidade do RAG de gerenciar esses inputs eficientemente se torna crucial.

Em muitos casos, ambos os modelos produziram saídas similares para a maioria das perguntas. Isso significa que o RAG poderia fornecer respostas para uma grande porcentagem de perguntas a um custo mais baixo, sem comprometer muito o desempenho. Essa observação levou a um novo método que usa RAG e modelos de longo contexto juntos, onde a escolha de qual usar é informada pela autoavaliação do modelo sobre a pergunta.

Método Combinado Proposto

O novo método é simples: ele começa determinando se uma pergunta pode ser respondida usando RAG. Se a resposta for sim, usa RAG pra dar a resposta. Se a pergunta for considerada muito complexa, então envolve o LLM de longo contexto pra fornecer a resposta final. Essa abordagem mantém um equilíbrio entre garantir respostas de qualidade e manter os custos baixos.

Usando esse método combinado, descobriram que uma grande porcentagem de perguntas poderia ser tratada apenas pelo RAG, sem precisar processar todo o contexto longo. Isso reduz o número de tokens usados e, portanto, diminui os custos, o que é vantajoso, já que muitos modelos têm preços baseados no número de palavras processadas.

Analisando Limitações do RAG

Apesar das suas forças, o RAG enfrenta desafios. Tem momentos em que o RAG tem dificuldade em dar as respostas certas. Isso pode acontecer por várias razões, como:

  1. Perguntas Complexas: Algumas perguntas podem exigir múltiplas etapas de raciocínio, dificultando o trabalho do RAG em encontrar as informações certas.

  2. Perguntas Gerais: Se a pergunta for muito ampla, o recuperador pode ter dificuldade em encontrar detalhes relevantes.

  3. Perguntas Compridas: Perguntas longas ou complexas podem ser mais difíceis para o sistema de recuperação processar, mesmo que os LLMs sejam feitos pra trabalhar com essas tarefas.

  4. Perguntas Implícitas: Às vezes, as informações necessárias não estão claramente ditas no contexto, dificultando que o RAG forneça respostas precisas.

Reconhecer essas fraquezas pode guiar melhorias no método do RAG, como aprimorar como as perguntas são entendidas ou integrar raciocínios mais complexos no processo de recuperação.

Diferentes Métodos de Recuperação

Nos estudos, vários métodos de recuperação foram usados pra avaliar como o RAG funciona. Duas técnicas específicas, Contriever e Dragon, trouxeram resultados similares, sugerindo que as descobertas são aplicáveis a diferentes estratégias de recuperação. Essa consistência traz mais credibilidade às avaliações feitas.

Considerações sobre Conjuntos de Dados Sintéticos

Enquanto o foco principal estava em conjuntos de dados reais, também houve discussões sobre dados sintéticos, que são criados por pesquisadores. Às vezes, a maneira como esses conjuntos de dados sintéticos são construídos pode influenciar os resultados e comparações entre RAG e modelos de longo contexto, apontando uma possível viés nas avaliações.

Conclusão

Em resumo, a comparação entre RAG e LLMs de longo contexto revela insights valiosos sobre como eles funcionam e quando cada abordagem pode ser mais eficaz. Enquanto os modelos de longo contexto costumam se sair melhor em entender textos longos, o RAG oferece uma opção viável devido à sua economia e habilidade de lidar com textos maiores. O novo método que mescla essas duas abordagens é um avanço. Ao avaliar as perguntas com a auto-reflexão do modelo, é possível usar o RAG de forma mais eficaz enquanto ainda alcança resultados de qualidade com o processamento de longos contextos.

Os achados enfatizam a importância de continuar inovando nesse campo, já que ambos os métodos apresentam vantagens únicas. Olhando pra frente, parece haver um grande potencial em aprimorar ainda mais esses modelos, assim como melhorar os métodos de recuperação pra otimizar o desempenho em várias aplicações.

Fonte original

Título: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

Resumo: Retrieval Augmented Generation (RAG) has been a powerful tool for Large Language Models (LLMs) to efficiently process overly lengthy contexts. However, recent LLMs like Gemini-1.5 and GPT-4 show exceptional capabilities to understand long contexts directly. We conduct a comprehensive comparison between RAG and long-context (LC) LLMs, aiming to leverage the strengths of both. We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG's significantly lower cost remains a distinct advantage. Based on this observation, we propose Self-Route, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. Self-Route significantly reduces the computation cost while maintaining a comparable performance to LC. Our findings provide a guideline for long-context applications of LLMs using RAG and LC.

Autores: Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky

Última atualização: 2024-10-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.16833

Fonte PDF: https://arxiv.org/pdf/2407.16833

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes