Golden-Retriever: Uma Nova Maneira de Acessar o Conhecimento da Empresa
Um sistema que melhora a busca de informações esclarecendo as perguntas dos usuários.
― 6 min ler
Índice
- Por que Métodos Tradicionais Têm Dificuldades
- O que é Geração Aumentada por Recuperação (RAG)?
- Os Desafios com Jargão
- Apresentando o Golden-Retriever
- Como o Golden-Retriever Funciona
- Etapas Envolvidas no Tratamento de Perguntas
- Identificação de Jargão
- Determinação de Contexto
- Consulta ao Dicionário de Jargão
- Aumento da Pergunta
- Mecanismo de Backup
- Testando o Golden-Retriever
- Experimento de Perguntas e Respostas
- Experimento de Identificação de Abreviações
- Conclusão
- Fonte original
- Ligações de referência
Golden-Retriever é um sistema que ajuda empresas a acessar e usar grandes coleções de documentos. Esses documentos muitas vezes têm termos e frases específicas que podem confundir os usuários, principalmente os que são novos em áreas técnicas. Ao melhorar a forma como as perguntas são formuladas antes de pesquisar nesses documentos, o Golden-Retriever facilita a busca pela informação certa.
Por que Métodos Tradicionais Têm Dificuldades
Muitas empresas acumulam um monte de documentos ao longo dos anos, como materiais de treinamento ou documentos de design. Novos funcionários costumam ter dificuldade em entender ou encontrar rapidamente o que precisam. Isso acontece porque muitos documentos usam termos técnicos conhecidos como jargão. Métodos comuns de responder perguntas muitas vezes falham quando esses jargões aparecem.
Modelos de Linguagem Grande (LLMs) são sistemas avançados feitos para responder perguntas. Embora sejam bons em responder questões gerais, eles podem ter dificuldades com conhecimentos específicos da empresa, a menos que sejam treinados especificamente sobre esses documentos. No entanto, treinar esses modelos é caro, pode levar a erros com novas informações e pode sobrescrever conhecimentos mais antigos que ainda são úteis.
RAG)?
O que é Geração Aumentada por Recuperação (RAG é uma abordagem diferente para usar LLMs. Em vez de re-treinar todo o modelo com documentos da empresa, ele recupera partes relevantes dos documentos com base nas perguntas do usuário. RAG encaixa o modelo dentro de um sistema que permite que o LLM puxe informações de um banco de dados de documentos. Isso torna possível continuar atualizando a base de conhecimento facilmente à medida que novos documentos chegam, sem precisar re-treinar o modelo toda vez.
No entanto, RAG tem seus próprios problemas, especialmente na interpretação de jargões específicos da empresa. Se o sistema não entender corretamente esses termos, pode resultar em resultados imprecisos. Outros métodos tentam corrigir isso depois que os documentos foram recuperados, mas se a recuperação inicial estiver errada, as correções geralmente não ajudam muito.
Os Desafios com Jargão
Quando os usuários fazem perguntas, a presença de jargão pode levar a confusões. Por exemplo, o mesmo termo pode ter significados diferentes em Contextos diferentes. Isso pode causar mal-entendidos em que o modelo pega o significado errado. Além disso, os usuários muitas vezes não incluem contexto suficiente em suas perguntas, tornando ainda mais complicado encontrar a resposta correta.
Algumas abordagens tentam categorizar perguntas de usuários em contextos específicos usando modelos adicionais. No entanto, isso exige muito esforço e tempo para reunir os dados necessários para treinar esses modelos, o que muitas vezes não é prático.
Apresentando o Golden-Retriever
O Golden-Retriever busca enfrentar esses desafios aprimorando o método tradicional de RAG. Ele faz isso focando em formular perguntas melhor antes de pesquisar pelos documentos. O sistema identifica jargões nas perguntas dos usuários e esclarece seus significados com base no contexto. Assim, reduz erros e aumenta as chances de encontrar os documentos corretos.
Como o Golden-Retriever Funciona
O Golden-Retriever tem duas partes principais: processos offline e online.
Processo Offline
A parte offline prepara o banco de dados de documentos antes mesmo de os usuários começarem a fazer perguntas. Ele usa Reconhecimento Óptico de Caracteres (OCR) para ler texto de vários formatos de documentos. O texto é então resumido e esclarecido com o uso de LLMs. Dessa forma, quando os usuários fizerem perguntas mais tarde, o sistema estará mais propenso a encontrar documentos relevantes.
Processo Online
A parte online acontece de forma interativa quando os usuários fazem perguntas. Primeiro, o sistema identifica jargões e contexto na pergunta usando LLMs. Em seguida, ele puxa definições de um dicionário de jargão para garantir que a pergunta esteja clara e bem formulada. Essa pergunta aumentada é então inserida na estrutura RAG, permitindo que o sistema recupere os documentos mais relevantes de forma eficaz.
Etapas Envolvidas no Tratamento de Perguntas
Identificação de Jargão
No primeiro passo, o Golden-Retriever verifica a pergunta do usuário em busca de jargão ou abreviações. Isso é vital, já que muitas perguntas incluem termos especializados que podem ser mal interpretados. O LLM ajuda extraindo e listando esses termos com foco na clareza.
Determinação de Contexto
Em seguida, o sistema identifica o contexto da pergunta. O mesmo termo pode ter significados diferentes baseados na situação. O sistema utiliza exemplos definidos para ajudar o LLM a classificar a pergunta corretamente, garantindo que seu significado esteja claro.
Consulta ao Dicionário de Jargão
Uma vez identificados os jargões e o contexto, o próximo passo é consultá-los em um dicionário de jargão. Essa etapa é essencial para fornecer ao modelo definições precisas, garantindo que a pergunta seja clara e compreensível.
Aumento da Pergunta
Com definições e contexto em mãos, a pergunta original do usuário é então alterada para incluir essas novas informações. Isso permite que o sistema encontre os documentos mais precisos, eliminando qualquer confusão na pergunta em si.
Mecanismo de Backup
Se o sistema não encontrar informações relevantes, ele tem um plano de backup. Nesses casos, ele informará o usuário que a pergunta não pode ser respondida devido a informações faltantes e sugerirá verificar a ortografia ou entrar em contato com alguém para esclarecimentos.
Testando o Golden-Retriever
O Golden-Retriever foi testado em dois experimentos principais: um para ver quão bem ele conseguia responder perguntas com base em documentos e o outro para avaliar seu sucesso em identificar abreviações.
Experimento de Perguntas e Respostas
No primeiro experimento, várias perguntas de múltipla escolha foram coletadas de diversos documentos de treinamento para novos funcionários. O objetivo era avaliar como o Golden-Retriever respondeu a essas perguntas em comparação com abordagens padrão.
Os resultados foram impressionantes. O Golden-Retriever superou os métodos comuns com uma margem grande, mostrando um aumento significativo na precisão.
Experimento de Identificação de Abreviações
No segundo experimento, o foco foi na capacidade do sistema de identificar corretamente abreviações desconhecidas. Abreviações aleatórias foram misturadas nas perguntas para ver como bem o sistema poderia reconhecê-las e respondê-las. Os modelos mais avançados mostraram alta precisão na detecção dessas abreviações, embora alguns desafios ainda permanecessem.
Conclusão
O Golden-Retriever é uma solução promissora para empresas que buscam melhorar o acesso a bases de conhecimento complexas. Ao focar em esclarecer perguntas dos usuários antes de pesquisar, ele melhora a capacidade de recuperar documentos relevantes, levando a melhores respostas e uma experiência mais fluida para os usuários. Com esforços contínuos para refinar e desenvolver ainda mais esse sistema, ele tem o potencial de se tornar uma ferramenta valiosa em qualquer ambiente técnico.
Título: Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base
Resumo: This paper introduces Golden-Retriever, designed to efficiently navigate vast industrial knowledge bases, overcoming challenges in traditional LLM fine-tuning and RAG frameworks with domain-specific jargon and context interpretation. Golden-Retriever incorporates a reflection-based question augmentation step before document retrieval, which involves identifying jargon, clarifying its meaning based on context, and augmenting the question accordingly. Specifically, our method extracts and lists all jargon and abbreviations in the input question, determines the context against a pre-defined list, and queries a jargon dictionary for extended definitions and descriptions. This comprehensive augmentation ensures the RAG framework retrieves the most relevant documents by providing clear context and resolving ambiguities, significantly improving retrieval accuracy. Evaluations using three open-source LLMs on a domain-specific question-answer dataset demonstrate Golden-Retriever's superior performance, providing a robust solution for efficiently integrating and querying industrial knowledge bases.
Autores: Zhiyu An, Xianzhong Ding, Yen-Chun Fu, Cheng-Chung Chu, Yan Li, Wan Du
Última atualização: 2024-07-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2408.00798
Fonte PDF: https://arxiv.org/pdf/2408.00798
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.