VERA: Uma Estrutura para Avaliar Sistemas RAG
Descubra como a VERA melhora a precisão e eficiência na avaliação de sistemas RAG.
Tianyu Ding, Adi Banerjee, Laurent Mombaerts, Yunhong Li, Tarik Borogovac, Juan Pablo De la Cruz Weinstein
― 12 min ler
Índice
- A Importância dos Sistemas RAG
- Métodos Tradicionais de Avaliação
- Relevância do Repositório de Documentos
- Trabalhos Relacionados
- O Método VERA
- LLMs como Avaliadores
- Métricas de Avaliação Multi-Dimensionais
- Métricas Bootstrap para Análise da Relevância dos Repositórios de Documentos
- Análise de Consulta Contrastiva para Relevância dos Repositórios de Documentos
- Experimentação
- Resultados e Análise
- Conclusão
- Limitações e Trabalho Futuro
- Exemplos de Prompt
- Prompt da Métrica de Fidelidade
- Prompt das Métricas de Recall de Recuperação
- Prompt da Métrica de Precisão de Recuperação
- Geração de Pergunta para Métrica de Relevância da Resposta
- Exemplo de Prompt de Resumo RAG com Trechos Recuperados
- Fonte original
- Ligações de referência
O uso de sistemas de Geração Aumentada por Recuperação (RAG) tá crescendo em várias áreas, então é importante ter métodos rigorosos pra confirmar que esses sistemas estão dando respostas precisas e seguras. Neste artigo, a gente apresenta o VERA, que significa Validação e Avaliação de Sistemas Aumentados por Recuperação. O VERA foi criado pra deixar as saídas de grandes modelos de linguagem mais claras e confiáveis. Essa estrutura avalia os sistemas RAG de duas maneiras principais: combina várias Métricas importantes em uma única nota, tornando mais fácil ver como um sistema tá indo, e usa estatísticas de Bootstrap pra checar se as fontes de dados são relevantes e abrangentes.
A Importância dos Sistemas RAG
Os sistemas RAG melhoram o processamento de linguagem natural ao juntar grandes coleções de dados com poderosas gerações de texto. Esses sistemas são especialmente úteis para responder perguntas em domínios abertos, checagem de fatos e interações com atendimento ao cliente. Eles fornecem respostas que são relevantes e úteis.
Mas, os sistemas RAG também enfrentam algumas dificuldades parecidas com os modelos de linguagem normais. Esses problemas incluem processos de raciocínio pouco claros, falha em fornecer evidências que sustentem as respostas, e produzem imprecisões que podem parecer corretas, mas são enganosas. Além disso, usar esses sistemas com bancos de dados estáticos pode levar a respostas desatualizadas ou irrelevantes, já que os dados podem não cobrir todos os tópicos necessários, e a grande quantidade de dados pode trazer altos custos em recursos computacionais.
Métodos Tradicionais de Avaliação
Os métodos tradicionais de avaliar sistemas RAG incluem revisões manuais extensivas e supervisão humana contínua, que podem consumir muitos recursos. Pra resolver esses problemas, a gente desenvolveu o VERA, que ajuda a avaliar os sistemas RAG de maneira eficaz enquanto economiza tempo e esforço.
O VERA checa tanto as fases de recuperação quanto de resposta dos sistemas RAG com métricas que medem quão precisamente a informação é recuperada e quão relevantes e verdadeiras são as respostas geradas. Ele também usa um cross-encoder pra combinar essas métricas em uma única nota pra facilitar a comparação entre os sistemas RAG. Essa nota permite que os usuários tomem decisões rápidas sobre o desempenho dos seus sistemas.
Relevância do Repositório de Documentos
Pra garantir que os sistemas RAG funcionem bem, é essencial verificar a relevância das fontes de dados que eles usam. O VERA introduz um método pra avaliar a relevância dos repositórios de documentos. Esse processo mede quão bem os documentos se relacionam com temas ou tópicos específicos. Por exemplo, em um repositório dedicado a "Vendas e Marketing em Computação em Nuvem," a relevância é julgada pela quantidade de documentos que realmente discutem estratégias e tendências nesse campo, evitando assuntos não relacionados.
Trabalhos Relacionados
Os sistemas RAG foram avaliados anteriormente com base no desempenho em tarefas específicas usando sistemas de pontuação estabelecidos. Isso incluía métricas como EM e F1 para tarefas de classificação e várias outras para resposta a perguntas e checagem de fatos.
Algumas ferramentas automatizam avaliações, mas muitas ainda lutam com a complexidade de medir diferentes aspectos dos sistemas RAG. Pesquisas recentes mostraram que certos modelos de linguagem avançados podem igualar os julgamentos humanos em avaliações, destacando o potencial de usar esses modelos como avaliadores automáticos.
O Método VERA
O VERA avalia a integridade dos repositórios de documentos através de várias métricas baseadas em LLM, como precisão e recall de recuperação, fidelidade e relevância. Ele então usa técnicas como agregações baseadas em ranking e bootstrapping pra melhorar a usabilidade dessas métricas.
O VERA começa pegando as consultas dos usuários, combinando-as com respostas recuperadas de um sistema RAG. Isso forma a base da avaliação, focando na relevância do contexto, fidelidade das respostas e relevância das respostas. Essas métricas são combinadas usando um cross-encoder pra gerar uma nota geral que ajuda a priorizar certos aspectos e permite uma tomada de decisão informada.
LLMs como Avaliadores
Avanços recentes em modelos de linguagem tornaram eles adequados pra avaliar sistemas. O VERA usa um modelo específico como seu avaliador padrão devido ao equilíbrio de custo e eficácia. Esse modelo mostrou um desempenho forte em testes de raciocínio e superou outros modelos em vários benchmarks.
O VERA gera métricas incluindo fidelidade, recall de recuperação, e precisão de recuperação. Pra cada métrica, tarefas específicas são atribuídas pra determinar quão bem as respostas estão alinhadas com os contextos fornecidos.
Métricas de Avaliação Multi-Dimensionais
Combinar várias métricas de avaliação em uma única nota ajuda a simplificar o processo de tomada de decisão. Isso garante que os usuários não tenham que passar por várias notas pra entender o desempenho de um sistema.
Métodos tradicionais de combinar notas muitas vezes mascaram os pontos fortes e fracos individuais das métricas. O VERA usa modelos avançados de cross-encoder que focam em relacionamentos semânticos pra melhorar esse processo significativamente.
Métricas Bootstrap para Análise da Relevância dos Repositórios de Documentos
Avaliar sistemas RAG requer acompanhar métricas como precisão de recuperação e fidelidade. No entanto, os resultados dessas avaliações podem variar devido à natureza imprevisível dos modelos de linguagem. Pra aumentar a confiabilidade, o VERA utiliza técnicas de bootstrapping que permitem diferentes cenários de medição, proporcionando insights mais amplos sobre o desempenho.
O método de bootstrapping envolve tirar amostras das métricas observadas pra formar uma compreensão mais clara do comportamento do sistema, oferecendo uma visão mais completa do desempenho.
Análise de Consulta Contrastiva para Relevância dos Repositórios de Documentos
É essencial diferenciar o conteúdo dentro dos repositórios de documentos pra garantir que eles sejam adequados pra tópicos específicos. O VERA emprega uma estrutura de análise contrastiva pra avaliar essa relevância.
Isso envolve criar dois grupos de consultas-um relacionado ao tópico e o outro completamente não relacionado. Avaliar quão bem o repositório responde a esses dois tipos de consultas destaca o foco no conteúdo relevante.
Experimentação
Nos nossos estudos, usamos conjuntos de dados disponíveis publicamente e proprietários pra avaliar diferentes sistemas RAG. O conjunto de dados MS MARCO de código aberto serviu como base pra explorações de conhecimento geral, enquanto conjuntos de dados específicos da indústria foram usados pra avaliações personalizadas.
A gente também gerou dados sintéticos usando modelos avançados pra criar consultas e respostas que visavam nossas necessidades de teste, garantindo diversidade e relevância.
Ao conduzir nossos experimentos, combinamos diferentes combinações de modelos de linguagem com recuperadores avançados. Essa avaliação completa enfatizou como diferentes configurações podem afetar o desempenho dos sistemas RAG.
Resultados e Análise
Os resultados mostraram que modelos de linguagem poderosos se saíram bem em várias métricas. Nas nossas comparações, os modelos conseguiram alcançar altas notas em fidelidade e relevância, indicando sua eficácia em recuperar informações precisas.
Ao comparar o desempenho dos modelos mais fortes com os mais fracos, notamos diferenças consistentes nas métricas de avaliação, destacando as vantagens de usar modelos avançados.
Conclusão
Esse artigo apresenta o VERA, uma estrutura criada pra avaliar sistemas RAG de forma eficaz. Ao focar em métricas chave como fidelidade, relevância das respostas e precisão de recuperação, o VERA busca construir confiança em aplicações de IA.
Os achados demonstram a capacidade do VERA de melhorar a tomada de decisões em vários cenários, mantendo a integridade dos repositórios de dados e se adaptando a ambientes em mudança. À medida que a tecnologia continua a avançar, a gente planeja refinar as métricas do VERA e expandir seu uso em várias áreas.
Limitações e Trabalho Futuro
O estudo reconhece várias limitações. Ele não incluiu cenários com modelos de linguagem ajustados, que poderiam ter oferecido melhores insights. O foco no inglês também pode limitar sua aplicabilidade a situações multilíngues. Além disso, enquanto o bootstrapping oferece um olhar detalhado sobre conteúdos complexos, ele é custoso computacionalmente.
O trabalho futuro visa criar estratégias de medição mais eficientes. A gente também vai explorar o desempenho de outros benchmarks disponíveis publicamente pra fornecer um contexto mais amplo para nossas descobertas.
Exemplos de Prompt
Prompt da Métrica de Fidelidade
Considere o contexto dado e as seguintes afirmações, depois determine se elas são apoiadas pelas informações presentes no contexto. Forneça uma explicação breve pra cada afirmação antes de chegar ao veredito (Sim/Não). Dê um veredito final pra cada afirmação na ordem dada no formato especificado.
Contexto: Emma é uma estudante de pós-graduação especializada em biologia marinha na Coastal University. Ela tem um grande interesse em recifes de corais e está conduzindo sua tese sobre o branqueamento de corais. Emma participa de vários seminários relacionados a ecossistemas marinhos e está ativamente envolvida em pesquisa de campo nos recifes de corais próximos. Ela costuma colaborar com outros pesquisadores pra publicar suas descobertas.
- Emma está estudando engenharia mecânica.
- Emma está trabalhando em um projeto relacionado a recifes de corais.
- Emma frequentemente participa de workshops de ciência da computação.
- Emma colabora com outros pesquisadores.
- A pesquisa de Emma foca em ecossistemas marinhos.
Veredito final para cada afirmação na ordem: Não. Sim. Não. Sim. Sim.
Prompt das Métricas de Recall de Recuperação
Tarefa: Dado um contexto e uma resposta, analise cada frase na resposta e classifique se a frase é apoiada pelo contexto dado ou não. Pense em etapas e raciocine antes de chegar a uma conclusão.
Contexto: Isaac Newton (25 de dezembro de 1642 – 20 de março de 1726/27) foi um matemático, físico, astrônomo, alquimista e autor inglês. Ele é amplamente reconhecido como um dos cientistas mais influentes de todos os tempos e uma figura chave na revolução científica. Seu livro "Philosophiæ Naturalis Principia Mathematica," publicado pela primeira vez em 1687, lançou as bases da mecânica clássica. Newton fez contribuições seminais à óptica e compartilha o crédito com Gottfried Wilhelm Leibniz pelo desenvolvimento do cálculo.
- Isaac Newton foi um matemático, físico e astrônomo inglês.
- Ele é conhecido por escrever "Philosophiæ Naturalis Principia Mathematica."
- Newton inventou o cálculo independentemente de Leibniz.
Frases Candidatas:
- Isaac Newton foi um matemático, físico e astrônomo inglês. [Apoiado pelo Contexto]
- Ele é conhecido por escrever "Philosophiæ Naturalis Principia Mathematica." [Apoiado pelo Contexto]
- Newton inventou o cálculo independentemente de Leibniz. [Não Apoiado pelo Contexto]
Prompt da Métrica de Precisão de Recuperação
Tarefa: Avalie se o contexto fornecido pode responder à pergunta dada extraindo frases relevantes. Siga essas diretrizes:
Pergunta: O que causa a subida e a descida das marés?
Contexto: A força gravitacional da lua e do sol causa a subida e a descida das marés. A gravidade da lua tem um efeito maior porque está mais próxima da Terra, criando marés altas e baixas. O sol também desempenha um papel, mas em menor extensão.
Frases Candidatas:
- A força gravitacional da lua e do sol causa a subida e a descida das marés.
- A gravidade da lua tem um efeito maior porque está mais próxima da Terra, criando marés altas e baixas.
Geração de Pergunta para Métrica de Relevância da Resposta
Tarefa: Gere uma pergunta com base na resposta dada. A pergunta deve ser específica, clara e diretamente relacionada às informações fornecidas na resposta.
Resposta: A missão PSLV-C56 está programada para ser lançada no domingo, 30 de julho de 2023, às 06:30 IST / 01:00 UTC. Ela será lançada do Centro Espacial Satish Dhawan, em Sriharikota, Andhra Pradesh, Índia.
Pergunta Gerada: Qual é a data e hora programadas para o lançamento da missão PSLV-C56, e de onde ela será lançada?
Exemplo de Prompt de Resumo RAG com Trechos Recuperados
Tarefa: Avalie a relevância e a precisão das informações recuperadas em resposta a uma consulta do usuário. Cada resposta candidata deve ser avaliada quanto à sua conformidade com o contexto fornecido.
Contexto: A resposta real à seguinte pergunta é: Com base no contexto dado, os adultos normalmente começam a perder massa óssea por volta dos 40 anos. Os pontos principais são: - A massa óssea atinge seu pico durante a idade jovem e, então, há uma perda lenta, mas constante, de osso começando por volta dos 40 anos.
Resposta: Os adultos normalmente começam a perder massa óssea por volta dos 40 anos.
Avaliação das Métricas:
- Relevância da Resposta: 0.9531866263993314
- Precisão do Contexto: 0.06666666666666667
- Recall do Contexto: 0.2727272727272727
- Fidelidade: 1.0
Título: VERA: Validation and Evaluation of Retrieval-Augmented Systems
Resumo: The increasing use of Retrieval-Augmented Generation (RAG) systems in various applications necessitates stringent protocols to ensure RAG systems accuracy, safety, and alignment with user intentions. In this paper, we introduce VERA (Validation and Evaluation of Retrieval-Augmented Systems), a framework designed to enhance the transparency and reliability of outputs from large language models (LLMs) that utilize retrieved information. VERA improves the way we evaluate RAG systems in two important ways: (1) it introduces a cross-encoder based mechanism that encompasses a set of multidimensional metrics into a single comprehensive ranking score, addressing the challenge of prioritizing individual metrics, and (2) it employs Bootstrap statistics on LLM-based metrics across the document repository to establish confidence bounds, ensuring the repositorys topical coverage and improving the overall reliability of retrieval systems. Through several use cases, we demonstrate how VERA can strengthen decision-making processes and trust in AI applications. Our findings not only contribute to the theoretical understanding of LLM-based RAG evaluation metric but also promote the practical implementation of responsible AI systems, marking a significant advancement in the development of reliable and transparent generative AI technologies.
Autores: Tianyu Ding, Adi Banerjee, Laurent Mombaerts, Yunhong Li, Tarik Borogovac, Juan Pablo De la Cruz Weinstein
Última atualização: 2024-08-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.03759
Fonte PDF: https://arxiv.org/pdf/2409.03759
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.