Novos conjuntos de dados de QA focam em produtos da Adobe

Dois conjuntos de dados de QA especializados visam melhorar os sistemas de perguntas e respostas para Adobe Acrobat e Photoshop.

Índice

Visão Geral do Conjunto de Dados
Trabalhos Relacionados
Criação do Conjunto de Dados
Pré-processamento de Dados
Criando Pares de Pergunta-Resposta
Análise de Dados e Estatísticas
Categorias de Perguntas
Etapa 1: Gerando Triplas
Etapa 2: Recuperando Triplas
Etapa 3: Classificando Relevância
Etapa 4: Aprimorando a Consulta
Avaliação de Desempenho
Baselines e Resultados
Análise de Erros
Conclusão
Fonte original
Ligações de referência

Desenvolvimentos recentes em modelos de linguagem grandes (LLMs) tornaram eles populares para tarefas específicas. Uma dessas tarefas é a de perguntas e respostas (QA), especialmente em áreas especializadas. No entanto, avaliar quão bem esses modelos funcionam em áreas específicas ainda é complicado. Isso acontece principalmente porque testes adequados que imitam situações da vida real não estão facilmente disponíveis.

Para resolver esse problema, criamos dois conjuntos de dados de QA focados em produtos da Adobe Acrobat e Photoshop. Esses conjuntos de dados vão ajudar a testar como os modelos existentes se saem ao responder perguntas relacionadas a produtos. Também desenhamos um novo sistema que usa conhecimento de domínio para melhorar o desempenho em tarefas de QA de produtos. Nossos experimentos mostraram que reformular perguntas usando conhecimento relevante ajudou a melhorar tanto a recuperação quanto a geração de respostas, mas a melhoria geral foi modesta. Isso aponta para os desafios apresentados pelos novos conjuntos de dados que introduzimos.

Com o crescimento dos grandes modelos de linguagem, houve um aumento significativo em aplicações voltadas para áreas específicas. A necessidade de sistemas de QA precisos cresceu, mas muitos métodos gerais costumam falhar nessas áreas especializadas. Pesquisadores estão ativamente tentando encontrar maneiras de aprimorar esses sistemas.

Treinar e testar esses sistemas corretamente é vital. Há uma forte demanda por mais conjuntos de dados de QA específicos de domínio para ajudar nesse processo. Embora tenha havido vários esforços para criar conjuntos de dados em áreas como Medicina, Finanças e Jurídico, ainda falta conjuntos de dados voltados para produtos de software.

Para preencher essa lacuna, investigamos a criação de conjuntos de dados de QA específicos da indústria, particularmente focando nos conjuntos de dados da Adobe HelpX. Esses conjuntos de dados estão agora prontos para que outros usem como benchmarks para melhorar seus sistemas de QA. Eles incluem perguntas de usuários e as respostas correspondentes sobre produtos da Adobe.

Visão Geral do Conjunto de Dados

Os conjuntos de dados incluem perguntas e respostas típicas de usuários relevantes para Adobe Acrobat e Photoshop. Ao fornecer esses conjuntos de dados, queremos oferecer recursos valiosos para testar o desempenho de sistemas de QA especializados. Vamos liberar os conjuntos de dados assim que tivermos permissão da Adobe.

Além disso, apresentamos uma estrutura única que integra conhecimento de domínio em sistemas de QA. Essa estrutura utiliza bases de conhecimento abrangentes para expandir as consultas dos usuários, melhorando tanto a recuperação quanto a geração de respostas em tarefas de QA de produtos.

Através de testes extensivos, descobrimos que recuperar informações com precisão desses conjuntos de dados é desafiador. Mesmo ao aproveitar o conhecimento dos conjuntos de dados para reformular consultas, a melhoria no desempenho do modelo foi limitada, destacando as dificuldades inerentes a esses conjuntos de dados.

Ao liberar esses conjuntos de dados e propor essa estrutura inovadora, esperamos avançar o uso de grandes modelos de linguagem em tarefas específicas de QA, melhorando a experiência dos usuários em várias indústrias.

Trabalhos Relacionados

Vários esforços foram feitos para criar benchmarks de QA e conjuntos de dados de treinamento em diferentes campos, incluindo setores biomédicos, financeiros e jurídicos. Em contraste, nosso foco é em QA de produtos, que possui um valor significativo em muitos ambientes empresariais. Conjuntos de dados anteriores costumavam usar formatos de pergunta simples, enquanto nosso trabalho visa QA generativo.

Entre as pesquisas relevantes, um conjunto de dados focou em responder consultas sobre produtos da Microsoft. No entanto, muitas perguntas exigiam respostas simples de sim/não, limitando a complexidade. Outro conjunto de dados, o PhotoshopQuiA, é semelhante ao nosso, pois também se refere ao Adobe Photoshop. No entanto, ele foca em perguntas de "por que", enquanto nós concentramos em perguntas de "como fazer", que exigem respostas detalhadas, passo a passo. Esses tipos de perguntas são desafiadores porque cada passo precisa ser preciso para que a resposta seja útil.

A estrutura de Geração Aumentada por Recuperação (RAG) tem sido pesquisada há algum tempo. Trabalhos futuros sugerem encontrar métodos para utilizar completamente os grandes modelos de linguagem para aprimorar sistemas RAG específicos de domínio. Avanços recentes visaram melhorar a geração contextual em campos específicos, incorporando conhecimento externo. Por exemplo, um método usou estruturas em árvore para mostrar relações em documentos; no entanto, essa abordagem não funcionaria para nosso conjunto de dados, que carece de tal organização.

Outro método específico de contexto envolve treinar um modelo com conhecimento relevante e depois usá-lo para ajudar um grande modelo de linguagem a produzir respostas mais detalhadas. Nossa abordagem se baseia nisso criando uma base de conhecimento composta por relações e um processo de reformulação de consulta em múltiplas etapas. Nossa própria avaliação de grandes modelos de linguagem para várias tarefas apoia sua eficácia em aprimorar respostas. Além disso, exploramos a possibilidade de enriquecer consultas ao sugerir esses modelos em diferentes configurações de aprendizado. Nosso trabalho leva esse conceito adiante ao incorporar tuplas de bases de conhecimento na expansão de consultas.

Criação do Conjunto de Dados

Pré-processamento de Dados

Obtivemos nossos dados a partir de páginas da Adobe HelpX que oferecem instruções sobre como usar Adobe Acrobat e Photoshop. Um script foi usado para extrair conteúdo dessas páginas, dividindo-o em seções com base em títulos. Cada seção geralmente diz respeito a uma tarefa ou tópico específico dentro do software. Essa estrutura ajuda na análise focada.

Durante esse processo, quaisquer links clicáveis e imagens dentro das páginas foram removidos, garantindo que nosso conjunto de dados consistisse apenas de conteúdo textual.

Criando Pares de Pergunta-Resposta

Pares de perguntas e respostas de alta qualidade foram cuidadosamente elaborados. Especialistas em produtos foram contratados para redigir perguntas de como fazer e fornecer respostas detalhadas para tarefas específicas usando o software. Cada par de QA foi conectado à sua página da web de origem para verificação.

Para o Adobe Acrobat, os especialistas criaram manualmente pares com base nas páginas da HelpX. Para o Adobe Photoshop, inicialmente geramos pares usando um modelo de IA, que foram então revisados e corrigidos pelos especialistas para garantir precisão e relevância.

Esse método de criação de pares de pergunta-resposta garante que o conjunto de dados seja confiável e útil para avaliar pesquisas focadas em produtos de software.

Análise de Dados e Estatísticas

Os conjuntos de dados para Adobe Acrobat e Photoshop incluem perguntas, respostas e links para suas respectivas páginas da web de origem. Todas as perguntas são do tipo como fazer, pedindo etapas para realizar tarefas como editar texto ou adicionar imagens em PDFs. As respostas fornecem guias passo a passo, e as URLs permitem que os usuários verifiquem as informações.

Responder a essas perguntas de como fazer pode ser difícil porque cada passo é importante. Uma resposta deve conter instruções precisas, e qualquer erro pode afetar a utilidade geral. Por exemplo, no conjunto de dados do Adobe Acrobat, o número médio de passos necessários para responder a uma consulta é de cerca de 4,71, mostrando que a maioria das perguntas envolve múltiplos passos.

Um exemplo de uma consulta é "Como inserir imagens em um PDF?" com uma resposta correspondente em múltiplos passos detalhando as etapas exatas.

Além disso, muitas perguntas no conjunto de dados do Acrobat são implícitas ou ambíguas, levando a várias interpretações. Nossa estrutura de QA proposta é projetada para lidar efetivamente com essas complexidades.

Para avaliar a aplicabilidade geral de nossa estrutura, também criamos um conjunto de dados sintético focado no Adobe Photoshop, que espelha o conjunto de dados do Acrobat em termos de tipos de perguntas e comprimentos de resposta. Embora essas perguntas sintéticas sejam bem formadas e claras, ainda nos permitem medir quão bem nossa estrutura pode se adaptar.

Ambos os conjuntos de dados servem como benchmarks importantes, representando consultas reais de usuários e perguntas controladas. Eles fornecem uma variedade de cenários, tornando-os valiosos para pesquisas no domínio do software.

Categorias de Perguntas

Dentro do conjunto de dados do Acrobat, várias categorias de perguntas são estabelecidas, cada uma com exemplos ilustrando os tipos de consultas que os usuários podem fazer.

O fluxo de trabalho típico em um processo padrão de RAG-QA envolve um recuperador selecionando documentos relevantes com base na pergunta de entrada. Nossa abordagem adiciona uma etapa inicial de reformulação de consulta que refina as consultas do usuário usando conhecimento derivado de nossas triplas. Essa reformulação garante que as consultas estejam melhor adequadas para a recuperação, aumentando a eficácia do sistema.

Nosso pipeline inclui múltiplas etapas, desde a geração de triplas de base de conhecimento até a recuperação e aprimoramento de consultas, o que, em última análise, melhora a qualidade das respostas geradas.

Etapa 1: Gerando Triplas

A primeira etapa é representar cada documento como um conjunto de triplas que capturam informações-chave. Cada tripla segue o formato (Fonte, Ação, Alvo), que se alinha com possíveis consultas de usuários. Por exemplo, um documento sobre edição de texto pode produzir a tripla (manípulo de rotação, rotacionar, caixa de texto), indicando que o manípulo de rotação afeta a caixa de texto.

Cada documento produz um número variável de triplas, geralmente entre 1 a 35, dependendo do conteúdo. Essas triplas são então codificadas e organizadas de forma que permitam buscas eficientes.

Etapa 2: Recuperando Triplas

Essa etapa pega a consulta do usuário e busca por triplas relevantes calculando scores de similaridade entre a consulta e as triplas armazenadas. Esse método ajuda a recuperar várias triplas relevantes para cada consulta do usuário.

Etapa 3: Classificando Relevância

Após a recuperação, filtramos as triplas mais relevantes usando um LLM. O conteúdo do documento e a lista de triplas recuperadas são fornecidos como entrada para o modelo, que identifica as relações mais pertinentes. Somente as triplas consideradas relevantes são usadas nas próximas etapas.

Etapa 4: Aprimorando a Consulta

Neste ponto, a consulta do usuário é reformulada para incluir detalhes necessários que ajudem no processo de recuperação. Esse aprimoramento permite que o recuperador faça buscas mais precisas. As triplas relevantes e a consulta original do usuário são apresentadas ao LLM, que reformula a consulta.

Avaliação de Desempenho

Realizamos diversos experimentos usando nossos conjuntos de dados, medindo a eficácia de nossa estrutura de QA em comparação com vários métodos de baseline. Vários recuperadores foram testados juntamente com diferentes componentes no pipeline RAG-QA.

Através dessas avaliações, nosso método proposto consistentemente mostrou melhorias em relação aos métodos de baseline. As métricas de avaliação incluíram taxas de acerto e scores de similaridade semântica para avaliar a qualidade das saídas geradas por nossa abordagem.

Baselines e Resultados

Usando os métodos BM25 e Recuperação de Passagens Densas (DPR) como baselines, avaliamos seu desempenho em relação à nossa estrutura proposta. Nossos resultados indicaram que o método DPR geralmente performou melhor que o BM25. Além disso, nossa estrutura superou outras que dependiam apenas do prompting geral de LLM sem a inclusão de conhecimento específico de domínio.

Análise de Erros

Embora nossa abordagem possa identificar eficazmente entidades relacionadas, também notamos erros que ocorreram durante a recuperação. Por exemplo, uma consulta sobre reduzir o tamanho de um PDF foi mal interpretada devido ao foco em palavras-chave em vez da intenção da consulta. Isso destaca a necessidade crítica de mecanismos de recuperação eficientes em nossa estrutura.

Também reconhecemos que as métricas de score de similaridade eram apenas marginalmente mais altas do que seus equivalentes de recuperação. Essa observação nos levou a considerar métricas adicionais, como o Ganho Cumulativo Normalizado Descontado (NDCG), para fornecer uma avaliação mais abrangente do desempenho do nosso sistema.

Conclusão

Resumindo, introduzimos dois conjuntos de dados focados em QA centrados em Adobe Acrobat e Photoshop, servindo como benchmarks para uma nova estrutura RAG-QA voltada para perguntas longas e procedimentais específicas. A estrutura incorpora conhecimento de domínio para aprimorar a recuperação de informações e a geração de respostas.

No geral, nossa pesquisa abre caminhos para futuras melhorias, incluindo o potencial para aplicações mais amplas em diferentes indústrias e o aprimoramento de sistemas de recuperação para reduzir ruídos durante a Reformulação de Consultas. Abordar essas limitações é essencial para avançar o campo dos sistemas de perguntas e respostas em domínios especializados.

Novos conjuntos de dados de QA focam em produtos da Adobe

Visão Geral do Conjunto de Dados

Trabalhos Relacionados

Criação do Conjunto de Dados

Pré-processamento de Dados

Criando Pares de Pergunta-Resposta

Análise de Dados e Estatísticas

Categorias de Perguntas

Etapa 1: Gerando Triplas

Etapa 2: Recuperando Triplas

Etapa 3: Classificando Relevância

Etapa 4: Aprimorando a Consulta

Avaliação de Desempenho

Baselines e Resultados

Análise de Erros

Conclusão

Ligações de referência

Tópicos referenciados

Mais de autores

Artigos semelhantes

Novos conjuntos de dados de QA focam em produtos da Adobe

#Visão Geral do Conjunto de Dados

#Trabalhos Relacionados

#Criação do Conjunto de Dados

#Pré-processamento de Dados

#Criando Pares de Pergunta-Resposta

#Análise de Dados e Estatísticas

#Categorias de Perguntas

#Etapa 1: Gerando Triplas

#Etapa 2: Recuperando Triplas

#Etapa 3: Classificando Relevância

#Etapa 4: Aprimorando a Consulta

#Avaliação de Desempenho

#Baselines e Resultados

#Análise de Erros

#Conclusão

Ligações de referência

Tópicos referenciados

Mais de autores

Artigos semelhantes

Visão Geral do Conjunto de Dados

Trabalhos Relacionados

Criação do Conjunto de Dados

Pré-processamento de Dados

Criando Pares de Pergunta-Resposta

Análise de Dados e Estatísticas

Categorias de Perguntas

Etapa 1: Gerando Triplas

Etapa 2: Recuperando Triplas

Etapa 3: Classificando Relevância

Etapa 4: Aprimorando a Consulta

Avaliação de Desempenho

Baselines e Resultados

Análise de Erros

Conclusão