Apresentando o Spider4SPARQL: Um Novo Conjunto de Dados de Referência para Consultar Grafos de Conhecimento
Spider4SPARQL melhora os testes para traduzir linguagem natural em consultas SPARQL.
― 9 min ler
Índice
Nos últimos anos, os modelos de linguagem grandes (LLMs) se tornaram super populares. Eles conseguem processar e responder perguntas usando Linguagem Natural. Com o uso crescente desses modelos, é importante ter boas formas de testar o quão bem eles funcionam, especialmente para responder perguntas baseadas em gráficos de conhecimento. Gráficos de conhecimento são sistemas que guardam informações de um jeito estruturado, facilitando a busca por detalhes específicos.
A maioria dos testes atuais para esses sistemas depende de métodos que usam padrões fixos para criar Consultas. Depois, perguntas em linguagem natural são geradas através de métodos como crowdsourcing ou parafraseamento automatizado. Embora alguns desses conjuntos de dados sejam bem grandes, eles frequentemente não lidam com as perguntas variadas e confusas que pessoas reais poderiam fazer.
Esse trabalho apresenta um novo conjunto de dados chamado Spider4SPARQL, que inclui um grande número de perguntas e padrões de consulta complexos. Esse conjunto tem 9.693 perguntas em linguagem natural e 4.721 consultas SPARQL únicas. Junto com isso, há 166 gráficos de conhecimento cobrindo várias áreas. Esse benchmark permite uma melhor avaliação das forças e fraquezas dos sistemas atuais.
A Necessidade de Melhores Conjuntos de Dados de Benchmark
Construir sistemas que conseguem consultar bancos de dados ou gráficos de conhecimento usando linguagem natural é um campo de estudo importante. Esses sistemas normalmente se encaixam em duas categorias: os baseados em regras e os que usam aprendizado de máquina. O sucesso dos modelos de linguagem grandes intensificou ainda mais a necessidade de conjuntos de dados feitos explicitamente para traduzir linguagem natural em linguagem de consulta.
Os primeiros benchmarks como o WikiSQL prepararam o terreno para essas tarefas de tradução. Logo surgiram benchmarks para consultar gráficos de conhecimento, como o LC-QuAD, que inclui 5.000 pares de linguagem natural/SPARQL. No entanto, benchmarks anteriores carecem da complexidade necessária para as aplicações do mundo real de hoje. Por exemplo, alguns lidam apenas com consultas simples envolvendo projeções de dados únicas.
O LC-QuAD 2.0 tinha como objetivo resolver essas questões por ser muito maior, mas ainda falta a complexidade exigida para aplicações práticas. Outros conjuntos de dados, como o DBNQA, embora extensos, ainda ficam aquém em termos de complexidade nas perguntas e consultas.
Introduzindo o Spider4SPARQL
Atualmente, não existe um benchmark abrangente que englobe a complexidade necessária para treinar sistemas para uso no mundo real. Para preencher essa lacuna, o Spider4SPARQL foi desenvolvido. Esse conjunto de dados apresenta uma variedade maior de consultas complexas em comparação com conjuntos de dados anteriores.
O Spider4SPARQL é construído em cima do conjunto de dados original Spider, que serve como benchmark para consultar bancos de dados relacionais. O novo conjunto mantém mais de 100 submissões em sua tabela de classificação e inclui 10.181 pares de linguagem natural/SQL. Ele foi convertido em pares de linguagem natural/SPARQL, e todos os dados estão disponíveis no GitHub.
As contribuições significativas desse conjunto de dados são:
- Uma análise dos benchmarks existentes para tarefas de resposta a perguntas sobre gráficos de conhecimento (KGQA).
- O lançamento do Spider4SPARQL, que contém consultas altamente complexas projetadas para diversos domínios. Esse conjunto de dados também está disponível para uso público.
O Spider4SPARQL mostrou que mesmo modelos de linguagem avançados só conseguem cerca de 45% de precisão ao converter linguagem natural em SPARQL. Isso indica que ainda há muito espaço para melhorias nos sistemas existentes.
Trabalhos Relacionados
Nesta seção, revisamos os principais gráficos de conhecimento e os conjuntos de dados comuns usados para avaliar sistemas de KGQA.
Gráficos de Conhecimento
Os gráficos de conhecimento de código aberto mais conhecidos incluem Wikidata e DBpedia.
Wikidata serve como um banco de dados colaborativo gratuito que coleta dados estruturados para apoiar vários projetos online, incluindo a Wikipedia. Com mais de 102 milhões de itens de dados e cobertura em 331 idiomas, é um recurso enorme. No entanto, qualquer pessoa pode contribuir, o que significa que as informações podem mudar frequentemente e nem sempre ser precisas.
DBpedia é um gráfico de conhecimento curado que extrai dados de diferentes línguas da Wikipedia. Esse gráfico é mantido por uma comunidade que garante mapeamentos precisos da Wikipedia para sua estrutura subjacente.
Conjuntos de Dados de Benchmark para Avaliar Sistemas KGQA
Dado que os gráficos de conhecimento frequentemente se atualizam, os conjuntos de dados de benchmark podem ficar rapidamente desatualizados. Isso significa que pares de linguagem natural/SPARQL anteriores podem não funcionar corretamente devido a mudanças nos gráficos subjacentes.
O conjunto de dados DBNQA apresenta uma grande coleção de pares de linguagem natural/SPARQL criados a partir de modelos existentes. Contudo, as consultas frequentemente carecem da complexidade necessária. O mesmo pode ser dito sobre outros conjuntos de dados como o LC-QuAD, que foi atualizado, mas ainda não captura a riqueza das consultas do mundo real.
O Spider4SPARQL proporciona uma melhoria necessária em relação a esses conjuntos de dados anteriores, incorporando perguntas e consultas que imitam melhor as complexidades encontradas em aplicações do mundo real.
Criando o Conjunto de Dados Spider4SPARQL
Esta seção descreve como o conjunto de dados Spider4SPARQL foi construído.
Construindo Gráficos de Conhecimento a partir de Bancos de Dados Relacionais
A base do conjunto de dados Spider4SPARQL está no conjunto de dados original Spider, que é projetado para bancos de dados relacionais. Nosso objetivo é converter esses bancos de dados em gráficos de conhecimento e consultas associadas.
Para fazer isso de maneira eficaz, podemos usar os padrões fornecidos pelo Consórcio World Wide Web (W3C) que delineiam maneiras de mapear dados relacionais para gráficos estruturados.
Aplicando Mapeamento Direto
O Mapeamento Direto é um método que permite transformar um banco de dados relacional em um gráfico de conhecimento, mantendo seu vocabulário original. Cada tabela de um banco de dados se torna uma classe na ontologia, e cada atributo se torna uma propriedade.
No entanto, um desafio com o Mapeamento Direto é que ele não retém o esquema completo do banco de dados original. Em vez disso, retém apenas algumas informações, o que pode levar a dificuldades na realização de consultas mais complexas.
Convertendo Bancos de Dados em Gráficos de Conhecimento
Para converter efetivamente o conjunto de dados original Spider de SQLite para um formato mais robusto que possa ser usado com gráficos de conhecimento, usamos PostgreSQL. Este processo envolveu a resolução de erros na modelagem de dados para que as chaves fossem atribuídas corretamente, melhorando a qualidade geral dos dados.
Desafios na Conversão de Consultas
Em seguida, precisamos traduzir as consultas SQL em SPARQL. Um passo importante nesse processo foi converter SQL em uma linguagem intermediária chamada SemQL. Essa linguagem facilita traduções mais fáceis entre linguagem natural e linguagens de consulta.
Desafios na Conversão de Consultas
Um desafio significativo na conversão de SQL para SPARQL é lidar com operações de agregação e operações de conjunto. Às vezes, o SQL permite uma mistura de operações agregadas e não agregadas, o que o SPARQL não suporta. Assim, é necessário ajustar essas consultas para garantir que estejam em conformidade com os padrões do SPARQL.
Avaliando o Conjunto de Dados Spider4SPARQL
Agora, analisamos a eficácia do conjunto de dados Spider4SPARQL.
Geração de Perguntas em Linguagem Natural
As perguntas em linguagem natural no Spider4SPARQL não foram criadas automaticamente. Em vez disso, foram desenvolvidas manualmente. Esse processo manual ajuda a evitar as armadilhas comuns associadas a perguntas geradas automaticamente, como cobertura muito restrita de entidades relevantes.
Análise de Complexidade
O Spider4SPARQL se destaca em sua complexidade em comparação com conjuntos de dados existentes. As consultas foram categorizadas em três tipos: consultas de uma única etapa, consultas de múltiplas etapas e consultas de agregação.
- Consultas de uma única etapa: O Spider4SPARQL inclui uma ampla gama dessas consultas, enquanto outros conjuntos de dados têm um escopo limitado.
- Consultas de múltiplas etapas: Muitas consultas no Spider4SPARQL permitem várias etapas, possibilitando perguntas mais complexas. Outros bancos de dados normalmente se limitam a menos etapas.
- Consultas de agregação: A inclusão de múltiplos tipos de agregação é outra força do Spider4SPARQL em comparação com outros conjuntos de dados que se concentram principalmente em contagens simples de agregação.
Avaliação Experimental do Conjunto de Dados
Medimos o quão bem o Spider4SPARQL se saiu testando vários modelos de linguagem no conjunto de dados.
Precisão de Execução
Diferentes modelos treinados e sua precisão de execução foram avaliados em relação às perguntas em linguagem natural no Spider4SPARQL. Enquanto modelos menores se saíram razoavelmente bem, modelos maiores tiveram resultados significativamente melhores.
Análise de Modelos Ajustados
Modelos ajustados mostraram que um tamanho maior leva a um desempenho melhor. As diferenças na precisão sugerem que mais parâmetros ajudam a capturar a complexidade de forma mais eficaz.
Aprendizado Zero-Shot e Few-Shot
Quando testados usando aprendizado zero-shot, os modelos tiveram um desempenho ruim, enquanto o aprendizado few-shot aumentou significativamente a precisão. Isso indica que fornecer exemplos ao modelo ajuda a melhorar sua compreensão e desempenho.
Desempenho em Diferentes Características de Consultas
Observamos o desempenho de cada modelo em diferentes tipos de consultas e avaliamos como eles se saíram em consultas fáceis versus difíceis.
Os modelos se destacaram em consultas simples, mas tiveram dificuldade com as mais complexas que exigem raciocínio mais profundo ou múltiplas etapas.
Conclusão
O Spider4SPARQL oferece um novo e ambicioso benchmark para avaliar sistemas que convertem perguntas em linguagem natural em linguagens de consulta. A complexidade do conjunto de dados desafia os modelos existentes, demonstrando que ainda há um longo caminho a percorrer até que essas ferramentas possam lidar com confiança com cenários do mundo real.
Trabalhos futuros buscarão aprimorar ainda mais o conjunto de dados, introduzindo mais consultas específicas em SPARQL e ampliando seu escopo para incluir vários idiomas.
No geral, este projeto visa contribuir para a pesquisa em andamento que, em última análise, avança a forma como interagimos com dados usando nossa linguagem cotidiana.
Título: Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph Question Answering Systems
Resumo: With the recent spike in the number and availability of Large Language Models (LLMs), it has become increasingly important to provide large and realistic benchmarks for evaluating Knowledge Graph Question Answering (KGQA) systems. So far the majority of benchmarks rely on pattern-based SPARQL query generation approaches. The subsequent natural language (NL) question generation is conducted through crowdsourcing or other automated methods, such as rule-based paraphrasing or NL question templates. Although some of these datasets are of considerable size, their pitfall lies in their pattern-based generation approaches, which do not always generalize well to the vague and linguistically diverse questions asked by humans in real-world contexts. In this paper, we introduce Spider4SPARQL - a new SPARQL benchmark dataset featuring 9,693 previously existing manually generated NL questions and 4,721 unique, novel, and complex SPARQL queries of varying complexity. In addition to the NL/SPARQL pairs, we also provide their corresponding 166 knowledge graphs and ontologies, which cover 138 different domains. Our complex benchmark enables novel ways of evaluating the strengths and weaknesses of modern KGQA systems. We evaluate the system with state-of-the-art KGQA systems as well as LLMs, which achieve only up to 45\% execution accuracy, demonstrating that Spider4SPARQL is a challenging benchmark for future research.
Autores: Catherine Kosten, Philippe Cudré-Mauroux, Kurt Stockinger
Última atualização: 2023-12-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.16248
Fonte PDF: https://arxiv.org/pdf/2309.16248
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/KGQA/leaderboard
- https://yale-lily.github.io/spider
- https://kgqa.github.io/leaderboard/
- https://www.wikidata.org/
- https://www.dbpedia.org/
- https://www.wikipedia.org/
- https://github.com/ag-sc/QALD/blob/master/7/data/qald-7-train-en-wikidata.json
- https://github.com/AKSW/DBNQA
- https://qald.aksw.org/
- https://www.w3.org/TR/sparql11-query/
- https://github.com/KGQA/leaderboard/blob/gh-pages/dbpedia/lcquad.md
- https://valuenet/ontop/
- https://github.com/taoyds/spider/blob/master/evaluation