Apresentando o Spider4SPARQL: Um Novo Conjunto de Dados de Referência para Consultar Grafos de Conhecimento

Índice

A Necessidade de Melhores Conjuntos de Dados de Benchmark
Introduzindo o Spider4SPARQL
Trabalhos Relacionados
Criando o Conjunto de Dados Spider4SPARQL
Avaliando o Conjunto de Dados Spider4SPARQL
Avaliação Experimental do Conjunto de Dados
Conclusão
Fonte original
Ligações de referência

Nos últimos anos, os modelos de linguagem grandes (LLMs) se tornaram super populares. Eles conseguem processar e responder perguntas usando Linguagem Natural. Com o uso crescente desses modelos, é importante ter boas formas de testar o quão bem eles funcionam, especialmente para responder perguntas baseadas em gráficos de conhecimento. Gráficos de conhecimento são sistemas que guardam informações de um jeito estruturado, facilitando a busca por detalhes específicos.

A maioria dos testes atuais para esses sistemas depende de métodos que usam padrões fixos para criar Consultas. Depois, perguntas em linguagem natural são geradas através de métodos como crowdsourcing ou parafraseamento automatizado. Embora alguns desses conjuntos de dados sejam bem grandes, eles frequentemente não lidam com as perguntas variadas e confusas que pessoas reais poderiam fazer.

Esse trabalho apresenta um novo conjunto de dados chamado Spider4SPARQL, que inclui um grande número de perguntas e padrões de consulta complexos. Esse conjunto tem 9.693 perguntas em linguagem natural e 4.721 consultas SPARQL únicas. Junto com isso, há 166 gráficos de conhecimento cobrindo várias áreas. Esse benchmark permite uma melhor avaliação das forças e fraquezas dos sistemas atuais.

A Necessidade de Melhores Conjuntos de Dados de Benchmark

Construir sistemas que conseguem consultar bancos de dados ou gráficos de conhecimento usando linguagem natural é um campo de estudo importante. Esses sistemas normalmente se encaixam em duas categorias: os baseados em regras e os que usam aprendizado de máquina. O sucesso dos modelos de linguagem grandes intensificou ainda mais a necessidade de conjuntos de dados feitos explicitamente para traduzir linguagem natural em linguagem de consulta.

Os primeiros benchmarks como o WikiSQL prepararam o terreno para essas tarefas de tradução. Logo surgiram benchmarks para consultar gráficos de conhecimento, como o LC-QuAD, que inclui 5.000 pares de linguagem natural/SPARQL. No entanto, benchmarks anteriores carecem da complexidade necessária para as aplicações do mundo real de hoje. Por exemplo, alguns lidam apenas com consultas simples envolvendo projeções de dados únicas.

O LC-QuAD 2.0 tinha como objetivo resolver essas questões por ser muito maior, mas ainda falta a complexidade exigida para aplicações práticas. Outros conjuntos de dados, como o DBNQA, embora extensos, ainda ficam aquém em termos de complexidade nas perguntas e consultas.

Introduzindo o Spider4SPARQL

Atualmente, não existe um benchmark abrangente que englobe a complexidade necessária para treinar sistemas para uso no mundo real. Para preencher essa lacuna, o Spider4SPARQL foi desenvolvido. Esse conjunto de dados apresenta uma variedade maior de consultas complexas em comparação com conjuntos de dados anteriores.

O Spider4SPARQL é construído em cima do conjunto de dados original Spider, que serve como benchmark para consultar bancos de dados relacionais. O novo conjunto mantém mais de 100 submissões em sua tabela de classificação e inclui 10.181 pares de linguagem natural/SQL. Ele foi convertido em pares de linguagem natural/SPARQL, e todos os dados estão disponíveis no GitHub.

As contribuições significativas desse conjunto de dados são:

Uma análise dos benchmarks existentes para tarefas de resposta a perguntas sobre gráficos de conhecimento (KGQA).
O lançamento do Spider4SPARQL, que contém consultas altamente complexas projetadas para diversos domínios. Esse conjunto de dados também está disponível para uso público.

O Spider4SPARQL mostrou que mesmo modelos de linguagem avançados só conseguem cerca de 45% de precisão ao converter linguagem natural em SPARQL. Isso indica que ainda há muito espaço para melhorias nos sistemas existentes.

Trabalhos Relacionados

Nesta seção, revisamos os principais gráficos de conhecimento e os conjuntos de dados comuns usados para avaliar sistemas de KGQA.

Gráficos de Conhecimento

Os gráficos de conhecimento de código aberto mais conhecidos incluem Wikidata e DBpedia.

Wikidata serve como um banco de dados colaborativo gratuito que coleta dados estruturados para apoiar vários projetos online, incluindo a Wikipedia. Com mais de 102 milhões de itens de dados e cobertura em 331 idiomas, é um recurso enorme. No entanto, qualquer pessoa pode contribuir, o que significa que as informações podem mudar frequentemente e nem sempre ser precisas.

DBpedia é um gráfico de conhecimento curado que extrai dados de diferentes línguas da Wikipedia. Esse gráfico é mantido por uma comunidade que garante mapeamentos precisos da Wikipedia para sua estrutura subjacente.

Conjuntos de Dados de Benchmark para Avaliar Sistemas KGQA

Dado que os gráficos de conhecimento frequentemente se atualizam, os conjuntos de dados de benchmark podem ficar rapidamente desatualizados. Isso significa que pares de linguagem natural/SPARQL anteriores podem não funcionar corretamente devido a mudanças nos gráficos subjacentes.

O conjunto de dados DBNQA apresenta uma grande coleção de pares de linguagem natural/SPARQL criados a partir de modelos existentes. Contudo, as consultas frequentemente carecem da complexidade necessária. O mesmo pode ser dito sobre outros conjuntos de dados como o LC-QuAD, que foi atualizado, mas ainda não captura a riqueza das consultas do mundo real.

O Spider4SPARQL proporciona uma melhoria necessária em relação a esses conjuntos de dados anteriores, incorporando perguntas e consultas que imitam melhor as complexidades encontradas em aplicações do mundo real.

Criando o Conjunto de Dados Spider4SPARQL

Esta seção descreve como o conjunto de dados Spider4SPARQL foi construído.

Construindo Gráficos de Conhecimento a partir de Bancos de Dados Relacionais

A base do conjunto de dados Spider4SPARQL está no conjunto de dados original Spider, que é projetado para bancos de dados relacionais. Nosso objetivo é converter esses bancos de dados em gráficos de conhecimento e consultas associadas.

Para fazer isso de maneira eficaz, podemos usar os padrões fornecidos pelo Consórcio World Wide Web (W3C) que delineiam maneiras de mapear dados relacionais para gráficos estruturados.

Aplicando Mapeamento Direto

O Mapeamento Direto é um método que permite transformar um banco de dados relacional em um gráfico de conhecimento, mantendo seu vocabulário original. Cada tabela de um banco de dados se torna uma classe na ontologia, e cada atributo se torna uma propriedade.

No entanto, um desafio com o Mapeamento Direto é que ele não retém o esquema completo do banco de dados original. Em vez disso, retém apenas algumas informações, o que pode levar a dificuldades na realização de consultas mais complexas.

Convertendo Bancos de Dados em Gráficos de Conhecimento

Para converter efetivamente o conjunto de dados original Spider de SQLite para um formato mais robusto que possa ser usado com gráficos de conhecimento, usamos PostgreSQL. Este processo envolveu a resolução de erros na modelagem de dados para que as chaves fossem atribuídas corretamente, melhorando a qualidade geral dos dados.

Desafios na Conversão de Consultas

Em seguida, precisamos traduzir as consultas SQL em SPARQL. Um passo importante nesse processo foi converter SQL em uma linguagem intermediária chamada SemQL. Essa linguagem facilita traduções mais fáceis entre linguagem natural e linguagens de consulta.

Desafios na Conversão de Consultas

Um desafio significativo na conversão de SQL para SPARQL é lidar com operações de agregação e operações de conjunto. Às vezes, o SQL permite uma mistura de operações agregadas e não agregadas, o que o SPARQL não suporta. Assim, é necessário ajustar essas consultas para garantir que estejam em conformidade com os padrões do SPARQL.

Avaliando o Conjunto de Dados Spider4SPARQL

Agora, analisamos a eficácia do conjunto de dados Spider4SPARQL.

Geração de Perguntas em Linguagem Natural

As perguntas em linguagem natural no Spider4SPARQL não foram criadas automaticamente. Em vez disso, foram desenvolvidas manualmente. Esse processo manual ajuda a evitar as armadilhas comuns associadas a perguntas geradas automaticamente, como cobertura muito restrita de entidades relevantes.

Análise de Complexidade

O Spider4SPARQL se destaca em sua complexidade em comparação com conjuntos de dados existentes. As consultas foram categorizadas em três tipos: consultas de uma única etapa, consultas de múltiplas etapas e consultas de agregação.

Consultas de uma única etapa: O Spider4SPARQL inclui uma ampla gama dessas consultas, enquanto outros conjuntos de dados têm um escopo limitado.
Consultas de múltiplas etapas: Muitas consultas no Spider4SPARQL permitem várias etapas, possibilitando perguntas mais complexas. Outros bancos de dados normalmente se limitam a menos etapas.
Consultas de agregação: A inclusão de múltiplos tipos de agregação é outra força do Spider4SPARQL em comparação com outros conjuntos de dados que se concentram principalmente em contagens simples de agregação.

Avaliação Experimental do Conjunto de Dados

Medimos o quão bem o Spider4SPARQL se saiu testando vários modelos de linguagem no conjunto de dados.

Precisão de Execução

Diferentes modelos treinados e sua precisão de execução foram avaliados em relação às perguntas em linguagem natural no Spider4SPARQL. Enquanto modelos menores se saíram razoavelmente bem, modelos maiores tiveram resultados significativamente melhores.

Análise de Modelos Ajustados

Modelos ajustados mostraram que um tamanho maior leva a um desempenho melhor. As diferenças na precisão sugerem que mais parâmetros ajudam a capturar a complexidade de forma mais eficaz.

Aprendizado Zero-Shot e Few-Shot

Quando testados usando aprendizado zero-shot, os modelos tiveram um desempenho ruim, enquanto o aprendizado few-shot aumentou significativamente a precisão. Isso indica que fornecer exemplos ao modelo ajuda a melhorar sua compreensão e desempenho.

Desempenho em Diferentes Características de Consultas

Observamos o desempenho de cada modelo em diferentes tipos de consultas e avaliamos como eles se saíram em consultas fáceis versus difíceis.

Os modelos se destacaram em consultas simples, mas tiveram dificuldade com as mais complexas que exigem raciocínio mais profundo ou múltiplas etapas.

Conclusão

O Spider4SPARQL oferece um novo e ambicioso benchmark para avaliar sistemas que convertem perguntas em linguagem natural em linguagens de consulta. A complexidade do conjunto de dados desafia os modelos existentes, demonstrando que ainda há um longo caminho a percorrer até que essas ferramentas possam lidar com confiança com cenários do mundo real.

Trabalhos futuros buscarão aprimorar ainda mais o conjunto de dados, introduzindo mais consultas específicas em SPARQL e ampliando seu escopo para incluir vários idiomas.

No geral, este projeto visa contribuir para a pesquisa em andamento que, em última análise, avança a forma como interagimos com dados usando nossa linguagem cotidiana.

Apresentando o Spider4SPARQL: Um Novo Conjunto de Dados de Referência para Consultar Grafos de Conhecimento

Spider4SPARQL melhora os testes para traduzir linguagem natural em consultas SPARQL.

A Necessidade de Melhores Conjuntos de Dados de Benchmark

Introduzindo o Spider4SPARQL

Trabalhos Relacionados

Gráficos de Conhecimento

Conjuntos de Dados de Benchmark para Avaliar Sistemas KGQA

Criando o Conjunto de Dados Spider4SPARQL

Construindo Gráficos de Conhecimento a partir de Bancos de Dados Relacionais

Aplicando Mapeamento Direto

Convertendo Bancos de Dados em Gráficos de Conhecimento

Desafios na Conversão de Consultas

Desafios na Conversão de Consultas

Avaliando o Conjunto de Dados Spider4SPARQL

Geração de Perguntas em Linguagem Natural

Análise de Complexidade

Avaliação Experimental do Conjunto de Dados

Precisão de Execução

Análise de Modelos Ajustados

Aprendizado Zero-Shot e Few-Shot

Desempenho em Diferentes Características de Consultas

Conclusão

Ligações de referência

Tópicos referenciados

Apresentando o Spider4SPARQL: Um Novo Conjunto de Dados de Referência para Consultar Grafos de Conhecimento

Spider4SPARQL melhora os testes para traduzir linguagem natural em consultas SPARQL.

#A Necessidade de Melhores Conjuntos de Dados de Benchmark

#Introduzindo o Spider4SPARQL

#Trabalhos Relacionados

#Gráficos de Conhecimento

#Conjuntos de Dados de Benchmark para Avaliar Sistemas KGQA

#Criando o Conjunto de Dados Spider4SPARQL

#Construindo Gráficos de Conhecimento a partir de Bancos de Dados Relacionais

#Aplicando Mapeamento Direto

#Convertendo Bancos de Dados em Gráficos de Conhecimento

#Desafios na Conversão de Consultas

#Desafios na Conversão de Consultas

#Avaliando o Conjunto de Dados Spider4SPARQL

#Geração de Perguntas em Linguagem Natural

#Análise de Complexidade

#Avaliação Experimental do Conjunto de Dados

#Precisão de Execução

#Análise de Modelos Ajustados

#Aprendizado Zero-Shot e Few-Shot

#Desempenho em Diferentes Características de Consultas

#Conclusão

Ligações de referência

Tópicos referenciados

A Necessidade de Melhores Conjuntos de Dados de Benchmark

Introduzindo o Spider4SPARQL

Trabalhos Relacionados

Gráficos de Conhecimento

Conjuntos de Dados de Benchmark para Avaliar Sistemas KGQA

Criando o Conjunto de Dados Spider4SPARQL

Construindo Gráficos de Conhecimento a partir de Bancos de Dados Relacionais

Aplicando Mapeamento Direto

Convertendo Bancos de Dados em Gráficos de Conhecimento

Desafios na Conversão de Consultas

Desafios na Conversão de Consultas

Avaliando o Conjunto de Dados Spider4SPARQL

Geração de Perguntas em Linguagem Natural

Análise de Complexidade

Avaliação Experimental do Conjunto de Dados

Precisão de Execução

Análise de Modelos Ajustados

Aprendizado Zero-Shot e Few-Shot

Desempenho em Diferentes Características de Consultas

Conclusão