Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Presentiamo Spider4SPARQL: Un Nuovo Dataset di Riferimento per Interrogare i Grafi di Conoscenza

Spider4SPARQL migliora il test per tradurre il linguaggio naturale in query SPARQL.

― 8 leggere min


Lanciato il benchmarkLanciato il benchmarkSpider4SPARQLquery.da linguaggio naturale a linguaggio diNuovo dataset migliora la conversione
Indice

Negli ultimi anni, i grandi modelli di linguaggio (LLM) sono diventati super popolari. Possono elaborare e rispondere a domande usando il linguaggio naturale. Con l'aumento dell'uso di questi modelli, è importante avere buoni metodi per testare quanto funzionano bene, soprattutto per rispondere a domande basate su Grafi di conoscenza. I grafi di conoscenza sono sistemi che memorizzano informazioni in modo strutturato, il che facilita il recupero di dettagli specifici.

La maggior parte dei test attuali per questi sistemi si basa su metodi che usano schemi fissi per creare query. Dopo, le domande in linguaggio naturale vengono generate tramite metodi come il crowdsourcing o la parafrasi automatizzata. Anche se alcuni di questi dataset sono abbastanza grandi, spesso non gestiscono le domande variegate e poco chiare che le persone reali potrebbero fare.

Questo lavoro presenta un nuovo dataset chiamato Spider4SPARQL, che include un gran numero di domande e schemi di query complessi. Questo dataset ha 9.693 domande in linguaggio naturale e 4.721 query SPARQL uniche. Insieme a queste, ci sono 166 grafi di conoscenza che coprono vari ambiti. Questo benchmark permette una valutazione migliore dei punti di forza e di debolezza nei sistemi attuali.

La necessità di migliori dataset di benchmark

Costruire sistemi che possono interrogare database o grafi di conoscenza usando il linguaggio naturale è un campo di studio significativo. Questi sistemi rientrano tipicamente in due categorie: quelli basati su regole e quelli che usano l'apprendimento automatico. Il successo dei grandi modelli di linguaggio ha ulteriormente intensificato la necessità di dataset creati esplicitamente per tradurre il linguaggio naturale in linguaggio di query.

I primi benchmark come WikiSQL hanno preparato il terreno per tali compiti di traduzione. Presto sono emersi benchmark per interrogare grafi di conoscenza, come LC-QuAD, che include 5.000 coppie di linguaggio naturale/SPARQL. Tuttavia, i benchmark precedenti mancano della complessità necessaria per le applicazioni reali di oggi. Ad esempio, alcuni gestiscono solo query semplici che coinvolgono proiezioni di dati singoli.

LC-QuAD 2.0 mirava a risolvere questi problemi essendo molto più grande, ma ancora non ha la complessità necessaria per applicazioni pratiche. Altri dataset, come DBNQA, anche se estesi, mancano ancora di complessità sia nelle domande che nelle query.

Introduzione di Spider4SPARQL

Attualmente, non esiste un benchmark completo che racchiuda la complessità necessaria per addestrare sistemi per un uso reale. Per colmare questa lacuna, è stato sviluppato Spider4SPARQL. Questo dataset presenta una varietà più ampia di query complesse rispetto ai dataset precedenti.

Spider4SPARQL è costruito sul dataset originale Spider, che funge da benchmark per interrogare database relazionali. Il nuovo dataset mantiene oltre 100 sottomissioni alla sua classifica e include 10.181 coppie di linguaggio naturale/SQL. È stato convertito in coppie linguaggio naturale/SPARQL, e tutti i dati sono disponibili su GitHub.

Le significative contribuzioni di questo dataset sono:

  1. Un'analisi dei benchmark esistenti per i compiti di risposta a domande sui grafi di conoscenza (KGQA).
  2. Il rilascio di Spider4SPARQL, che contiene query altamente complesse progettate per vari domini. Questo dataset è anche disponibile per uso pubblico.

Spider4SPARQL ha dimostrato che anche i modelli di linguaggio avanzati raggiungono solo circa il 45% di precisione quando si tratta di convertire il linguaggio naturale in SPARQL. Questo indica che c'è ancora molto spazio per migliorare nei sistemi esistenti.

Lavori correlati

In questa sezione, esaminiamo i principali grafi di conoscenza e i dataset comuni usati per valutare i sistemi KGQA.

Grafi di conoscenza

I noti grafi di conoscenza open-source includono Wikidata e DBpedia.

Wikidata serve come database collaborativo gratuito che raccoglie dati strutturati per supportare vari progetti online, tra cui Wikipedia. Con oltre 102 milioni di elementi di dati e copertura in 331 lingue, è una risorsa enorme. Tuttavia, chiunque può contribuire, il che significa che le informazioni possono cambiare frequentemente e potrebbero non essere sempre accurate.

DBpedia è un grafo di conoscenza curato che estrae dati da diverse lingue di Wikipedia. Questo grafo è mantenuto da una comunità che assicura mappature accurate da Wikipedia alla sua struttura sottostante.

Dataset di benchmark per la valutazione dei sistemi KGQA

Poiché i grafi di conoscenza si aggiornano spesso, i dataset di benchmark possono diventare rapidamente obsoleti. Ciò significa che le coppie di linguaggio naturale/SPARQL più vecchie potrebbero non funzionare correttamente a causa dei cambiamenti nei grafi sottostanti.

Il dataset DBNQA presenta una grande collezione di coppie di linguaggio naturale/SPARQL create da modelli esistenti. Tuttavia, le query mancano spesso della complessità necessaria. Lo stesso si può dire per altri dataset come LC-QuAD, che è stato aggiornato ma non cattura ancora la ricchezza delle query nel mondo reale.

Spider4SPARQL fornisce un miglioramento necessario rispetto a questi dataset precedenti, incorporando domande e query che meglio mimano le complessità trovate nelle applicazioni reali.

Creazione del dataset Spider4SPARQL

Questa sezione descrive come è stato costruito il dataset Spider4SPARQL.

Costruzione di grafi di conoscenza da database relazionali

La base del dataset Spider4SPARQL è il dataset originale Spider, progettato per database relazionali. Il nostro obiettivo è convertire questi database in grafi di conoscenza e query associate.

Per farlo in modo efficace, possiamo usare standard forniti dal World Wide Web Consortium (W3C) che delineano modi per mappare dati relazionali a grafi strutturati.

Applicazione del mapping diretto

Il mapping diretto è un metodo che ci consente di trasformare un database relazionale in un grafo di conoscenza mantenendo il suo vocabolario originale. Ogni tabella di un database diventa una classe nell'ontologia, e ogni attributo diventa una proprietà.

Tuttavia, una delle sfide del mapping diretto è che non conserva l'intero schema del database originale. Invece, conserva solo alcune informazioni, il che può portare a difficoltà nell'accesso a query più complesse.

Conversione di database in grafi di conoscenza

Per convertire efficacemente il dataset originale Spider da SQLite a un formato più robusto utilizzabile con grafi di conoscenza, abbiamo utilizzato PostgreSQL. Questo processo ha comportato la risoluzione di errori nel modeling dei dati in modo che le chiavi fossero correttamente assegnate, migliorando la qualità complessiva dei dati.

Sfide nella conversione delle query

Successivamente, dobbiamo tradurre le query SQL in SPARQL. Un passo importante in questo processo è stata la conversione di SQL in un linguaggio intermedio chiamato SemQL. Questo linguaggio facilita traduzioni più semplici tra il linguaggio naturale e i linguaggi di query.

Sfide nella conversione delle query

Una significativa sfida nella conversione da SQL a SPARQL è gestire le operazioni di aggregazione e le operazioni su insiemi. A volte SQL consente una mescolanza di operazioni aggregate e non aggregate, che SPARQL non supporta. Pertanto, è necessario adattare queste query per garantire che siano conformi agli standard SPARQL.

Valutazione del dataset Spider4SPARQL

Ora analizziamo l'efficacia del dataset Spider4SPARQL.

Generazione di domande in linguaggio naturale

Le domande in linguaggio naturale in Spider4SPARQL non sono state create automaticamente. Invece, sono state sviluppate manualmente. Questo processo manuale aiuta a evitare i problemi comuni associati a domande generate automaticamente, come una copertura troppo ristretta di entità rilevanti.

Analisi della complessità

Spider4SPARQL si distingue per la sua complessità rispetto ai dataset esistenti. Le query sono state categorizzate in tre tipi: query a singolo salto, query a più salti e query di aggregazione.

  • Query a singolo salto: Spider4SPARQL include una vasta gamma di queste query, mentre altri dataset hanno un ambito limitato.
  • Query a più salti: Molte query in Spider4SPARQL consentono diversi salti, permettendo domande più complesse. Altri database tendono a limitarsi a meno salti.
  • Query di aggregazione: L'inclusione di più tipi di aggregazione è un altro punto di forza di Spider4SPARQL rispetto ad altri dataset che si concentrano principalmente su semplici aggregazioni di conteggio.

Valutazione sperimentale del dataset

Abbiamo misurato quanto bene ha performato Spider4SPARQL testando vari modelli di linguaggio sul dataset.

Accuratezza di esecuzione

Diversi modelli addestrati e la loro accuratezza di esecuzione sono stati valutati rispetto alle domande in linguaggio naturale in Spider4SPARQL. Mentre i modelli più piccoli si sono comportati decentemente, i modelli più grandi hanno ottenuto risultati significativamente migliori.

Analisi dei modelli fine-tunati

I modelli fine-tunati hanno mostrato che dimensioni maggiori portano a migliori prestazioni. Le differenze nell'accuratezza suggeriscono che più parametri aiutano a catturare meglio la complessità.

Apprendimento zero-shot e few-shot

Quando testati utilizzando l'apprendimento zero-shot, i modelli hanno performato male, mentre l'apprendimento few-shot ha aumentato notevolmente l'accuratezza. Questo indica che fornire al modello esempi aiuta a migliorare la sua comprensione e prestazioni.

Performance su diverse caratteristiche delle query

Abbiamo osservato le prestazioni di ciascun modello su diversi tipi di query e valutato come si comportavano su query facili e difficili.

I modelli eccellevano nelle query dirette ma faticavano con quelle più complesse che richiedono ragionamenti più approfonditi o più passaggi.

Conclusione

Spider4SPARQL offre un nuovo, ambizioso benchmark per valutare i sistemi che convertono domande in linguaggio naturale in linguaggi di query. La complessità del dataset sfida i modelli esistenti, dimostrando che c'è ancora molta strada da fare prima che questi strumenti possano gestire con sicurezza scenari reali.

Il lavoro futuro cercherà di migliorare ulteriormente il dataset introducendo più query specifiche per SPARQL e ampliando il suo ambito per includere più lingue.

In generale, questo progetto mira a contribuire alla ricerca continua che infine avanza il modo in cui interagiamo con i dati usando il nostro linguaggio quotidiano.

Fonte originale

Titolo: Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph Question Answering Systems

Estratto: With the recent spike in the number and availability of Large Language Models (LLMs), it has become increasingly important to provide large and realistic benchmarks for evaluating Knowledge Graph Question Answering (KGQA) systems. So far the majority of benchmarks rely on pattern-based SPARQL query generation approaches. The subsequent natural language (NL) question generation is conducted through crowdsourcing or other automated methods, such as rule-based paraphrasing or NL question templates. Although some of these datasets are of considerable size, their pitfall lies in their pattern-based generation approaches, which do not always generalize well to the vague and linguistically diverse questions asked by humans in real-world contexts. In this paper, we introduce Spider4SPARQL - a new SPARQL benchmark dataset featuring 9,693 previously existing manually generated NL questions and 4,721 unique, novel, and complex SPARQL queries of varying complexity. In addition to the NL/SPARQL pairs, we also provide their corresponding 166 knowledge graphs and ontologies, which cover 138 different domains. Our complex benchmark enables novel ways of evaluating the strengths and weaknesses of modern KGQA systems. We evaluate the system with state-of-the-art KGQA systems as well as LLMs, which achieve only up to 45\% execution accuracy, demonstrating that Spider4SPARQL is a challenging benchmark for future research.

Autori: Catherine Kosten, Philippe Cudré-Mauroux, Kurt Stockinger

Ultimo aggiornamento: 2023-12-08 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.16248

Fonte PDF: https://arxiv.org/pdf/2309.16248

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili