Valutare i modelli di linguaggio per i grafi di conoscenza
Valutare le capacità dei LLM con la sintassi Turtle nei compiti di grafo della conoscenza.
― 6 leggere min
Indice
Questo documento è condiviso sotto la Licenza Creative Commons Attribution 4.0 International (CC BY 4.0).
Introduzione
I Grandi Modelli Linguistici (LLMS) hanno fatto enormi passi avanti nella comprensione del linguaggio umano e dei compiti di codifica. Tuttavia, la loro abilità nel lavorare con formati di dati strutturati, soprattutto nell'area dei Grafi di conoscenza, non è stata esaminata a fondo. I grafi di conoscenza sono importanti per organizzare le informazioni in un modo che le macchine possano facilmente comprendere.
Questo documento mira a valutare quanto bene diversi LLMs possano creare e comprendere grafi di conoscenza scritti in Sintassi Turtle. Turtle è un formato usato per descrivere i dati in un modo che è un po' simile a come usiamo il linguaggio naturale. Abbiamo progettato cinque compiti specifici per testare questi modelli per vedere quanto efficacemente possono leggere, comprendere, analizzare e generare dati in formato Turtle.
La necessità di valutazione
I modelli che abbiamo esaminato includono versioni popolari come GPT-3.5, GPT-4, Claude 1.3 e Claude 2.0, insieme ad alcuni modelli gratuiti offline come GPT4All Vicuna e GPT4All Falcon. La nostra valutazione voleva fornire un quadro chiaro di ciò che ogni modello fa bene e dove fatica, in particolare nella creazione e interpretazione di grafi di conoscenza RDF (Resource Description Framework).
Grafi di conoscenza e RDF
I grafi di conoscenza sono un modo per memorizzare informazioni in modo che le macchine possano facilmente elaborarle. RDF è uno standard usato per rappresentare grafi di conoscenza, mentre Turtle è un modo per scrivere dati RDF in un formato testuale. Turtle è scelto per la sua somiglianza a come le persone comunicano, rendendo più facile per gli LLM gestirlo.
Ricerche precedenti
In studi precedenti, abbiamo sviluppato un framework chiamato LLM-KG-Bench per automatizzare le valutazioni delle prestazioni degli LLM relative ai compiti dei grafi di conoscenza. Questo documento estende quel lavoro aggiungendo due nuovi compiti al framework e fornendo un'analisi dettagliata di quanto bene vari LLMs possano gestire i dati in Turtle.
Panoramica dei compiti di benchmark
Abbiamo progettato cinque compiti per valutare le capacità degli LLMs nella gestione della sintassi Turtle. Ogni compito si concentra su un aspetto diverso del lavoro con i grafi di conoscenza:
Compito T1: Spiegazione della connessione Turtle - Questo compito chiede all'LLM di trovare la connessione più breve tra due persone in un grafo in formato Turtle. L'obiettivo è vedere se il modello può identificare il percorso corretto senza spiegazioni aggiuntive.
Compito T2: Controllo degli errori Turtle - Qui, all'LLM viene fornito un file Turtle e deve identificare e correggere eventuali errori di sintassi. Questo testa la comprensione della grammatica Turtle da parte del modello.
Compito T3: Creazione di un grafo di esempio - In questo compito, l'LLM deve generare un grafo di conoscenza con un numero specificato di persone seguendo una struttura definita. Il compito controlla se il modello può generare dati validi correttamente.
Compito T4: Conteggio dei link - Questo compito richiede all'LLM di trovare la persona in un grafo con il maggior numero di link in entrata, testando le sue capacità di comprensione e analisi riguardo alle connessioni.
Compito T5: Estrazione di fatti da una specifica - All'LLM viene chiesto di convertire un insieme di specifiche su una stampante 3D in un corretto grafo di conoscenza RDF in formato Turtle, verificando la sua capacità di estrarre e organizzare informazioni in modo accurato.
Impostazione dello studio
Abbiamo condotto valutazioni dei compiti sui quattro principali LLMs menzionati precedentemente. I test erano progettati per osservare quanto bene ogni modello si comportava sui compiti di benchmark specifici. La qualità dell'output di ciascun compito è misurata utilizzando punteggi F1, che aiutano a confrontare i risultati dell'LLM con le risposte corrette attese.
Lavori correlati
Valutazioni precedenti hanno esaminato quanto bene gli LLMs possono assistere nei compiti di grafi di conoscenza, inclusi compiti come costruzione e ragionamento. Tuttavia, ci sono pochi sistemi automatizzati che si occupano specificamente delle esigenze uniche dei grafi di conoscenza. Questo documento si concentra sulla necessità di un framework strutturato che possa gestire i compiti RDF mentre testa le capacità degli LLM.
Dettagli dei compiti di benchmark
Compito T1: Trovare connessioni
Questo compito richiede all'LLM di trovare e elencare la connessione più breve tra due persone. Testa le abilità di gestione dei grafi di base vedendo se il modello riesce a navigare in una semplice struttura organizzativa, focalizzandosi puramente sugli identificatori delle risorse.
Compito T2: Controllo degli errori
In questo compito, l'LLM deve identificare errori di sintassi in un file Turtle e correggerli senza alterare il significato originale. Questo evidenzia la comprensione della grammatica Turtle da parte del modello e la sua capacità di mantenere le informazioni mentre corregge gli errori.
Compito T3: Generazione di grafi di esempio
L'obiettivo qui è determinare se gli LLMs possono creare grafi di conoscenza completi basati su linee guida specifiche riguardo al numero di persone e le loro interconnessioni. Questo mostra la capacità del modello di generare dati rispettando le regole strutturali.
Compito T4: Conteggio dei link
Questo compito valuta la capacità del modello di analizzare un grafo per trovare quale persona è conosciuta dalla maggior parte degli altri, testando sia la comprensione che il ragionamento all'interno della struttura del grafo.
Compito T5: Estrazione di fatti
All'LLM viene chiesto di trasformare specifiche chiave-valore su una stampante 3D in un grafo di conoscenza formattato in Turtle. Questo compito è particolarmente difficile poiché richiede di catturare dettagli specifici e formattarli correttamente.
Risultati e discussione
Attraverso le nostre valutazioni, abbiamo scoperto punti di forza e debolezza distinti tra gli LLMs. Claude-2.0, ad esempio, ha fornito risposte accurate, mentre GPT-4 a volte aggiungeva proprietà non necessarie ai suoi output. Altri modelli, come Falcon e Vicuna, hanno faticato a produrre risposte valide in Turtle e a volte fornivano informazioni irrilevanti.
Nel complesso, mentre i modelli più recenti hanno dimostrato capacità migliorate, molti hanno ancora affrontato sfide, in particolare con i requisiti di formattazione rigorosi. Molti modelli non hanno risposto costantemente con la giusta sintassi Turtle; invece, includevano testo o spiegazioni extra.
Conclusioni e direzioni future
I risultati indicano che le versioni più recenti degli LLM mostrano già abilità significative nella gestione dei dati in Turtle, rendendoli utili per alcuni compiti. Tuttavia, c'è un problema ricorrente con i modelli che deviano dai formati di output attesi.
Per migliorare le valutazioni future, saranno definiti test più rigorosi per guidare i modelli nella produzione di output precisi in Turtle. Ci sono possibilità di migliorare gli LLMs affinando la loro formazione su grandi set di dati RDF, il che potrebbe migliorare la loro comprensione della sintassi RDF.
Inoltre, la ricerca futura esplorerà l'integrazione degli LLMs con strumenti per grafi di conoscenza per migliorare la loro applicazione pratica nei compiti di grafi di conoscenza. L'obiettivo è allineare meglio le capacità degli LLMs con i requisiti specifici dell'ingegneria dei grafi di conoscenza.
Titolo: Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle?
Estratto: Large Language Models (LLMs) are advancing at a rapid pace, with significant improvements at natural language processing and coding tasks. Yet, their ability to work with formal languages representing data, specifically within the realm of knowledge graph engineering, remains under-investigated. To evaluate the proficiency of various LLMs, we created a set of five tasks that probe their ability to parse, understand, analyze, and create knowledge graphs serialized in Turtle syntax. These tasks, each embodying distinct degrees of complexity and being able to scale with the size of the problem, have been integrated into our automated evaluation system, the LLM-KG-Bench. The evaluation encompassed four commercially available LLMs - GPT-3.5, GPT-4, Claude 1.3, and Claude 2.0, as well as two freely accessible offline models, GPT4All Vicuna and GPT4All Falcon 13B. This analysis offers an in-depth understanding of the strengths and shortcomings of LLMs in relation to their application within RDF knowledge graph engineering workflows utilizing Turtle representation. While our findings show that the latest commercial models outperform their forerunners in terms of proficiency with the Turtle language, they also reveal an apparent weakness. These models fall short when it comes to adhering strictly to the output formatting constraints, a crucial requirement in this context.
Autori: Johannes Frey, Lars-Peter Meyer, Natanael Arndt, Felix Brei, Kirill Bulert
Ultimo aggiornamento: 2023-09-29 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.17122
Fonte PDF: https://arxiv.org/pdf/2309.17122
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://infai.org
- https://aksw.org
- https://www.uni-leipzig.de
- https://eccenca.com
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard/tree/a068e66fdd6f453812b307541e8c82f99472aabe
- https://lm-kbc.github.io/challenge2023/
- https://github.com/zjukg/KG-LLM-Papers/
- https://abc.def/ghi/anne
- https://abc.def/ghi/bob
- https://abc.def/ghi/
- https://www.w3.org/2000/01/rdf-schema#
- https://www.w3.org/2002/07/owl#
- https://xmlns.com/foaf/0.1/
- https://www.w3.org/2006/vcard/ns#
- https://www.w3.org/ns/org#
- https://data.semper-ki.org/resources/
- https://purl.org/tema/051993
- https://data.semper-ki.org/properties/printMaterial
- https://data.semper-ki.org/properties/supportMaterial
- https://data.semper-ki.org/resources/materials/
- https://github.com/AKSW/LLM-KG-Bench
- https://doi.org/10.5281/zenodo.8366061
- https://github.com/AKSW/LLM-KG-Bench-Results/tree/main/2023-DL4KG_Turtle-KG-Eval
- https://doi.org/10.5281/zenodo.8364535