Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Sfruttare i grandi modelli di linguaggio per la costruzione di grafi di conoscenza

Questo studio mostra come i LLM possano aiutare nella creazione di grafi di conoscenza.

― 6 leggere min


LLM nei Grafi diLLM nei Grafi diConoscenzaprevisioni delle basi di conoscenza.Esaminando il potenziale dei LLM nelle
Indice

I grandi modelli di linguaggio (LLM) stanno cambiando il modo in cui pensiamo di lavorare con le informazioni. Possono eseguire vari compiti come comprendere testi, classificarli e riconoscere nomi. Di recente, modelli come ChatGPT e GPT-4 di OpenAI si sono dimostrati molto efficaci in questi compiti. L'attenzione principale si è spostata su come possiamo interagire con questi modelli in modo efficace per ottenere i migliori risultati.

I grafi della conoscenza sono un modo per rappresentare informazioni che consente alle macchine di comprendere e ragionare sui fatti. Tuttavia, creare questi Grafi di conoscenza è complesso, sia che venga fatto automaticamente o con l'aiuto umano. Wikidata è uno dei grafi di conoscenza più grandi disponibili, pieno di informazioni su entità del mondo reale, ed è stato costruito grazie ai contributi di molte persone.

Sebbene ricerche passate abbiano esaminato l'uso degli LLM per costruire grafi di conoscenza, i recenti miglioramenti negli LLM hanno suscitato un rinnovato interesse. Anche se gli LLM hanno un grande potenziale per l'ingegneria della conoscenza, ci sono differenze chiave tra loro e i grafi di conoscenza. I grafi di conoscenza memorizzano fatti con regole rigide, mentre gli LLM non sempre comprendono il ragionamento logico allo stesso modo.

Inoltre, gli LLM sono principalmente addestrati su dati disponibili pubblicamente, portandoli ad avere una conoscenza approfondita su argomenti popolari ma meno informazioni su argomenti meno noti. Questo lavoro mira a fare chiarezza su come gli LLM possano essere utilizzati per l'ingegneria della conoscenza, concentrandosi sulla sfida LM-KBC ISWC 2023.

Di Cosa Si Trattava la Sfida?

La sfida comportava la previsione di entità oggetto basate su un'entità soggetto e una relazione estratta da Wikidata. Per esempio, se il soggetto è "Robert Bosch LLC" e la relazione è "CompanyHasParentOrganisation", il compito è prevedere gli oggetti pertinenti, come "Robert Bosch", e collegarli ai loro ID Wikidata corrispondenti.

Per affrontare questo, abbiamo utilizzato due LLM di punta: gpt-3.5-turbo e GPT-4. Sperimentando con approcci diversi, abbiamo raggiunto un punteggio F1 medio macro di 0.701, mostrando che la performance variava a seconda del tipo di relazione esaminata. Alcune relazioni hanno visto punteggi perfetti, mentre altre non hanno reso altrettanto bene.

Lavori Correlati sul Knowledge Probing

Tanta ricerca ha esplorato quanto bene gli LLM possano gestire compiti intensivi di conoscenza. Studi precedenti hanno esaminato l'uso dei modelli di linguaggio per costruire o completare grafi di conoscenza. Per esempio, un primo studio, LAMA, ha cercato di estrarre fatti dagli LLM usando un formato di prompting specifico. Sforzi più recenti hanno ulteriormente analizzato l'uso degli LLM per questi compiti.

Di conseguenza, sono stati creati molti nuovi benchmark e dataset per valutare quanto bene gli LLM eseguono compiti legati alla conoscenza. Questi benchmark coprono vari scenari, come rispondere a domande e completare fatti, utilizzando informazioni dai grafi di conoscenza. LAMA è uno dei dataset pionieristici, costruito da numerose fonti di conoscenza, e ha ispirato ulteriori miglioramenti nella valutazione delle capacità degli LLM.

I Nostri Metodi Spiegati

Il compito era prevedere un insieme di oggetti basati su un soggetto e una relazione. Abbiamo costruito una pipeline che comportava due passaggi principali: knowledge probing e mappatura delle entità a Wikidata.

Knowledge Probing

Nel nostro passaggio di probing, abbiamo creato modelli di prompt specifici per raccogliere conoscenze dagli LLM. Abbiamo testato tre configurazioni diverse:

  1. Prompting di Domande: Qui, abbiamo posto domande dirette agli LLM. Per esempio, "Quali paesi condividono confini con il Brasile?"

  2. Prompting di Completamento Triplo: In questa configurazione, abbiamo fornito tripli incompleti, come "Fiume Tamigi, RiverBasinsCountry:" e abbiamo chiesto al modello di riempire gli spazi vuoti.

  3. Prompting Assistito dal Contesto: In questo caso, abbiamo fornito ulteriori informazioni insieme alle domande per aiutare i modelli a fare previsioni migliori.

Quando usavamo il contesto, abbiamo permesso agli LLM di prevedere prima in base alla loro conoscenza. Poi, abbiamo introdotto informazioni pertinenti, invitandoli a rivalutare le loro risposte.

In tutti i casi, abbiamo incluso esempi per aiutare gli LLM a comprendere meglio il formato atteso delle loro risposte.

Mappatura delle Entità Wikidata

Il passo successivo è stato abbinare le stringhe di oggetti previste a entità reali in Wikidata utilizzando un'API fornita dalla piattaforma. Abbiamo cercato possibili corrispondenze basate su etichette e alias e poi abbiamo selezionato attentamente le entità corrette. Per questo, abbiamo sviluppato metodi migliorati per affinare il processo di selezione, inclusi:

  • Metodo Basato su Casi: Un metodo specifico per gestire casi con spazi di risposta più piccoli.

  • Metodo Basato su Parole Chiave: Questo metodo guardava alle descrizioni dei candidati e le abbinava a parole chiave pertinenti.

  • Approccio Basato su Modello di Linguaggio: Qui, abbiamo costruito un dizionario di ID candidati e ci siamo affidati agli LLM per scegliere l'entità giusta basandosi su distinzioni più complesse.

Risultati del Nostro Studio

Per il nostro studio, abbiamo utilizzato un dataset della sfida LM-KBC, composto da vari tipi di relazione che coprivano diversi ambiti, come musica, geografia e sport. Ogni set includeva 1.940 dichiarazioni per addestramento, validazione e test.

Nella nostra valutazione, GPT-4 ha superato gpt-3.5-turbo. Quando abbiamo permesso ai modelli di utilizzare contesto esterno nelle loro previsioni, spesso ha portato a migliori performance, specialmente per gpt-3.5-turbo. Tuttavia, per GPT-4, il contesto aggiunto non ha sempre migliorato i risultati in modo uniforme.

Le nostre osservazioni hanno anche indicato che gli LLM si sono comportati bene con relazioni che avevano domini limitati, ma hanno avuto difficoltà con relazioni che coinvolgevano argomenti più ampi. Per esempio, hanno gestito efficacemente "PersonHasNobelPrize" ma hanno affrontato sfide con "PersonHasEmployer", probabilmente a causa di meno informazioni disponibili su molte persone.

Discussione su Wikidata e Lacune di Conoscenza

Lavorando con Wikidata, abbiamo identificato problemi riguardanti la qualità delle informazioni memorizzate lì. Alcune entità mancavano di dettagli necessari e molte voci non seguivano vincoli specifici. Questa mancanza di completezza segnala il potenziale degli LLM di aiutare a migliorare la qualità di Wikidata suggerendo informazioni mancanti.

Inoltre, abbiamo trovato una lacuna di conoscenza tra Wikipedia e Wikidata, che a volte portava a discrepanze nelle prestazioni del modello. Per alcune relazioni, le informazioni in Wikipedia erano più recenti o accurate rispetto a quelle in Wikidata. Questa lacuna evidenzia il ruolo che gli LLM potrebbero svolgere nell'aiutare a mantenere i dati aggiornati.

Conclusione

Questo lavoro mirava a dimostrare il potenziale degli LLM nella previsione di oggetti per grafi di conoscenza attraverso la sfida LM-KBC ISWC 2023. Abbiamo ottenuto risultati notevoli, con il nostro miglior metodo che ha raggiunto un punteggio medio di 0.7007 su varie relazioni. Sebbene gli LLM possano essere strumenti preziosi per completare basi di conoscenza, le loro limitazioni sottolineano anche la necessità di un intervento umano per garantire l'accuratezza dei dati.

I risultati incoraggiano ulteriori esplorazioni su come gli LLM possano lavorare insieme a editor umani per migliorare la qualità e la completezza delle informazioni nei sistemi di conoscenza.

Fonte originale

Titolo: Using Large Language Models for Knowledge Engineering (LLMKE): A Case Study on Wikidata

Estratto: In this work, we explore the use of Large Language Models (LLMs) for knowledge engineering tasks in the context of the ISWC 2023 LM-KBC Challenge. For this task, given subject and relation pairs sourced from Wikidata, we utilize pre-trained LLMs to produce the relevant objects in string format and link them to their respective Wikidata QIDs. We developed a pipeline using LLMs for Knowledge Engineering (LLMKE), combining knowledge probing and Wikidata entity mapping. The method achieved a macro-averaged F1-score of 0.701 across the properties, with the scores varying from 1.00 to 0.328. These results demonstrate that the knowledge of LLMs varies significantly depending on the domain and that further experimentation is required to determine the circumstances under which LLMs can be used for automatic Knowledge Base (e.g., Wikidata) completion and correction. The investigation of the results also suggests the promising contribution of LLMs in collaborative knowledge engineering. LLMKE won Track 2 of the challenge. The implementation is available at https://github.com/bohuizhang/LLMKE.

Autori: Bohui Zhang, Ioannis Reklos, Nitisha Jain, Albert Meroño Peñuela, Elena Simperl

Ultimo aggiornamento: 2023-09-15 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.08491

Fonte PDF: https://arxiv.org/pdf/2309.08491

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili