Migliorare i grafi di conoscenza con il mining delle regole e la previsione dei link
Un nuovo metodo combina il mining delle regole e la previsione dei link per arricchire i grafi di conoscenza.
― 6 leggere min
Indice
I Grafi di conoscenza sono strutture che organizzano le informazioni in relazioni tra entità. Per esempio, in un grafo di conoscenza, potresti avere dati come "John è nato negli USA." Aiutano in vari compiti come rispondere a domande e scoprire nuovi farmaci.
Uno degli usi principali dei grafi di conoscenza è la previsione dei collegamenti, che mira a prevedere connessioni o relazioni mancanti tra le entità. I metodi tradizionali possono trovare schemi in questi grafi, ma spesso mancano di un modo per spiegare i loro risultati. Al contrario, alcune tecniche più moderne utilizzano gli embedding, che sono rappresentazioni matematiche delle entità che possono migliorare le previsioni, ma potrebbero non fornire sempre ragioni chiare dietro di esse.
Questo articolo parla di un nuovo approccio che combina questi due metodi: l'estrazione di regole, che trova schemi nei dati, e Metodi basati su embedding, che forniscono previsioni. Migliorando il grafo di conoscenza con nuove informazioni e poi applicando tecniche di ricerca di schemi, possiamo scoprire intuizioni preziose che in precedenza erano nascoste.
Le Basi dei Grafi di Conoscenza
Un grafo di conoscenza è fondamentalmente una raccolta di fatti rappresentati come triple. Ogni triple include un soggetto, un predicato (o relazione) e un oggetto. Ad esempio, la triple (Joe Biden, presidentOf, USA) indica che Joe Biden è il presidente degli Stati Uniti.
I grafi di conoscenza possono essere utili in molti ambiti, tra cui il recupero di informazioni e la scoperta di farmaci. Possono rivelare schemi nascosti in specifici domini, che possono portare a nuove scoperte o conclusioni. Per esempio, se un grafo di conoscenza mostra che le persone nate in Germania vivono per lo più lì e sono solitamente cittadini, possiamo derivare una regola generale da questa osservazione.
Sistemi di Estrazione di Regole
I sistemi di estrazione di regole identificano automaticamente schemi nei grafi di conoscenza. Questi sistemi possono gestire Set di dati molto grandi dove è impraticabile per esperti umani elaborare tutte le informazioni. Si è dimostrato che lavorano più efficientemente rispetto ai metodi di programmazione logica precedenti.
Esempi di sistemi di estrazione di regole includono AMIE e AnyBURL. AMIE è noto per la sua velocità ed efficacia nella generazione di regole ad alta precisione. AnyBURL, d'altra parte, trova regole sia cicliche che acicliche in modo efficiente esplorando i dati di input. Recentemente, i ricercatori si sono concentrati sul miglioramento di questi sistemi e sulla loro combinazione con metodi basati su embedding.
Metodi Basati su Embedding
I metodi basati su embedding prendono entità e relazioni da un grafo di conoscenza e le convertono in rappresentazioni vettoriali a bassa dimensione. Questo consente al modello di eseguire operazioni matematiche e fare previsioni basate su queste relazioni. Anche se questi metodi sono bravi a trovare collegamenti, potrebbero non spiegare facilmente perché vengano fatte certe previsioni.
Ci sono diversi modelli per creare questi embedding, come TransE, DistMult e RotatE. Ognuno di questi modelli utilizza tecniche diverse per rappresentare entità e relazioni, il che può influenzare la loro accuratezza.
L'Approccio Proposto
L'approccio descritto qui calcola prima gli embedding per un grafo di conoscenza e poi prevede nuovi collegamenti. Una volta identificati questi collegamenti, possono essere aggiunti al grafo originale, arricchendone la profondità. Dopo questo passaggio, possiamo applicare un sistema di estrazione di regole a questo grafo arricchito per derivare nuovi schemi.
Per validare questo metodo, sono stati condotti esperimenti su più set di dati. I risultati hanno rivelato che l'approccio ha identificato con successo nuove regole preziose che non erano inizialmente visibili nei grafi originali.
Lavori Correlati
Molti studi si sono concentrati sull'applicazione dell'estrazione di regole ai grafi di conoscenza. I metodi tradizionali come la Programmazione Logica Induttiva (ILP) sono stati lenti e spesso non riescono a produrre risultati di qualità man mano che aumenta la dimensione dei dati. Vari approcci di estrazione di regole sono stati sviluppati per superare queste limitazioni, dove sistemi come AMIE e AnyBURL hanno guadagnato riconoscimento per la loro velocità ed efficacia.
Lavori recenti hanno cercato di integrare modelli di embedding con sistemi di estrazione di regole, puntando a risultati migliori nei compiti di previsione dei collegamenti. Tuttavia, pochi studi hanno considerato l'influenza del completamento dei grafi di conoscenza sui risultati dell'estrazione di regole.
Migliorare l'Estrazione di Regole
Il metodo proposto migliora l'estrazione di regole combinando l'arricchimento del grafo di conoscenza con la previsione dei collegamenti. I passaggi coinvolgono:
Calcolo degli Embedding: Il grafo di conoscenza iniziale è rappresentato in uno spazio vettoriale continuo utilizzando modelli di embedding.
Inferenza dei Collegamenti: Basandosi su questi embedding, vengono previsti nuovi collegamenti potenziali.
Aggiornamento del Grafo: I nuovi collegamenti vengono aggiunti al grafo di conoscenza originale, creando una versione arricchita.
Applicazione dell'Estrazione di Regole: Infine, i sistemi di estrazione di regole vengono impiegati sul grafo arricchito per scoprire schemi.
Questo metodo ci permette di scoprire nuove regole che possono contribuire a previsioni e analisi più accurate.
Set di Dati del Database
Per testare l'approccio proposto, sono stati condotti esperimenti utilizzando diversi set di dati benchmark:
Drug Repurposing Knowledge Graph (DRKG): Questo grafo connette vari elementi biologici come geni, composti e malattie. Include oltre 5 milioni di fatti.
OPENBIOLINK: Una fonte robusta per valutare la previsione dei collegamenti nei grafi biomedici.
WN18RR: Derivato da WordNet, questo set di dati si concentra sulla previsione pratica dei collegamenti senza relazioni inverse.
CARCINOGENESIS: Questo set di dati riguarda composti chimici e le loro proprietà, fornendo intuizioni preziose sui problemi di classificazione.
MUTAGENESIS: Un altro set di dati relativo ai composti chimici utilizzati per valutare sistemi di classificazione.
FB15K-237: Un sottoinsieme di Freebase che fornisce dati su film, attori e sport.
YAGO3-10: Una raccolta focalizzata su fatti riguardanti individui e le loro relazioni.
Impostazione Sperimentale
I modelli sono stati addestrati sui set di dati per un numero stabilito di epoche a una dimensione di embedding specificata. L'intero processo è stato monitorato, prestando particolare attenzione su come i diversi modelli si sono comportati in termini di accuratezza e tempo di esecuzione.
Risultati e Analisi
I risultati hanno mostrato che il metodo proposto ha identificato con successo nuove regole dai grafi di conoscenza arricchiti. Su set di dati più grandi, ha performato in modo comparabile e talvolta meglio rispetto ai sistemi esistenti. Il processo non solo ha prodotto nuove intuizioni, ma ha anche generato regole di qualità superiore, come determinato dai punteggi di fiducia.
Conclusione
Questo lavoro evidenzia il potenziale di combinare l'estrazione di regole con la previsione dei collegamenti basata su embedding nei grafi di conoscenza. Arricchendo i grafi con collegamenti appena inferiti, possiamo scoprire schemi preziosi che contribuiscono a previsioni migliori in vari domini, inclusa la scoperta di farmaci.
Il metodo proposto dimostra un'alternativa efficiente agli approcci esistenti. Bilancia scalabilità e qualità, rendendolo adatto per gestire grandi set di dati dove altri sistemi potrebbero fallire.
In sintesi, integrare il completamento del grafo di conoscenza con l'estrazione di regole offre un'avenue promettente per future ricerche e applicazioni.
Titolo: Improving rule mining via embedding-based link prediction
Estratto: Rule mining on knowledge graphs allows for explainable link prediction. Contrarily, embedding-based methods for link prediction are well known for their generalization capabilities, but their predictions are not interpretable. Several approaches combining the two families have been proposed in recent years. The majority of the resulting hybrid approaches are usually trained within a unified learning framework, which often leads to convergence issues due to the complexity of the learning task. In this work, we propose a new way to combine the two families of approaches. Specifically, we enrich a given knowledge graph by means of its pre-trained entity and relation embeddings before applying rule mining systems on the enriched knowledge graph. To validate our approach, we conduct extensive experiments on seven benchmark datasets. An analysis of the results generated by our approach suggests that we discover new valuable rules on the enriched graphs. We provide an open source implementation of our approach as well as pretrained models and datasets at https://github.com/Jean-KOUAGOU/EnhancedRuleLearning
Autori: N'Dah Jean Kouagou, Arif Yilmaz, Michel Dumontier, Axel-Cyrille Ngonga Ngomo
Ultimo aggiornamento: 2024-06-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.10144
Fonte PDF: https://arxiv.org/pdf/2406.10144
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/lppl.txt
- https://github.com/Jean-KOUAGOU/EnhancedRuleLearning
- https://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph_toc.html
- https://zenodo.org/record/3834052/files/HQ_DIR.zip?download=1
- https://dl-learner.org/community/carcinogenesis/
- https://github.com/SmartDataAnalytics/DL-Learner/tree/develop/examples/mutagenesis