Aprimorando Grafos de Conhecimento com Mineração de Regras e Previsão de Links
Um novo método combina mineração de regras e previsão de links pra enriquecer gráficos de conhecimento.
― 7 min ler
Índice
Os Grafos de Conhecimento são estruturas que organizam informações em relações entre entidades. Por exemplo, num grafo de conhecimento, você pode ter dados como "John nasceu nos EUA." Eles ajudam em várias tarefas, como responder perguntas e descobrir novos medicamentos.
Uma das principais utilizações dos grafos de conhecimento é a Previsão de Links, que visa prever conexões ou relações faltando entre entidades. Métodos tradicionais conseguem encontrar padrões nesses grafos, mas muitas vezes não têm uma forma de explicar suas descobertas. Em contrapartida, algumas técnicas mais modernas usam embeddings, que são representações matemáticas das entidades que podem melhorar as previsões, mas podem não fornecer um raciocínio claro por trás delas.
Este artigo discute uma nova abordagem que combina esses dois métodos: mineração de regras, que encontra padrões nos dados, e Métodos baseados em embeddings, que dão previsões. Ao aprimorar o grafo de conhecimento com novas informações e depois aplicar técnicas de busca de padrões, podemos descobrir insights valiosos que estavam escondidos antes.
O Básico dos Grafos de Conhecimento
Um grafo de conhecimento é basicamente uma coleção de fatos representados como triplas. Cada tripla inclui um sujeito, um predicado (ou relação) e um objeto. Por exemplo, a tripla (Joe Biden, presidenteDe, EUA) indica que Joe Biden é o presidente dos Estados Unidos.
Os grafos de conhecimento podem ser úteis em muitas áreas, incluindo recuperação de informações e descoberta de medicamentos. Eles podem revelar padrões ocultos em domínios específicos, que podem levar a novas descobertas ou conclusões. Por exemplo, se um grafo de conhecimento mostra que pessoas nascidas na Alemanha geralmente vivem lá e costumam ser cidadãs, podemos derivar uma regra geral dessa observação.
Sistemas de Mineração de Regras
Os sistemas de mineração de regras identificam automaticamente padrões em grafos de conhecimento. Esses sistemas conseguem lidar com Conjuntos de dados muito grandes, onde é impraticável para especialistas humanos processar todas as informações. Eles têm mostrado ser mais eficientes do que os métodos tradicionais de programação lógica.
Exemplos de sistemas de mineração de regras incluem AMIE e AnyBURL. O AMIE é conhecido pela sua velocidade e eficácia em gerar regras de alta precisão. O AnyBURL, por outro lado, encontra tanto regras cíclicas quanto acíclicas de forma eficiente explorando os dados de entrada. Recentemente, pesquisadores têm focado em melhorar esses sistemas e combiná-los com métodos baseados em embeddings.
Métodos Baseados em Embeddings
Os métodos baseados em embeddings pegam entidades e relações de um grafo de conhecimento e os convertem em representações vetoriais de baixa dimensão. Isso permite que o modelo faça operações matemáticas e faça previsões com base nessas relações. Embora esses métodos sejam bons em encontrar links, eles podem não explicar facilmente por que certas previsões são feitas.
Existem vários modelos para criar esses embeddings, como TransE, DistMult e RotatE. Cada um desses modelos emprega técnicas diferentes para representar entidades e relações, o que pode afetar sua precisão.
A Abordagem Proposta
A abordagem descrita aqui primeiro calcula embeddings para um grafo de conhecimento e depois prevê novos links. Uma vez que esses links são identificados, eles podem ser adicionados ao grafo original, aumentando sua profundidade. Após essa etapa, podemos aplicar um sistema de mineração de regras a esse grafo enriquecido para derivar novos padrões.
Para validar esse método, experimentos foram realizados em vários conjuntos de dados. Os resultados revelaram que a abordagem identificou com sucesso novas regras valiosas que não eram visíveis inicialmente nos grafos originais.
Trabalhos Relacionados
Muitos estudos se concentraram em aplicar mineração de regras em grafos de conhecimento. Métodos tradicionais como Programação Lógica Indutiva (ILP) têm sido lentos e costumam não produzir resultados de qualidade à medida que o tamanho dos dados aumenta. Várias abordagens de mineração de regras foram desenvolvidas para superar essas limitações, onde sistemas como AMIE e AnyBURL ganharam reconhecimento por sua velocidade e eficácia.
Trabalhos recentes têm buscado integrar modelos de embeddings com sistemas de mineração de regras, visando melhores resultados em tarefas de previsão de links. No entanto, poucos estudos consideraram a influência da conclusão de grafos de conhecimento nos resultados da mineração de regras.
Aprimorando a Mineração de Regras
O método proposto melhora a mineração de regras ao combinar o enriquecimento de grafos de conhecimento com a previsão de links. Os passos envolvem:
Computando Embeddings: O grafo de conhecimento inicial é representado em um espaço vetorial contínuo usando modelos de embeddings.
Inferindo Links: Com base nesses embeddings, novas conexões potenciais são previstas.
Atualizando o Grafo: Os novos links são adicionados ao grafo de conhecimento original, criando uma versão enriquecida.
Aplicando Mineração de Regras: Finalmente, sistemas de mineração de regras são empregados no grafo enriquecido para descobrir padrões.
Esse método nos permite descobrir novas regras que podem contribuir para previsões e análises mais precisas.
Conjuntos de Dados de Banco de Dados
Para testar a abordagem proposta, experimentos foram realizados usando vários conjuntos de dados de referência:
Grafo de Conhecimento de Reaproveitamento de Medicamentos (DRKG): Esse grafo conecta vários elementos biológicos, como genes, compostos e doenças. Ele inclui mais de 5 milhões de fatos.
OPENBIOLINK: Uma fonte robusta para avaliar a previsão de links em grafos biomédicos.
WN18RR: Derivado do WordNet, esse conjunto de dados se concentra na previsão prática de links sem relações inversas.
CARCINOGÊNESE: Esse conjunto de dados envolve compostos químicos e suas propriedades, fornecendo insights valiosos sobre problemas de classificação.
MUTAGENESE: Outro conjunto de dados relacionado a compostos químicos usados para avaliar sistemas de classificação.
FB15K-237: Um subconjunto do Freebase que fornece dados sobre filmes, atores e esportes.
YAGO3-10: Uma coleção focada em fatos sobre indivíduos e suas relações.
Configuração Experimental
Modelos foram treinados nos conjuntos de dados por um número definido de épocas em uma dimensão de embedding especificada. Todo o processo foi monitorado, com atenção especial em como os diferentes modelos se saíram em termos de precisão e tempo de execução.
Resultados e Análise
Os resultados mostraram que o método proposto identificou efetivamente novas regras a partir dos grafos de conhecimento enriquecidos. Em conjuntos de dados maiores, ele teve um desempenho comparável e às vezes melhor do que os sistemas existentes. O processo não apenas gerou novas ideias, mas também produziu regras de maior qualidade, conforme determinado por pontuações de confiança.
Conclusão
Este trabalho destaca o potencial de combinar mineração de regras com previsão de links baseada em embeddings em grafos de conhecimento. Ao enriquecer grafos com conexões recém-inferidas, podemos descobrir padrões valiosos que contribuem para previsões melhores em várias áreas, incluindo descoberta de medicamentos.
O método proposto demonstra uma alternativa eficiente aos métodos existentes. Ele equilibra escalabilidade com qualidade, tornando-o adequado para lidar com grandes conjuntos de dados onde outros sistemas podem falhar.
Em resumo, integrar a conclusão do grafo de conhecimento com a mineração de regras oferece uma avenida promissora para futuras pesquisas e aplicações.
Título: Improving rule mining via embedding-based link prediction
Resumo: Rule mining on knowledge graphs allows for explainable link prediction. Contrarily, embedding-based methods for link prediction are well known for their generalization capabilities, but their predictions are not interpretable. Several approaches combining the two families have been proposed in recent years. The majority of the resulting hybrid approaches are usually trained within a unified learning framework, which often leads to convergence issues due to the complexity of the learning task. In this work, we propose a new way to combine the two families of approaches. Specifically, we enrich a given knowledge graph by means of its pre-trained entity and relation embeddings before applying rule mining systems on the enriched knowledge graph. To validate our approach, we conduct extensive experiments on seven benchmark datasets. An analysis of the results generated by our approach suggests that we discover new valuable rules on the enriched graphs. We provide an open source implementation of our approach as well as pretrained models and datasets at https://github.com/Jean-KOUAGOU/EnhancedRuleLearning
Autores: N'Dah Jean Kouagou, Arif Yilmaz, Michel Dumontier, Axel-Cyrille Ngonga Ngomo
Última atualização: 2024-06-14 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.10144
Fonte PDF: https://arxiv.org/pdf/2406.10144
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/lppl.txt
- https://github.com/Jean-KOUAGOU/EnhancedRuleLearning
- https://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph_toc.html
- https://zenodo.org/record/3834052/files/HQ_DIR.zip?download=1
- https://dl-learner.org/community/carcinogenesis/
- https://github.com/SmartDataAnalytics/DL-Learner/tree/develop/examples/mutagenesis