Améliorer les petits modèles de langue pour la découverte causale
Une nouvelle méthode pour améliorer les petits modèles de langage en utilisant des graphes de connaissances pour une meilleure analyse causale.
― 7 min lire
Table des matières
La découverte causale, c'est un processus qui vise à trouver des relations de cause à effet entre différentes variables en analysant des données. Cette méthode est importante dans plein de domaines scientifiques parce qu'elle aide les chercheurs à comprendre comment des changements dans une variable peuvent affecter une autre. Par exemple, si on étudie une maladie, on pourrait vouloir savoir quels facteurs pourraient causer la maladie ou l'aggraver.
Récemment, les grands modèles de langage (LLMs) ont changé notre façon d'aborder la découverte causale. Ces modèles peuvent raisonner sur les relations entre les variables en se basant sur les infos qui leur sont associées, plutôt que de se fier seulement aux valeurs de données réelles. Cette façon de raisonner s'appelle la découverte causale basée sur les connaissances. Elle utilise des métadonnées, comme les noms des variables, pour déterminer les connexions causales.
Dans cet article, on discute d'une nouvelle méthode appelée "KG Structure as Prompt", qui cherche à améliorer les petits modèles de langage (SLMs) pour la découverte causale basée sur les connaissances. Les SLMs sont des modèles de langage avec moins d'un milliard de paramètres. Ils sont plus faciles et moins chers à utiliser comparés à leurs plus gros homologues, les LLMs.
Graphes de connaissances ?
Qu'est-ce que lesLes graphes de connaissances (KGs) sont des réseaux structurés qui montrent comment différentes entités sont liées. Chaque entité se réfère à quelque chose de spécifique, comme une personne, un lieu ou une idée. Dans les KGs, les entités sont représentées comme des nœuds, et les relations entre elles sont représentées comme des arêtes. Les KGs contiennent une quantité énorme d'infos qui peuvent nous aider à établir des connexions et à tirer des conclusions sur des Relations Causales.
Quand on essaie de comprendre des liens causaux, les KGs peuvent fournir un contexte riche et précieux. Par exemple, si tu veux savoir comment un gène spécifique est connecté à un type de cancer, un KG pourrait te montrer d'autres gènes, maladies et traitements liés. Cette info structurelle peut nous aider à former une image plus complète et à soutenir le raisonnement causal.
L'Approche : KG Structure as Prompt
Notre approche se concentre sur l'intégration des infos des KGs dans les SLMs via un système appelé "apprentissage par prompt". Dans ce système, on utilise des prompts-des instructions spécifiques combinées avec des entrées textuelles-pour guider les réponses du modèle. On a conçu une nouvelle façon d'incorporer l'info structurelle des KGs dans ces prompts pour aider à améliorer la performance du modèle.
Pourquoi utiliser des Petits Modèles de Langage ?
Les SLMs sont avantageux parce qu'ils consomment moins de ressources, ce qui les rend moins chers et plus rapides à entraîner et à déployer. Malgré leur taille plus petite, on a découvert qu'ils peuvent parfois bien performer, voire mieux, que des modèles plus grands avec le bon soutien. En tirant parti des KGs, les SLMs peuvent utiliser des infos contextuelles plus riches, ce qui peut mener à une meilleure compréhension et performance dans des tâches comme la découverte causale.
Nos Expériences
Pour voir comment notre méthode fonctionne, on a mené des expériences en utilisant des ensembles de données des domaines biomédical et ouvert. On a testé les SLMs avec différentes architectures, y compris des modèles de langage masqués (MLMs), des modèles de langage causals (CLMs), et des modèles séquence à séquence (Seq2SeqLMs).
Chacun de ces modèles traite le langage différemment, ce qui nous a permis de comparer leur capacité à prédire des relations causales entre des paires de variables. Par exemple, pour deux variables, comme un gène et un type de cancer, la tâche était de prédire s'il existe une connexion causale entre elles en se basant sur leurs métadonnées.
Types d'Infos Structurelles
Dans nos expériences, on s'est concentré sur trois types clés d'infos structurelles provenant des KGs :
Nœuds Voisins : Ce sont des nœuds directement liés dans un KG, qui fournissent un contexte immédiat aux paires de variables analysées. Par exemple, si un gène spécifique est lié à d'autres gènes ou maladies pertinentes, ce contexte peut éclairer les relations causales potentielles.
Nœuds Voisins Communs : Ces nœuds représentent des connexions partagées entre deux entités. Si deux variables partagent plusieurs connexions, cela peut indiquer une probabilité plus forte d'une relation causale.
Métapaths : Ce sont des séquences de relations qui peuvent relier deux nœuds. Par exemple, un métapath pourrait montrer comment un gène influence une protéine, qui à son tour affecte une maladie particulière. Même s'il n'y a pas d'arête directe reliant les deux nœuds, les connexions indirectes peuvent quand même révéler une causalité.
Conception du Prompt
Le processus de conception du prompt impliquait de prendre l'info structurelle du KG et de la représenter de manière compréhensible pour le SLM. Pour chaque paire de variables, on a créé un prompt qui incluait des descriptions de leurs nœuds voisins, voisins communs, et métapaths. Ces infos étaient combinées avec un contexte textuel-des trucs comme des phrases dans lesquelles les variables apparaissent-créant une entrée riche pour le modèle à traiter.
Résultats
Nos résultats ont montré que l'intégration d'infos structurelles provenant des KGs améliorait significativement la performance des SLMs dans la prédiction des relations causales. Dans de nombreux cas, les SLMs avec notre approche ont mieux performé que des modèles traditionnels qui n'utilisent pas de KGs.
Comparaison avec des Modèles Plus Gros
Quand on a comparé les résultats des SLMs avec ceux des LLMs, on a trouvé que les SLMs, lorsqu'ils sont améliorés avec des infos structurelles de KG, surpassaient souvent les modèles plus grands. C'était surprenant, étant donné que les SLMs ont généralement beaucoup moins de paramètres. Ça a suggéré que disposer d'infos contextuelles riches des KGs peut donner un avantage aux SLMs, même dans des tâches traditionnellement dominées par des modèles de langage plus grands.
Conclusion et Travaux Futurs
En résumé, notre recherche a introduit une nouvelle méthode pour améliorer les petits modèles de langage grâce à l'utilisation de prompts basés sur des structures de graphes de connaissances. En liant des infos contextuelles des KGs et en tirant parti des capacités des SLMs, on a montré qu'il est possible d'obtenir des résultats solides dans des tâches de découverte causale.
En regardant vers l'avenir, on prévoit d'explorer des scénarios plus complexes impliquant plusieurs variables interconnectées. En développant des méthodes pour analyser des relations causales dans des graphes plus grands, on espère approfondir notre compréhension de comment différents facteurs interagissent et s'influencent mutuellement. Ce travail futur pourrait avoir des implications significatives dans divers domaines, de la santé et médecine à l'économie et aux sciences sociales. Grâce à une exploration continue, on espère affiner nos approches et fournir des outils encore plus puissants pour la découverte causale.
Titre: Knowledge Graph Structure as Prompt: Improving Small Language Models Capabilities for Knowledge-based Causal Discovery
Résumé: Causal discovery aims to estimate causal structures among variables based on observational data. Large Language Models (LLMs) offer a fresh perspective to tackle the causal discovery problem by reasoning on the metadata associated with variables rather than their actual data values, an approach referred to as knowledge-based causal discovery. In this paper, we investigate the capabilities of Small Language Models (SLMs, defined as LLMs with fewer than 1 billion parameters) with prompt-based learning for knowledge-based causal discovery. Specifically, we present KG Structure as Prompt, a novel approach for integrating structural information from a knowledge graph, such as common neighbor nodes and metapaths, into prompt-based learning to enhance the capabilities of SLMs. Experimental results on three types of biomedical and open-domain datasets under few-shot settings demonstrate the effectiveness of our approach, surpassing most baselines and even conventional fine-tuning approaches trained on full datasets. Our findings further highlight the strong capabilities of SLMs: in combination with knowledge graphs and prompt-based learning, SLMs demonstrate the potential to surpass LLMs with larger number of parameters. Our code and datasets are available on GitHub.
Auteurs: Yuni Susanti, Michael Färber
Dernière mise à jour: 2024-07-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.18752
Source PDF: https://arxiv.org/pdf/2407.18752
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://orcid.org/#1
- https://github.com/littleflow3r/kg-structure-as-prompt
- https://platform.openai.com/
- https://huggingface.co/allenai/biomed_roberta_base
- https://huggingface.co/FacebookAI/roberta-base
- https://pytorch.org/
- https://huggingface.co/docs/transformers/en/index
- https://huggingface.co/bigscience/bloomz-560m
- https://huggingface.co/google-t5/t5-base
- https://neo4j.com/
- https://neo4j.het.io/browser/
- https://query.wikidata.org/sparql