Défis de reproductibilité dans les graphes de connaissances
Examen des lacunes de reproductibilité entre les graphes de connaissances et leur impact sur la recherche.
― 7 min lire
Table des matières
- Importance de la Reproductibilité
- Résultats sur les graphes de connaissances spécifiques aux domaines
- Qu'est-ce que les graphes de connaissances ?
- Analyse de la reproductibilité dans les graphes de connaissances
- Méthodologie de l'enquête
- Perspectives de l'étude
- Graphes de connaissances existants avec code open-source
- Directions futures pour la recherche
- Source originale
- Liens de référence
Les Graphes de connaissances (KGs) sont des outils utilisés pour organiser et représenter des informations de manière structurée. Ils montrent comment différentes informations se relient entre elles. Par exemple, ils peuvent aider dans des domaines comme les systèmes de recommandation, la détection de fausses informations sur la santé ou l'identification de détails sur des maladies.
Cependant, créer et maintenir des KGs peut être assez complexe. Construire un KG nécessite des compétences en conception de structures de Données, en organisation d'informations, et en s'assurant que les données sont exactes et pertinentes. Ce besoin constant de mises à jour et de vérifications ajoute au travail impliqué pour garder un KG fonctionnel.
Reproductibilité
Importance de laUn problème clé avec les KGs est la reproductibilité. Ça veut dire pouvoir reproduire ou vérifier les informations dans un KG. Être capable de reproduire un KG est essentiel pour faire confiance aux informations qu'il fournit et pour l'utilité à long terme de ce savoir. Les KGs reproductibles soutiennent les principes de la science ouverte, permettant aux chercheurs de s'appuyer sur des connaissances existantes et assurant clarté et fiabilité dans le partage des données.
Malgré la croissance des KGs dans certains domaines, il n'y a pas eu assez d'analyses sur leur reproductibilité. Cette situation appelle à un examen plus approfondi des KGs, en se concentrant sur la façon d'évaluer leur reproductibilité.
Résultats sur les graphes de connaissances spécifiques aux domaines
Une recherche a été menée dans 19 domaines différents, et seulement un petit nombre de KGs se sont révélés reproductibles. Sur 250 KGs étudiés, seulement huit (3,2 %) avaient un code source disponible publiquement. Parmi ces huit, un seul a réussi les tests de reproductibilité, montrant que seulement 0,4 % des KGs étudiés sont vraiment reproductibles.
Ce faible pourcentage indique des lacunes sérieuses dans la pratique actuelle de création et de partage des KGs. Cela souligne un besoin clair de recherche future et un changement dans l'approche de ces KGs.
Qu'est-ce que les graphes de connaissances ?
Au fond, les KGs présentent des informations structurées sur des sujets spécifiques. Ils illustrent des entités (comme des personnes, des lieux ou des choses) et comment ces entités se connectent à travers diverses relations. Même s'il existe de nombreuses définitions des KGs, ils servent généralement à rassembler et partager des connaissances sur le monde réel.
La reproductibilité peut être définie comme la capacité à obtenir les mêmes résultats lorsque des expériences ou des études sont répétées par d'autres en utilisant des méthodes ou des conditions différentes. En termes informatiques, la reproductibilité signifie obtenir des résultats cohérents en utilisant les mêmes entrées et méthodes.
Des études ont montré que la reproductibilité reste un défi dans divers domaines scientifiques, y compris les sciences computationnelles. Ce défi s'étend également aux KGs, malgré leur utilité dans l'organisation des données. Un KG reproductible favorise la confiance dans les informations fournies et encourage le partage des données.
Analyse de la reproductibilité dans les graphes de connaissances
Une étude récente a cherché à comprendre comment les KGs existants se comportent en termes de reproductibilité. L'analyse a comparé les KGs selon plusieurs critères, en se concentrant sur leur reproductibilité. Cela impliquait de vérifier une gamme de 250 KGs de différents domaines, en recherchant spécifiquement du code open-source et la possibilité de reproduire leurs résultats.
L'étude a utilisé plusieurs critères pour évaluer la reproductibilité, y compris :
- Disponibilité du code et des données
- Licences appropriées pour le code
- Persistance des identifiants comme les DOI pour le code et les données
- Accessibilité de l'environnement d'exécution
- Instructions claires pour exécuter le code
- Démonstrations en ligne des KGs
- Points de terminaison SPARQL pour interroger les données
- Régénération réussie du KG
- Informations sur la Provenance pour suivre le développement
Ces critères soulignent que le simple fait d'avoir du code ne suffit pas pour la reproductibilité. Des instructions claires, un environnement accessible et l'accès aux données sont aussi cruciaux.
Méthodologie de l'enquête
La recherche a commencé par une recherche de « graphe de connaissances de domaine » sur Google Scholar, couvrant les articles jusqu'à la fin de 2021. Cette recherche a identifié de nombreux articles, qui ont ensuite été filtrés pour trouver ceux pertinents axés sur la construction de KGs.
Après avoir éliminé les doublons et affiné les sélections basées sur des critères spécifiques, 250 articles ont été identifiés. Chaque article identifié a ensuite été examiné pour vérifier la présence de code open-source. C'était surprenant que seulement huit articles contiennent du code disponible publiquement.
Le processus de recherche a veillé à ce que chaque référentiel de KG soit examiné pour vérifier à la fois la disponibilité du code et la complétude de la documentation fournie.
Perspectives de l'étude
L'étude révèle quelques informations critiques :
- Seulement 3,2 % des KGs sélectionnés offraient du code open-source, ce qui indique un besoin de plus de soutien pour les pratiques de science ouverte.
- Un seul des sept KGs open-source a pu être exécuté avec succès, démontrant que seulement 0,4 % sont reproductibles.
- La disponibilité du code seul ne garantit pas la reproductibilité ; avoir des instructions claires et un environnement d'exécution accessible est tout aussi important.
- Beaucoup de KGs manquaient de suivi approprié de leur construction, rendant la reproductibilité encore plus compliquée.
Graphes de connaissances existants avec code open-source
Parmi les rares KGs qui proposaient du code open-source, plusieurs cas intéressants ont été examinés :
- CKGG se concentre sur les connaissances géographiques, contenant des milliards de points de données assemblés à partir de diverses sources.
- CROssBAR-KG présente des relations entre des termes biologiques et peut être interrogé en fonction de l'entrée de l'utilisateur.
- ETKG modélise des événements liés au tourisme, tirant des données de nombreuses notes de voyage recueillies en ligne.
- FarsBase est un KG en langue farsi qui compile des informations de Wikipedia et est accessible au format structuré.
- GAKG est un grand KG construit à partir de publications en géosciences, qui est fréquemment mis à jour et peut être interrogé.
- MDKG combine des données de diverses bases de données sur les microbes et les maladies.
- Ozymandias est un KG de biodiversité qui intègre des données sur la faune australienne de plusieurs ressources.
- RTX-KG2 permet aux utilisateurs de construire et d'héberger un graphe de connaissances biomédical et est soutenu par un large éventail de données biomédicales.
Directions futures pour la recherche
Les résultats de cette étude soulignent la nécessité d'une recherche plus axée sur la reproductibilité des KGs. Un domaine important à explorer est la manière dont les KGs documentent leurs processus de développement. Cela pourrait inclure la tenue de dossiers détaillés sur les sources de données, le code utilisé et les méthodologies suivies.
Avoir des informations de provenance complètes aidera les chercheurs à reproduire les résultats des KG plus facilement et à garder les KGs alignés avec les sources de données changeantes.
En conclusion, le potentiel pour rendre les graphes de connaissances plus reproductibles est énorme, mais cela nécessite des efforts collaboratifs pour améliorer l'accès aux ressources, la documentation et les pratiques globales dans la communauté scientifique.
Titre: Reproducible Domain-Specific Knowledge Graphs in the Life Sciences: a Systematic Literature Review
Résumé: Knowledge graphs (KGs) are widely used for representing and organizing structured knowledge in diverse domains. However, the creation and upkeep of KGs pose substantial challenges. Developing a KG demands extensive expertise in data modeling, ontology design, and data curation. Furthermore, KGs are dynamic, requiring continuous updates and quality control to ensure accuracy and relevance. These intricacies contribute to the considerable effort required for their development and maintenance. One critical dimension of KGs that warrants attention is reproducibility. The ability to replicate and validate KGs is fundamental for ensuring the trustworthiness and sustainability of the knowledge they represent. Reproducible KGs not only support open science by allowing others to build upon existing knowledge but also enhance transparency and reliability in disseminating information. Despite the growing number of domain-specific KGs, a comprehensive analysis concerning their reproducibility has been lacking. This paper addresses this gap by offering a general overview of domain-specific KGs and comparing them based on various reproducibility criteria. Our study over 19 different domains shows only eight out of 250 domain-specific KGs (3.2%) provide publicly available source code. Among these, only one system could successfully pass our reproducibility assessment (14.3%). These findings highlight the challenges and gaps in achieving reproducibility across domain-specific KGs. Our finding that only 0.4% of published domain-specific KGs are reproducible shows a clear need for further research and a shift in cultural practices.
Auteurs: Samira Babalou, Sheeba Samuel, Birgitta König-Ries
Dernière mise à jour: 2023-09-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.08754
Source PDF: https://arxiv.org/pdf/2309.08754
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/lppl.txt
- https://scholar.google.de/
- https://github.com/fusion-jena/iKNOW/tree/main/Reproducibility-Survey
- https://www.ncbi.nlm.nih.gov/pmc
- https://github.com/alibaba-research/ConceptGraph
- https://github.com/hao1661282457/Knowledge-graphs
- https://www.geonames.org/
- https://www.dbpedia.org/
- https://www.wikidata.org
- https://www.ala.org.au
- https://orcid.org
- https://www.gbif.org/what-is-gbif
- https://biolink.github.io/biolink-model/
- https://www.nih.gov/research-training/rigor-reproducibility/principles-guidelines-reporting-preclinical-research
- https://kg2endpoint.rtx.ai:7474
- https://github.com/nju-websoft/CKGG
- https://ws.nju.edu.cn/CKGG/1.0/demo
- https://github.com/cansyl/CROssBAR
- https://crossbar.kansil.org/
- https://github.com/xcwujie123/Hainan
- https://github.com/IUST-DMLab/wiki-extractor
- https://farsbase.net/sparql
- https://github.com/davendw49/gakg
- https://gakg.acemap.info/
- https://www.acekg.cn/sparql
- https://github.com/ccszbd/MDKG
- https://github.com/rdmpage/ozymandias-demo
- https://ozymandias-demo.herokuapp.com/
- https://github.com/RTXteam/RTX-KG2
- https://arax.ncats.io/api/rtxkg2/v1.2/openapi.json