Herausforderungen bei der Reproduzierbarkeit von Wissensgraphen
Untersuchung der Lücken in der Reproduzierbarkeit von Wissensgraphen und deren Einfluss auf die Forschung.
― 6 min Lesedauer
Inhaltsverzeichnis
- Bedeutung der Reproduzierbarkeit
- Erkenntnisse zu domänenspezifischen Wissensgraphen
- Was sind Wissensgraphen?
- Analyse der Reproduzierbarkeit in Wissensgraphen
- Umfragemethodik
- Einblicke aus der Studie
- Bestehende Wissensgraphen mit Open-Source-Code
- Zukünftige Richtungen für die Forschung
- Originalquelle
- Referenz Links
Wissensgraphen (KGs) sind Werkzeuge, um Informationen strukturiert zu organisieren und darzustellen. Sie zeigen, wie verschiedene Informationsstücke miteinander in Beziehung stehen. Zum Beispiel können sie in Bereichen wie Empfehlungssystemen, beim Aufspüren falscher Gesundheitsinformationen oder beim Identifizieren von Details über Krankheiten helfen.
Allerdings kann die Erstellung und Pflege von KGs ziemlich komplex sein. Ein KG aufzubauen erfordert Fähigkeiten im Design von Datenstrukturen, der Organisation von Informationen und der Sicherstellung, dass die Daten genau und relevant sind. Dieser ständige Bedarf an Updates und Prüfungen erhöht den Aufwand, um ein KG funktionsfähig zu halten.
Reproduzierbarkeit
Bedeutung derEin zentrales Problem bei KGs ist die Reproduzierbarkeit. Das bedeutet, dass man die Informationen in einem KG replizieren oder verifizieren kann. Ein KG reproduzieren zu können, ist wichtig, um den Informationen zu vertrauen und deren langfristigen Nutzen sicherzustellen. Reproduzierbare KGs unterstützen die Prinzipien der offenen Wissenschaft, ermöglichen es Forschern, auf bestehendem Wissen aufzubauen, und sorgen für Klarheit und Verlässlichkeit beim Teilen von Daten.
Trotz des Wachstums von KGs in bestimmten Bereichen gab es nicht genug Analysen zur Reproduzierbarkeit. Diese Situation verlangt nach einem genaueren Blick auf KGs, mit dem Fokus darauf, wie man ihre Reproduzierbarkeit bewerten kann.
Erkenntnisse zu domänenspezifischen Wissensgraphen
In einer Untersuchung wurden 19 verschiedene Fachrichtungen betrachtet, und nur eine kleine Anzahl von KGs erwies sich als reproduzierbar. Von 250 untersuchten KGs hatten nur acht (3,2%) öffentlich verfügbaren Quellcode. Von diesen acht hat nur eines die Tests zur Reproduzierbarkeit erfolgreich bestanden, was zeigt, dass nur 0,4% der untersuchten KGs tatsächlich reproduzierbar sind.
Diese niedrige Prozentzahl zeigt ernsthafte Lücken in der aktuellen Praxis zur Erstellung und dem Teilen von KGs auf. Das weist auf einen klaren Bedarf für zukünftige Forschung hin und auf einen Wandel, wie mit diesen KGs umgegangen wird.
Was sind Wissensgraphen?
Im Kern präsentieren KGs strukturierte Informationen zu bestimmten Themen. Sie veranschaulichen Entitäten (wie Personen, Orte oder Dinge) und wie diese Entitäten durch verschiedene Beziehungen miteinander verbunden sind. Obwohl es viele Definitionen für KGs gibt, dienen sie allgemein dazu, Wissen über die reale Welt zu sammeln und zu teilen.
Reproduzierbarkeit kann als die Fähigkeit definiert werden, die gleichen Ergebnisse zu erzielen, wenn Experimente oder Studien von anderen wiederholt werden, die unterschiedliche Methoden oder Bedingungen nutzen. In rechnerischen Begriffen bedeutet Reproduzierbarkeit, konsistente Ergebnisse mit denselben Eingaben und Methoden zu erhalten.
Studien haben gezeigt, dass Reproduzierbarkeit in verschiedenen wissenschaftlichen Bereichen, auch in der computerbasierten Wissenschaft, eine Herausforderung bleibt. Diese Herausforderung erstreckt sich auch auf KGs, trotz ihrem Nutzen bei der Organisation von Daten. Ein reproduzierbares KG fördert das Vertrauen in die bereitgestellten Informationen und ermutigt zum Teilen von Daten.
Analyse der Reproduzierbarkeit in Wissensgraphen
Eine aktuelle Studie hatte zum Ziel, zu verstehen, wie bestehende KGs in Bezug auf Reproduzierbarkeit abschneiden. Die Analyse verglich KGs anhand mehrerer Kriterien, wobei der Fokus auf ihrer Reproduzierbarkeit lag. Dies beinhaltete die Überprüfung von 250 KGs aus verschiedenen Bereichen, speziell auf der Suche nach Open-Source-Code und der Fähigkeit, ihre Ergebnisse zu reproduzieren.
Die Studie verwendete mehrere Kriterien zur Bewertung der Reproduzierbarkeit, darunter:
- Verfügbarkeit von Code und Daten
- Geeignete Lizenzierung für den Code
- Beständigkeit von Identifikatoren wie DOIs für Code und Daten
- Zugänglichkeit der Ausführungsumgebung
- Klare Anweisungen zum Ausführen des Codes
- Online-Demos der KGs
- SPARQL-Endpunkte zum Abfragen der Daten
- Erfolgreiche Regeneration des KGs
- Herkunftsinformationen zur Nachverfolgung der Entwicklung
Diese Kriterien betonen, dass es nicht ausreicht, nur Code zu haben. Klare Anweisungen, eine verfügbare Umgebung und der Zugang zu Daten sind ebenfalls entscheidend.
Umfragemethodik
Die Forschung begann mit einer Suche nach „domänen Wissensgraph“ in Google Scholar, die bis Ende 2021 reicht. Diese Suche identifizierte viele Arbeiten, die dann durchgesehen wurden, um relevante zu finden, die sich mit dem Aufbau von KGs beschäftigen.
Nach dem Entfernen von Duplikaten und einer Eingrenzung der Auswahl nach bestimmten Kriterien wurden 250 Arbeiten identifiziert. Jede identifizierte Arbeit wurde dann auf das Vorhandensein von Open-Source-Code überprüft. Es war überraschend, dass nur acht Arbeiten öffentlich verfügbaren Code enthielten.
Der Forschungsprozess stellte sicher, dass jedes KG-Repository untersucht wurde, um sowohl die Verfügbarkeit von Code als auch die Vollständigkeit der bereitgestellten Dokumentation zu überprüfen.
Einblicke aus der Studie
Die Studie zeigt einige wichtige Erkenntnisse:
- Nur 3,2% der ausgewählten KGs boten Open-Source-Code an, was einen Bedarf an mehr Unterstützung für Praktiken der offenen Wissenschaft anzeigt.
- Nur eines der sieben Open-Source-KGs konnte erfolgreich ausgeführt werden, was zeigt, dass nur 0,4% reproduzierbar sind.
- Die Verfügbarkeit von Code allein garantiert keine Reproduzierbarkeit; klare Anweisungen und eine zugängliche Ausführungsumgebung sind ebenso wichtig.
- Viele KGs hatten keine ordnungsgemässe Nachverfolgung, wie sie aufgebaut wurden, was die Reproduzierbarkeit weiter kompliziert.
Bestehende Wissensgraphen mit Open-Source-Code
Unter den wenigen KGs, die Open-Source-Code bereitstellten, wurden mehrere interessante Fälle untersucht:
- CKGG konzentriert sich auf geografisches Wissen und enthält Milliarden von Datenpunkten, die aus verschiedenen Quellen zusammengestellt wurden.
- CROssBAR-KG stellt Beziehungen zwischen biologischen Begriffen dar und kann basierend auf Benutzereingaben abgefragt werden.
- ETKG modelliert tourismusbezogene Ereignisse und zieht Daten aus vielen gesammelten Reiseberichten aus dem Internet.
- FarsBase ist ein persischsprachiger KG, der Informationen aus Wikipedia sammelt und in einem strukturierten Format zugänglich macht.
- GAKG ist ein grosser KG, der aus geowissenschaftlichen Publikationen erstellt wurde, regelmässig aktualisiert wird und abfragbar ist.
- MDKG kombiniert Daten aus verschiedenen Datenbanken über Mikroben und Krankheiten.
- Ozymandias ist ein Biodiversitäts-KG, das Daten über die australische Fauna aus verschiedenen Quellen integriert.
- RTX-KG2 ermöglicht es Nutzern, einen biomedizinischen Wissensgraphen zu erstellen und zu hosten und wird von einer Vielzahl biomedizinischer Daten unterstützt.
Zukünftige Richtungen für die Forschung
Die Ergebnisse dieser Studie unterstreichen die Notwendigkeit für fokussierte Forschung zur Reproduzierbarkeit von KGs. Ein wesentlicher Bereich, der untersucht werden sollte, ist, wie gut KGs ihre Entwicklungsprozesse dokumentieren. Dies könnte die Pflege detaillierter Aufzeichnungen über Datenquellen, verwendeten Code und gefolgte Methoden umfassen.
Umfassende Herkunftsinformationen helfen Forschern, die Ergebnisse von KGs leichter zu reproduzieren und KGs an sich verändernde Datenquellen anzupassen.
Zusammenfassend lässt sich sagen, dass das Potenzial, Wissensgraphen reproduzierbarer zu machen, riesig ist, aber es erfordert gemeinsame Anstrengungen, um den Zugriff auf Ressourcen, Dokumentationen und die allgemeinen Praktiken in der wissenschaftlichen Gemeinschaft zu verbessern.
Titel: Reproducible Domain-Specific Knowledge Graphs in the Life Sciences: a Systematic Literature Review
Zusammenfassung: Knowledge graphs (KGs) are widely used for representing and organizing structured knowledge in diverse domains. However, the creation and upkeep of KGs pose substantial challenges. Developing a KG demands extensive expertise in data modeling, ontology design, and data curation. Furthermore, KGs are dynamic, requiring continuous updates and quality control to ensure accuracy and relevance. These intricacies contribute to the considerable effort required for their development and maintenance. One critical dimension of KGs that warrants attention is reproducibility. The ability to replicate and validate KGs is fundamental for ensuring the trustworthiness and sustainability of the knowledge they represent. Reproducible KGs not only support open science by allowing others to build upon existing knowledge but also enhance transparency and reliability in disseminating information. Despite the growing number of domain-specific KGs, a comprehensive analysis concerning their reproducibility has been lacking. This paper addresses this gap by offering a general overview of domain-specific KGs and comparing them based on various reproducibility criteria. Our study over 19 different domains shows only eight out of 250 domain-specific KGs (3.2%) provide publicly available source code. Among these, only one system could successfully pass our reproducibility assessment (14.3%). These findings highlight the challenges and gaps in achieving reproducibility across domain-specific KGs. Our finding that only 0.4% of published domain-specific KGs are reproducible shows a clear need for further research and a shift in cultural practices.
Autoren: Samira Babalou, Sheeba Samuel, Birgitta König-Ries
Letzte Aktualisierung: 2023-09-15 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.08754
Quell-PDF: https://arxiv.org/pdf/2309.08754
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/lppl.txt
- https://scholar.google.de/
- https://github.com/fusion-jena/iKNOW/tree/main/Reproducibility-Survey
- https://www.ncbi.nlm.nih.gov/pmc
- https://github.com/alibaba-research/ConceptGraph
- https://github.com/hao1661282457/Knowledge-graphs
- https://www.geonames.org/
- https://www.dbpedia.org/
- https://www.wikidata.org
- https://www.ala.org.au
- https://orcid.org
- https://www.gbif.org/what-is-gbif
- https://biolink.github.io/biolink-model/
- https://www.nih.gov/research-training/rigor-reproducibility/principles-guidelines-reporting-preclinical-research
- https://kg2endpoint.rtx.ai:7474
- https://github.com/nju-websoft/CKGG
- https://ws.nju.edu.cn/CKGG/1.0/demo
- https://github.com/cansyl/CROssBAR
- https://crossbar.kansil.org/
- https://github.com/xcwujie123/Hainan
- https://github.com/IUST-DMLab/wiki-extractor
- https://farsbase.net/sparql
- https://github.com/davendw49/gakg
- https://gakg.acemap.info/
- https://www.acekg.cn/sparql
- https://github.com/ccszbd/MDKG
- https://github.com/rdmpage/ozymandias-demo
- https://ozymandias-demo.herokuapp.com/
- https://github.com/RTXteam/RTX-KG2
- https://arax.ncats.io/api/rtxkg2/v1.2/openapi.json