知識グラフの再現性の課題
知識グラフの再現性のギャップを調べて、その研究への影響を見てる。
― 1 分で読む
目次
ナレッジグラフ(KGs)は、情報を整理して構造的に表現するためのツールだよ。情報の異なる部分がどのように関連しているかを示してくれる。例えば、レコメンデーションシステムや、偽の健康情報の検出、病気の詳細の特定なんかに役立つんだ。
でも、KGを作成したり維持したりするのはかなり複雑だよ。KGを構築するには、データ構造の設計、情報の整理、データが正確で関連性があることを確認するスキルが必要なんだ。この更新とチェックの継続的な必要性が、KGを機能させるための作業を増やしている。
再現性の重要性
KGに関する重要な問題の一つは再現性だよ。これは、KG内の情報を再現または検証できることを意味している。KGを再現できることは、その情報を信頼するためや、その知識の長期的な有用性のために必要不可欠なんだ。再現可能なKGはオープンサイエンスの原則を支援し、研究者が既存の知識に基づいて構築できるようにし、データ共有において明確さと信頼性を確保するんだ。
特定の分野でKGが増えているにもかかわらず、それがどれだけ再現可能かについての分析が十分ではなかった。この状況は、KGに対するより深い目を向ける必要性を示しているよ。
ドメイン特化型ナレッジグラフの調査結果
19の異なる分野で研究が行われて、再現可能なKGはほんの少数しか見つからなかった。250のKGを調査した結果、公共に利用可能なソースコードを持っていたのはたったの8個(3.2%)だけだった。その8個の中で、成功裏に再現性のテストを通過したのは1つだけで、調査されたKGのうち本当に再現可能なのは0.4%に過ぎないことがわかった。
この低い割合は、KGの作成と共有に関する現在の実践に深刻なギャップがあることを示している。将来の研究やKGへのアプローチ方法のシフトが必要だという明確なニーズを指摘しているよ。
ナレッジグラフって何?
KGは、特定のトピックに関する構造化された情報を提供しているんだ。人や場所、物なんかのエンティティと、それらがさまざまな関係を通じてどのように繋がるかを示している。KGの定義は色々あるけど、一般的には現実世界に関する知識を集めて共有するためのものなんだ。
再現性は、他の人が異なる方法や条件で実験や研究を繰り返したときに同じ結果を得る能力として定義できるよ。計算的には、同じ入力と方法を使って一貫した結果を得ることなんだ。
研究によると、再現性はさまざまな科学分野での課題で、計算科学にも当てはまるんだ。この課題はKGにも関連していて、データを整理する上での有用性にもかかわらず再現性が問題になっている。再現可能なKGは提供される情報への信頼を育み、データ共有を促進するんだ。
ナレッジグラフの再現性分析
最近の研究では、既存のKGが再現性の面でどのように機能しているかを理解しようとしたんだ。分析は、KGをいくつかの基準に基づいて比較し、どれだけ再現可能かに焦点を当てた。この調査では、複数のドメインからの250のKGがチェックされ、オープンソースコードとその結果を再現する能力が特に注目された。
研究では、再現性を評価するためのいくつかの基準を使ったんだ:
- コードとデータの入手可能性
- コードに対する適切なライセンス
- コードとデータの持続的な識別子(DOIなど)
- 実行環境へのアクセス可能性
- コードを実行するための明確な指示
- KGsのオンラインデモ
- データのクエリ用SPARQLエンドポイント
- KGの成功裏な再生成
- 開発を追跡するための由来情報
これらの基準は、単にコードがあるだけでは再現性が保証されないことを強調しているよ。明確な指示、利用可能な環境、データアクセスも同じくらい重要なんだ。
調査方法論
研究は、「ドメインナレッジグラフ」というキーワードでGoogle Scholarを検索することから始まったんだ。2021年末までの論文をカバーして、たくさんの論文を見つけて、その中からKGの構築に関連するものを選んだんだ。
重複を取り除いて特定の基準に基づいて選択を絞り込んで、250の論文を特定した。それぞれの論文でオープンソースコードの存在を確認したんだけど、公共に利用可能なコードが含まれていたのはたったの8つだけだった。
研究プロセスでは、それぞれのKGのリポジトリを調べて、コードの入手可能性と提供されている文書の完全性を確認したんだ。
研究からの洞察
この研究から得られた重要な洞察は以下の通りだよ:
- 選ばれたKGのうち、オープンソースコードを提供していたのは3.2%だけで、オープンサイエンスの実践へのさらなる支援が必要だってことがわかった。
- 7つのオープンソースKGのうち、成功裏に実行できたのはたった1つだけで、再現可能なのは0.4%だけだった。
- コードが入手可能なだけでは再現性が保証されない、明確な指示やアクセス可能な実行環境も同じくらい重要だってこと。
- 多くのKGは、どのように構築されたかの適切な追跡がなく、再現性をさらに複雑にしているってこと。
オープンソースコードを持つ既存のナレッジグラフ
オープンソースコードを提供しているわずかなKGの中で、いくつかの興味深いケースが検討されたよ:
- CKGGは地理に関する知識に焦点を当てていて、様々なソースから集めた数十億のデータポイントを含んでいる。
- CROssBAR-KGは生物学用語の関係を示していて、ユーザー入力に基づいてクエリができる。
- ETKGは観光関連のイベントをモデル化していて、オンラインで集めた多くの旅行ノートのデータを引き出している。
- FarsBaseは、ウィキペディアから集めた情報を整理したファルシー語のKGで、構造化された形式でアクセス可能になっている。
- GAKGは地球科学の出版物から作られた大きなKGで、頻繁に更新され、クエリできる。
- MDKGは微生物や病気に関するさまざまなデータベースからデータを統合している。
- Ozymandiasはオーストラリアの動物に関するデータをいくつかのリソースから統合した生物多様性KG。
- RTX-KG2はユーザーがバイオメディカルナレッジグラフを構築してホストできるようにしていて、幅広いバイオメディカルデータに支持されている。
研究の今後の方向性
この研究の結果は、KGの再現性に関するより焦点を絞った研究の必要性を強調しているよ。探求すべき大きな分野は、KGがどれだけ開発プロセスを文書化しているかということ。この中には、データソース、使用されたコード、遵守した方法論の詳細な記録を維持することが含まれる。
包括的な由来情報を持っていることで、研究者がKGの結果をより簡単に再現できるようになり、KGが変わるデータソースに沿って維持されるようになるんだ。
結論として、ナレッジグラフをもっと再現可能にするための可能性は広大だけど、リソース、文書、科学コミュニティ全体の実践へのアクセスを改善するための協力的な努力が必要なんだ。
タイトル: Reproducible Domain-Specific Knowledge Graphs in the Life Sciences: a Systematic Literature Review
概要: Knowledge graphs (KGs) are widely used for representing and organizing structured knowledge in diverse domains. However, the creation and upkeep of KGs pose substantial challenges. Developing a KG demands extensive expertise in data modeling, ontology design, and data curation. Furthermore, KGs are dynamic, requiring continuous updates and quality control to ensure accuracy and relevance. These intricacies contribute to the considerable effort required for their development and maintenance. One critical dimension of KGs that warrants attention is reproducibility. The ability to replicate and validate KGs is fundamental for ensuring the trustworthiness and sustainability of the knowledge they represent. Reproducible KGs not only support open science by allowing others to build upon existing knowledge but also enhance transparency and reliability in disseminating information. Despite the growing number of domain-specific KGs, a comprehensive analysis concerning their reproducibility has been lacking. This paper addresses this gap by offering a general overview of domain-specific KGs and comparing them based on various reproducibility criteria. Our study over 19 different domains shows only eight out of 250 domain-specific KGs (3.2%) provide publicly available source code. Among these, only one system could successfully pass our reproducibility assessment (14.3%). These findings highlight the challenges and gaps in achieving reproducibility across domain-specific KGs. Our finding that only 0.4% of published domain-specific KGs are reproducible shows a clear need for further research and a shift in cultural practices.
著者: Samira Babalou, Sheeba Samuel, Birgitta König-Ries
最終更新: 2023-09-15 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.08754
ソースPDF: https://arxiv.org/pdf/2309.08754
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/lppl.txt
- https://scholar.google.de/
- https://github.com/fusion-jena/iKNOW/tree/main/Reproducibility-Survey
- https://www.ncbi.nlm.nih.gov/pmc
- https://github.com/alibaba-research/ConceptGraph
- https://github.com/hao1661282457/Knowledge-graphs
- https://www.geonames.org/
- https://www.dbpedia.org/
- https://www.wikidata.org
- https://www.ala.org.au
- https://orcid.org
- https://www.gbif.org/what-is-gbif
- https://biolink.github.io/biolink-model/
- https://www.nih.gov/research-training/rigor-reproducibility/principles-guidelines-reporting-preclinical-research
- https://kg2endpoint.rtx.ai:7474
- https://github.com/nju-websoft/CKGG
- https://ws.nju.edu.cn/CKGG/1.0/demo
- https://github.com/cansyl/CROssBAR
- https://crossbar.kansil.org/
- https://github.com/xcwujie123/Hainan
- https://github.com/IUST-DMLab/wiki-extractor
- https://farsbase.net/sparql
- https://github.com/davendw49/gakg
- https://gakg.acemap.info/
- https://www.acekg.cn/sparql
- https://github.com/ccszbd/MDKG
- https://github.com/rdmpage/ozymandias-demo
- https://ozymandias-demo.herokuapp.com/
- https://github.com/RTXteam/RTX-KG2
- https://arax.ncats.io/api/rtxkg2/v1.2/openapi.json