OpenCitationsインデックス: 引用データの重要なリソース
オープンリサーチのための20億以上のユニークな引用リンクにアクセスしよう。
Ivan Heibi, Arianna Moretti, Silvio Peroni, Marta Soricetti
― 1 分で読む
OpenCitations Indexは、大量の引用データのコレクションなんだ。これは、オープンな学問に焦点を当てた非営利団体OpenCitationsによって作られ、維持されているんだ。目標は、研究者や他の人たちがこの情報を自由に使えるように、引用データに簡単にアクセスできるようにすること。いろんなソースから集められた引用が含まれているよ。
引用は、異なる研究をつなぐもので、1つの作品が別の作品をどのように引用しているかを示している。このプロセスは、知識の発展を追跡する助けになり、著者の貢献に対してクレジットを与えるんだ。アクセス可能で公平な引用データの需要が高まっていて、特に透明な研究実践と再現性をサポートするために必要とされている。OpenCitationsは、このニーズに応えようとしているんだ。
OpenCitationsが最初に作ったコレクションの1つが、Crossref引用のOpenCitations Indexだった。このコレクションは、研究論文のユニークな識別子であるDOIと呼ばれるデジタルオブジェクト間のリンクに焦点を当てたものだった。このインデックスの導入は、OpenCitationsや広い研究コミュニティにとって重要なステップだったんだ。
このインデックスの引用は、特定のデータモデルに従って整理されている。一つ一つの引用は、いつ作られたかや引用に関与したエンティティなど、自分自身の詳細を持つエンティティとして扱われるんだ。近年、OpenCitationsは利用可能な引用データの範囲を広げるために一生懸命働いてきた。これは、国立衛生研究所、DataCite、OpenAIRE、日本リンクセンターなど、さまざまなソースからのデータを集めることを含んでいるよ。
2024年7月の時点で、OpenCitations Indexには、これらの多様なソースから集められた20億以上のユニークな引用リンクが保持されている。この情報は、SPARQLエンドポイント、REST API、さまざまなフォーマットでダウンロード可能なデータセットダンプなど、さまざまなサービスを通じて一般に公開されている。ユーザーは、書誌データ、引用データにアクセスでき、データセットの変更を追跡することもできるんだ。
書誌引用の重要性
書誌引用は、引用元と引用されたエンティティの間のつながりを示すんだ。これらの引用は、研究のグローバルな状況を理解するために不可欠で、知識のトレンドを明らかにし、著者にクレジットを与え、影響を評価するのに役立っている。最近では、多くのオープンイニシアティブが出てきて、独占的な引用サービスに代わるものを提供しようとしている。これらのイニシアティブは、オープンライセンスの下で引用情報を集めて公開することを目的としていて、使いやすく共有しやすくすることを目指しているんだ。
OpenCitationsもその一つだ。引用データへのアクセスを容易にし、知識を共有し、公正な研究実践をサポートするために設立された。OpenCitationsの最初の主要なコレクションは、2018年に立ち上げられたCrossref引用のOpenCitations Indexだった。このインデックスは、研究者にとって重要なリソースを提供し、機械可読形式で入手可能な大規模なオープン引用情報のデータセットを提供しているんだ。
このインデックスの引用は、OpenCitationsデータモデルに従っている。このモデルは、引用をそれぞれのメタデータを持つ独自のエンティティとして整理している。たとえば、関与する著者、引用の作成日、データのソースに関する詳細が含まれているよ。
最近では、OpenCitationsは、追加のデータソースからの情報を取り入れることで、コレクション内の引用データの幅を広げることに力を入れている。この努力には、主にバイオメディカル研究に焦点を当てた国立衛生研究所の引用コレクションや、DataCite、OpenAIREなどの他のソースからの引用を含むように、OpenCitationsの取り込みワークフローを再設計することが含まれているんだ。
OpenCitations Indexのワークフロー
OpenCitations Indexは、引用が正確に表現されるように特定のワークフローを使用している。このワークフローは、異なるソースからのデータを管理し、統合するのに役立ついくつかのステップを含んでいる。
ソース前処理: この初期ステップでは、元のソースからデータを抽出し、システムが簡単に使用できるテーブルに整理する。データは、その識別子が正しいかどうかを確認するために検証され、引用リンクは適切にフォーマットされる。
メタプロセス: この段階では、引用に記載されている書誌リソースにユニークな識別子が与えられる。これにより、複数のソースに異なる識別子で登場しても、リソースを追跡できるようになる。メタデータには、出版日、著者、引用された作品の発表場所といった重要な情報が含まれている。
インデックスプロセス: 最終的なステップでは、OpenCitations Indexに含まれる実際の引用データを作成する。このプロセスでは、元の引用リンクが標準化された形式に変換され、前のステップで指定されたユニークな識別子と接続されるようにする。
この組織的なワークフローのおかげで、OpenCitations Indexは引用データを集約するだけでなく、データセットの変更や更新も追跡することができる。これにより、ユーザーは各引用の歴史やデータの出所を理解しやすくなっているんだ。
出所と変更追跡
引用データに加えて、OpenCitations Indexは、各引用の起源や行われた変更についての詳細な情報も保持している。この出所追跡は、データの整合性を確保するために重要なんだ。
すべての引用には、時間の経過に伴う状態をキャッチするスナップショットが関連付けられている。これらのスナップショットには、引用がいつ作成されたか、誰が変更を行ったか、データの主なソースが含まれている。この透明性により、ユーザーは引用の信頼性を確認できるんだ。
引用追跡に加えて、データセットには全体のメタデータも含まれていて、コレクション全体について説明している。このメタデータには、データセットが最後に修正された時期、ダウンロード可能なフォーマットの種類、ライセンス情報などが含まれているよ。
2024年7月の時点で、OpenCitations Indexには、9100万以上の書誌リソースの中に20億以上のユニークな引用リンクが含まれている。このデータは無料で提供されているので、さまざまな用途に利用できるんだ。
リソースとサービス
OpenCitationsは、ユーザーが引用データに簡単にアクセスし、使用できるようにするためのさまざまなツールを提供している。これには、データをクエリするためのSPARQLエンドポイント、標準的なウェブプロトコルを介して情報にアクセスするためのREST API、データセットをブラウジングしたり検索したりするためのウェブアプリケーションが含まれているよ。
ユーザーは、さまざまな基準に基づいて引用データにアクセスでき、CSVやRDFなどのさまざまなフォーマットでフルデータセットをダウンロードすることもできる。目標は、研究者、開発者、引用情報に興味のある人々がデータをできるだけ使いやすく、適応可能にすることなんだ。
OpenCitations Indexの利用
OpenCitations Indexは、その導入以来、利用が大幅に増加している。データはAPIを通じて何百万回もアクセスされていて、提供される引用情報への強い需要を示している。この広いアクセス性により、ユーザーは引用データを自分のツールやシステムに簡単に統合できるようになっているんだ。
さらに、いくつかのプロジェクトやイニシアティブがOpenCitations Indexデータをリソースとして利用し始めている。たとえば、OpenAIRE-Nexusプロジェクトは、OpenCitationsデータを新しいOpenAIRE Graphに統合した。他のプロジェクト、B!SONやPURE Suggestなども、自分たちのアプリケーションに引用データを利用しているよ。
研究機関も自分たちの目的のためにOpenCitationsデータを採用している。ORBiやCHERRYのような機関リポジトリも、OpenCitations Indexからの引用数を使用してサービスを強化しているんだ。
今後の方向性
今後、OpenCitationsはOpenCitations Index内のデータの質をさらに向上させることを目指している。これには、引用データの人間によるキュレーションを可能にするウェブインターフェースの開発が含まれている。コミュニティのキュレーターを巻き込むことで、引用データの正確性や信頼性を大幅に向上させることができるんだ。
さらに、OpenCitationsは、著者の識別を正確に行うために、機械学習とネットワーク分析を組み合わせた高度な方法に取り組んでいる。これにより、著者が正しく識別され、引用データの質がさらに向上するんだ。
全体として、OpenCitations Indexはオープン引用データにおける重要な進展を示していて、研究者や広範な科学コミュニティに貴重なリソースを提供している。OpenCitationsは、引用データが自由に利用でき、簡単にアクセスできるようにすることで、よりオープンで協力的な研究環境を促進しているんだ。
タイトル: The OpenCitations Index
概要: This article presents the OpenCitations Index, a collection of open citation data maintained by OpenCitations, an independent, not-for-profit infrastructure organisation for open scholarship dedicated to publishing open bibliographic and citation data using Semantic Web and Linked Open Data technologies. The collection involves citation data harvested from multiple sources. To address the possibility of different sources providing citation data for bibliographic entities represented with different identifiers, therefore potentially representing same citation, a deduplication mechanism has been implemented. This ensures that citations integrated into OpenCitations Index are accurately identified uniquely, even when different identifiers are used. This mechanism follows a specific workflow, which encompasses a preprocessing of the original source data, a management of the provided bibliographic metadata, and the generation of new citation data to be integrated into the OpenCitations Index. The process relies on another data collection: OpenCitations Meta, and on the use of a new globally persistent identifier, namely OMID (OpenCitations Meta Identifier). As of July 2024, OpenCitations Index stores over 2 billion unique citation links, harvest from Crossref, the National Institute of Heath Open Citation Collection (NIH-OCC), DataCite, OpenAIRE, and the Japan Link Center (JaLC). OpenCitations Index can be systematically accessed and queried through several services, including SPARQL endpoint, REST APIs, and web interfaces. Additionally, dataset dumps are available for free download and reuse (under CC0 waiver) in various formats (CSV, N-Triples, and Scholix), including provenance and change tracking information.
著者: Ivan Heibi, Arianna Moretti, Silvio Peroni, Marta Soricetti
最終更新: 2024-08-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.02321
ソースPDF: https://arxiv.org/pdf/2408.02321
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://opencitations.net
- https://i4oc.org/
- https://opencitations.net/index
- https://opencitations.net/meta
- https://www.dimensions.ai/
- https://ouci.dntb.gov.ua/en/
- https://openaire.eu
- https://scholexplorer.openaire.eu/
- https://www.openaire.eu/scholexplorer
- https://openalex.org/
- https://icite.od.nih.gov/
- https://wikicite.org/
- https://www.semanticscholar.org/
- https://crossref.org
- https://icite.od.nih.gov
- https://datacite.org
- https://archive.org/details/datacite-2024-01-26
- https://scholexplorer.openaire.eu
- https://doi.org/10.3030/101017452
- https://japanlinkcenter.org
- https://www.jstage.jst.go.jp/
- https://w3id.org/oc/ontology
- https://purl.org/spar/cito
- https://www.sparontologies.net
- https://www.w3.org/TR/xmlschema-2/#duration
- https://github.com/opencitations
- https://github.com/ariannamorettj/OC
- https://identifiers.org/omid
- https://redis.io/
- https://opencitations.hypotheses.org/3140
- https://github.com/ad-freiburg/qlever
- https://w3id.org/oc/meta/br/
- https://w3id.org/oc/index/ci/
- https://purl.org/spar/cito/
- https://www.w3.org/1999/02/22-rdf-syntax-ns#
- https://www.w3.org/2001/XMLSchema#
- https://identifiers.org/oci
- https://w3id.org/oc/index/ci/06101801781-06180334099
- https://www.w3.org/ns/prov-o
- https://rdfs.org/ns/void
- https://www.w3.org/ns/dcat
- https://w3id.org/oc/index/sparql
- https://w3id.org/oc/index/api/v2
- https://www.w3.org/ns/prov
- https://www.w3.org/TR/vocab-dcat/
- https://www.w3.org/TR/void/
- https://github.com/opencitations/lucinda
- https://opencitations.net/index/api/v1/
- https://opencitations.net/index/api/v2/
- https://opencitations.net/index/coci/api/v1/
- https://opencitations.net/sparql
- https://www.wikidata.org/wiki/Property:P3181
- https://locdb.bib.uni-mannheim.de/blog/en/
- https://www.openaire.eu/openaire-nexus-project
- https://graspos.eu/
- https://service.tib.eu/bison/
- https://doaj.org
- https://fabian-beck.github.io/pure-suggest/
- https://www.oahelper.org/
- https://projects.tib.eu/optimeta/en/
- https://cherry.chem.bg.ac.rs/
- https://stabikat.de/
- https://doi.org/10.6084/m9.figshare.24356626
- https://doi.org/10.6084/m9.figshare.24369136
- https://doi.org/10.6084/m9.figshare.24416749
- https://doi.org/10.6084/m9.figshare.24417733
- https://doi.org/10.6084/m9.figshare.24417736