データコモンズ:インサイトへのアクセス向上
意思決定をより良くするためのデータ共有の効率的なアプローチ。
― 1 分で読む
データは、私たちが世界をどう見るか、どう理解するかに重要な役割を果たしてる。問題に取り組んだり、みんなの生活を良くしたりする手助けをしてくれる。世界の問題がどんどん複雑になる中で、科学者や政策立案者は未来に何が起こるかを予測するために、いろんなデータソースからの洞察を集める必要がある。気候変動なんかがそのいい例で、気温上昇が食糧生産、医療、住居などにどう影響するかを見なきゃいけない。
気候変動に対応するためには、最も脆弱な地域を知っておく必要がある。これは健康問題が多い地域、今後数年でさらに暑くなると予想される地域、極端な暑さに耐えられないエネルギーシステムがある地域、医療サービスが限られている地域を調べることを含む。こうした情報を集めるのは大変で、特に政府の異なる部門や研究グループからデータを収集することが難しいことが多い。
例えば、アメリカの公衆衛生の担当者は、どの病院が熱に関連する病気で圧倒されるかを予測したいと思うかもしれない。まず、必要な基準を満たす郡を特定し、その後関連するデータベースを見つける。CDCやIPCC、アメリカエネルギー省などのデータセットを使ってデータを集めるかもしれない。しかし、各データセットはフォーマットが異なることが多く、統合プロセスが複雑になる。公衆衛生の担当者は、これらのデータセットを分析するために高度な技術スキルが必要で、それが情報に基づいた決定を下す能力を制限する。
データ分析の課題
データ分析にはいくつかの課題がある。まず、時間と労力がとてもかかる。研究によると、データサイエンティストは、データ自体を分析するのではなく、データのクリーニングや統合などの作業に最大80%の時間を費やすことがある。これは専門知識や研究資金を無駄にすることになる。次に、これらの分析を行うために必要な技術スキルが、問題に最も近い人々-例えば地元の保健官やフードバンクの管理者-にとって障壁となることが多い。これにより、多くのコミュニティが、状況を改善するのに役立つ貴重な洞察を見逃すことになる。
データコモンズの導入
これらの課題に対処するために、データコモンズという解決策を作った。私たちのアプローチは、面倒なデータ作業を一度だけ管理して、最終的なデータを標準フォーマットで簡単にアクセスできるようにすること。インターネットにアクセスできる人なら誰でもこの情報の恩恵を受けられる。
データコモンズには主に3つの部分がある:
データ公開フレームワーク: これは、異なるソースからのデータがスムーズに連携できるようにする構造とツールのセットを作る。
公共データコモンズ: これは、さまざまな政府やNGOのソースから組織されたデータの大きなコレクションで、コラボレーションとデータ共有を促進するために設計されている。
ツール: これは、確立された構造を用いるどのデータコモンズサイトでも利用できるように設計されていて、アクセスと分析が簡単になる。
データ共有の重要性
データコモンズに似たシステムがこれまでにいくつか開発されてきた。既存のシステムにはそれぞれ強みがあるが、データコモンズはいくつかの点で際立っている。
知識リポジトリ
1980年代から処理されたデータのリポジトリが存在している。よく知られた例の一つに、天文学データを一つのデータベースに集めてオンラインでアクセス可能にした「ワールドワイドテレスコープ」がある。この例とは異なり、データコモンズは人口統計、気候、経済、健康などの幅広いトピックをカバーしている。
ウィキデータも例の一つで、Wikipediaから構造化されたデータを提供している。しかし、これも主にWikipediaをサポートしていて、深い統計洞察には制限がある。
リンクデータ
リンクデータシステムは、異なるソースが同じエンティティに対して類似の識別子を使用することを奨励している。ただし、時間やデータの関係性に関するさまざまなフォーマットや定義を許可しているため、データを結合するのが難しい。データコモンズは、タイプやプロパティを定義するための共通の標準セットに従うことで、これを簡素化している。
データセットリポジトリ
主要なクラウドプロバイダーは、ユーザーがデータを効率的に検索しアクセスできるデータセットのリポジトリを提供している。これらは関連するデータセットを見つけるのに役立つが、標準フォーマットを強制したり、データの統合やクリーニングを容易にすることはない。データコモンズは、これらのステップをすでに完了している。
データコモンズのアーキテクチャ
データコモンズのアーキテクチャは、ウェブの仕組みに似ている。ユーザーがHTMLのような共通フォーマットやHTTPのようなプロトコルを使って異なるウェブサイトにアクセスできるように、データコモンズは組織が使用できる共通のデータ構造とツールを提供している。
各データコモンズサイトは、特定のトピックやニーズに焦点を当てつつ、他と容易に接続できる。共通のフォーマットやプロトコルにより、さまざまなデータコモンズ間でツールやアプリケーションがシームレスに動作できる。
コアデータモデル
データコモンズの基盤は、知識グラフ(KG)で、これによりデータが整理されて、さまざまな情報の間の関係を見つけやすくなっている。このモデルは広く受け入れられた標準を使って構築されているため、さまざまな組織がデータを共有したり、協力したりしやすくなっている。
データコモンズAPI
データコモンズは、ユーザーがデータを簡単に探索できるシンプルなグラフAPIを提供している。難しいクエリ言語を使うのではなく、誰でも理解できるようなわかりやすいAPIを選んだ。
データコモンズ内の各エンティティには識別子(dcid)があって、API呼び出しで参照するのに役立つ。特定のエンティティに関連するデータを見つけたい場合、dcidを使うことで、複雑なコーディングやデータ管理を知らなくても、関連情報をすべて取得できる。
ツールと実装
データコモンズのさまざまな実装があり、それぞれ異なるニーズやデータ量に対応している。
軽量なJavaScript実装: これはブラウザで動作し、利用可能なデータの迅速なビューを作成するのに便利。
リレーショナルデータベースシステム: これは大量のデータを保存でき、オープンソースのデータコモンズ実装の開発に使われている。
BigQueryとBigtable: これは巨大な知識グラフを扱える設定で、膨大なデータセットの処理に最適。
可視化ツール
さまざまなデータコモンズインスタンスに対応するために開発されたツールもある。これらのツールを使うことで、マップやチャートなど、さまざまな方法でデータを可視化できる。また、GoogleシートやCSVファイル用にデータにアクセスしやすくするツールもある。
異なるソースからのデータ統合
データコモンズを使う主な理由の一つは、さまざまなソースからのデータを簡単に統合できること。データコモンズフォーマットで新しいデータセットが利用可能になると、それを既存のデータと effortlessly 統合でき、分析用のよりリッチなデータセットが作成できる。
例えば、アメリカで多くのフードバンクを運営するフィーディングアメリカが開発した「ミールギャップインデックス」という食糧不安の指標がある。このデータをデータコモンズで利用できるようにすることで、医療、収入、気候モデルなどの関連データセットと統合できる。このオープンなアプローチは、分析プロセスを大幅に簡素化する。
グーグル公共データコモンズ
データコモンズの最も著名な例の一つが、グーグル公共データコモンズだ。このコレクションは、気候変動や社会的不平等など、社会が抱える大きな課題に対処することを目指している。利用可能なデータは多岐にわたり、人口統計、経済、健康、気候変動に関する洞察を提供している。
カバーされているトピック
経済: 雇用、収入、貿易、GDPに関連する情報で、経済の健康を把握するためにさまざまなソースから収集されている。
人口統計: 年齢、性別、人種、収入層に関するデータで、社会的ニーズやトレンドを理解するのに必要。
公衆衛生: さまざまな健康介入の効果を特定するのに役立つ縦断的データセット。
気候: 温室効果ガス排出量や将来の変化の予測を含む包括的な気候データ。
自然言語インタラクション
最近の技術の進展により、ユーザーはシンプルな言葉でデータコモンズとやり取りできるようになった。複雑なデータ構造を理解する必要がなく、データに関するわかりやすい質問をするだけで済む。この機能により、データ分析がより広い範囲の人々に開かれ、より多くの人々が情報に基づいた決定を下せるようになる。
結論
データコモンズは、データをよりアクセスしやすく、分析しやすくするための重要なステップを示している。さまざまなデータセットを一つのフレームワークに統合することで、歴史的にデータ分析を制限してきた多くの障害を取り除いている。これにより、地域の組織、公衆衛生の担当者、研究者がより効果的な決定を下し、コミュニティにポジティブな変化をもたらすことができる。
データ共有のエコシステムが成長し続ける中で、こうしたシステムの利点はますます明らかになり、今日の社会が直面する緊急課題への対応が改善されるだろう。
タイトル: Data Commons
概要: Publicly available data from open sources (e.g., United States Census Bureau (Census), World Health Organization (WHO), Intergovernmental Panel on Climate Change (IPCC)) are vital resources for policy makers, students and researchers across different disciplines. Combining data from different sources requires the user to reconcile the differences in schemas, formats, assumptions, and more. This data wrangling is time consuming, tedious and needs to be repeated by every user of the data. Our goal with Data Commons (DC) is to help make public data accessible and useful to those who want to understand this data and use it to solve societal challenges and opportunities. We do the data processing and make the processed data widely available via standard schemas and Cloud APIs. Data Commons is a distributed network of sites that publish data in a common schema and interoperate using the Data Commons APIs. Data from different Data Commons can be joined easily. The aggregate of these Data Commons can be viewed as a single Knowledge Graph. This Knowledge Graph can then be searched over using Natural Language questions utilizing advances in Large Language Models. This paper describes the architecture of Data Commons, some of the major deployments and highlights directions for future work.
著者: Ramanathan V. Guha, Prashanth Radhakrishnan, Bo Xu, Wei Sun, Carolyn Au, Ajai Tirumali, Muhammad J. Amjad, Samantha Piekos, Natalie Diaz, Jennifer Chen, Julia Wu, Prem Ramaswami, James Manyika
最終更新: 2023-09-07 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.13054
ソースPDF: https://arxiv.org/pdf/2309.13054
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。