ヘルスシステム全体でデータを活用して、より良い結果を目指す
多様な健康データソースをつなげて、患者ケアと研究方法を改善する。
― 1 分で読む
目次
学習健康システム(LHS)は、より大規模な健康問題に取り組む方法として人気が高まっている。これらのシステムは、さまざまなソースから収集した健康データを活用して、ケアや成果を向上させる。クリニックや病院からのデータは重要だけど、全体像を把握するためには他のデータタイプも必要なんだよ。研究グループ、バイオバンク、個人の健康追跡、環境要因、社会サービスからのデータも含まれる。
複数のデータソースが重要な理由
いくつかの健康に関する質問は、単一の組織内で答えられることもある。でも、LHSは異なる組織の相互作用を見るから、たいてい複数の場所からデータが必要なんだ。例えば、がん患者の経過を理解するには、伝統的な健康システムと地域社会の情報が必要になる。これって、地域、州、あるいは国全体からのデータを扱うことを意味するかもしれない。
異なる場所からデータを集めるのは難しいこともある。伝統的には、研究者はデータを集めて、すべてを一か所にコピーして分析していた。でも、倫理や法的な問題から、さまざまな管轄からのデータでそれを実現するのは難しくなってきた。
新しい分析方法の必要性
こういった課題を考えると、新しい分析方法が急務なんだ。研究者がデータを集中させずに分析できる方法が求められている。そこで登場するのが分散分析だ。
分散分析って何?
分散分析は、分析に必要なデータが複数の場所、つまりノードに分散されているシステムを指す。データを一か所に集める代わりに、各ノードがデータの一部を持っていて、みんなで完全なデータセットを形成するんだ。
データの分割の種類
データは主に2つのタイプに分けられる:
水平分割:この場合、単一の個人に関連する全てのデータが一つのノードに収まる。例えば、患者がすべてのケアをひとつの州で受けている場合、その州の健康記録が水平分割を形成する。
垂直分割:ここでは、あるグループの個人に関する異なる種類のデータが単一のノードに保存される。例えば、病院はすべての病理結果を一つのシステムに、すべての請求情報を別のシステムに持っている。患者の全体的なケアを理解するには、研究者が複数のシステムにアクセスする必要がある。
混合分割:このタイプは、水平と垂直の分割の両方を組み合わせたもの。ある個人が異なるノードにデータを持っている場合もあれば、他の個人がさまざまなノードに存在する場合もある。
分散分析の課題
分散分析は解決策を提供するけど、自身の課題もある。大規模なデータ分析で使われる手法は、参加する各ノードでたくさんの計算を必要とすることが多い。各ノードは、さらに分析するために集約した統計情報を中央の調整センター(CC)に送信する。このCCは、受け取った統計に基づいて追加の計算も行える。
重要な問題の一つは、データソースが構造や技術、意味の面でかなり異なることが多い。これが、一貫性のないデータを生み出し、分析をさらに複雑にする。これらの問題に対処するために、さまざまなアプローチが開発されてきた。この作業では、これらのうちの一つの方法が成功裏に適用されたと仮定されている。
水平分割された統計分析の導入
水平分割されたデータに焦点を当てた分析は、水平分割された統計分析(HPSA)と呼ばれる。この分野ではいくつかの方法論が登場している。
メタ分析やメタ回帰は、HPSAの一部として見なされることができる。各ノード特有のデータセットは、異なる研究のように扱えるから。しかし、これらの方法は、すでに確立された研究レベルの推定に依存することが多く、特に希少な病気や小規模なサンプルサイズの場合にはその効果が制限される。
現在の状況と課題
HPSAアプローチについての認識を高めることは重要だ。多くの研究者がデータプールが唯一の選択肢だと思っているかもしれなくて、それが彼らの作業に制限をもたらしている。実践者は、自身の特定の文脈に適したモデルを見つけたがっている。既存のHPSA手法の明確なマッピングを提供することが重要で、研究者が利用可能な代替手段を見ることができるようにする必要がある。
さらに、現在の多くの手法は、仮定が医療研究で期待されるものとはかなり異なる研究領域から来ている。これらの方法を正しく使用するためには、これらの基礎的な仮定を特定し、それを医療のシナリオに適応させることが重要だ。
データの管理者も、異なるHPSA手法に伴うデータ共有の要件を理解する必要がある。HPSAはデータをプールする複雑さを回避するが、情報共有はデータを監督している人たちにとって受け入れ可能でなければならない。これらの手法のより明確な理解が、データ共有における意思決定を促進するためには必要だ。
研究の目的
この研究の目的は以下の通り:
- 水平分割されたデータからの信頼区間推定と仮説検定を可能にする既存の方法論を特定し、マッピングすること。
- 一般線形モデル分析を行うのに適したアプローチを説明し、その分布の仮定を特定すること。
- 不均一なサンプリング分布のために手法を適応させ、それらの情報共有ニーズや運用の複雑さを比較すること。
研究方法論
最初の目的を達成するために、HPSA研究地域の主要な概念を集めるためにスコーピングレビューを実施した。これには、具体的なキーワードを使用して研究の境界を定義し、関連するデータベースを体系的に検索することが含まれた。
スノーボール検索法
検索は、著名なジャーナルや会議の議事録から初期の論文を集めることから始まった。その後、発見された記事の参考文献を調べて、さらに関連する研究を見つけていった。特定された各論文は、研究の質問に関連しているかどうかを評価された。
スコーピングレビューの実施
スコーピングレビューの方法論には、配信データと統計的推論に焦点を当て、主要な文献データベース全体で徹底的な検索を行った。特定の除外基準が設定された:論文は水平分割されたデータに関連する推論統計について扱っている必要がある。これにより、選ばれた記事が研究の目的に関連していることが保証された。
データの抽出と分析
含まれる基準を満たす記事に対して、データ抽出は使用されているモデルの種類やデータソースとCC間の通信方法などの重要なコンポーネントを特定することを含んだ。
適切なアプローチの発見
レビューでは、一般線形モデル(GLM)のフレームワーク内で水平分割されたデータからパラメーターを推定するのに適したいくつかの方法論的アプローチが特定された。しかし、多くのアプローチはノード間での均等なサンプルサイズや同一のデータ分布を仮定していて、医療研究においては現実的ではないことがある。
既存手法の適応
ノード間での異なるサンプルサイズや分布の問題に対処するために、手法を適応させる必要がある。これには、数式を変更して、関連性があり効果的なままにすることが含まれる。
統計的考慮
水平分割されたデータを扱う多くの統計的状況では、ノードが均等なサンプルサイズを持ち、予測因子の分布が同じであると仮定される。しかし、実際には、これらの仮定は実際には成り立たないことが多い。特に、医療環境ではさまざまな要因が絡んでくるから。
結果のまとめ
この研究の第一の目標は、既存のHPSA方法論をマッピングすることだったが、スコーピングレビューによって多くの関連する記事が見つかった。ほとんどの方法は大規模データの設定に焦点を当て、ノード間のコミュニケーションに関する問題に取り組んでいた。
第二の目標は、水平分割されたデータに適用できるGLM回帰のためのアプローチを特定することだった。いくつかのアプローチが発見されたが、それらの基礎的な仮定によって制限された。
第三の目的は、ノード間でのサンプルサイズや分布が異なる場合に適応された手法を提示することだった。これらの手法を比較した結果、運用の複雑さや通信の要求に違いが見られた。
課題と将来の機会
研究はHPSA分野の複雑さを示した。文献の多様性と標準的な用語の欠如は、研究者が関連情報を見つけるのを難しくする。HPSAで発表されたほとんどの研究は、統計的推論よりも予測や学習に焦点を当てているため、医療ニーズに合わせてこれらの方法を適応させるのが難しくなっている。
方法は存在するけど、さまざまなデータ分布を扱えるように既存の方法論を適応させるために、さらなる作業が必要だ。要約統計の共有に依存する現在のアプローチは、特にサンプルサイズが小さい場合に機密性を脅かすリスクがある。
結論
まとめると、学習健康システムが成長するにつれて、データ分析の効率的な方法の必要性がますます重要になっている。分散分析は、これらの課題に取り組む方法を提供し、重要な健康データを効果的に使用できるようにしつつ、患者のプライバシーを守ることができる。既存の方法を医療環境の独自のニーズに適応させることで、研究者はより効果的な健康介入に貢献し、患者の成果を向上させることができる。
タイトル: Distributed Statistical Analyses: A Scoping Review and Examples of Operational Frameworks Adapted to Healthcare
概要: Data from multiple organizations are crucial for advancing learning health systems. However, ethical, legal, and social concerns may restrict the use of standard statistical methods that rely on pooling data. Although distributed algorithms offer alternatives, they may not always be suitable for healthcare research frameworks. This paper aims to support researchers and data custodians in three ways: (1) providing a concise overview of the literature on statistical inference methods for horizontally partitioned data; (2) describing the methods applicable to generalized linear models (GLM) and assessing their underlying distributional assumptions; (3) adapting existing methods to make them fully usable in healthcare research. A scoping review methodology was employed for the literature mapping, from which methods presenting a methodological framework for GLM analyses with horizontally partitioned data were identified and assessed from the perspective of applicability in healthcare research. From the review, 41 articles were selected, and six approaches were extracted for conducting standard GLM-based statistical analysis. However, these approaches assumed evenly and identically distributed data across nodes. Consequently, statistical procedures were derived to accommodate uneven node sample sizes and heterogeneous data distributions across nodes. Workflows and detailed algorithms were developed to highlight information-sharing requirements and operational complexity.
著者: Jean-François Ethier, F. Camirand Lemyre, S. Levesque, M.-P. Domingue, K. Herrmann
最終更新: 2023-12-24 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.12.21.23300389
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.12.21.23300389.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。