研究における再現性危機への対処
研究の再現性の課題と健康情報学への影響を調査中。
Richard Williams, T. Bolton, D. Jenkins, M. A. Mizani, M. Sperrin, C. Sudlow, A. Wood, A. Heald, N. Peek, CVD-COVID-UK/COVID-IMPACT Consortium
― 1 分で読む
目次
研究にはレプリケーション危機っていう大きな問題があるんだ。多くの科学者が他の人が行った研究を再現するのに苦労していて、研究結果の信頼性に疑問が出てきてる。調査によると、研究者の半数以上が研究の再現に大きな問題があるって信じているし、多くの人が他の人の研究を再現しようとしてもうまくいかなかったって。ヘルスインフォマティクスの分野でもこの問題は見られていて、再現への関心が高まってるけど、実際にやってる研究はまだ少ないんだ。
なんでこの危機が起きてるの?
この再現の問題にはいくつかの要因があるよ。まず、学者には新しい発見を発表するプレッシャーがすごい。以前の研究を単に繰り返す研究は劣っていると見なされがちで、研究者はそれをやる気が起きないんだ。それに、出版にバイアスがあって、ポジティブな結果がネガティブな結果よりも出版されやすい。だから、研究が重要な発見を示さなかった場合、それは出版に至らないかもしれなくて、再現性の風景をさらに複雑にしてる。
観察研究、特に電子健康記録(EHR)を使う場合、特有の課題がある。医療データの性質上、同じデータに再アクセスするのが難しいことがあるんだ。再現のために異なるデータソースを使わなければならない場合、そのデータの収集や構造が合わず、矛盾した結果を生む可能性があるんだよ。それに、主要なジャーナルは研究者が方法の詳細をどれだけ含められるかに厳しい制限を課すことがあって、方法を文書化するのが難しくなってる。この詳細の不足は、他の人がその研究を再現するのを難しくすることがある。
レプリケーションにおける重要な概念
研究者が研究を繰り返すことについて話すとき、彼らはしばしば3つの異なる側面を指してる:方法の再現性、結果の再現性、推論の再現性。
方法の再現性:これって、元の研究が使った方法について十分な詳細を提供していて、他の人が同じ分析を行えるかどうかを指す。
結果の再現性:これは、他の研究者が同じデータを使っても違うデータを使っても、同じ結果を得られるかどうかに関係してる。
推論の再現性:これは、異なる研究者が似たような結果を分析したときに、同じ結論に達するかどうかに関すること。
方法の再現性の障壁
研究を正確に再現するには、研究者はしばしば元の方法とデータにアクセスする必要がある。しかし、多くの著者は、データの処理方法や使った分析コードなど、方法について十分な詳細を含めてないことがあるんだ。この情報が存在しても、新しい環境で実装するのが簡単じゃない場合もあるよ。EHRデータを使用する研究では、さらに課題が生じることがあって、そのデータは通常、研究目的ではなく、患者ケアや請求のために収集されてるから、分析する前に広範囲のクリーニングや変換が必要なんだ。
ケーススタディ: COVID-19と糖尿病
私たちのチームは以前、糖尿病を持つ人々のCOVID-19後の入院リスク要因について地域の医療データベースを使って調べたんだ。それから、イングランド全体をカバーする大きなデータベースを使ってこの研究を再現しようとしたけど、同じチームで元の方法にもアクセスできたのに、研究を再現するのは思ったほど簡単じゃなかったんだ。
私たちのプロジェクトの目標は、研究を再現する際の方法や計算環境の違いについて説明すること。これによって、さまざまなEHRデータセットを扱う他の研究者にも役立つかもしれない。
使用したデータソース
元の研究では、グレーター・マンチェスター・ケア・レコード(GMCR)のデータを使用した。これは、地域内の異なる医療レベルからの情報を組み合わせたもので、COVID-19に関連する健康結果を研究するために研究者に提供されたデータなんだ。
再現研究では、NHSイングランドのセキュアデータ環境(SDE)を使って、承認された研究用の多くのデータセットにアクセスした。この両方の環境には、COVID-19研究に関連する主要および二次医療データがリンクされている。
アクセスとガバナンス
GMCRでデータにアクセスするには、研究者は研究の質問、必要なデータ、統計手法を詳述した申請を提出する必要がある。この申請は適切性のレビューを受けるんだ。一方、NHSイングランドのSDEでは、研究者は倫理基準の遵守を確保するために複数の機関を含むより複雑な承認プロセスを経なければならない。
研究環境の違い
研究が行われる環境には、データのアクセスと分析に影響を与えるさまざまな設定があるよ。GMCRでは、データはSQL Serverデータベースに保存されてるのに対し、NHSイングランドのSDEでは、Amazon Web Services(AWS)に保存されていて、アクセス方法も異なる。この環境の違いは、研究者が研究を進める方法に大きな影響を与えることがある。
データフィードとソース
GMCRとNHSイングランドのSDEは、COVID-19研究のために主要および二次医療データをつなげてるけど、データソースは異なる。例えば、NHSイングランドのSDEのGPデータは、GMCRで利用可能なデータセットに比べて制限がある。この違いにより、研究者は研究を正確に再現できないことがあるんだ。
実行時間の課題
データクエリは、対象となる人口の規模によって異なる速さで実行されることがある。GMCRのような小さなデータベースではクエリがすぐに実行されるけど、NHSイングランドのSDEのような大きなデータベースでは時間がかかる。かかる時間は、特に複雑な分析を行おうとする研究者にとって、再現の障害になることがあるんだ。
データ管理と共有
GMCRでは、研究データエンジニアのチームがデータを分析用に準備する。データクリーニングとデータ分析の役割を分けることで、研究プロセスがスピードアップするんだ。NHSイングランドのSDEでは、アナリストがデータのクリーニングと分析の両方を行えるけど、この二重の役割は両方の分野での専門知識が必要だから、研究を遅らせることがあるよ。
改善のための提言
レプリケーション危機に関する問題に対処するために、研究で使用されるデータ環境を改善するためのいくつかの提言があるよ:
統一されたアクセスプロセス:さまざまな環境間での申請プロセスを簡素化することで、複数のデータセットを使用する必要がある研究者を助けられる。
明確なガバナンス:各環境で許可される研究のタイプに関する明確なガイドラインを設定することで、混乱や出版の妨げを防げる。
より良いメタデータ:EHRで利用可能なデータを正確に記述するメタデータを開発することで、研究者がアクセス可能なものとその使用方法を理解しやすくなる。
データ再現性の重視:研究においてデータの再現性の必要性を強調することで、異なるデータセットを使っても研究が繰り返し可能であることを確保する。
費用対効果の高いアクセス:研究環境におけるコスト効率を改善することで、研究を実施できるグループの数を増やせる。
柔軟な研究環境:さまざまなプログラミング言語をサポートする適応可能なデータ環境を構築することで、より良い分析を行える。
実行時間のモニタリング:クエリにかかる時間を見積もり、管理するためのツールを提供することで、ワークフローを改善できる。
安全なインポート:必要なコードを安全にインポートできるようにすることが、研究者が既存のツールを効果的に使うためには重要なんだ。
改善されたデータフィード:異なる環境間でのデータフィードの不一致を解決することで、研究の再現能力を高められる。
サポート構造:特にデータの理解に関して研究者への専用サポートを提供することで、プロセスを効率化し、成果を改善できる。
コードライブラリ:分析コードや臨床コードのライブラリを充実させることで、研究者が既存の作業を見つけたり使ったりするのに役立つ。
共有の義務化:分析に使用されたコードの共有を促進または義務付けることで、より良いコラボレーションや再現努力を促すことができる。
結論
研究におけるレプリケーション危機は、特にヘルスインフォマティクスの分野で結果の信頼性に挑戦をもたらしている。データソースの違い、アクセスプロセス、環境設定の異なりが、研究者が研究を正確に再現するのを難しくしてるんだ。これらの課題に対処することで、より良いガバナンス、改善されたメタデータ、サポート構造を通じて、研究コミュニティは方法の再現性を向上させ、最終的には科学研究の信頼性を高めることができる。ヘルスケアデータが国の政策を導く中、再現のための堅牢なプロセスを確立することが、研究成果の信頼性を確保し、意味のある健康改善をもたらすためには重要になるだろう。
タイトル: The challenges of replication: a worked example of methods reproducibility using electronic health record data
概要: ObjectiveThe ability to reproduce the work of others is an essential part of the scientific disciplines. Replicating observational studies using electronic health record (EHR) data can be challenging due to complexities in data access, variations in EHR systems across institutions, and the potential for unaccounted confounding variables. Our aim is to identify the barriers to methods reproducibility for replication studies using EHR data. MethodsWe replicated a study that examined the risk of hospitalisation following a positive COVID-19 test in individuals with diabetes. Using EHR data from the NHS Englands Secure Data Environment (SDE) covering the whole of England, UK (population 57m), we sought to replicate findings from the original study, which used data from Greater Manchester (a large urban region in the UK, population 2.9m). Both analyses were conducted in Trusted Research Environments (TREs) or SDEs, containing linked primary and secondary care data, however methods reproducibility was not straightforward. Differences between the environments that contributed to the difficulties were documented, categorized into themes, and converted into a list of recommendations for TRE/SDEs. ResultsSmall differences between the environments and the data sources led to several challenges in methods reproducibility. Our recommendations of TRE/SDEs should facilitate future replication studies. The recommendations include: a need for improved machine-readable metadata for EHR data; standardization of governance processes to facilitate federated analysis; mandating of code sharing; and for environments to have a support structure for data engineers and analysts. We also propose a new theme for research, "data reproducibility", as the ability to prepare, extract and clean data from a different database for a replication study. ConclusionEven with perfect code sharing, data reproducibility remains a challenge. Our recommendations have the potential to reduce the barriers to replication studies and therefore enhance the potential of observational studies using EHR data.
著者: Richard Williams, T. Bolton, D. Jenkins, M. A. Mizani, M. Sperrin, C. Sudlow, A. Wood, A. Heald, N. Peek, CVD-COVID-UK/COVID-IMPACT Consortium
最終更新: 2024-08-30 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.08.06.24311535
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.08.06.24311535.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。
参照リンク
- https://github.com/BHFDSC/CCU040_01
- https://bhfdatasciencecentre.org/dashboard/
- https://digital.nhs.uk/services/data-access-environment-dae/user-guides/using-databricks-in-the-data-access-environment#safe-output-service
- https://github.com/rw251/gm-idcr
- https://github.com/rw251/gm-idcr/blob/master/projects/020%20-%20Heald/README.md