バイオメディカルリサーチのコホート選定を改善する
癌研究者のためのデータアクセスを簡単にするプラットフォーム。
― 1 分で読む
目次
実世界データを使った観察研究は生物医学研究にとってめっちゃ重要だよね。ボランティアがたくさん参加する大規模な研究、いわゆるコホート研究は特に価値があるんだ。これらの研究は参加者から何年もデータを集めて、たくさんの研究プロジェクトをサポートできる。大きなコホートにはNIHのAll of Us研究プログラム、UK Biobank、ミリオンベテランプログラムみたいなものがあって、数十万人の参加者を含むこともあるんだ。これらは将来の研究にとって貴重な情報源を提供してくれるね。
研究に適したデータの選択
研究者って大規模あったコホートから集めたデータを全部必要としてるわけじゃないんだ。「コホート選択」っていうのは、参加者の個人情報を守りつつ研究プロジェクトのために特定のデータセットを作成するプロセスのことを指してる。これには研究デザインの定義、適格基準の設定、分析する特定のデータポイントの選択が含まれるよ。電子健康記録や研究データベースの利用が増えてる中で、効果的なコホート選択がめちゃくちゃ重要になってるんだ。ガイドラインでは、研究結果がコホート選択がどのように行われたかを明確に説明することを推奨してるよ。
データがセンシティブだったり独自のものであったりすると、データ提供者は研究者がデータを理解したり、リクエストを最適化したり、コホート選択を行うのをサポートするのに多くの時間を費やさなきゃいけない。技術が進歩しても、コホート選択プロセスはまだ時間がかかることが多いし、新しいクラウドベースのシステムがあっても研究のボトルネックになってることがあるんだ。
研究者向けのセルフサービスツール
他のプロジェクトでは研究者が直接データにアクセスできるセルフサービスツールを作ったんだ。目的は、研究者が簡単にコホートを選択できて、データマネージャーに頼らずにデータを受け取れるようにすることだった。この記事では、研究者がクエリして、選んで、調べて、自分のプロジェクトに必要な特定のデータをすぐに取得できるCTSリサーチャープラットフォームの作成について説明してるよ。
カリフォルニアティーチャースタディ (CTS) の概要
カリフォルニアティーチャースタディは1995年に始まった多地点がん研究で、13万3千人以上の成人女性が参加してるんだ。参加者はアンケートに答えて、研究のためにデータを提供した。何年もかけてフォローアップアンケートに答えて、健康やライフスタイルに関する貴重な情報を提供してくれたんだ。健康登録簿からの定期的な更新により、多くの参加者が健康問題、特にがんに関することがわかってきたよ。
CTSからのデータは参加者を守るためにプライベートに保管されてる。最初のアンケートは1995年から1999年に集められて、今でも色々な研究で使われ続けてるんだ。
以前のコホート選択方法
2015年以前は、CTSでのコホート選択は完全に手動だったんだ。データマネージャーが研究者からのリクエストを処理して、必要なデータセットを作成してた。2016年にはデータコモンズが導入されて、すべてのデータとツールが安全な環境に集中されたんだ。これで改善されたけど、手動のコホート選択はまだ必要だったんだ。研究者は欲しいデータの詳細を指定しなきゃいけなくて、データチームは手動でそれを集めなきゃいけなかった。
スケーラブルなコホート選択の必要性
手動選択を完全に排除することが目標だったんだ。研究者は独立してデータとやり取りして、自分たちの結果を得られるべきなんだ。以前のセットアップでは、これを促進するために3つのキーコンポーネントが必要だった:コホート選択のためのユーザーフレンドリーなワークフロー、データアクセス用のウェブアプリケーション、データセットや分析スクリプトのような必要な成果物を自動的に生成するプロセス。
ユーザーフレンドリーなワークフロー
CTSは主にがんリスクに焦点を当ててるから、コホート選択ツールのデザインもそれを反映させる必要があったんだ。最初のステップは、参加者のアンケートや健康記録に基づいて、可能な研究デザイン、結果、データの種類を特定することだった。詳細なユーザー要件を把握することで、データを選択する際の直感的なプロセスを作ることを目指してたんだ。ユーザーはさまざまなパラメータを選択できて、最初からやり直さなくても選択を変更できる能力が必要だったんだ。
データ管理と選択ワークフロー
データ管理を改善するために、CTSはがん、入院、アンケートデータを1つの効率的なデータベースにリンクさせたんだ。これで研究者は複雑な従来のデータベースクエリに悩まされることなく、データに簡単にアクセスして分析できるようになったんだ。このアーキテクチャは、セキュリティとプライバシーを維持しながら、スムーズなユーザー体験を確保してくれるよ。
データとコードの利用可能性
CTSに関連するすべてのデータとコードはリサーチャープラットフォームを通じてアクセス可能で、研究者は責任を持ってデータを扱うことに同意すれば利用できるんだ。データはプライバシーの懸念から一般には公開されてないけど、プラットフォームは研究のためにデータを使いたい人がアクセスできることを保証してくれるよ。
ユーザーフレンドリーなウェブアプリケーションの構築
ウェブアプリケーションの開発は、特にデータ分析の経験があまりない研究者にとっての使いやすさに焦点を当ててるんだ。このアプリケーションは、選択プロセスをガイドして、コホートやデータを選ぶための明確なステップとオプションを提供してくれるんだ。プロセスの各ステップは簡単で、ユーザーはエンドポイントを選んで、ルールを設定し、リアルタイムで選択を見直すことができるんだ。
研究データへの即時アクセス
研究者が選択を終えたら、アプリケーションは必要な成果物をすぐに生成できるんだ。カスタムデータセットや分析スクリプトを含めて、研究者はほぼすぐに分析を始められるようになる。成果物は通常30秒以内に用意されるよ。
プロジェクトとユーザーアカウントの追跡
研究者はCTSのウェブサイトでアカウントを作成できて、進行中のプロジェクトの詳細を追跡することができるんだ。このシステムは、研究者がプロジェクトの進捗を監視できるようにし、提案が承認されたらコホート選択ツールにアクセスできるようにしてる。プロジェクト管理ツールとの統合も、プロジェクト関連情報の追跡を助けてくれるよ。
データアクセスの範囲
生成されたデータセットには分析を助けるために必要な基本的な共変量が含まれてるよ。ユーザーが最初から判断しなきゃいけないのではなく、アプリケーションは一般的な選択肢のデフォルトオプションを提供し、カスタマイズの余地を与えてくれるんだ。
プラットフォームの継続的な改善
リサーチャープラットフォームは、テストと改良を数ヶ月行った後、2021年3月に完全に立ち上げられたんだ。最初はがんエンドポイントに焦点を当てた研究をサポートしてたけど、今では入院や死亡率のエンドポイントも含めるように拡大されてる。この適応性により、研究者は研究チームから広範な支援を受けることなく様々なデータポイントを探求できるんだ。
コホート選択プロセスの結論
コホート選択は様々な研究環境で大きな課題なんだ。データ提供者と研究者の両方が、研究に必要なデータを効率的に特定してアクセスできる方法を求めてる。従来の方法は労力がかかり遅いことが多く、現代の研究の要求を満たすのが難しいんだ。
CTSはセルフサービスのコホート選択プラットフォームを開発することで、データアクセスに伴うボトルネックを減らす進展を遂げたよ。この自動化されたユーザーフレンドリーなアプローチは、複雑なデータセットに対しても効果を発揮してる。プラットフォームのデザインは、研究者が自分の仕事を促進するために信頼できる堅牢で明確なワークフローを持つことの重要性を強調してるんだ。
このツールの成功は、自動化プロセスが研究の効率を向上させながらデータプライバシーとセキュリティを確保する可能性を示してるね。もっと多くの研究者がこのプラットフォームを利用することで、継続的なフィードバックが今後の改善や適応に役立つだろうね。
タイトル: Automated self-service cohort selection for large-scale population sciences and observational research: The California Teachers Study Researcher Platform
概要: ObjectiveCohort selection is ubiquitous and essential, but manual and ad hoc approaches are time-consuming, labor-intense, and difficult to scale. We sought to automate the task of cohort selection by building self-service tools that enable researchers to independently generate datasets for population sciences research. Materials and MethodsThe California Teachers Study (CTS) is a prospective observational study of 133,477 women who have been followed continuously since 1995. The CTS includes extensive survey-based and real-world data from cancer, hospitalization, and mortality linkages. We curated data from our data warehouse into a column-oriented database and developed a researcher-facing web application that guides researchers through the project lifecycle; captures researchers inputs; and automatically generates custom and analysis-ready data, code, dictionaries, and documentation. ResultsResearchers can register, access data, and propose projects on the CTS Researcher Platform via our CTS website. The Platform supports cohort and cross-sectional study designs for cancer, mortality, and any other ICD-based phenotypes or endpoints. User-friendly prompts and menus capture analytic design, inclusion/exclusion criteria, endpoint definitions, censoring rules, and covariate selection. Our platform empowers researchers everywhere to query, choose, review, and automatically and quickly receive custom data, analytic scripts, and documentation for their research projects. Research teams can review, revise, and update their choices anytime. DiscussionWe replaced inefficient traditional cohort-selection processes with an integrated self-service approach that simplifies and improves cohort selection for all stakeholders. Compared with manual methods, our solution is faster and more scalable, user-friendly, and collaborative. Other studies could re-configure our individual database, project-tracking, website, and data-delivery components for their own specific needs, or they could utilize other widely available solutions (e.g., alternative database or project-tracking tools) to enable similarly automated cohort-selection in their own settings. Our comprehensive and flexible framework could be adopted to improve cohort selection in other population sciences and observational research settings.
著者: James V Lacey, E. S. Spielfogel, J. L. Benbow, K. E. Savage, K. Lin, C. A. M. Anderson, J. Clague-DeHart, C. N. Duffy, M. E. Martinez, H. L. Park, C. A. Thompson, S. S. Wang, S. Chandra
最終更新: 2023-12-26 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.12.22.23300461
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.12.22.23300461.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。