Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 医療情報学

電子カルテを使った肺癌の検出の進展

新しい方法が電子健康記録を使って早期肺がん検出を強化しようとしてるよ。

― 1 分で読む


肺癌検出の革新肺癌検出の革新する。EHRは肺がんリスクの早期発見方法を強化
目次

予測モデルは、医者が病気の診断や治療に関してより良い判断を下すのを助けるツールだよ。特に役立つのは、肺がんの早期発見で、医者が肺に小さな斑点、つまり肺結節を見つけたときなんだ。研究者たちは、これらの結節に基づいて誰が肺がんのリスクがあるかを正確に特定できるモデルを作ろうと頑張っている。

信頼性の高い予測モデルを構築するには、大規模な人々のグループを研究する必要がある。データが多ければ多いほど、研究者はモデルがさまざまな人々に対してうまく機能することを確信できるんだ。参加者を長期間追跡する前向き臨床試験は、いくつかの有用なデータを提供しているけど、これらの試験は高額で、しばしば肺がんのリスクが高い人だけに焦点を当てることが多いんだ。だから、研究者はより広範な人口についての貴重な情報源として電子健康記録(EHR)に目を向けている。

電子健康記録からのデータ収集

EHRを使うには2つのステップがある。まず、研究者は肺がんの患者とそうでない患者を区別するために特定の健康状態を定義する必要がある。このプロセスでは、健康履歴に基づいて患者を慎重に選ぶことが求められる。次のステップは、時間をかけてこれらの患者に関する関連情報を収集するためにデータを査読することだ。

EHRを使用する際の一つの課題は、疑わしい肺結節を持つすべての患者ががんの履歴を持っているわけではないってこと。医者は、がんの履歴がない患者において、これらの結節ががんである可能性を判断するのが難しいことが多い。逆に、最近がんの診断を受けた患者は、悪性の結節を持っている可能性が高いので、より徹底的な検査を受けることが多い。予測モデルを改善するために、研究者は最近のがんの履歴がない不確定な肺結節を持つ個人に注目している。

ICDコードの役割

国際疾病分類(ICD)コードは、さまざまな医療条件を特定するのに役立っていて、アメリカでは請求目的で広く使われているんだ。でも、研究者が直面する問題の一つは、肺がんのような特定の健康問題を定義するためにどのICDコードを使うかについて合意がないことなんだ。一部の情報は、臨床ノートや生検レポートなどの非構造化データにしか見つけられないかもしれない。

これに対処するために、研究者たちはSNOMED-CTという特定の医療用語のセットを使って肺がんや関連する結節を定義することを提案している。診断のタイミングを分析し、特定されたケースと関連付けることで、研究者は患者のより明確なカテゴリーを作成できる。

肺がんの患者(ケース)と肺がんでない患者(コントロール)に患者をグループ化した後、次のステップは関連データを抽出すること。データは主に胸部CTスキャンなどのさまざまな画像研究から得られる。理想的には、研究者は時間をかけて複数のスキャンを見て、結節がどのように変化するかを確認したいんだ。

データ収集の課題

必要なデータを収集するのは高額だし時間がかかることが多い。画像や臨床ノートの手動レビューにはかなりの労力がかかる。だから、研究者たちは患者の医療画像や臨床データについての情報を収集するための自動化された方法を探っているんだ。

データを収集するための標準化された方法を開発することで、研究される患者グループが異なる機関や地理的地域で比較できるようになるんだ。でも、EHRは機関によって異なるから、データ抽出に特有の課題が生じる。研究者たちは、データ構造の違いに関係なく機能する方法を作ることを目指していて、研究に関連するICDコードのみに集中できるようにしたいんだ。

SPNによって定義されたコホート

この研究では、がんの診断歴がない孤立性肺結節(SPN)を持つ患者のコホートを整理することが目的だった。コホートは、研究のための個人のグループを指すんだ。研究者たちは、特定のICDコードを使ってSPNを持つ個人を特定し、研究への参加基準を定めた。これには、SPNが発見された後の特定の期間内に発生した肺がんのケースを特定することが含まれた。

ケースとコントロールを分けるために、研究者は特定の時間枠を使用した。たとえば、SPNが3年間安定していた場合、悪性である可能性は低いと考えられた。この情報は、どの患者を研究に含めるべきかのより明確な定義を作るのに役立った。

データ抽出と品質保証

研究者たちは、観察期間内に該当する患者の人口統計情報、検査結果、処方情報を収集した。また、CTスキャンの品質管理も行って、画像が関連する医療条件を正確に表していることを確認した。そうすることで、収集したデータが高品質で研究に関連していることを確保しようとした。

プロセスの重要な部分は、患者の肺がんイベントに対するタイミングに基づいて画像を分類することだった。研究者たちは、病気の進行を理解するために最も有用な情報を提供する画像を含めることを確認したかったんだ。

コホートの妥当性確認

患者グループの妥当性を確認するために、研究者たちはがん登録データとその結果を比較した。この登録データはがんを診断された患者のデータを収集して、研究者により信頼できる参照点を提供するんだ。研究者たちは、研究と登録データの両方のサンプル患者をレビューして、ケースとコントロールをどれだけ正確に特定できたかを評価しようとした。

このレビュー過程を通じて、彼らの方法が肺がんの患者とそうでない患者を特定するのに効果的であることを発見した。提案したアプローチは偽陽性率が低いことがわかり、つまり、多くの患者が肺がんとラベル付けされていても実際にはその病気を持っていることが確認できたんだ。

結果と発見

研究者たちは、研究の参加基準を満たすユニークな被験者がたくさん見つかることを確認した。これらの参加者の多くは、SPNを発症する前にがんの履歴がなかったんだ。研究者たちは参加基準を適用することで、肺がんの症例とコントロールの両方を成功裏に特定した。

画像コホートでは、研究者たちは何千ものCTスキャンを収集し、その品質を確認した。また、肺がんの診断に最も関連する画像を含めるためにスキャンを分類した。この努力は、利用可能な画像データを注意深くレビューして、基準を満たすものだけを選ぶことを含んでいた。

結論

この研究は、肺がん研究のために患者グループを整理する際にICDコードの周りに明確なルールを使用する重要性を強調している。SPNを持つ患者に焦点を当て、ケースとコントロールを正確に特定することで、研究者たちは肺がんの診断やリスク評価に貴重な洞察を提供しようとしている。

今後、研究者たちは仮説を生成したり予測モデルを開発する際に、直近の観察ウィンドウを超えたデータを考慮する必要があることを示唆している。アプローチには限界があるが、電子健康記録を現実の患者の結果に結びつけるための有望な方法を提供しているんだ。

要するに、電子健康記録と標準化されたコーディングシステムを使用することで、研究者たちは肺がんの理解と検出を改善したいと考えている。彼らの取り組みは、医療専門家がこの深刻な病気のリスクがある患者をより良く特定し管理できるようにするための重要なステップなんだ。

オリジナルソース

タイトル: Curating Retrospective Multimodal and Longitudinal Data for Community Cohorts at Risk for Lung Cancer.

概要: Large community cohorts are useful for lung cancer research, allowing for the development and validation of predictive models. A robust methodology for (1) identifying lung cancer and pulmonary nodules from electronic health record (EHRs) as well as (2) associating longitudinal data with these conditions is needed to optimally curate cohorts at scale from clinical data. Both objectives present the challenge of labeling noisy multimodal data while minimizing assumptions about the data structure specific to any institution. In this study, we leveraged (1) SNOMED concepts to develop ICD-based decision rules for building a cohort that captured lung cancer and pulmonary nodules and (2) clinical knowledge to define time windows for collecting longitudinal imaging and clinical concepts. We curated three cohorts with clinical concepts and repeated imaging for subjects with pulmonary nodules from our Vanderbilt University Medical Center. Our approach achieved an estimated sensitivity 0.930 (95% CI: [0.879, 0.969]), specificity of 0.996 (95% CI: [0.989, 1.00]), positive predictive value of 0.979 (95% CI: [0.959, 1.000]), and negative predictive value of 0.987 (95% CI: [0.976, 0.994]). for distinguishing lung cancer from subjects with SPNs. This work represents a strategy for high-throughput curation of multi-modal longitudinal cohorts at risk for lung cancer from routinely collected EHRs.

著者: Thomas Z Li, K. Xu, N. C. Chada, H. Chen, M. Knight, S. Antic, K. L. Sandler, F. Maldonado, B. Landman, T. A. Lasko

最終更新: 2023-11-04 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.11.03.23298020

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.11.03.23298020.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事