ICUスコアリングシステムのバリデーションをもっと良くする必要がある
レビューはICUの予測スコアリングモデルにおける外部検証の重要性を強調している。
― 1 分で読む
集中治療室(ICU)では、医者は患者をしっかり監視して、適切なケアを受けられるようにする必要があるんだ。そこで、病院は予後スコアを使ってる。このスコアは患者の状態の重症度を評価し、可能な結果を予測し、医療従事者がどんな治療が必要か、リソースをどう分配するかを判断するのを助ける。こうしたスコアリングシステムは世界中の重症治療現場で一般的になってきたよ。
従来のスコアリングシステム
よく知られているスコアリングシステムには、急性生理学と慢性健康評価(APACHE)と、逐次臓器不全評価(SOFA)がある。これらは特定の少数の要因を使って、悪化するかもしれない患者を特定するんだ。シンプルで使いやすいけど、患者の結果についてあまり正確な予測はできないことが多いんだ。
電子健康記録の役割
詳細な電子健康記録(EHR)の普及で、もっと良い、パーソナライズされたスコアリングシステムを作るチャンスが生まれた。人工知能(AI)や機械学習(ML)が大量のデータを分析して、これらの強化されたスコアを作り出すことができる。多くの研究が、MLベースのスコアが死亡率、敗血症、腎障害、呼吸不全など、さまざまな健康結果をより正確に予測できることを示している。
MLベースのスコアの課題
利点がある一方で、MLベースのスコアリングシステムにはリスクもある。大きな問題のひとつは「過剰適合」で、モデルはトレーニングに使ったデータではうまく働くけど、異なる環境ではうまくいかないことがある。特定の患者グループに基づいて開発されたスコアリングシステムは、他の患者グループには正確でないかもしれない。だから、これらのシステムは、それを開発した病院とは別の病院のデータでテストすることが重要なんだ。残念ながら、この外部検証のステップはしばしば見落とされていて、ICUにおけるMLベースのスコアの真の効果について疑問を持たせることになる。
レビューの目的
このレビューの目的は、研究で外部検証がどれだけ行われているか、最近増えているかを見極めることだ。また、MLベースのICUスコアリングシステムが新しい病院環境でどれだけうまく機能するかも調べている。目標は、病院でベッドサイドで効果的に使える信頼性のあるMLベースのスコアを作ることに貢献すること。
対象基準
このレビューに参加するためには、特定の基準を満たす研究が必要だった。ICUの患者が悪化する可能性を予測できるMLベースのモデルを、EHRからの構造化データを使って作成する必要があった。研究はまた、元のデータには含まれていない別の病院のデータを使ってモデルを検証する必要があった。レビューは、予測後1週間以内に注意が必要な急性イベントに焦点を当てた。
検索戦略
研究者たちは、主要な医療データベースで関連する記事を探し、主要な研究記事のみを含めた。検索は、機械学習とAI、ICUの環境、患者の悪化という三つのテーマに分けて整理された。外部検証は、スクリーニング中に手動でチェックされた。
研究の選定
記事を見つけたとき、重複を削除してタイトルや要旨をスクリーンして焦点を絞った。二人の著者がフルテキストもチェックして、適格性を確認した。プロセスが徹底して正確であることを目指していた。
データ収集
レビューに含まれる研究について、研究者は結果、データソース、外部検証されたかどうかの基本情報を集めた。検証された研究に対しては、対象となる人口、関与した病院の数、内部および外部検証でのモデルの性能に関するより詳細なデータが収集された。
統計分析
この研究は、外部検証を行った研究の時間経過による変化を調べた。内部と外部の検証環境での性能レベルの違いを分析するために、統計的手法を使った。
研究結果
全体で、研究者たちは分析のために数千のレコードを特定した。スクリーニングと重複削除の後、ICUでの患者の悪化を予測することに焦点を当てた数百の研究が残った。その中で、外部検証を行ったのはごく小さな割合だけだった。研究者たちは、外部検証がしばしば無視されていることに気づき、MLベースのスコアリングモデルの正確性に対する懸念を抱いた。
時間の経過によるトレンド
レビューに含まれる研究の数は年々増えている。特に2018年以降、含まれる研究と外部検証を行う研究の両方で大きな増加が見られた。初期の年には、検証された研究はごく少数だった。
データの出所
ほとんどの検証された研究は、アメリカの病院からのデータを使用していた。他の国からのデータを含む研究も少しあった。検証された研究で最もよく使われた公共データセットは、MIMICとeICUだった。
新しい病院でのパフォーマンス
有効な研究の中で、ほとんどは新しい病院でのモデルのパフォーマンスについてデータを報告していた。一般的に、これらのモデルは元のトレーニングデータに比べて外部検証でのパフォーマンスが悪かった。しばしば、そのパフォーマンスの低下は重要な閾値を超えていて、新しい患者集団での性能が悪いことを示していた。
臨床実践への影響
AIを医療に統合しようとする動きは強く、特に自然言語処理や他の技術の進歩と共に進んでいる。しかし、公開された結果の多くは探査的で、厳密な検証が不足しているようだ。このレビューは、ICUにおけるMLベースのスコアリングシステムにもこの不十分な検証の問題が当てはまることを強調している。
外部検証は、モデルが異なる病院で患者の結果を正確に予測できることを保証するために重要なんだ。多くの研究がモデルを十分に検証していないことが分かり、この分野でより良い実践が必要なことを示している。
厳格な検証の重要性
MLベースのスコアリングシステムが臨床現場で役立つためには、幅広い患者に適用したときの信頼性と正確性を示す必要がある。モデルが開発された元の病院の結果だけに頼るのは、誤解を招く結論につながるかもしれない。新しい環境でスコアがうまく機能しない場合、この問題は適切な外部検証がなければ見逃されることがある。
今後の研究への提言
今後の研究は、新たに開発されたスコアリングモデルの頑健性を確認するために外部検証を優先すべきだ。研究者はまた、さまざまな臨床環境に応じた結果が適用できるように、検証のための多様なデータセットを提供するべきだ。
結論
このレビューは、ICU環境におけるMLベースのスコアリングシステムにおける外部検証の重要性を浮き彫りにしている。AIの進歩は患者ケアの改善を期待させるが、徹底した検証の欠如が研究結果の臨床実践への翻訳を制限している。MLモデルが有益であるためには、厳格な外部検証に焦点を当てることが開発プロセスの標準的な一部になるべきだ。これによって、医療システムがこれらのモデルを信頼して患者の結果を効果的に改善できるようになるはずだ。
タイトル: Generalisability of AI-based scoring systems in the ICU: a systematic review and meta-analysis
概要: BackgroundMachine learning (ML) is increasingly used to predict clinical deterioration in intensive care unit (ICU) patients through scoring systems. Although promising, such algorithms often overfit their training cohort and perform worse at new hospitals. Thus, external validation is a critical - but frequently overlooked - step to establish the reliability of predicted risk scores to translate them into clinical practice. We systematically reviewed how regularly external validation of ML-based risk scores is performed and how their performance changed in external data. MethodsWe searched MEDLINE, Web of Science, and arXiv for studies using ML to predict deterioration of ICU patients from routine data. We included primary research published in English before April 2022. We summarised how many studies were externally validated, assessing differences over time, by outcome, and by data source. For validated studies, we evaluated the change in area under the receiver operating characteristic (AUROC) attributable to external validation using linear mixed-effects models. ResultsWe included 355 studies, of which 39 (11.0%) were externally validated, increasing to 17.9% by 2022. Validated studies made disproportionate use of open-source data, with two well-known US datasets (MIMIC and eICU) accounting for 79.5% of studies. On average, AUROC was reduced by -0.037 (95% CI -0.064 to -0.017) in external data, with >0.05 reduction in 38.6% of studies. DiscussionExternal validation, although increasing, remains uncommon. Performance was generally lower in external data, questioning the reliability of some recently proposed ML-based scores. Interpretation of the results was challenged by an overreliance on the same few datasets, implicit differences in case mix, and exclusive use of AUROC.
著者: Patrick Rockenschaub, E. M. Akay, B. G. Carlisle, A. Hilbert, F. Meyer-Eschenbach, A.-F. Näher, D. Frey, V. I. Madai
最終更新: 2023-10-12 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.10.11.23296733
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.10.11.23296733.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。