卵巣腫瘍のリスク予測モデルの比較
ある研究が卵巣腫瘍リスクを予測するいろんなモデルとその精度を調べてる。
― 1 分で読む
卵巣腫瘍の患者は適切なケアが必要だよ。研究によると、専門のがんセンターでの治療が卵巣がん患者の結果を良くするんだって。良性の卵巣嚢胞もあるけど、腫瘍は慎重に評価する必要があるよ。リスク予測モデルは、腫瘍が悪性である可能性をいくつかの要因に基づいて推定することで、医者が治療法を決めるのに役立つんだ。
その一つがADNEXで、臨床情報と超音波情報を組み合わせて腫瘍を良性、境界悪性、または異なる段階の浸潤性または転移性がんに分類するんだ。この分類は、各タイプが異なるアプローチを必要とするから重要なんだ。
最近、予測モデルを改善するために先進的な機械学習方法を使うことに注目が集まってるんだ。従来の統計モデルとは違って、機械学習の方法は、ユーザーが定義することなく、データの中に複雑なパターンを見つけることができるんだ。これらの先進的なモデルは、より良い結果を出すかもしれないけど、デザインが悪いと信頼性のない結果につながることもあるよ。最近のレビューでは、機械学習の方法が場合によっては良い成果を出すことがあるけど、そうでないこともあったって。予測の正確性や、実際の臨床設定での有用性について調べた研究は少ないんだ。
それに、予測が不確実であることも認識されているよ。異なるデータセットが同じ患者に対して異なるリスク推定を引き起こすことがあるし、大きなサンプルサイズがこれらの推定を安定させる手助けになることもあるけど、不確実性は依然として重要なことなんだ。モデルの不確実性は、どの予測因子を使うかや、欠損データの扱い方など、モデル開発中のさまざまな選択から生じることがあるよ。アルゴリズムの選択も予測に影響を与えることがある。
この研究は、従来の統計技術と現代の機械学習方法の両方を使用して卵巣がんのリスク予測モデルを比較することを目的にしているよ。腫瘍タイプの区別の仕方、正確性、臨床での実用性についてのモデルのパフォーマンスに焦点を当てる予定だよ。また、異なるアルゴリズムが個々の患者に対して異なるリスク推定をもたらすことについても見ていくよ。
研究デザイン、設定、参加者
この研究は、国際卵巣腫瘍分析(IOTA)グループによって複数の病院から集めたデータの二次分析だよ。モデルの訓練には、1999年から2012年の間に24のセンターから集めた5,900人以上の患者のデータが使用されたよ。すべての患者は、単純な嚢胞でない腫瘍を1つ以上持っていて、超音波検査から120日以内に手術を受けたんだ。
モデルの外部検証には、2012年から2015年の間に25のセンターから集めた約3,200人の患者のデータが使われたよ。これらの患者も単純な嚢胞ではないと判断された腫瘍を持っていて、訓練データセットと同じ手術タイムラインだったよ。この研究は手術を受けた患者に焦点を当てているけど、他の研究では多くの患者が保守的に治療されているかもしれないことに注意が必要だよ。
参加センターには、がん治療施設と一般的な画像診断センターが含まれていたよ。すべての研究は倫理的承認を受け、参加者はインフォームドコンセントを提供したんだ。この分析は、予測モデルの報告ガイドラインに従っているよ。
データ収集
最初の訪問中に各患者から詳細な履歴を取り、臨床情報を収集したよ。それから全員が標準的な超音波検査を受けたんだ。必要に応じて経腹法が使われたよ。研究プロトコルの一環として、さまざまな事前定義された超音波データが収集されたよ。腫瘍が複数ある場合は、最も複雑なものが分析のために選ばれたんだ。
主な成果は、手術結果に基づいて腫瘍を良性、境界悪性、ステージIの一次浸潤性、ステージII-IVの一次浸潤性、または二次転移性腫瘍の5つのカテゴリに分類することだったよ。評価は超音波の結果を知らない状態で行われたけど、一部の関連情報は病理医にとって利用可能だったかもしれないよ。
統計分析
予測因子とサンプルサイズ
分析は、センターのタイプ、患者の年齢、血清CA125レベル、腫瘍サイズに対する固形組織のサイズ、最大腫瘍直径、超音波の影、腹部の液体貯留の有無、嚢胞ロキュールの数、乳頭状突起の数の9つの予測因子に焦点を当てたよ。これらの予測因子は、重要性の可能性に基づいて選ばれたんだ。
モデルは、標準回帰、リッジ回帰、ランダムフォレスト、極端勾配ブースティング、ニューラルネットワーク、サポートベクターマシンなど、さまざまな方法を使って作成されたよ。連続的な予測因子は、非線形関係を許可するようにモデリングされたんだ。モデルは交差検証技術を用いて微調整されたよ。
外部検証データにおけるモデルパフォーマンス
モデルが腫瘍タイプをどれだけうまく区別できるかを評価するために、多項分類識別指標(PDI)が使用されたよ。この指標は、モデルが5つの腫瘍タイプを区別する能力を比較するんだ。PDIが0.2は区別がないことを示し、1は完全に区別できていることを示すよ。研究では、特定の結果ペア間のパフォーマンスを評価するためにペアワイズ統計も計算されたんだ。
モデルのキャリブレーションは、柔軟なキャリブレーション曲線を通じて評価されたよ。キャリブレーション曲線は、予測された確率が実際の結果とどれだけ一致しているかを示しているんだ。臨床設定でのモデルの効果は、専門センターへの患者紹介のためにモデルがどれだけ役立つかを決定するネットベネフィットを計算することで評価されたんだ。
欠損値の扱い
多くの患者がCA125の値に欠損があったので、複数の代入と呼ばれる統計的方法を使って、訓練データセットと検証データセットの両方の欠損値を推定したよ。
モデリング手順とソフトウェア
分析は、特定のモデリング技術に対して特定のパッケージを使用したRプログラミングソフトウェアを使用して実施されたよ。開発および検証データセットの結果は、中央値や腫瘍タイプなどの重要な統計を概要表にして示されたんだ。
識別性能
CA125を含むモデルでは、PDIスコアがアルゴリズムによって異なり、結果は低いスコアから高いスコアまで幅があったよ。最良のモデルは高いペアワイズc統計量を達成していて、特定の腫瘍タイプをよく区別できていることを示してた。CA125を含まないモデルでは、パフォーマンススコアも同様に変動があったけど、一般的に低かったよ。
キャリブレーション性能
キャリブレーション結果は、確率が実際の結果をどれだけ予測できたかにおいて不一致があったよ。CA125を含むモデルでは、良性腫瘍の可能性が過大評価されることがよくあったんだ。キャリブレーションの性能はアルゴリズムによって異なり、一部のモデルは予測された確率が実際のリスクに合わせる面で他のモデルよりも良い性能を示したよ。
臨床的有用性
CA125を含むすべてのモデルは、患者紹介のための基本的な戦略よりも優れていたよ。顕著なリスク閾値で、すべてのモデルが似た有用性を提供し、一部のアルゴリズムは高い閾値でより良くパフォーマンスを発揮したんだ。CA125を含まないモデルでも、類似の臨床的有用性が示されたよ。
アルゴリズム間の推定確率の比較
この研究では、異なるアルゴリズムが個々の患者に対して大きく異なる確率推定を生じる可能性があることがわかったよ。相当数の患者が、使用されたモデリングアプローチに基づいて良性腫瘍の推定確率に違いがあったんだ。特定のリスク閾値を適用すると、使用されたモデルに応じて患者が異なるカテゴリーに分類されることもあったよ。
発見の要約
この研究は、卵巣腫瘍のリスク予測モデルを作成するために6つのアルゴリズムを比較したんだ。はっきりとした勝者は無かったけど、いくつかのアルゴリズムが似たパフォーマンスを示したよ。CA125を含めることでモデルのパフォーマンスの特定の側面が改善されたけど、アルゴリズムの選択は個々のリスク推定に大きく影響を与える可能性があり、同じ患者に対して異なる臨床的決定を導くかもしれないんだ。
この研究には、大規模なデータセットや標準化された収集技術を利用するなどのいくつかの強みがあったよ。ただし、手術を受けた患者だけを含めたり、固定された予測因子のセットを使用したりするという制限もあったんだ。
以前の研究も似たようなトピックを探求しているけど、規模が小さかったり、主に二項結果に焦点を当てていたりすることが多かったよ。この研究は、異なる予測モデルが卵巣腫瘍の個々のリスク推定にどのように影響するかを理解することに貢献しているんだ。
結果は、予測モデルを開発する際に大きなデータセットが必要であることを強調していて、機械学習アルゴリズムは従来の方法よりも多くのデータを必要とする可能性があることを示唆しているよ。リスク推定に関する不確実性を伝えるアプローチも、臨床設定で有益かもしれないね。
結論として、多くのアルゴリズムが異なる腫瘍タイプの確率を効果的に推定できる一方で、アルゴリズムの選択が個々の患者のリスク評価に影響を与えることがある。この観察は、これらのモデルに基づいて治療決定を行う医者にとって重要なんだ。
タイトル: Multiclass risk models for ovarian malignancy: an illustration of prediction uncertainty due to the choice of algorithm.
概要: OBJECTIVETo compare performance and probability estimates of six algorithms to estimate the probabilities that an ovarian tumor is benign, borderline malignant, stage I primary invasive, stage II-IV primary invasive, or secondary metastatic. MATERIALS AND METHODSModels were developed on 5909 patients (recruited 1999-2012) and validated on 3199 patients (2012-2015). Nine clinical and ultrasound predictors were used. Outcome was based on histology following surgery within 120 days after the ultrasound examination. We developed models using multinomial logistic regression (MLR), Ridge MLR, random forest (RF), XGBoost, neural networks (NN), and support vector machines (SVM). RESULTSBenign tumors were most common (62%), secondary metastatic tumors least common (5%). XGBoost, RF, NN and MLR had similar performance: c-statistics for benign versus any type of malignant tumors were 0.92, multiclass c-statistics 0.54-0.55, average Estimated Calibration Indexes 0.03-0.07, and Net Benefits at the 10% malignancy risk threshold 0.33-0.34. Despite poorer discrimination and calibration performance for Ridge MLR and in particular SVM, Net Benefits were similar for all models. The estimated probabilities often differed strongly between models. For example, the probability of a benign tumor differed by more than 20 percentage points in 29% of the patients, and by more than 30 percentage points in 16% of the patients. DISCUSSIONSeveral regression and machine learning models had very good and similar performance in terms of discrimination, calibration and clinical utility. Nevertheless, individual probabilities often varied substantially. CONCLUSIONMachine learning did not outperform MLR. The choice of algorithm can strongly affect probabilities given to a patient.
著者: Ben Van Calster, A. Ledger, J. Ceusters, L. Valentin, A. Testa, C. Van Holsbeke, D. Franchi, T. Bourne, W. Froyman, D. Timmerman
最終更新: 2023-07-27 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.07.25.23293141
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.07.25.23293141.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。