乳がんの進行を予測する上での課題
研究が機械学習を使ってDCISからIDCへの進行を予測する問題を浮き彫りにしてる。
― 1 分で読む
目次
乳管癌 (DCIS) は、乳がんに関連する状態で、しばしばステージ0と説明されるんだ。新しい乳がんのケースの約16%を占めてるよ。DCIS自体は命に関わるものじゃないけど、浸潤性乳管癌 (IDC) というもっと深刻な乳がんに進行することがあるんだ。実際、手術中にDCISのケースの10%から25%がIDCに進行する可能性があるんだ。だから、DCISの早期診断を改善することは、効果的な治療を計画する上で重要なんだ。
正確な診断の重要性
最近の研究では、特定の臨床指標やマンモグラムの特徴がDCISがIDCに進行するかを予測するのに役立つことが示されているよ。こうした特徴を使った機械学習モデルは、いくつかの成功を収めてるんだ。ただ、 promising な結果があった一方で、いくつかの研究に潜在的なバイアスがあるんじゃないかという懸念もあって、その結果の正確性に疑問が生じてるんだ。
医療画像の課題
機械学習技術、特に深層学習は、医療画像において価値あるツールと見なされているよ。でも、これらのシステムはうまく機能するために大量のデータが必要なんだ。例えば、他の医療分野で成功した研究は、しばしば数万件のケースを含んでるからね。乳がんの画像診断でも、いくつかのモデルが熟練した放射線医と同じくらいのパフォーマンスを発揮するまで改善されてきたよ。
でも、DCISが浸潤癌に進行するかを予測するような乳がん診断における重要な質問には限界があるんだ。小さなサンプルサイズや、研究している状態の低い発生率、分析を複雑にするさまざまな要因から生じてるんだ。機械学習モデルが信頼できることを確保し、新しいデータに適用されるようにする方法を見つけるのは複雑な作業だよ。
研究の概要
この研究は、DCISケースが浸潤癌になるかどうかを予測するためにどれだけの方法が効果的かを検証したんだ。特に、トレーニングデータとモデルをテストするためのデータのパフォーマンスの違いを理解することに焦点を当ててたよ。具体的には、データをトレーニングセットとテストセットに分けるさまざまな方法がモデルのパフォーマンスにどう影響するかを調べることを目指してたんだ。
患者の選定
研究には、数年にわたり特定の種類のDCISの生検を受けた患者が含まれてたよ。マンモグラムで特定の特徴が検出された40歳以上の女性のみが参加したんだ。データ収集プロセスでは、それぞれのケースに関する詳細情報を、経験豊富な乳がん放射線医が行ったんだ。
特徴の収集とモデル作成
この研究では、合計113の特徴を収集したよ:109はマンモグラムに関連し、4つは患者に関する臨床的特徴だったんだ。4つのタイプのモデルを作成したんだ:1つは臨床的特徴だけを使用し、別の1つは画像の特徴だけを使用、3つ目は両方のタイプを組み合わせ、4つ目は最も関連性の高い画像の特徴に焦点を当てたんだ。特徴はマンモグラムや患者の臨床情報のさまざまな側面を捕らえてたよ。
データの取り扱いと評価
異なるデータ管理方法がモデルのパフォーマンスにどのように影響するかを評価するために、サンプルはランダムにシャッフルされて、ケースのバランスを確保しながらトレーニングとテストのグループに分けられたんだ。毎回、400件のケースがトレーニングに使われ、300件がテスト用に確保されたよ。
トレーニングプロセスでは、モデルのパフォーマンスを平均化するために繰り返し試行が行われ、モデルの効果はテストデータでの成果に基づいて評価されたんだ。研究は、モデルのパフォーマンスをより正確に理解するために、これらの手続きを何度も繰り返したよ。
モデルパフォーマンスの評価
研究では、臨床的特徴と画像的特徴を使用した異なるモデルが、さまざまなデータのランダムな分割に基づいてどれだけうまく機能したかを見たんだ。シャッフルのたびに異なる結果が出て、これは小さなサンプルサイズによる不安定性を反映してたよ。トレーニングとテスト間のパフォーマンスパターンも注目された-トレーニングでのパフォーマンスが高いと、テストでのパフォーマンスが低いことが多かったり、その逆もあったりしたんだ。
クラス分類器の比較
研究者たちは、同じ条件下で異なるクラス分類器がどれだけうまく機能するかも見たかったんだ。ロジスティック回帰モデルが主に信頼性のために調べられたけど、サポートベクターマシン (SVM) もテストされて、そのパフォーマンスの違いを調べたんだ。結果は、一部の結果が重なったものの、データの分割方法によってパフォーマンスの違いが顕著に残ってたよ。
様々なサンプルサイズの交差検証パフォーマンス
調査の一環として、トレーニングケースの数が増えるにつれてパフォーマンスも評価されたよ。たくさんのケースを使うことで、より信頼性のあるパフォーマンス指標が得られるかを確認することが目的だったんだ。結果は、非常に少ないトレーニングケースに基づいた初期のパフォーマンス評価が、モデルの真の有効性を過小評価する可能性があることを示してた。
特定された主な問題
この研究は、限られたデータでの医療シナリオにおける機械学習使用に関連していくつかの主要な問題を明らかにしたよ。
一度きりのデータ分割: 多くの研究は、簡単さのためにサンプルをトレーニングセットとテストセットに一度だけ分けるんだ。このやり方は、特定のケースグループに基づいてテストパフォーマンスに影響を及ぼす可能性があるよ。
不一致な分類器パフォーマンス: 異なるモデルはデータの分割に対して変動的に反応し、選ばれた特徴に基づくモデルの有効性のランク付けを予測できないものにしてたんだ。これが、モデルを直接比較するのを難しくしてたよ。
交差検証の限界: 交差検証は複数のデータ分割で平均化することで変動性を解決できるけど、小さなサンプルに過度に依存するリスクを排除するわけじゃないんだ。データが代表的であることを確認するのが重要だけど、それを十分なデータなしに確かめるのは難しいんだよ。
研究の限界
この研究にはいくつかの限界があったよ。一つの医療施設内で行われ、特定の医学的タスクに焦点を当ててたんだ。これは重要で、多くの研究者が小さなデータセットを扱うときに似たような課題に直面するからね。また、一般的で信頼性のある手法であるロジスティック回帰に集中していて、SVMのようなもっと複雑なモデルの探求は少し限られてたんだ。
結論と今後の方向性
研究の結果は、機械学習が限られたデータに関する医学的質問に適用されるときにかなりのバイアスに直面することを示しているよ。放射線学やバイオマーカーを扱う初期の研究では、ケースの数が特徴の数に対して小さいことがよくあるから、データの分割が負担になってるんだ。理論的には、交差検証がバイアスを減らすのに役立つけど、実際の応用では、効果的に結果を確認するためにもっとデータが必要なんだ。
研究者たちは、限られたデータセットで作業する際に、こうした隠れた不確実性に気をつける必要があるよ。こうした課題に対処するためには、より大きく多様なデータセットを集める努力が不可欠なんだ。しっかりした多様なデータコレクションがあってこそ、研究者たちは自分たちの発見が信頼できるものであり、現実の医療実践に翻訳できることを期待できるんだ。
タイトル: Classification performance bias between training and test sets in a limited mammography dataset
概要: ObjectivesTo assess the performance bias caused by sampling data into training and test sets in a mammography radiomics study. MethodsMammograms from 700 women were used to study upstaging of ductal carcinoma in situ. The dataset was repeatedly shuffled and split into training (n=400) and test cases (n=300) forty times. For each split, cross-validation was used for training, followed by an assessment of the test set. Logistic regression with regularization and support vector machine were used as the machine learning classifiers. For each split and classifier type, multiple models were created based on radiomics and/or clinical features. ResultsArea under the curve (AUC) performances varied considerably across the different data splits (e.g., radiomics regression model: train 0.58-0.70, test 0.59-0.73). Performances for regression models showed a tradeoff where better training led to worse testing and vice versa. Cross-validation over all cases reduced this variability, but required samples of 500+ cases to yield representative estimates of performance. ConclusionsIn medical imaging, clinical datasets are often limited to relatively small size. Models built from different training sets may not be representative of the whole dataset. Depending on the selected data split and model, performance bias could lead to inappropriate conclusions that might influence the clinical significance of the findings. Optimal strategies for test set selection should be developed to ensure study conclusions are appropriate.
著者: Rui Hou, J. Y. Lo, J. R. Marks, S. Hwang, L. J. Grimm
最終更新: 2023-02-23 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.02.15.23285985
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.02.15.23285985.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。