iQCツールで病理学の品質管理を強化する
新しいツールが病理の画像品質を向上させて、診断をより良くするよ。
― 1 分で読む
近年、病理学の品質管理の重要性が明らかになってきたよ。病理学は、病気を研究するために lab テストや組織の検査を使う分野で、スライドのデジタル画像にしっかり依存してるんだ。これらの画像は、医者や研究者が病状を診断したり、病気のプロセスを理解するのに役立ってる。でも、時々画像の質が悪くて、診断に混乱やミスを招くことがあるんだ。
病理学の品質管理は、これらの画像の質が悪い部分を特定して取り除くことに集中してる。ぼやけてる部分とか、ペンのマーク、結果を歪めかねない実際の組織片を検出するためのツールが開発されてる。これらのツールは、スライドの重要な部分が正確に分析されることを助けてる。
現行システムの問題点
進歩はあったけど、まだ課題があるよ。悪い部分がきちんとクリーニングされてないと、診断のためのシステムが問題のあるセクションを無視したり、逆に重要な分析に頼るハメになったりすることがある。たとえば、前に前立腺癌の研究では、信頼性の低い部分を無視して、組織の固体部分に焦点を当てたシステムが作られたんだ。同じように、スライド内の癌の部分を見つけるために機械学習を使った方法も、重要な詳細を見落とすことがあったりする。
残念ながら、あるシステムのレビューでは、質の悪い画像に対して苦戦していることが明らかになった。これは、単に自動化されたシステムを使っているだけでは不十分かもしれないってことを示唆してる。分析の前にもっと徹底したクリーニングプロセス、つまり品質管理が助けになるかもしれない。
iQCのアイデア
以前の研究をもとに、研究者たちは「インテリジェント品質管理」を意味する新しい品質管理ツール、iQCを開発した。iQCのメインアイデアは、スライド上の組織がどれだけあるかを正確に特定して数え、どんなふうに配置されてるかを理解し、その組織を取り除くために行われた手術の種類を予測することなんだ。
高品質のデータを得るためには、iQCがスライド上の多くの組織ピクセルを認識して、手術手順について正確な予測をする必要がある。一方、データの質が低いと、ツールが組織を適切に測定できなかったり、手術手順を誤って特定するかもしれない。
品質管理の視覚的例
研究を行う中で、研究者たちはさまざまな組織病理画像を調べた。ある例では、前立腺の針生検が低倍率と高倍率で検査された。近くで見ると、ある部分はぼやけてて、他の部分はシャープなディテールがあった。iQCは、背景、組織、全体の質を下げる可能性のある懸念エリアなど、異なるピクセルのタイプを示すマスクを使用した。
異なるスライドを年齢や損傷の兆候について分析した。いくつかは、バブルや色あせの証拠があって、画像の質を妨げることがあるんだ。色のついたペンやゴミみたいなさまざまなマーカーも検出され、組織サンプルを正確に特定する能力を妨げるかもしれない。
スライドの質に関する発見
研究者たちは、分析の中でバッチ効果を発見した。つまり、特定のグループのスライドが共通の問題を抱えていることが多いってこと。ある特定の機関が質の低いスライドを大量に生産してることが注目された。徹底的にレビューした結果、病理医がそのスライドを再発行することを勧めた。
これを公開データセットと比較すると、後者は品質管理に失敗したスライドがないことがわかって、より高い質だった。これは、特定の医療施設の実践に起因する品質問題がある可能性を示してる。
予測の評価
iQCは、スライドが生検から来たのか別の手続きから来たのかを予測する能力をテストされた。最初は特定のスライドセットで非常に高い精度を達成したんだ。でも、他の施設のデータでテストすると、パフォーマンスが大幅に低下した。これは、施設間のスライドの質の違いに関する洞察を与えた。
特に、問題のある機関のスライドはあまり良くなかったのは、年齢と質の問題が原因のようだ。逆に、他の施設のスライドは素晴らしい予測率を示したんだ。
新データへの一般化
iQCツールをさらにテストするために、研究者たちは外部データセットのデータを使って、新しいケースにどれだけ適用できるかを確認した。その結果は有望で、iQCが見たことのないデータでもうまく機能する可能性が示唆された。いくつかの例では、iQCが特定の手術サンプルを誤って特定することがあったけど、全体的には予測は強かった。
iQCの動作方法
iQCツールは、マルチステッププロセスを通じて動作する。これには、ピクセルのタイプを特定したり、ゴミを検出したり、混乱を引き起こす可能性のあるアーティファクトやマークをチェックしたりするいくつかの分析が含まれる。それぞれのステップは、何が組織なのか、何がそうでないのかをより明確に理解するのに役立ち、最終的にはより正確な診断につながるんだ。
iQCは、生検からのサンプルかそうでないかを示すスコアを生成する。スコアが低いほど、生検の可能性が高くて、高いスコアは他の手術作業を示す。
客観的品質管理
iQCの重要な側面の一つは、品質の客観的な測定に焦点を当てていることだ。以前の方法の中には、主観的な評価や事前設定されたルールに依存していたものもあったけど、iQCは医療システムから集めた実際のデータに基づいているから、品質管理のより標準化されたアプローチが可能なんだ。
このツールは、病院やクリニックで信頼できる品質管理プロセスを構築する上で重要な意味を持つ。分析の多くを自動化し、手動レビューの必要性を最小限に抑えることで、iQCは手順をスムーズにし、最終的には患者ケアの結果を改善できるかもしれない。
結論
iQCツールの開発は、病理学における品質管理を改善するための重要なステップを表してる。高度な画像処理技術と客観的なデータ測定を組み合わせることで、組織サンプルを分析する際のいくつかの緊急な問題に対する解決策を提供している。
医療施設が診断精度の向上を目指している中で、iQCのようなツールはエラーを減らし、信頼性の高い情報を健康決定に活用するのに役立つかもしれない。こうした技術を採用することで、病理学の分野が大きく改善され、患者の結果や病気の理解がより良くなることだろう。
タイトル: iQC: machine-learning-driven prediction of surgical procedure uncovers systematic confounds of cancer whole slide images in specific medical centers
概要: ProblemThe past decades have yielded an explosion of research using artificial intelligence for cancer detection and diagnosis in the field of computational pathology. Yet, an often unspoken assumption of this research is that a glass microscopy slide faithfully represents the underlying disease. Here we show systematic failure modes may dominate the slides digitized from a given medical center, such that neither the whole slide images nor the glass slides are suitable for rendering a diagnosis. MethodsWe quantitatively define high quality data as a set of whole slide images where the type of surgery the patient received may be accurately predicted by an automated system such as ours, called "iQC". We find iQC accurately distinguished biopsies from nonbiopsies, e.g. prostatectomies or transurethral resections (TURPs, a.k.a. prostate chips), only when the data qualitatively appeared to be high quality, e.g. vibrant histopathology stains and minimal artifacts. Crucially, prostate needle biopsies appear as thin strands of tissue, whereas prostatectomies and TURPs appear as larger rectangular blocks of tissue. Therefore, when the data are of high quality, iQC (i) accurately classifies pixels as tissue, (ii) accurately generates statistics that describe the distribution of tissue in a slide, and (iii)accurately predicts surgical procedure from said statistics. We additionally compare our "iQC" to "HistoQC", both in terms of how many slides are excluded and how much tissue is identified in the slides. ResultsWhile we do not control any medical centers protocols for making or storing slides, we developed the iQC tool to hold all medical centers and datasets to the same objective standard of quality. We validate this standard across five Veterans Affairs Medical Centers (VAMCs) and the Automated Gleason Grading Challenge (AGGC) 2022 public dataset. For our surgical procedure prediction task, we report an Area Under Receiver Operating Characteristic (AUROC) of 0.9966-1.000 at the VAMCs that consistently produce high quality data and AUROC of 0.9824 for the AGGC dataset. In contrast, we report an AUROC of 0.7115 at the VAMC that consistently produced poor quality data. An attending pathologist determined poor data quality was likely driven by faded histopathology stains and protocol differences among VAMCs. Corroborating this, iQCs novel stain strength statistic finds this institution has significantly weaker stains (p < 2.2 x 10-16, two-tailed Wilcoxon rank-sum test) than the VAMC that contributed the most slides, and this stain strength difference is a large effect (Cohens d = 1.208). In addition to accurately detecting the distribution of tissue in slides, we find iQC recommends only 2 of 3736 VAMC slides (0.005%) be reviewed for inadequate tissue. With its default configuration file, HistoQC excluded 89.9% of VAMC slides because tissue was not detected in these slides. With our customized configuration file for HistoQC, we reduced this to 16.7% of VAMC slides. Strikingly, the default configuration of HistoQC included 94.0% of the 1172 prostate cancer slides from The Cancer Genome Atlas (TCGA), which may suggest HistoQC defaults were calibrated against TCGA data but this calibration did not generalize well to non-TCGA datasets. For VAMC and TCGA, we find a negligible to small degree of agreement in the include/exclude status of slides, which may suggest iQC and HistoQC are not equivalent. ConclusionOur surgical procedure prediction AUROC may be a quantitative indicator positively associated with high data quality at a medical center or for a specific dataset. We find iQC accurately identifies tissue in slides and excludes few slides, unless the data are poor quality. To produce high quality data, we recommend producing slides using robotics or other forms of automation whenever possible. We recommend scanning slides digitally before the glass slide has time to develop signs of age, e.g faded stains and acrylamide bubbles. We recommend using high-quality reagents to stain and mount slides, which may slow aging. We recommend protecting stored slides from ultraviolet light, from humidity, and from changes in temperature. To our knowledge, iQC is the first automated system in computational pathology that validates data quality against objective evidence, e.g. surgical procedure data available in the EHR or LIMS, which requires zero efforts or annotations from anatomic pathologists. Please see https://github.com/schaumba/iqc and https://doi.org/10.17605/OSF.IO/AVD3Z for instructions and updates.
著者: Andrew J Schaumberg, M. S. Lewis, R. Nazarian, A. Wadhwa, N. Kane, G. Turner, P. Karnam, P. Devineni, N. Wolfe, R. Kintner, M. B. Rettig, B. S. Knudsen, I. P. Garraway, S. Pyarajan
最終更新: 2023-09-27 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.09.19.23295798
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.09.19.23295798.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。