機械学習のための電子健康記録におけるノイズの対処
私たちの研究は、コンピュータビジョン技術を使ってEHRデータのラベル精度を向上させるんだ。
― 1 分で読む
近年、医療分野ではデジタルデータが大きく増えてきたよ。その中でも、電子健康記録(EHR)が重要なデータの一つね。EHRには患者の医療歴、診断、薬、検査結果などの大事な情報が含まれてる。デジタル記録への移行で、患者の安全が向上し、医療がより効率的になった。データの増加は、医療における機械学習(ML)の新しい機会ももたらしてる。このデータを使うことで、MLはより良い治療計画を作成したり、健康の結果を予測したりできるから、患者ケアも向上するんだ。
でも、EHRはMLにとって貴重なリソースだけど、課題もあるんだ。データ入力ミスや情報の欠落、不整合、システムエラー、誤った検査結果などがデータにノイズやエラーを引き起こす可能性がある。研究によれば、多くの患者が自分のEHRにミスを報告していて、その中には深刻なものもある。健康記録の誤りは、患者ケアや研究に悪影響を及ぼすことがあるから、EHRデータが正確かつ完全であることを確保するのは大きな挑戦なんだ。
そうした潜在的なエラーへの意識があっても、多くの既存のMLモデルはデータがクリーンで正確であると仮定してる。この仮定は、実際のデータには当てはまらないことが多いんだ。研究によると、特に深層学習(DL)モデルはこのノイズのあるデータに過剰適合しやすい。過剰適合は、モデルがトレーニングデータのノイズを学習し、真のパターンを無視することを意味する。これにより、新しい未見のデータが与えられたときにパフォーマンスが悪くなるから、患者ケアには問題があるんだ。
これらの課題に対処するために、我々はEHRのノイズのあるデータを扱うためのML手法の改善に焦点を当ててる。我々の研究は、データに付けられたラベルが問題を抱えてるケースを強調していて、これはノイズのあるラベルを扱うのに成功したコンピュータビジョン(CV)のアプローチに触発されている。EHRデータは画像データとは大きく異なることに注意が必要だ。画像はピクセル値に基づいているが、EHRは患者の記録、コード、さまざまな臨床情報を含んでる。
CV技術をEHRデータに適応させるために簡単な変更を加えることで、これらの手法がノイズのあるラベルに関連するリスクを大幅に減少させることができることを発見した。我々の研究は、MLモデルのEHRデータに対する性能をさらに向上させるために、複数のアプローチを組み合わせることについても検討してる。
関連研究
ノイズのあるラベルに対処するために、さまざまな分野で異なる戦略が使われてきた。これらの手法は一般的に2つの主要なタイプに分類される:1)ラベル修正と2)正則化。
ラベル修正は、誤ってラベル付けされたデータポイントを見つけて修正することを目指している。一般的な手法の一つがデータクリーニングで、明らかに間違ったデータを除去する。これには手動で行ったり、外れ値を特定するアルゴリズムを使ったりすることが含まれる。しかし、手動作業は時間がかかるし高価だから、サンプルを削除することは有用な情報を失う結果にも繋がる。他のアルゴリズムベースの手法、例えば自己学習や共同学習は、モデルからの予測に基づいてラベルを更新する。
しかし、これらのアプローチは初期のクリーンなラベルが必要で、実際の臨床環境ではそうでないことが多い。そのため、我々はノイズに対処するためにモデルの学習を調整する正則化手法に焦点を移した。これには堅牢な損失関数、ラベルスムージング、予測の一貫性を促進する手法が含まれてる。
堅牢な損失関数は外れ値やノイズのあるラベルの影響を減らすことを目指してる。これらは助けになることもあるが、外れ値が重要になり得る医療データでは貴重な情報を失う可能性もある。一方、ラベルスムージングは、トレーニング中にターゲットラベルに少し不確実性を加える。これにより、モデルは予測に過度に自信を持たず、ノイズの多い環境でも助けになることが示されている。
もう一つの関連技術はMix-upで、これは異なるデータポイントをブレンドして新しい例を作成する。これにより、モデルが特徴とラベルの関係だけに依存するのを防ぐ助けになる。似たデータポイントの予測の一貫性を強制する手法もあり、ノイズのあるラベルがあってもモデルが堅牢なパターンを学習するのを助ける。
ノイズのあるラベルを管理する手段はあるけれど、EHRデータに特に焦点を当てた研究は非常に少ない。最近の研究は医療におけるラベルノイズに対処しているが、通常はクリーンなデータセットとノイズのあるデータセットを別々に持つことが求められる。我々のアプローチは、どのデータポイントが正しくラベル付けされているかを知る必要はなく、Neighbour Consistency Regularization(NCR)、Mix-up、ラベルスムージングのような手法を最小限の変更でEHRに効果的に適用できることを示している。
データと手法
我々の研究は、COVID-19のケーススタディからの実データを使用している。目標は、EHRに基づいて患者をCOVID陽性または陰性に分類することだ。その時、検査は必須で、分析に利用できるデータがたくさんあったんだ。しかし、検査結果の信頼性は、特にパンデミック初期にはばらつきがあって、患者の実際のウイルス状況に不確実性をもたらしていた。このため、ノイズのあるラベルの中でモデル開発を試すには理想的なケーススタディだった。
我々は、さまざまな病院の救急外来を訪れる患者の匿名化されたEHRデータを含むCURIALデータセットを利用した。UK NHSのCOVID-19を検出するためのAIモデル使用に関する承認も得ているので、これらのデータセットは分析の基盤としてしっかりしてる。
以前の研究では、EHRの特徴に基づいてトレーニングされたMLモデルが、従来の検査よりもCOVID-19の診断が早いことを示している。我々は、救急診療の訪問中に収集されたルーチン検査やバイタルサインを使って、同様のモデルを構築することを目指してる。データにはさまざまな特徴が含まれており、分析の前に標準化した。
欠損値の扱いには、母集団中央値によるインプテーション法を使用した。データセットのラベルノイズには、一部の診断ラベルを誤った値にランダムに変更することによって対処した。これは、推定された検査精度に基づいて偽陰性と偽陽性の結果をシミュレーションすることも含まれてる。
我々のベースラインモデルには、COVID-19の分類タスクで以前に効果的だったニューラルネットワークアーキテクチャを採用した。また、予測を複数のモデルから組み合わせて全体的な性能を向上させるXGBoostというアンサンブル手法も使用した。
CVに触発されたノイズラベルへの対処技術
我々の研究では、もともとCVタスクのために開発された技術の効果をEHRデータに適用できるか検討した。分析した主な手法は、ラベルスムージング、Mix-up、Neighbour Consistency Regularization(NCR)の3つだ。
ラベルスムージング
ラベルスムージングは、トレーニング中にターゲットラベルに少しの不確実性を加える。正しいラベルに対して完璧な0または1を使うのではなく、クラスの数に基づいて値をわずかに調整する。これにより、モデルは予測に過度に自信を持たないようになるから、ノイズの多い環境で特に役立つ。
Mix-up
Mix-upは、既存のデータポイントの特徴とラベルを組み合わせて新しいトレーニング例を作る。2つのサンプルの重み付き平均を取ることで、モデルは特徴とラベルの関係をより一般的に解釈することを学ぶ。これにより、データに存在するノイズに対する耐性が強化される。
Neighbour Consistency Regularization(NCR)
NCRは、似たような例がたとえ誤分類されていても、類似の予測につながるべきという原則を強制する。ノイズのあるラベルに依存せず、モデルは類似したデータポイントに対して一貫した出力を生成することが奨励される。つまり、分類は共有情報に基づかなければならず、潜在的に誤ったラベルだけに基づくべきではない。
我々はNCRをメインの損失関数と組み合わせて、トレーニング中に最適化するための新しい目的関数を作成した。
評価指標
モデルの効果は一般的な分類指標を使って評価された。これには、受信者動作特性曲線下面積(AUROC)、適合率-再現率曲線下面積(AUPRC)、感度、特異度が含まれた。我々の結果について信頼区間も報告するようにした。
最良のモデルパラメータを選ぶために、グリッドサーチと標準的なクロスバリデーションを用いてハイパーパラメータの最適化を行った。トレーニングが完了した後、COVID-19陽性ケースを特定するために臨床的に受け入れ可能な感度を確保するためにしきい値を調整した。
手法の比較
我々の比較分析では、さまざまなラベルノイズの量の下で各手法がどれだけ良く機能するかを評価した。結果は、CVから適応された手法がベースラインモデルよりも大幅に改善されたことを示している。Mix-upとNCRの両方の手法は、特にノイズのあるラベルの処理において非常に効果的であることがわかった。
さらに、両方の手法を組み合わせることで、単独で使用するよりも良い結果が得られることが多いこともわかった。NCRを使用してトレーニングされたモデルは、さまざまなノイズレベルでより一貫したパフォーマンスを示す。これは、NCRを実装することで異なるデータセット間で一般化するのに役立つことを示してる。
ただし、ラベルスムージングはあまりうまくいかなかった。良いラベルと悪いラベルの両方にノイズを加えることで、特にデータがすでにノイズが多い場合にはその効果が減少してしまった。
Neighbour Consistency Regularizationによる拡張分析
最良のハイパーパラメータを決定した後、異なる要因がNCRのパフォーマンスに与える影響を分析するためにアブレーションスタディを実施した。得られた結果は、NCR項の重みを調整することで特に高ノイズの状況で結果が改善されることを示していた。
ハイパーパラメータの影響
さまざまなハイパーパラメータがモデルのノイズ処理能力にどのように影響するかを探った。これにはNCRの開始点、NCR正則化の重み、トレーニング中に考慮される最近傍の数が含まれる。標準的な交差エントロピー損失のみを使用した初期トレーニング段階を設けることで結果が改善されることが分かった。
特徴埋め込み分析
特徴埋め込みを調べることで、モデルがデータの根本的なパターンをどれだけうまくキャッチしているかを評価できた。NCRを使用した場合、特徴空間でのクラス間の分離が改善され、モデルがノイズのあるラベルにも関わらず意味のある違いを学習したことが示された。
予測信頼度分析
予測信頼度の分析から、NCRが正しくラベル付けされたサンプルに対してモデルがより高い信頼度を割り当てるのを助けていることがわかった。一方、NCRなしでトレーニングされたモデルは、多くの正しいサンプルを誤分類する傾向があり、NCRが過剰適合を防ぐための重要な役割を果たしていることを示している。
結論
まとめると、我々の調査は、EHRデータにおけるノイズのあるラベルの課題に対処するためにCV手法を統合する効果を強調してる。ラベルスムージング、Mix-up、NCRなどの技術を適応させることで、医療分野におけるMLモデルの堅牢性と信頼性を向上させることができる。
結果は、ノイズ軽減技術なしでトレーニングされたモデルが一般化に苦しみ、新しいデータでのパフォーマンスが悪いことを示してる。それに対して、Mix-upやNCRのような手法を用いることで、特に高いラベルノイズに直面したときに良好な結果を得られることを確認した。
さらに、これらの技術を組み合わせることでさらなる改善が得られ、ラベルノイズに効果的に対処するために複数のアプローチを活用する可能性が示されている。
ラベルノイズに焦点を当てる一方で、特徴ノイズや欠損データなど、モデルのパフォーマンスに影響を与える他の側面も考慮することが重要だ。今後の研究では、これらの領域をさらに調査し、EHRデータの質を向上させるための追加の技術を探るべきだね。
結論として、この研究はEHRデータのより効果的な分析への道を開き、医療の成果とこの重要な分野での研究を改善するための新しい道を提供するものだ。
タイトル: Addressing Label Noise for Electronic Health Records: Insights from Computer Vision for Tabular Data
概要: The analysis of extensive electronic health records (EHR) datasets often calls for automated solutions, with machine learning (ML) techniques, including deep learning (DL), taking a lead role. One common task involves categorizing EHR data into predefined groups. However, the vulnerability of EHRs to noise and errors stemming from data collection processes, as well as potential human labeling errors, poses a significant risk. This risk is particularly prominent during the training of DL models, where the possibility of overfitting to noisy labels can have serious repercussions in healthcare. Despite the well-documented existence of label noise in EHR data, few studies have tackled this challenge within the EHR domain. Our work addresses this gap by adapting computer vision (CV) algorithms to mitigate the impact of label noise in DL models trained on EHR data. Notably, it remains uncertain whether CV methods, when applied to the EHR domain, will prove effective, given the substantial divergence between the two domains. We present empirical evidence demonstrating that these methods, whether used individually or in combination, can substantially enhance model performance when applied to EHR data, especially in the presence of noisy/incorrect labels. We validate our methods and underscore their practical utility in real-world EHR data, specifically in the context of COVID-19 diagnosis. Our study highlights the effectiveness of CV methods in the EHR domain, making a valuable contribution to the advancement of healthcare analytics and research.
著者: Jenny Yang, H. Triendl, A. A. S. Soltan, M. Prakash, D. A. Clifton
最終更新: 2023-10-17 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.10.17.23297136
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.10.17.23297136.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。