EEG分析における深層学習の課題と進展
この研究は、EEGデータ分析に深層学習を使うことの複雑さに焦点を当てている。
― 1 分で読む
複雑で時間のかかる作業を自動化することで、特に医療分析の分野で効率が向上することができるよ。 EEG(脳波計)の分析がその一つ。これは脳の電気活動を記録する技術で、さまざまな状態を検出するのによく使われるんだ。深層学習というAIの一種は、EEG分析を簡単かつ迅速にする可能性があると言われている。
でも、この分野での深層学習の利用には課題がある。技術の効果とリスクを評価することが大切で、特にてんかん性放電(EDs)の検出に焦点を当てている。これらの放電は異常な脳活動で、てんかんを示すかもしれない。深層学習モデルの効果は、専門家の評価をラベルとして使うことに依存していることが多いんだ。
専門家の合意と課題
今のところ、EDsを客観的に定義したり測定する普遍的に受け入れられた方法はない。EEGを評価するために訓練を受けた専門家は、特定の放電がEDかどうかで時々意見が分かれるんだ。この意見の不一致は「ラベルノイズ」と呼ばれ、専門家のラベルの不一致が深層学習モデルのトレーニングに悪影響を及ぼすことがある。専門家がEDを識別する際の合意度を測定するために、合意率やカッパスコアなどいくつかの定量的指標が使われている。合意率は、専門家が一致したケースの割合を示すだけでなく、カッパスコアは偶然による影響を調整するのに役立つんだ。
EDの評価に関する専門家の合意を調べた研究では、その評価にかなりのばらつきがあることが分かったんだ。場合によっては、専門家は部分的にしか合意しないことがあるため、EDの分類はやや主観的であることを示唆している。データを見ると、個々のEDに関しては一般的に中程度の合意があり、全体のEEG記録でEDを評価するとより強い合意が得られるようだ。
専門家の評価が深層学習クラスifierのトレーニングラベルとして使われるため、この不一致はEDを識別する性能に悪影響を与える可能性がある。この課題は、モデルをトレーニングする前に専門家の高い合意レベルを得ることの重要性を強調している。
深層学習モデルの性能
EDを検出する深層学習モデルの性能は多くの研究で評価されている。正確性(ACC)や曲線下面積(AUC)が、これらのモデルの性能を測るためによく使われる。正確性はモデルがEDを正しく識別する頻度を示し、AUCはモデルがEDと他の放電を区別する全体的な能力を提供する。多くの研究で、正確性とAUCの中央値が高いことが報告されており、臨床現場でのこれらのモデルの可能性を示している。
ただ、様々な研究間で性能評価指標にばらつきがあるため、直接的な比較は難しい。データサイズ、正確性計算の方法、専門家の評価の違いなどがこれらの不一致に寄与している。一部のモデル、商業システムのPersyst 13などは、専門家の評価と比較され、EDの検出において同等の性能を示したけど、使われた正確な方法は時々不明なこともあるんだ。
評価者間合意研究の必要性
専門家の評価が深層学習クラスifierの学習にどのように影響するかを理解するためには、専門家の合意レベルを評価することが重要なんだ。 EEGデータを使ったパイロット研究が行われて、2人の専門神経生理学者がEDを独立に注釈した。このデータは、専門家の注釈とどれだけ一致するかを評価するために、さまざまなクラスifierをトレーニングするための基礎となった。研究では、新しいクラスタリング技術を使って結果を視覚化することも目指していたんだ。
この研究で使われたEEGデータは、さまざまな潜在的なEDを含んでいるから選ばれたんだ。このバラエティは、注釈とその後のモデルのトレーニングのための堅牢なデータセットを提供した。専門家には、明確なてんかん性特性を持つ放電の特定にのみ集中するよう指示された。具体的な定義は与えられず、EDに何が含まれるかについての個々の解釈が許されたんだ。
方法論
EEGデータ収集
選ばれたEEG記録は約78分の長さで、標準配置システムに従って配置された複数の電極からのデータを含んでいる。EEGは、異なる形の連続的な周期放電のケースを示していて、その中の一部はてんかん性に分類されていた。このデータは分析やクラスifierのトレーニングに十分な量を提供することができた。
分析のために、データはフィルタリングされ、記録全体にわたって一貫性を確保するために正規化された。次に、2人の経験豊富な神経生理学者によってEEGが注釈された。彼らは、EDとして特定した放電を独立にマークしたんだ。
注釈プロセス
専門家はEEGの視覚化を助けるために設計されたグラフィカルユーザーインターフェース(GUI)を使った。彼らはさらに指示なしに、各放電のピークを独立にマークした。このプロセスには約2時間かかり、かなりの数の注釈が得られた。両方の専門家の結果は、その注釈の合意レベルを評価するために比較された。
研究者たちはEEG内の周期的放電(PD)も分析した。てんかん性放電を周期的放電のサブセットとして扱うつもりだった。この区別は、最終的なラベルが基になるデータを真実に反映することを確保するために重要だったんだ。
モデルのトレーニングと深層学習
専門家が提供した注釈に基づいてEEGデータを分類するための深層学習モデルが開発された。モデルは、いくつかの層を含む特定のアーキテクチャを使用して構築され、予測と専門家の注釈との違いを最小限に抑えるようにトレーニングされた。トレーニングプロセスでは、EDの検出のためのしきい値を調整して、専門家の評価に密接に一致させた。
モデルは厳格な評価プロセスにさらされ、クロスバリデーションが含まれていた。データは異なるセグメントに分割され、EEGのすべてのエリアが公平に評価されるようにされた。ハイパーパラメータやトレーニング設定は、モデルがトレーニングデータに過剰適合しないように、パフォーマンスを最大化するために慎重に選ばれたんだ。
性能評価指標
包括的な評価を確保するために、バランスの取れた正確性、マシューの相関係数、リコールなどの多様な性能指標が使用された。これらの指標は、専門家の評価と比較して、クラスifierのパフォーマンスがどれほど良いかを多面的に示している。
結果
専門家の合意
研究では、2人の専門家がそれぞれ1,709と1,430のEDを特定し、そのうち886しか合意しなかったことが分かった。これは、訓練を受けた専門家の間でも存在する固有のばらつきを強調している。カッパスコアで測定された合意レベルは、専門家の評価間に中程度の相関を示していた。クラスifierの出力と専門家の注釈を比較する際にも、似たような合意パターンが現れた。
クラスifierの性能
クラスifierの性能は混合していたが、使用された評価指標に基づくとほとんど中程度だった。クラスifierは多くのEDを特定したが、その多くは周期的放電からの偽陽性であることを指摘しており、さらなる改善の必要性を示している。クラスifierは高い全体的な正確性を達成したが、実際のEDを検出する能力を示す感度はやや低かったんだ。
クラスタ解析
クラスタ解析が実施され、特定された放電の分布を視覚化した。結果は、専門家とクラスifierが類似放電を集約する傾向があることを示していて、EDが発生する可能性のある場所に対する共通の理解を示している。しかし、これらがどのように特定されたかには違いがあり、スコアリングのための内部しきい値が異なることを示唆している。
議論
このパイロット研究の結果は、深層学習モデルのトレーニングに専門家の入力を頼る前に、一貫した専門家合意を得ることの重要性を強調している。専門家の評価のばらつきはラベルノイズを引き起こし、モデル性能に悪影響を与える可能性がある。
EEG分析における深層学習の利用は可能性を示しているけど、課題もある。矛盾したラベルでトレーニングされたクラスifierは、信頼できる出力を出すのが難しくなる可能性が高いから、明確な定義とトレーニングプロトコルが必要なんだ。
今後EEGデータがもっと利用可能になり、注釈プロセスにもっと多くの専門家が含まれるようになれば、EDの定義に関する広範な合意を得ることが、モデルの正確性を向上させるために重要になるだろう。今後の研究では、異なるデータセットやより大きな専門家グループでこれらの結果を再現することを目指すべきで、それが結果の検証に役立ち、モデルが堅牢であることを確保することにつながるよ。
結論
EEG分析の自動化が進む中で、高度な技術の利用と高品質な専門家評価のバランスを取ることが重要だ。一貫した専門家の合意を確保することが、この分野での深層学習の潜在能力を最大限に引き出すための鍵になる。専門家の間での継続的な研究と協力は、臨床での使用においてより正確で信頼性のあるツールの開発を促進し、最終的には患者ケアに貢献することになるんだ。
タイトル: Interrater agreement of annotations of epileptiform discharges and its impact on deep learning: A pilot study
概要: 1.BackgroundExpert interrater agreement for epileptiform discharges can be moderate. This reasonably will affect the performance when developing classifiers based on annotations performed by experts. In addition, evaluation of classifier performance will be difficult since the ground truth will have a variability. In this pilot study, these aspects were investigated to evaluate the feasibility of conducting a larger study on the subject. MethodsA multi-channel EEG of 78 minutes duration with abundant periodic discharges was independently annotated for epileptiform discharges by two experts. Based on this, several deep learning classifiers were developed which in turn produced new annotations. The agreements of all annotations were evaluated by pairwise comparisons using Cohens kappa and Gwets AC1. A cluster analysis was performed on all periodic discharges using a newly developed version of parametric t-SNE to assess the similarity between annotations. ResultsThe Cohens kappa values were 0.53 for the experts, 0.52-0.65 when comparing the experts to the classifiers, and 0.67-0.82 for the classifiers. The Gwets AC1 values were 0.92 for the experts, 0.92-0.94 when comparing the experts to the classifiers, and 0.94-0.96 for the classifiers. Although there were differences between all annotations regarding which discharges that had been selected as epileptiform, the selected discharges were mostly similar according to the cluster analysis. Almost all identified epileptiform discharges by the classifiers were also periodic discharges. ConclusionsThere was a discrepancy between agreement scores produced by Cohens kappa and Gwets AC1. This was probably due to the skewed prevalence of epileptiform discharges, which only constitutes a small part of the whole EEG. Gwets AC1 is often considered the better option and the results would then indicate an almost perfect agreement. However, this conclusion is questioned when considering the number of differently classified discharges. The difference in annotation between experts affected the learning of the classifiers, but the cluster analysis indicates that all annotations were relatively similar. The difference between experts and classifiers is speculated to be partly due to intrarater variability of the experts, and partly due to underperformance of the classifiers. For a larger study, in addition to using more experts, intrarater agreement should be assessed, the classifiers can be further optimized, and the cluster method hopefully be further improved.
著者: Mats Svantesson, A. Eklund, M. Thordstein
最終更新: 2024-04-12 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.04.10.24305602
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.04.10.24305602.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。