アトピー性皮膚炎の患者特定を改善すること
新しい方法でアトピー性皮膚炎の患者を臨床試験に参加させるのがより簡単になったよ。
― 1 分で読む
アトピー性皮膚炎(AD)は、約30%の人に影響を与える一般的な肌の状態だよ。多くは幼少期に始まるけど、どんな年齢でも始まる可能性があるんだ。ADの症状には、赤く腫れてかゆい肌が含まれていて、身体的にも感情的にもかなりの不快感をもたらすことがある。ADの人は、喘息、季節性アレルギー、食物アレルギーなど他のアレルギー症状を持っていることが多い。
ADは、肌のバリアの問題や免疫系の問題に関連していると考えられているよ。遺伝的要因や環境の影響も、この状態の発症に関与しているんだ。ADの伝統的な治療法には、保湿剤や外用ステロイドが含まれているけど、最近は免疫応答を管理するための新しい薬、たとえばデュピルマブなどの治療法が進歩してきた。ADが広く見られるから、どうやって発症するか、新しい治療の効果を理解して、管理方法を増やす必要が急務なんだ。
ADの研究を行うのは難しいこともあって、研究に適した患者グループを見つけるには時間と労力がかかるんだ。ADは一般的で、さまざまな医療現場で多くの医師に治療されているから、健康システムの電子健康記録(EHR)を利用するのが有効かもしれない。研究者たちは、ADの患者を特定するために、医療請求で使われる特定のコードを使うことが多いけど、これだけに頼るのは正確じゃないことがあり、研究の取り組みを複雑にしちゃうんだ。
そのため、医療記録からADの患者を迅速かつ正確に特定する信頼できる方法が求められている。ここで、自然言語処理(NLP)や機械学習(ML)などの技術が役に立つんだ。
アトピー性皮膚炎に関する以前の研究
研究者たちは、EHRデータを使ってADの患者を特定することに取り組んできたよ。たとえば、一部の研究では、構造化データ(請求コードや検査結果など)と非構造化データ(医者のメモなど)を分析するモデルを使っていたんだ。医療専門家による徹底的なレビューに基づいて、各患者に正しい診断が付けられていたんだ。
私たちの研究は、いくつかの重要な点でこの作業を発展させている。まず、一つの方法だけでなくさまざまな方法でモデルをトレーニングしたこと。次に、患者の記録に見られる情報を表現するための高度な技術を使ったこと。そして、患者データ処理の異なるアプローチがADの患者を特定する精度にどのように影響するかを調べたことだよ。
私たちの研究の主な貢献は以下の通り:
- EHRデータから情報を集めて患者プロフィールを作成するルールベースの方法を提案すること。
- 確率に基づいて患者を分類するための情報を集めるためのトランスフォーマーモデル(BERT)を導入すること。
- これら二つの方法を比較して、一方が他方よりもADの患者を特定するのにどれだけ効果的かを見てみること。
- 特定の種類のネットワークを使って、患者記録の関連する文をハイライトすることができ、臨床試験での適格候補探しをしやすくすること。
AD研究のために患者が記録に基づいて適格かどうかを判断するために、最初に患者グループをトレーニングセットとテストセットに分けたんだ。各患者について、ADに関連する特徴を反映したプロフィールを作成するために医療記録から情報を集めた。最後に、各患者がADである可能性を予測するために、これらのプロフィールを使っていくつかのMLモデルをトレーニングしたんだ。
データセットの作成
最初に、病院のデータベースから2,000人の患者とその記録をサンプリングした。ADに関連する請求コードで診断された患者を選んで、その中からクリニカルノートが利用できる1,926人の患者を見つけたよ。これらの記録から個人情報を削除して、確立されたプライバシー手法に従った。それぞれの記録は、確立されたガイドラインに基づいてADの基準を満たしているかどうかを慎重にレビューされてマークされた。
ADと正式に診断されるには、かゆい肌と他に最低3つの関連する兆候(過去の皮膚の問題、喘息や花粉症、乾燥肌、2歳前に始まる発疹、特定のエリアに見える皮膚の炎症など)が必要だよ。最終的なデータセットには、ADの患者137人とADでない患者1,789人が含まれていたんだ。
分析のためのデータ分割
次に、データセットをトレーニングセットとテストセットに分けたよ。ADのない患者が多かったから、バランスの取れたトレーニングセットを作ったんだ。これで、ADの患者109人と同数のADでない患者がいるようにした。
それから、2つのテストセットを作ったよ。最初のテストセットはバランスが取れていて、2つ目は実際の状況を反映していて、ADのない患者の割合が高い。それに対して、バランスの取れたセットでは、ADの患者20%を含め、その同数の患者とマッチさせた。バランスの取れていないセットでは、ADの患者と一緒に、ADでない患者を追加して、AD30%対ADでない患者70%の比率にしたんだ。
モデルを微調整するために別のセットを保持する代わりに、クロスバリデーションという方法を使って、トレーニング中にモデルに最適な設定を決定したよ。
患者プロフィールの分類のための開発
次に、各患者のプロフィールを作成したんだ。さまざまな方法でこれらのプロフィールを作成する実験を3つ行ったよ。
患者プロフィールの説明
各患者プロフィールには、ADの診断基準を満たしているかどうかを示す8つの項目が含まれている。最初の2つの実験では、各項目は確率スコアを示し、患者の記録がその特定の基準を支持する可能性を示しているんだ。3つ目の実験では、患者の記録に関連情報が見つかったかどうかに基づいて、単に「はい」または「いいえ」を表示するようにしたんだ。
最初の2つの実験では、患者の記録に記載された文を分析する個別の分類器から得られた確率に基づいてプロフィールを作成したよ。どちらのトランスフォーマーモデルがプロフィール作成に効果的かを見たんだ。
3つ目の実験では、記録の中にADの基準が示されているかどうかを確認するシンプルなアプローチを使ったよ。
実験の準備
実験を行う前に、データを準備するために同じ手順を踏んだ。ADの基準に関連する特定のキーワードに基づいて、医療記録の文をラベリングしたんだ。この準備には、レコードを文に分解するツールを使って、特定されたキーワードに基づいてそれらを分類する作業が含まれていた。
文をラベリングした後、患者プロフィールを作成するために3つの異なる実験を行ったよ。
文の分類実験からの結果
最初の2つの実験では、さまざまなモデルを訓練して文を分類し、2種類のトランスフォーマーモデルの性能を確認した。最も良いパフォーマンスを示したのは、ADの直接の言及を特定するモデルだった。一方で、肌の乾燥や喘息に言及するモデルは劣っていた。
クリニカルモデルを使用した最初の実験では、文を特定する精度は、肌の乾燥についての言及で73.73%からADの直接の言及で90.02%までの範囲だった。同様の結果が見られた2回目の実験では、精度は72.69%から91.53%までだったよ。
患者分類の結果
次に、患者プロフィールの作成方法に基づいて、患者分類モデルの性能を比較したよ。最初の実験では、クリニカルモデルを使用してプロフィールを生成し、さまざまなアルゴリズムを訓練した。結果は、バランスの取れたテストセットでの精度が58.93%から73.21%まで、バランスの取れていないセットで58.24%から72.53%という結果が出たんだ。
一般モデルを使ったプロフィール作成では、バランスの取れたテストセットで51.79%から62.50%、バランスの取れないセットでは57.14%から67.03%という低い精度が得られた。
3つ目の実験では、セントリナル文がADの基準を示す場合の存在を単純に使ったときに、複数の分類器が強いパフォーマンスを示したことがわかったよ。
発見と影響
私たちは、自分たちのモデルがADの患者を特定するのにうまく機能することを確認した。3つ目の実験のルールベースのアプローチは、精度と実装の容易さの両方で時々より良い結果を提供した。これにより、シンプルな方法でもADのケースを効率的に特定できることが示されたんだ。
もっと重要なのは、これらの発見が臨床医が患者のチャートをより効率的にレビューするのに役立つかもしれないことなんだ。関連する文を記録の中でハイライトすることで、医者の時間を節約し、適格な候補者が臨床研究に含まれるようにできる。
今後の方向性
promisingな結果が得られたけど、いくつかの制限も認めている。主な懸念は、私たちのデータセットが小規模で、約2,000人中137人しかADがないことが、結果の信頼性に影響を与える可能性があるということ。
もう一つの制限は、使用したトランスフォーマーモデルの入力制限だった。これらのモデルは固定数のトークンしか受け付けないから、長いテキストは無視され、医療記録全体を分析することができなかったんだ。
私たちは、ADに関するいくつかの指標にのみ焦点を当てた。追加の変数や指標の組み合わせを含めることで、パフォーマンスをさらに向上させることができるかもしれない。
研究の応用
私たちの結果は、これらの方法を病院でEHRレビューを効率化するために実施する道を開いているよ。たとえば、文分類器は患者のノート内で重要な情報をハイライトして、ADに関連する症状を特定するのが容易になる。
さらに、私たちのフレームワークは、ADの診断基準にどれだけ一致しているかに基づいて患者のケースをランク付けすることができ、レビュー中の負担を軽減し、臨床試験の募集プロセスをスピードアップできるかもしれない。
結論
私たちの研究は、特に臨床試験の募集において、アトピー性皮膚炎の患者を特定するための検証済みのアプローチを提示しているよ。従来の方法と現代の機械学習技術を比較することで、シンプルな方法が時にはより良い結果をもたらすことを示したんだ。この作業は、臨床現場での患者評価の効率を改善する可能性があり、将来の研究の基盤を提供する。本アプローチが他の病状にも適用され、臨床研究の患者募集プロセスがさらに強化されることを望んでいるよ。
タイトル: Patient Phenotyping for Atopic Dermatitis with Transformers and Machine Learning
概要: BackgroundAtopic dermatitis (AD) is a chronic skin condition that millions of people around the world live with each day. Performing research studies into identifying the causes and treatment for this disease has great potential to provide benefit for these individuals. However, AD clinical trial recruitment is a non-trivial task due to variance in diagnostic precision and phenotypic definitions leveraged by different clinicians as well as time spent finding, recruiting, and enrolling patients by clinicians to become study subjects. Thus, there is a need for automatic and effective patient phenotyping for cohort recruitment. ObjectiveOur study aims to present an approach for identifying patients whose electronic health records suggest that they may have AD. MethodsWe created a vectorized representation of each patient and trained various supervised machine learning methods to classify when a patient has AD. Each patient is represented by a vector of either probabilities or binary values where each value indicates whether they meet a different criteria for AD diagnosis. Results: The most accurate AD classifier performed with a class-balanced accuracy of 0.8036, a precision of 0.8400, and a recall of 0.7500 when using XGBoost (Extreme Gradient Boosting). ConclusionsCreating an automated approach for identifying patient cohorts has the potential to accelerate, standardize, and automate the process of patient recruitment for AD studies; therefore, reducing clinician burden and informing knowledge discovery of better treatment options for AD.
著者: Danielle L Mowery, A. Wang, R. Fulton, S. Hwang, D. J. Margolis
最終更新: 2023-12-04 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.08.25.23294636
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.08.25.23294636.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。