PETレポートを要約するための言語モデルの利用
研究によると、言語モデルは有用なPETレポートの印象を生成できることがわかった。
― 1 分で読む
放射線技師は医療画像検査の結果を説明するためのレポートを作成するんだ。これらのレポートは、患者の状態に関する重要な情報を他の医師や医療チームと共有するために重要だよ。いろんな画像検査の中でも、全身PETスキャンは長くて複雑なことで知られている。PETレポートでは、所見のセクションにスキャンからの多くの観察結果がリストアップされていて、印象のセクションでは最も重要なポイントの要約が提供されるんだ。他の医師は治療の決定を下す際に印象のセクションに大きく依存しているから、正確で完全でなければならない。でも、これらの印象を書くのは時間がかかるし、間違いが起きることもある。大規模言語モデル(LLM)は、所見に基づいて自動的に印象を書くことで、このプロセスをスピードアップする新しい方法を提供しているんだ。
背景
LLMはさまざまな画像検査の所見を要約するために使われてきたけど、全身PETレポートに広く適用されているわけではないんだ。PETレポートは他の検査に比べてかなり長くて、所見のセクションには250〜500語が含まれていることが多い。この長さは、印象生成中に重要な情報を見落とす可能性が高くなるという課題をもたらすよ。さらに、医師それぞれに異なる報告スタイルがあるから、より個別化された結果を得るためにはそれを考慮する必要がある。LLMをPETレポートの要約に適応させるのは特有の課題があるんだ。
LLMがこれらの印象を生成する際の成功を評価するのも難しいよ、同じ情報を要約するには多くの有効な方法があるから。専門家による評価が品質を評価する最良の方法と考えられているけど、すべてのモデルの出力を医師がレビューするのは現実的ではない。これに対処するために、最近の研究では医療文書をどれだけうまく要約しているかを測定する評価指標が開発されたんだ。しかし、これらの指標がPET印象にどれほど効果的か、医師の見解とどれほど一致するかはまだ明確にはなっていない。
研究
この研究の目的は、大量のPETレポートで訓練されたLLMが、所見を正確に要約し、実用的な印象を作成できるかを調べることだったんだ。研究者たちは12種類の異なる言語モデルをPETレポートのデータセットを使用して訓練し、さまざまな評価指標を使ってその性能を評価した。最もパフォーマンスの良いモデルが、臨床的に有用な印象を生成する能力を試験されたよ。
データセット収集
2010年から2022年の間に1つの病院から収集された37,370のPETレポートが研究に使われたんだ。これらのレポートは患者の情報を守るために匿名化されたよ。データは訓練、検証、テスト用のグループに分けられた。別のソースからも100件のレポートが外部テスト用に収集されたんだ。
レポート前処理
2種類の言語モデルがテストされたよ:エンコーダ-デコーダモデルとデコーダ専用モデル。最初のセットは特定のフォーマットを必要とし、最初の行にはスキャンと医師の情報が含まれていた。2番目のタイプは異なるアプローチを使用し、与えられたレポートに基づいて印象を生成するようモデルに指示するところから始まったんだ。実際の臨床印象はモデルの訓練と評価に使用された。
PETレポート用の言語モデル
この研究は要約に焦点を当てていて、モデルは所見のセクションの一部を繰り返すだけではなく、所見を解釈することが期待されているんだ。研究者たちは、どのモデルが正確な印象を生成するのに最もよく機能するかを見るために、複数のエンコーダ-デコーダモデルとデコーダ専用モデルを訓練したよ。微調整されたモデルは、専門家評価のために最もパフォーマンスの優れたモデルを特定するためにさまざまな評価指標を用いて評価された。
パフォーマンス評価
どの評価指標が医師の好みに最も関連しているかを判断するために、研究者はモデル生成の印象を2人の医師に提示し、評価してもらったんだ。医師の好みとの相関が強い指標が使用されて、トップパフォーマンスのモデルを選定したよ。
専門家評価フェーズでは、3人の核医学の医師が合計24件のレポートをレビューし、モデル生成の印象の質を評価した。彼らは特定の基準を使ってこれらの印象を評価し、自分たちや他の医師が最初に書いた印象と比較したんだ。
結果
研究の結果、BARTScoreとPEGASUSScoreという2つの指標が医師の好みとの相関が最も高いことがわかった。PEGASUSモデルがトップパフォーマーとして特定されたよ。医師が自分のスタイルでPEGASUSが生成した印象をレビューしたとき、多くが臨床的に受け入れられると考えられたんだ。このモデルは実際のアプリケーションで役立つ成果を生み出せる可能性があるってことを示唆しているよ。
医師が自分のレポートに対して生成された印象を評価したとき、89%が臨床的に受け入れられると評価された。ただし、平均的な有用性スコアは彼らがもともと書いた印象よりも少し低かった。この違いは、事実の正確さや明瞭さなど、改善が必要な部分に起因しているよ。
さらに、他の医師の印象を評価したときも、スコアは自分の仕事よりも低かったんだ、これは医師が独自の報告スタイルに非常に強い好みを持っていることを強調しているよ。満足度のわずかな違いはあったけど、PEGASUSが生成した印象の全体的な有用性は他の医師のものと同等だと考えられている。
モデルが直面した課題
PEGASUSが生成した印象の大多数は受け入れられたけど、いくつかの共通の問題が特定されたんだ。事実の不正確さはよくある問題で、誤解が見られることもあったよ。さらに、モデルは十分な証拠がないのに過剰に自信を持った診断を生成することもあったんだ。モデルが出した勧告も曖昧なことがあって、医師が臨床実践に利用するのが難しい場合があったよ。これらの問題は、レポートを最終決定する前に医師による徹底的なレビューと編集が必要であることを強調している。
研究の限界
研究を通じていくつかの限界が特定されたよ。例えば、一部のモデルを微調整する際には計算リソースが限られていたため、単純な領域適応法しか使用されなかった。研究では生成された印象のスタイルを調整するために入力の1つの要素しか操作されず、他の潜在的な方法は探求されなかったんだ。
外部テストでは評価スコアが著しく低下したことが示され、内部訓練グループと外部の医師との間で報告スタイルの違いがパフォーマンスに影響を与えたことを示唆しているよ。最後に、データセットが1つの施設から来ているため、将来の研究では複数の施設を含めることで発見を強化する必要があるね。
結論
この研究は、大規模言語モデルが全身PETレポートの印象を自動生成する方法を調べたんだ。結果は、最もパフォーマンスの良いモデルであるPEGASUSが大体の場合において個別化された臨床的に有用な印象を作成できることを示したよ。このモデルは、そのパフォーマンスを考慮して、所見に基づいて初期印象を自動的に準備することでPETレポーティングをスピードアップするために臨床環境に統合できるかもしれない。
この研究はさまざまな資金提供源からの支援を認めているけど、作業に表現された見解は著者のものであり、必ずしもどのスポンサー組織の立場を反映しているわけではないってことも明確にしているよ。
結論として、課題は残っているけど、LLMが医療レポートの作成プロセスを改善する可能性は期待できるし、医療環境での効率向上につながるかもしれないね。
タイトル: Automatic Personalized Impression Generation for PET Reports Using Large Language Models
概要: In this study, we aimed to determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician's identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions (3-point scale) and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman's rank correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08 out of 5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). In conclusion, personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.
著者: Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann, Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw
最終更新: 2023-10-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.10066
ソースPDF: https://arxiv.org/pdf/2309.10066
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://huggingface.co/xtie/PEGASUS-PET-impression
- https://github.com/xtie97/PET-Report-Summarization
- https://huggingface.co/xtie/BARTScore-PET
- https://github.com/xtie97/PET-Report-Expert-Evaluation
- https://doi.org/10.2967/jnumed.112.112177
- https://doi.org/10.1148/rg.2020200020
- https://arxiv.org/abs/1809.04698
- https://arxiv.org/abs/2204.00203
- https://arxiv.org/abs/2211.08584
- https://arxiv.org/abs/2306.08666
- https://doi.org/10.1148/radiol.231259
- https://arxiv.org/abs/2304.08448
- https://doi.org/10.1038/s41597-019-0322-0
- https://arxiv.org/abs/2112.09925
- https://arxiv.org/abs/2004.09167
- https://arxiv.org/abs/2305.17364
- https://doi.org/10.1056/NEJMoa2206660
- https://arxiv.org/abs/2212.10560
- https://github.com/tatsu-lab/stanford_alpaca
- https://arxiv.org/abs/1910.13461
- https://arxiv.org/abs/1912.08777
- https://arxiv.org/abs/1910.10683
- https://arxiv.org/abs/2109.01652
- https://arxiv.org/abs/2204.03905
- https://doi.org/10.18653/v1/2022.findings-emnlp.398
- https://doi.org/10.18653/v1/2022.acl-long.151
- https://arxiv.org/abs/1909.08593
- https://arxiv.org/abs/2205.01068
- https://arxiv.org/abs/2302.13971
- https://arxiv.org/abs/2106.09685
- https://arxiv.org/abs/2106.11520
- https://arxiv.org/abs/2303.01258
- https://doi.org/10.1186/gb-2008-9-s2-s2
- https://aclanthology.org/W04-1013/
- https://arxiv.org/abs/1904.09675
- https://arxiv.org/abs/2305.13693
- https://doi.org/10.18653/v1/W18-5623
- https://arxiv.org/abs/2201.11838
- https://arxiv.org/abs/1907.11692
- https://arxiv.org/abs/1711.05101
- https://doi.org/10.3115/1073083.1073135
- https://doi.org/10.18653/v1/W15-3049
- https://arxiv.org/abs/1411.5726
- https://arxiv.org/abs/1508.06034
- https://doi.org/10.18653/v1/D19-1053
- https://doi.org/10.18653/v1/2020.emnlp-main.8
- https://doi.org/10.18653/v1/W17-4510
- https://doi.org/10.18653/v1/2022.emnlp-main.131
- https://arxiv.org/abs/1909.01610
- https://doi.org/10.3115/1220575.1220668
- https://doi.org/10.18653/v1/2020.acl-main.124
- https://doi.org/10.18653/v1/N18-1065
- https://doi.org/10.1162/tacl_a_00373