ICDコード生成のためのGPTモデルの評価
この研究では、GPT-3.5とGPT-4がICD請求コードをどれくらいうまく生成するかをレビューしてるよ。
― 1 分で読む
国際疾病分類(ICD)は、医療状態や手続きをコード化するために世界中で使われている主要なシステムだよ。このシステムは、健康記録の管理、公衆衛生の追跡、研究の実施、医療サービスの請求にとってめっちゃ重要なんだ。
最近、GPT-3.5やGPT-4のような大規模言語モデル(LLM)が登場して、かなりパワフルなツールになってる。このモデルは、医療に関する質問に答えたり、クリエイティブな文章を書いたり、さらには医者の事務作業を手伝ったりすることができるって実証されたんだ。
これらの先進的なモデルが、医療記述に基づいてICDコードを自動的に割り当てるプロセスを手助けできるという期待がある。でも、そういうタスクを行う際の信頼性は慎重に検証する必要があるよ。LLMの大きな問題は、信じられる情報を生成することもあるけど、間違ってることがあるからなんだ。だから、医療のコーディングみたいな重要なタスクに使う前に、彼らの正確性を評価するのが大事だね。
ICDコード生成の重要性
この研究は、GPT-3.5とGPT-4がどれだけICD請求コードを正確に生成できるかに焦点を当ててる。目的は、これらのモデルが異なるバージョンの分類システムから正しいICDコードにどれだけ適合できるかを確認することだよ。
研究者たちは、メディケア・メディケイドサービスセンターから最新のICDコードのリストを集めた。ICD-9-CM、ICD-10-CM、ICD-10-PCSが含まれてる。それぞれのリストから100のユニークなコードをランダムに選んで、合計300のコードを分析に使ったんだ。
研究に使った方法
研究者たちは、公開されたChatGPTインターフェースを使って、300の記述それぞれにICDコードを生成させた。モデルに対応するコードを生成するように具体的なプロンプトを作ったんだ。記述は効率のためにバッチで渡されたよ。
LLMのパフォーマンスを評価するために、どれだけ正確なコードが一致したか、請求可能なものがいくつあったか、非請求可能なものがいくつあったか、存在しないものがいくつあったかを見た。非請求可能なコードは通常、請求可能なものよりも具体性が低いことが多いんだ。正確な一致を判断するための比較方法を使って、意味的や文法的な類似性もチェックしたよ。
2人の医者が生成されたコードの意味的な類似性を元の記述と比較して判断した。このプロセスは、モデルがコーディングシステムをどれだけ理解しているかを評価することを目的にしてる。研究者たちは、モデルが犯したエラーも分析して、どこでつまずくのか、成功するのかを理解しようとしたんだ。
研究の結果
研究者たちは、ICDシステムごとに異なる成功レベルを見つけた。ICD-9-CMでは、GPT-4が22%の割合で正確なコードを一致させたのに対して、GPT-3.5は10%だった。請求可能なコードでは、GPT-4が72%、GPT-3.5は76%だった。非請求可能なコードも評価され、GPT-4が26%、GPT-3.5が20%だった。両方のモデルはICD-10-CMシステムでは正確な一致が少なくて、GPT-4が13%、GPT-3.5が5%だった。
モデルは特にICD-10-PCSシステムで苦労して、どちらのモデルも正確なコードを生成できなかった。しかし、GPT-4は39%のケースで請求可能なコードを生成できたのに対し、GPT-3.5は30%だけだった。
意味的な類似性を分析すると、GPT-4はすべてのシステムでGPT-3.5よりも一般的に優れてた。たとえば、ICD-9-CMでは、GPT-4の意味的類似性は60%で、GPT-3.5は43%だった。ICD-10-CMでは、GPT-4が74%、GPT-3.5が63%だった。
生成されたコードが元のコードとどれだけ文字の違いで一致しているかに基づく文法的な類似性は、さまざまな結果を示した。GPT-4はICD-9-CMで60%の文法的類似性を達成したけど、ICD-10-CMでは36%に、ICD-10-PCSでは3%に落ちちゃった。
エラー分析の結果
エラー分析では、いくつかの問題が浮かび上がった。両方のモデルは、複雑で長い記述に直面すると、非請求可能なコードを生成する傾向があった。たとえば、複雑な状態に対して一般的なコードを生成することが多くて、正確性を欠いていたんだ。
分析では、長いコードや記述が正確な一致の低下と関連していることも示された。特定の条件のカテゴリは結果が悪くて、モデルは複雑な状況に対して非請求コードを使うことが多かった。
研究者たちは、ICD-10-CMに関してGPT-4が正確な一致率が低いことを観察して、必要な詳細レベルに苦労していることを示していると言ってた。それでも、このモデルはICD-9-CMに比べて全体的に高い特異性を示したんだ。
ICD-10-PCSシステムでは、GPT-4は正確なコードを正しく一致させることはできなかったが、生成されたコードの約30%で意味的な類似性を達成したよ。
研究の限界
この研究にはいくつかの限界があった。テストされた条件のサンプルは、実際の状況で一般的に遭遇するものを代表しているわけじゃない。さらに、研究者たちは、モデルのパフォーマンスを向上させるための高度な戦略、たとえばファインチューニングやデータベースとのリンクなどをテストしてないんだ。また、実際の臨床ナラティブに基づいてモデルを評価することもなかったから、複雑で曖昧な言語がよく使われるのにね。
結論
GPT-3.5とGPT-4がICD請求コードを生成する能力の評価は、混合パフォーマンスレベルを示した。これらのモデルは条件をある程度理解してることを示したけど、全体的な正確性は実際の医療アプリケーションには不足してる。彼らはしばしば正しいものと意味的に関連するコードを生成したけど、頻繁に不正確さを示したんだ。
LLMが医療のタスクに統合される前に、改善が必要なのは明らか。将来の取り組みには、プロンプトの洗練や外部ツールとの接続など、LLMのパフォーマンスを向上させる戦略が含まれるかもしれないね。
LLM技術が医療にますます組み込まれる中で、彼らの限界を認識することがカギになるよ。ICD用語を扱う際の正確性を高めることは、行政作業を効率化し、最終的には患者ケアを向上させるために非常に重要なんだ。
タイトル: Assessing GPT-3.5 and GPT-4 in Generating International Classification of Diseases Billing Codes
概要: BackgroundLarge Language Models (LLMs) like GPT-3.5 and GPT-4 are increasingly entering the healthcare domain as a proposed means to assist with administrative tasks. To ensure safe and effective use with billing coding tasks, it is crucial to assess these models ability to generate the correct International Classification of Diseases (ICD) codes from text descriptions. ObjectivesWe aimed to evaluate GPT-3.5 and GPT-4s capability to generate correct ICD billing codes, using the ICD-9-CM (2014) and ICD-10-CM and PCS (2023) systems. MethodsWe randomly selected 100 unique codes from each of the most recent versions of the ICD-9-CM, ICD-10-CM, and ICD-10-PCS billing code sets published by the Centers for Medicare and Medicaid Services. Using the ChatGPT interface (GPT-3.5 and GPT-4), we prompted for the ICD codes that corresponding to each provided code description. Outputs were compared with the actual billing codes across several performance measures. Errors were qualitatively and quantitatively assessed for any underlying patterns. ResultsGPT-4 and GPT-3.5 demonstrated varied performance across each ICD system. In ICD-9-CM, GPT-4 and GPT-3.5 achieved an exact match rate of 22% and 10%, respectively. 13% (GPT-4) and 10% (GPT-3.5) of generated ICD-10-CM codes were exact matches. Notably, both models struggled considerably with the procedurally focused ICD-10-PCS, with neither GPT-4 or GPT-3.5 producing any exactly matched codes. A substantial number of incorrect codes had semantic similarity with the actual codes for ICD-9-CM (GPT-4: 60.3%, GPT-3.5: 51.1%) and ICD-10-CM (GPT-4: 70.1%, GPT-3.5: 61.1%), in contrast to ICD-10-PCS (GPT-4: 30.0%, GPT-3.5: 16.0%). ConclusionOur evaluation of GPT-3.5 and GPT-4s proficiency in generating ICD billing codes from ICD-9-CM, ICD-10-CM and ICD-10-PCS code descriptions reveals an inadequate level of performance. While the models appear to exhibit a general conceptual understanding of the codes and their descriptions, they have a propensity for hallucinating key details, suggesting underlying technological limitations of the base LLMs. This suggests a need for more rigorous LLM augmentation strategies and validation prior to their implementation in healthcare contexts, particularly in tasks such as ICD coding which require significant digit-level precision.
著者: Ali Soroush, B. S. Glicksberg, E. Zimlichman, Y. Barash, R. M. Freeman, A. Charney, G. Nadkarni, E. Klang
最終更新: 2023-07-11 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.07.07.23292391
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.07.07.23292391.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。