Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 心臓血管医学

AIモデルが日本人患者においてVSAとACSを区別する

研究によると、日本の患者データを使ってAIが心臓病の診断に役立つ可能性があるんだって。

― 1 分で読む


AIと心臓病AIと心臓病ね。AIはVSAとACSの診断に期待が持てる
目次

血管痙攣性狭心症(VSA)は、心臓の血管が一時的に締まることで起こる胸の痛みの一種だよ。この状態は胸の痛みだけじゃなくて、いろんな症状を引き起こす可能性があるんだ。VSAはストレスや寒い天気、夜の休息なんかで引き起こされることがあるんだ。一方、急性冠症候群(ACS)は、喫煙や糖尿病みたいなリスク要因を持ってる人によく見られる他の心臓問題に関連してることが多い。ACSは通常、身体活動中に胸の痛みを引き起こすんだ。

この二つの状態は似たような症状があるから、医者がすぐに区別するのは難しいことがある。特に、ACSはすぐに治療が必要な場合があるから重要だよ。患者がVSAかどうかを判断するために、医者は特定のテストを使うことがあるけど、それが侵襲的でリスクがあることもあるから、VSAをスクリーニングするためのより簡単で非侵襲的な方法が必要なんだ。

最近、人工知能(AI)が医療を含む多くの分野で可能性を示してるんだ。新しいAIモデルはアメリカや日本の医療テストでうまくいったけど、患者の情報を使ってこれらのAIツールが異なる病気を効果的に区別できるかについての研究はあまり進んでない、特に英語以外の言語では。

この研究では、AIが日本語で書かれた患者の詳細を使ってVSAとACSを区別できるかどうかを調べたんだ。目標は、モデルがこれらの状態をどれだけ正確に識別できるかを見ることだったよ。

研究のデザイン

研究を行うために、チームは以前の研究や他のソースからVSAとACSのケースを選んだんだ。合計66件、VSAが38件、ACSが28件を選んでAIモデルをテストしたよ。さらに、モデルが学習するために別の10件も含めた。集めた情報には患者の年齢、性別、病歴、薬の情報が含まれてたけど、薬の投与量の詳細は含まれてなかったんだ。

研究者たちは、GPT-3.5とGPT-4の二つの異なるAIモデルを使ったよ。そして、BardというGoogleのAIモデルも含めた。分析には二つの学習方法を用いた。ゼロショット学習では事前の例なしでモデルをテストし、フューショット学習ではいくつかの例を提供して応答を導いたんだ。

チームはテスト問題を作成し、患者のケースをこれらのAIモデルに入力して、ケースがVSAか他の冠動脈疾患かを判断できるかを見たよ。

AIのパフォーマンス評価

研究者たちはその後、AIモデルの回答を正しい診断と比較して、各モデルのパフォーマンスを評価した。その際、精度、感度、適合率などさまざまなパフォーマンス指標を計算したよ。また、以前にテストされた心臓専門医や医学生の結果とも比較した。

評価のために、研究者たちは心臓専門医が以前に高い精度を示したケースに対するAIモデルのパフォーマンスを観察したんだ。このケースには、AIがVSAとACSを区別するのに十分な情報が含まれていると信じてた。

研究の結果

AIのパフォーマンス結果はモデルによって異なったよ。GPT-3.5モデルはゼロショット学習で52%の精度で条件を正しく特定した。フューショット学習でも精度は同じだった。GPT-4モデルは少し良いパフォーマンスを示して、ゼロショット学習で58%、フューショット学習で61%の精度を達成した。Bardはゼロショット学習でわずか47%の精度で、最もパフォーマンスが低かったんだ。

AIモデルの結果を心臓専門医のパフォーマンスと比較したところ、GPT-4は心臓専門医が良い精度を持っているときにはしばしば良いパフォーマンスを示してた。

その後の分析では、心臓専門医が診断をしっかり把握していたケースに焦点を当てて、GPT-4のパフォーマンスが大きく向上した。このシナリオでは、ゼロショット学習でGPT-4は76%、フューショット学習で71%の精度を達成した。これはGPT-4がVSAとACSを効果的に区別できることを示していたよ。

主な発見と意義

この研究の主な発見は、特にフューショット学習においてGPT-4モデルがVSAとACSを区別する最も良いパフォーマンスを示したことだよ。それにもかかわらず、ゼロショット学習とフューショット学習の間に大きなパフォーマンス差はなかった。これは驚くべきことで、以前の研究は例を提供することで精度が良くなる可能性があると示唆してたから。

もう一つ注目すべき点は、AIモデルが医学生と同じくらいのパフォーマンスを達成したけど、心臓専門医の精度には届かなかったってことだ。これはAIがデータを処理・分析できる一方で、モデルのトレーニングや学習に使うデータの質についてまだ改善の余地があることを示唆してるね。

日本の医療データの処理に関する研究が限られてることを考えると、この研究は英語以外の言語で書かれた臨床情報をAIが分析する未来の研究に道を開くかもしれない。効果的なAIツールがあれば、VSAのような心臓の状態を管理するのが楽になるかもしれないし、特にそういった状態が多い人々にとって助けになるだろうね。

将来の研究の可能性

この研究の結果は、さまざまなタイプのデータを組み合わせることでAIモデルの精度をさらに向上させる可能性も示唆してるよ。たとえば、数値データ、例えば検査結果や医療画像をテキストデータと組み合わせることで、モデルが異なる状態を認識し区別する能力が向上するかもしれない。

それに加えて、研究は限界点も認識していて、ケースの数が限られていることや収集したデータの質が問題だと指摘してる。会議の要旨からのデータは一貫性を保証してくれたけど、同じ状態に対するさまざまな用語で記述されたより多様なケースデータを集める必要があるよ。

方法論とデータの質を改善することに注力することで、将来の研究は臨床環境でAIモデルをより効果的にする手助けができるだろうね。また、さまざまな同義語や症状の表現を含む包括的なデータ収集を行うことで、これらのAIモデルのトレーニングを強化することへもつながるんだ。

結論

まとめると、この研究は患者情報を使って血管痙攣性狭心症と急性冠症候群を区別するために先進的なAIモデルを成功裏に用いたんだ。結果は、特に日本語における医療診断におけるこれらのAIツールの可能性を強調しているよ。AI技術をさらに向上させて処理できるデータを拡大し続けることで、患者の結果を改善するために日常の医療実践にAIを統合する未来が明るく見えるよ。

オリジナルソース

タイトル: Large language models to differentiate vasospastic angina using patient information

概要: BackgroundVasospastic angina is sometimes suspected from patients medical history. It is essential to appropriately distinguish vasospastic angina from acute coronary syndrome because its standard treatment is pharmacotherapy, not catheter intervention. Large language models have recently been developed and are currently widely accessible. In this study, we aimed to use large language models to distinguish between vasospastic angina and acute coronary syndrome from patient information and compare the accuracies of these models. MethodWe searched for cases of vasospastic angina and acute coronary syndrome which were written in Japanese and published in online-accessible abstracts and journals, and randomly selected 66 cases as a test dataset. In addition, we selected another ten cases as data for few-shot learning. We used generative pre-trained transformer-3.5 and 4, and Bard, with zero- and few-shot learning. We evaluated the accuracies of the models using the test dataset. ResultsGenerative pre-trained transformer-3.5 with zero-shot learning achieved an accuracy of 52%, sensitivity of 68%, and specificity of 29%; with few-shot learning, it achieved an accuracy of 52%, sensitivity of 26%, and specificity of 86%. Generative pre-trained transformer-4 with zero-shot learning achieved an accuracy of 58%, sensitivity of 29%, and specificity of 96%; with few-shot learning, it achieved an accuracy of 61%, sensitivity of 63%, and specificity of 57%. Bard with zero-shot learning achieved an accuracy of 47%, sensitivity of 16%, and specificity of 89%; with few-shot learning, this model could not be assessed because it failed to produce output. ConclusionGenerative pre-trained transformer-4 with few-shot learning was the best of all the models. The accuracies of models with zero- and few-shot learning were almost the same. In the future, models could be made more accurate by combining text data with other modalities.

著者: Satoshi Kodera, Y. Kiyohara, M. Sato, K. Ninomiya, H. Shinohara, N. Takeda, H. Akazawa, H. Morita, I. Komuro

最終更新: 2023-06-27 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.06.26.23291913

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.06.26.23291913.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事