健康記録における住宅の不安定さの特定
研究が、臨床ノートにおける住宅の不安定さを検出するためのLLMsを評価している。
― 1 分で読む
アメリカの多くの患者は健康情報を電子記録に保存してるんだ。その中で重要なのは、健康に影響を与える社会的要因についての情報だよ。例えば、住んでる場所、仕事、教育、全体的な生活状況とかね。これらの要因は「健康の社会的決定要因(SDoH)」って呼ばれてて、健康結果に大きな影響を与えるし、治療やケアにも影響を及ぼすんだ。研究によると、社会的要因は異なるグループ間での健康の違いの半分までを占めることもある一方で、医療はずっと少ない責任しか持ってない。
住居がこの全体像の重要な部分を占めてる。人の住居状況は彼らの全体的な健康に密接に関連してるから、誰がどこに住んでるか、過去の生活条件を知ることで、医療提供者はもっと良くて公平なケアができるんだ。この情報はまた、生活条件が時間とともに健康にどう影響するかを調べるための研究にも重要なんだよ。
住居の安定性、つまり誰かの住居状況がどれだけ安心かってことは、 spectrum(スペクトル)上に存在してる。一方の端には安定した住居を持っている人がいて、その人たちは安全で安心な場所に住んでて脅威がない状態なんだ。反対の端には不安定な住居の人たちがいて、まともな住居にアクセスできない場合もある。不安定な住居に直面している人たちは、メンタルヘルスや物質依存など、他の健康問題に直面する可能性が高いし、ホームレスになるリスクも高くなって、深刻な健康問題や死のリスクを伴うこともある。
安定した住居がない人は、緊急病院に行くことが多く、入院した場合は長く入院する傾向があって、予防的な健康サービスをあまり利用しないんだ。住居の不安定さを経験している妊婦は、妊娠中に一貫した医療ケアが必要な特有の課題に直面してる。妊娠前や妊娠中の悪い生活条件は、母親と子供の両方に深刻な健康リスクをもたらす可能性があるんだ。
SDoHの重要性にもかかわらず、この情報は電子健康記録ではあまりうまく捉えられていないんだ。これが、ケアを改善したい医療提供者や研究者にとっての課題になってる。手動でこのデータを探すのは時間がかかるしコストがかかる。健康記録にSDoHを集めて記録するための標準化された方法は、まだ開発の初期段階なんだ。
この種の情報をノートから抽出する伝統的な方法は、特定のキーワードを見つけたり、特定のルールを使ったりしてたんだけど、これらの方法はしばしば偽陽性を生み出すし、健康に影響を与える社会的要因の複雑さを捉えることができてない。過去の研究は主にホームレス状態などの基本的な概念に焦点を当てていて、住居状況の細かい部分を見逃してるんだ。住居の不安定さは複雑で人によって大きく異なるから、喫煙みたいな単純な健康行動よりも正確に分類するのが難しい。
最近の技術の進歩、特にOpenAIのGPTのような大規模言語モデル(LLM)は、大量の非構造データを分析する新しい方法を提供しているんだ。これらのモデルは、単純なプロンプトを使って複雑な情報を解釈できる。でも、これらのモデルを使って健康記録を分析する研究はまだ継続中なんだ。多くの研究は、医療状況に関連するようにモデルを微調整したり、SDoHを見つける性能を比較したりしてる。これらのモデルが特定したテキストが人間の評価の質と一致するか、誤差が生じるかを評価する必要もあるね。
この研究では、LLMが従来の方法と比べて臨床ノートの住居の不安定さをよりよく特定できるかどうかを調べてるんだ。また、異なる人口グループ間でのモデルのパフォーマンスのバイアスの兆候も探っていて、匿名化されたノートでのパフォーマンスがどう変わるかも調べてる。
研究デザインと設定
この研究では、アメリカの都市や農村地域にサービスを提供するコミュニティヘルスケアシステムであるProvidence St Joseph Health(PSJH)の電子健康記録に焦点を当てたんだ。2010年6月から2023年5月までの出産に関する記録をレビューしたよ。18歳から44歳の妊婦の記録を含めて、分析する情報が彼女たちの妊娠歴に関して完全であることを確認したんだ。
住居の不安定さを経験している患者を特定するために、ノート内の住居関連の特定のコードを検索したよ。これらの基準を満たさなかった人たちは別のカテゴリーに分類されたんだ。
方法とデータ収集
住居の安定性や不安定性のさまざまなレベルを定義するために、医者やソーシャルワーカーなどの専門家と相談したんだ。これらの議論から、臨床ノートでの住居状況をラベル付けするためのガイドラインを作成したよ。
ノートを2回評価して、一貫性を確保したんだ。各ノートは、その情報に基づいて安定した住居、現在不安定、過去に不安定な歴史がある、または不明のいずれかにラベル付けされたんだ。レビューア間の意見の相違は、第三者との合意を通じて解決したよ。
すべての処理は安全なクラウド環境内で行われて、住居関連の用語にラベル付けするために確立されたモデルと方法を使用したんだ。
方法のパフォーマンス
ノートを分析した後、住居に関連する情報がいくつかフラグ付けされているのを見つけたんだ。各方法が住居状況をどれだけうまく特定したかを評価するために、パフォーマンス指標を計算したよ。
LLMの結果を手動で注釈を付けたものや従来のキーワード方法と比較したんだ。手動の注釈が最も正確だったけど、時間がかかることがわかったよ。それに対して、LLMはかなり良い精度で速い分析を提供してくれたんだ。
結果
多くのノートは、住居状況を特定するパターンを示してたよ。関連する住居情報を提供したノートのほとんどは、進行ノートや緊急病院のノートなど、特定のタイプの臨床文書からのものだったんだ。
興味深いことに、住居の問題を抱えていると特定された人々の中で、医療記録に対応する構造化コードを持つのはごく少数だったんだ。これは、構造化された文書が患者の住居状況に関する十分な詳細を捉えてないことを示してる。
手動の注釈は、他の方法よりも住居の不安定さを明確に示したけど、そのプロセスは時間がかかるものだった。LLMは、住居の不安定さのケースをすぐに特定する可能性を示したけど、人間の注釈者と比較するといくつかの不一致もあったんだ。
注釈の課題
いくつかのノートは複雑で解釈が難しく、レビュア間で解釈が異なる結果になったんだ。例えば、誰かの現在の生活状況に関する曖昧なフレーズが、安定した住居にいるのか不安定なのかについて異なる意見を生むことがあったよ。
分析では、GPT-4のようなLLMが特定のシナリオでGPT-3.5や従来の方法と比べてより良いパフォーマンスを示したことが強調されたんだ。新しいバージョンは、過去の不安定さと現在の不安定さを区別する理解が良かったんだ。
LLMの評価とバイアス
私たちはまた、異なる人口グループでのモデルのパフォーマンスを調べたんだ。偽陽性と偽陰性の率の違いが見られたけど、ほとんどの場合で十分な重複があったから、重大なバイアスはなかったと考えられる。ただし、もっと具体的な結論を出すには大規模な研究が必要だね。
匿名化されたノートを分析することで、リコールが低下したことがわかった。つまり、モデルは元のコンテキストなしで関連する住居情報を特定するのが難しくなったんだ。精度はわずかに改善されて、少ないノートでのパフォーマンスが良くなったことを示してる。
コストと時間の考慮
大量のノートを手動で分析するのは、時間がかかるしコストもかかるんだ。私たちの分析は、LLMを使うことで大量のデータセットを処理する際に、かなりの時間とお金を節約できることを示しているよ。
これらの分析を実行するコストと手動注釈の費用を考慮すると、LLMは大量のデータをレビューする際にはるかに経済的な選択肢を提供してくれるんだ。
結論
大規模言語モデルが、特に住居の不安定さを特定するのに役立つ可能性は有望だね。彼らは、適度な正確性を保ちながら注釈プロセスを自動化する助けになるだろう。
今後の研究は、これらのモデルが住居の不安定さの複数の側面をよりよく捉えられるように改善し、匿名化手続きがコンテキスト情報の喪失を引き起こさないようにすることに焦点を当てるべきだよ。このデータへのより大きなアクセスは、患者ケアの向上、研究努力の改善、医療提供者がより効果的に必要な人々に届くために重要だから。
これらの問題に取り組むことで、医療提供者はすべての患者に対してより公平なケアを目指せるし、健康結果に大きな役割を果たすさまざまな社会的要因を考慮できるようになるんだ。
タイトル: Using Large Language Models to Annotate Complex Cases of SDoH in Longitudinal Clinical Records
概要: Social Determinants of Health (SDoH) are an important part of the exposome and are known to have a large impact on variation in health outcomes. In particular, housing stability is known to be intricately linked to a patients health status, and pregnant women experiencing housing instability (HI) are known to have worse health outcomes. Most SDoH information is stored in electronic health records (EHRs) as free text (unstructured) clinical notes, which traditionally required natural language processing (NLP) for automatic identification of relevant text or keywords. A patients housing status can be ambiguous or subjective, and can change from note to note or within the same note, making it difficult to use existing NLP solutions. New developments in NLP allow researchers to prompt LLMs to perform complex, subjective annotation tasks that require reasoning that previously could only be attempted by human annotators. For example, large language models (LLMs) such as GPT (Generative Pre-trained Transformer) enable researchers to analyze complex, unstructured data using simple prompts. We used a secure platform within a large healthcare system to compare the ability of GPT-3.5 and GPT-4 to identify instances of both current and past housing instability, as well as general housing status, from 25,217 notes from 795 pregnant women. Results from these LLMs were compared with results from manual annotation, a named entity recognition (NER) model, and regular expressions (RegEx). We developed a chain-of-thought prompt requiring evidence and justification for each note from the LLMs, to help maximize the chances of finding relevant text related to HI while minimizing hallucinations and false positives. Compared with GPT-3.5 and the NER model, GPT-4 had the highest performance and had a much higher recall (0.924) than human annotators (0.702) in identifying patients experiencing current or past housing instability, although precision was lower (0.850) compared with human annotators (0.971). In most cases, the evidence output by GPT-4 was similar or identical to that of human annotators, and there was no evidence of hallucinations in any of the outputs from GPT-4. Most cases where the annotators and GPT-4 differed were ambiguous or subjective, such as "living in an apartment with too many people". We also looked at GPT-4 performance on de-identified versions of the same notes and found that precision improved slightly (0.936 original, 0.939 de-identified), while recall dropped (0.781 original, 0.704 de-identified). This work demonstrates that, while manual annotation is likely to yield slightly more accurate results overall, LLMs, when compared with manual annotation, provide a scalable, cost-effective solution with the advantage of greater recall. At the same time, further evaluation is needed to address the risk of missed cases and bias in the initial selection of housing-related notes. Additionally, while it was possible to reduce confabulation, signs of unusual justifications remained. Given these factors, together with changes in both LLMs and charting over time, this approach is not yet appropriate for use as a fully-automated process. However, these results demonstrate the potential for using LLMs for computer-assisted annotation with human review, reducing cost and increasing recall. More efficient methods for obtaining structured SDoH data can help accelerate inclusion of exposome variables in biomedical research, and support healthcare systems in identifying patients who could benefit from proactive outreach.
著者: Jennifer J Hadlock, A. Ralevski, A. Taiyab, M. Nossal, L. Mico, S. Piekos
最終更新: 2024-04-27 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.04.25.24306380
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.04.25.24306380.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。