Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 医療情報学

PRESNERで処方データ抽出を革新!

PRESNERは、高度なNLP技術を使って処方データの分析を強化する。

― 1 分で読む


PRESNER:PRESNER:次世代処方分析抽出を変革する。自動化ツールが医療研究における処方データ
目次

電子健康記録(EHR)は、健康トレンドや治療効果を理解するために重要だよ。患者に処方された薬を含むたくさんの情報を保存してるんだ。これらの記録をバイオバンクのデータとリンクさせることで、研究者は薬が人にどう影響するかや、異なる遺伝子がこうした影響にどう関わるかを研究できる。例えば、UKバイオバンクは、50万人以上のボランティアから集めた健康情報や生物サンプルを持ってるんだ。

UKバイオバンクって何?

UKバイオバンクは、個人からの詳細な健康記録を集めていて、処方データも含まれてる。このデータによって、研究者はさまざまな薬の使用状況や健康への影響を知ることができるんだ。2019年以降には、UK国民健康サービス(NHS)からの情報も含まれていて、約5700万件の処方記録にアクセスできるよ。

処方データの課題

ほとんどの処方データベースでは、薬をカテゴライズするために特定のコードを使ってるんだ。だから、データを分析するためには研究者が手作業で情報を抜き出さなきゃならないことが多い。もっと良いアプローチは、記録のテキストから直接情報を引き出すことかもしれないね。この方法なら、薬の名前や用量など必要な詳細を簡単に抽出できるんだ。

正確なデータ抽出の必要性

ヘルスケア研究では、処方薬を正しく特定してカテゴライズすることが重要だよ。これは、有効成分、ブランド名、薬が全身用か局所用か(例えば、内服薬とクリーム)を知ることを含んでる。研究者は、用量や強度などの詳細にも注意を払う必要があるんだ。

データ抽出技術の進展

自然言語処理NLP)は、テキストから重要な情報を抽出するのを助ける技術だよ。ヘルスケアの分野では、この技術は特にBERTのような高度なモデルの登場で大きく進化したんだ。これらのモデルは、薬の名前や関連情報を効果的に特定するのに役立つんだ。

PRESNERの紹介

PRESNERは、研究者が電子健康記録から処方データを自動的に抽出・カテゴライズするのを助ける新しいツールだよ。このツールは、高度なNLP技術を使って薬の名前や重要な情報を特定し、それらを確立された薬の分類システムにマッピングするんだ。

PRESNERの仕組み

PRESNERはいくつかのコンポーネントで構成されていて、処方データを分析する一緒に動くんだ。薬の名前を認識して、体への影響に基づいて分類できるんだ。これは、研究者が正確なデータを必要とするために重要なんだよ。ツールは、異なる基準に基づいて処方をフィルタリングすることもできて、ユーザーが必要な情報を見つけるのが楽になるんだ。

信頼できる薬辞書の構築

PRESNERの大きな特徴は、薬の名前や分類の包括的なリストを含む内蔵辞書だよ。この辞書は定期的に更新されて、研究者が最新の情報にアクセスできるようにしてるんだ。これによって、処方を正しい分類にマッチさせるパイプラインが助けられて、正確なデータ分析に不可欠なんだ。

使用されるデータソース

PRESNERは、NHSを通じてケアを受けている個人から集められたUKバイオバンクの処方データを使ってるんだ。このデータは、薬の名前、数量、使用日など、処方された薬についての膨大な情報を提供するよ。さらに、PRESNERは、薬に関連する多くの注釈付きエンティティを含むn2c2コーパスと呼ばれる別のデータセットも利用していて、モデルのトレーニングに使うデータの範囲を広げてるんだ。

NERコンポーネント

PRESNERの核心は、固有表現認識(NER)の機能にあるんだ。この機能は、システムがテキストから薬やその関連情報を認識してカテゴライズするのを助けるんだよ。NERは自動データ抽出を可能にするから、データ処理が早くて信頼性が高くなるんだ。

モデルのファインチューニング

PRESNERを効果的にするために、モデルはUKバイオバンクの情報とn2c2コーパスの両方でファインチューニングされたんだ。これには、処方のエントリーに見られる特定の言い回しや文脈を正確に理解できるようにモデルを調整するプロセスが含まれてるんだ。この両方のデータセットを使用することで、医療処方に使われる言語をより良く理解できるようになるんだ。

他の方法との比較

テストでは、PRESNERは従来の辞書アプローチに依存したベースラインモデルよりも優れていたよ。前の方法は正確だったけど、薬の名前や同義語の全範囲を捉えるのが難しかったんだ。PRESNERは先進的な機械学習技術を用いて、こうした課題を克服して、より多くの薬を成功裏に認識しカテゴライズしたんだ。

薬の分類

薬の名前を認識した後、PRESNERはそれらを体への影響に基づいて分類できるんだ。全身薬(血流に入る薬)と局所薬(局所的に適用される薬)を見分けるんだよ。こうすることで、研究者は特定の薬のカテゴリーに基づいてデータをフィルタリングできて、研究が進むんだ。

結果とパフォーマンス

PRESNERは、UKバイオバンクの処方エントリーのかなりの部分をうまく処理したんだ。このツールは、これらのエントリーを適切な薬の分類にマッチさせて、研究者に貴重な薬の使用に関する洞察を提供したよ。特に、薬の強度や用量のような重要なカテゴリーに対するパフォーマンスが強かったんだ。

PRESNERの限界

強みがある一方で、PRESNERにはいくつかの限界もあるんだ。すべての薬の名前が認識されたり、辞書に含まれたりするわけではないし、特に新しい薬や複数のブランド名がある薬に関してはそうだね。多目的に使える薬を一貫して特定することもチャレンジだ。ユーザーは、特に分類が難しい薬については出力を手動でレビューすることを勧められてるよ。

将来の方向性

UKバイオバンクが拡大し、もっとデータが追加されると、PRESNERのようなツールはこの情報を迅速に処理するのに不可欠になるね。類似のツールが他のデータベースにも使われる可能性があって、さまざまなヘルスケアの設定でデータ抽出を効率化する助けになるかもしれない。

結論

バイオバンク情報とリンクした処方データへのアクセスは、薬理ゲノミクスやその他の健康研究において重要な研究の道を開くことができるよ。でも、このデータを効果的に処理することが、正確な結果を得るために必要なんだ。PRESNERのようなツールは、高度な技術がこのプロセスを促進できることを示していて、研究者が大規模データセットから構造化された情報や洞察にアクセスしやすくするんだ。将来的には、薬の名前の認識を改善したり、より包括的な薬のリストを含む辞書を拡大することに焦点を当てるかもしれないね。

オリジナルソース

タイトル: Automated Extraction and Classification of Drug Prescriptions in Electronic Health Records: Introducing the PRESNER Pipeline

概要: Electronic health record (EHR) systems with prescription data offer vast potential in pharmacoepidemiology and pharmacogenomics. The large amount of clinical data recorded in these systems requires automatic processing to extract relevant information. This paper introduces PRESNER, a name entity recognition (NER) and classification pipeline for EHR prescription data. The pipeline uses the pre-trained transformer Bio-ClinicalBERT fine-tuned on UK Biobank prescription entries manually annotated with medication-related information (drug name, route of administration, pharmaceutical form, strength, and dosage) as the core NER system. Moreover, PRESNER also maps drugs to the Anatomical Therapeutic and Chemical (ATC) classification system and distinguishes between systemic and non-systemic drug products. It outperformed a baseline model combining the state-of-the-art Med7 and a dictionary-based approach from the ChEMBL database with a macro-average F1-score of 0.95 vs 0.71. In addition to UK Biobank prescription data, PRESNER can also be applied to other English prescription datasets, making it a versatile tool for researchers in the field.

著者: Maria Herrero-Zazo, C. Colon-Ruiz, T. W. Fitzgerald, I. Segura-Bedmar, E. Birney

最終更新: 2023-10-05 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.10.04.23296481

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.10.04.23296481.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事