Simple Science

最先端の科学をわかりやすく解説

# 生物学# 薬理学と毒性学

自動PKパラメータ認識で薬剤開発を改善する

新しいデータセットが体内での薬の振る舞いの予測を向上させる。

― 1 分で読む


医薬品開発のインサイトを自医薬品開発のインサイトを自動化する新しいモデルが薬の挙動の予測を向上させる
目次

新しい薬を作るのはすごくお金がかかって、時間もかかることが多いんだ。新しい化学化合物を開発するのには、1億6100万ドルから45億ドルもかかることがあるんだって。90%以上の薬の候補が初期のテスト段階で失敗しちゃう。だから、このプロセスをもっと効率的にするためには、早い段階で薬がどれだけ効果的かを予測することが大事なんだ。重要な要素の一つは、薬が体の中で適切なレベルに達するかどうか、そしてそのタイミングなんだよ。これは、体がどうやってこれらの薬を吸収、分配、代謝、排泄するかを知る必要がある。

薬の挙動を予測することの重要性

薬物動態(PK)パラメータは、研究者が薬が体の中でどういうプロセスを経るかを測るのに役立つんだ。これらのパラメータを正しく推定することが新しい薬の開発には欠かせない。従来のモデルは、ヒトでのテストの前にこれらのPKパラメータを予測するために使われてきたけど、PKに関連する問題から、まだまだ多くの候補がテスト中に失敗しちゃう。だから、薬が体の中でどう挙動するかの予測を改善することが必要なんだよ。

PKパラメータを予測する上での課題

これらの予測を改善する大きな課題は、十分に整理された包括的なPKデータソースが不足していることなんだ。薬の特性に関する情報を集めるデータベースはあるけど、詳細なPK情報を提供していることは少ない。これによって研究者は科学論文を手作業で精査してデータを集める必要があって、すごく時間がかかってあまり効果的じゃないんだ。

自動化された方法がこの情報をもっと効率的に集めるのに役立つんだ。一つの重要なステップは、テキスト内の重要な用語やデータを認識すること。今回の研究は、オートメーションプロセスの特定のタスク、すなわち固有表現認識(NER)に焦点を当てているんだ。これは、科学的な文書の中でPKパラメータの言及を特定できるシステムを開発することなんだけど、PKパラメータの種類が多くて、テキストごとに言及の仕方が全然違うから、簡単じゃないんだよ。

データセットの作成

そこで、研究者たちはPK-NERコーパスという新しいデータセットを作ったんだ。これはPKパラメータの情報がラベル付けされた文を含んでいる。データセットを作成するために、科学データベースで薬物動態に関する記事を探す大規模な検索が行われたんだ。合計で114,000以上の記事が見つかったけど、全文がアクセスできたのはごく一部だった。

記事を集めた後、テキストを分析して文を抽出したんだ。これは、あまり関係ない部分を取り除いて、内容をレビューしやすい文に分解するプロセスだった。この結果、選べる文が数百万にもなって、最終的にコーパス用にラベル付けされた候補文ができたんだ。

注釈プロセス

注釈プロセスにはPKパラメータに詳しい専門家チームが関わったんだ。彼らはまず、いくつかの例文にラベルを付けて、意見の相違を見つけることから始めた。次に、チームはラベル付けのガイドラインを話し合って修正して、一貫性を持たせたんだ。研究者たちはコーパスから開発したNERモデルの有効性をテストするために、トレーニングセットと評価セットの両方を作った。

モデルのトレーニング

効果的なNERモデルをトレーニングするには、多くのラベル付けされた例が必要なんだ。最初のラベル付きデータセットにはPKの言及が少なかったから、研究者たちはもっと情報量の多いサンプルを集めるためにいろいろな戦略を採用したんだ。

一つのアプローチはヒューリスティックラベリングで、PKの言及が含まれている文を抽出するためのルールセットを適用したんだ。初期の文セットを集めた後、注釈者がラベルを確認して修正したから、もっとクリーンで正確なデータセットになったんだ。

次に、アクティブラーニング法が使われた。これは、初期モデルを利用して、より大きなプールの中から追加の情報量の多いサンプルを見つける方法なんだ。注釈者は、これらの提案されたサンプルをレビューして、その関連性に基づいてラベル付けをした。この反復的なトレーニングプロセスはモデルを洗練させて、PKパラメータのより正確な識別につながったんだ。

モデルの性能評価

研究者たちは、モデルの性能を評価するために別々の開発セットとテストセットを作ったんだ。評価では専門家が注釈をチェックして、ラベル付けの正確さと一貫性を確保したんだ。異なるモデルタイプの性能を比較して、どの方法がPKパラメータの識別に最も効果的かを検証した。

結果は、ルールベースの方法がPKパラメータの言及の多様性を捉えるのには効果的じゃなかったことを示した。対照的に、特にBERTのような高度な技術を利用した機械学習モデルは、PKパラメータの識別において大きな改善を示したんだ。リコールの点でも大きく向上して、テキストの中でPKの言及のより多くの関連するインスタンスを見つけることができたんだ。

アクティブラーニングの利点

研究者たちは、アクティブラーニング戦略を使うことでモデルの性能が大きく向上するのを確認したんだ。ランダムに選ばれた文でトレーニングされたモデルと、アクティブラーニングを用いてトレーニングされたモデルを比較すると、アクティブラーニングを使ったモデルは効果的に大幅に向上していたんだ。アクティブラーニングにより、PKの範囲をよりよくカバーできるようになって、リッチで情報量の多いデータセットが得られたんだ。最終的に、モデルのPKパラメータを認識する能力が向上したんだよ。

外部データセットでの結果

トレーニングされたモデルは、PK-Ontology-Corpusという別のデータセットに対してもテストされたんだ。モデルは、特定のデータでトレーニングされなくても、うまく一般化して競争力のあるスコアを達成したんだ。これは、PK-NERコーパスを構築してトレーニングするために使われた戦略が効果的だったことを示していて、さまざまな文献でPK関連の用語を認識するためのしっかりとした基盤を提供したんだよ。

結論と今後の方向性

この研究では、科学的なテキストの中でPKパラメータを識別するための新しいデータセットと一連のモデルが紹介されたんだ。結果は、特にBioBERTのようなドメイン特化のトレーニングを利用している機械学習モデルが、従来の方法を大きく上回ることを示したんだ。

アクティブラーニングプロトコルに関する作業も有益で、関連データの収集プロセスを加速しながらラベル付けされた文の質を向上させることができたんだ。これらのモデルは科学文献から重要なPK情報を抽出するのにとても役立てる可能性があって、全体の薬の開発プロセスを改善する助けになるんだ。

今後の研究では、別のアクティブラーニング技術や新しいモデルの適用を探ることができるかもしれない。この継続的な作業は、科学的なテキストから重要な情報を自動的に抽出するための限界を押し広げ続けて、薬の開発における予測を洗練させ、薬理学の分野での結果を改善することを最終的な目標にしているんだ。

オリジナルソース

タイトル: Named Entity Recognition of Pharmacokinetic parameters in the scientific literature

概要: The development of accurate predictions for a new drugs absorption, distribution, metabolism, and excretion profiles in the early stages of drug development is crucial due to high candidate failure rates. The absence of comprehensive, standardised, and updated pharmacokinetic (PK) repositories limits pre-clinical predictions and often requires searching through the scientific literature for PK parameter estimates from similar compounds. While text mining offers promising advancements in automatic PK parameter extraction, accurate Named Entity Recognition (NER) of PK terms remains a bottleneck due to limited resources. This work addresses this gap by introducing novel corpora and language models specifically designed for effective NER of PK parameters. Leveraging active learning approaches, we developed an annotated corpus containing over 4,000 entity mentions found across the PK literature on PubMed. To identify the most effective model for PK NER, we fine-tuned and evaluated different NER architectures on our corpus. Fine-tuning BioBERT exhibited the best results, achieving a strict F1 score of 90.37% in recognising PK parameter mentions, significantly outperforming heuristic approaches and models trained on existing corpora. To accelerate the development of end-to-end PK information extraction pipelines and improve pre-clinical PK predictions, the PK NER models and the labelled corpus were released open source at https://github.com/PKPDAI/PKNER.

著者: Ferran Gonzalez Hernandez, Q. Nguyen, V. C. Smith, J. A. Cordero, M. R. Ballester, M. Duran, A. Sole, P. Chotsiri, T. Wattanakul, G. Mundin, W. Lilaonitkul, J. F. Standing, F. Kloprogge

最終更新: 2024-02-14 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.12.580001

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.12.580001.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事