データ統合による薬の発見の進展
リソースを組み合わせて、薬のターゲット特定と病気の理解を深める。
Melissa Harrison, S. Tirunagari, S. Saha, A. Venkatesan, D. Suveges, A. Buniello, D. Ochoa, J. McEntyre, E. McDonagh
― 1 分で読む
目次
新しい薬を作るためには、適切な標的を見つけることがめっちゃ大事だよね。だから、科学者たちは病気がどう働くかを知る必要があるんだ。彼らは遺伝子の変化や、人々の遺伝的違い、臨床研究のデータなど、いろんな証拠を見てるんだ。
で、この作業に役立つツールが「オープンターゲットプラットフォーム」っていうウェブベースのリソースなんだ。これを使うと、いろんな証拠を集めて、科学者がさまざまな病気に関連した薬のベストな標的を見つける手助けをするよ。20以上のソースの情報を組み合わせて、標的が病気とどう関係してるかの洞察を提供してる。遺伝的なリンクや変異、既知の薬、動物や生物の経路に関する研究結果のデータも含まれてるんだ。
オープンターゲットプラットフォームは、各ソースからの証拠の強さを反映したスコアを提供してる。このスコアのおかげで、研究者はどの標的が治療に最も効果的かを理解できるんだ。情報は読みやすい形に整理されてて、ユーザーが必要な情報に簡単にアクセスできるようになってる。ウェブブラウザを通じて利用できて、開発者向けのAPIもあるし、データをダウンロードしてさらに分析することもできるよ。
ヨーロッパPMCの役割
薬の発見において科学記事から情報を集めるのも重要な側面だね。ここで役立つのがヨーロッパPMCっていうリソース。これは広範囲にわたる無料のバイオメディカル文献のリポジトリで、ライフサイエンスの記事にアクセスできる数がすごいよ。4100万以上の抄録と数百万の全文記事があって、ヨーロッパPMCは常に成長してる。これはオープンターゲットプラットフォームをサポートするために重要な役割を果たしていて、薬、標的、病気の関係を特定するのに役立つテキストマイニング機能を提供してるんだ。
ヨーロッパPMCは、高度なテキストマイニング技術を使って、薬と病気の関係を探すのに必要な関連情報を抽出してる。このプロセスはオープンターゲットプラットフォームの重要な特徴で、研究者が出版された文献から抽出された貴重な洞察にアクセスできるようにしてるんだ。
Lit-OTARフレームワーク
Lit-OTARフレームワークは、ヨーロッパPMCのテキストマイニングとオープンターゲットの文献コンポーネントを組み合わせた共同作業なんだ。このフレームワークは、科学文書を深層学習技術で分析して、薬、病気、標的のようなエンティティを特定するのを助けてる。オープンターゲットプラットフォームも、これらのエンティティをデータベースにマッピングして、正しく特定され、関連付けられるように働いてるよ。
このフレームワークの目標は、研究者に薬の標的を検証するための信頼できる継続的なサービスを提供することだね。既存のバイオメディカルテキストマイニングのギャップを埋めるために、より定期的な更新と広範な分析の範囲を提供してるんだ。これまでの取り組みは、主に遺伝子と病気のリンクに焦点を当ててたけど、それだけじゃ全てをカバーできてなかったんだ。
テキストマイニングの進展
ここ最近、自然言語処理(NLP)の改善によって、テキストの分析がすごく効果的になったんだ。BioBERTやBioFormerみたいな新しいモデルが注目されてる。これらのモデルは、広範なライフサイエンスデータで訓練されて、特定のタスクのために微調整されてるんだ。このおかげで、科学文献に言及されているエンティティの認識が大きく改善されて、薬、病気、標的の間の関係をよりよく特定できるようになったんだ。
現在の作業では、BioBERTやBioFormerのようなモデルを使用して、関連する関連性を抽出するプロセスを洗練されてる。更新されたパイプラインは、薬と標的の関連や、薬と病気の関連を特定する機能を含んでいるよ。研究者たちは、複雑な文書構造を分解して正確な情報を導き出すという技術的な課題にも取り組んでるんだ。
データ収集と処理
現在、ヨーロッパPMCは約3900万の抄録と900万の全文記事を持ってる。しかし、ライセンスのルールやオリジナルの研究に焦点を当てているため、分析にはその一部しか含まれてないんだ。選ばれたデータは、様々なエンティティを特定するために深層学習モデルで処理される。この文の中に2つ以上のエンティティが見つかると、つながりの証拠を提供するものとして扱われるんだ。
処理されたデータは、標準データベースに正規化してマッピングするためにオープンターゲットプラットフォームに送られる。このとき、病気のエンティティはExperimental Factor Ontologyに、化学物質のエンティティはChEMBLに、遺伝子のエンティティはEnsemblにマッチングされる。最終的なデータは、必要とする研究者がアクセスできるさまざまなAPIを通じて利用可能になるよ。
エンティティ認識:正しい用語を見つける
薬や病気といったエンティティの認識を改善するために、研究者たちはヨーロッパPMCデータセットを使ったんだ。当初、このデータセットには薬の言及が含まれてなかったから、公に利用可能な化学/薬コーパスを追加して強化したんだ。豊かになったデータセットは、遺伝子、タンパク質、病気、薬などの言及を取り込むようになった。このデータを使って、さまざまなモデルが訓練され、その効果をテストしたよ。
結果として、BioBERTっていうモデルがエンティティを正確に認識するのに一番良い成果を上げて、高い精度と再現率を示したんだ。しかし、計算リソースの要件があるため、研究者たちは別のモデルQEB8Lを最適化して、精度を維持しながら迅速な処理ができるようにしたんだ。この最適化によって、パフォーマンスを落とさずに迅速な分析が可能になったよ。
正規化:用語の標準化
エンティティが認識されたら、次のステップは正規化だね。このプロセスは、特定のデータベースに関連付けられた単一の参照に、特定のエンティティの異なる名前や言及を統合することを確保するんだ。これによって、関係する情報をすべて集めて、さまざまなエンティティの間のつながりを理解するのが重要になるんだ。
正規化プロセスは、エンティティを特定のデータベースにマッチングさせる技術を用いることで、研究者がデータを効果的に分析・集約できるようにしている。多くのエンティティの正規化が成功していることは、選ばれた方法が効果的であることを示しているけど、バイオメディカル用語の複雑な性質のために課題は残ってるんだ。
共起と関連性
異なるエンティティ間の関連性を研究する中で、共起と真の関連の違いを探ったんだ。研究者たちは、関連性を判断することが主観的で、専門家によって異なる場合があることを見つけたんだ。これによって、テキスト内での共起だけに基づいて、エンティティ間の実際のリンクを確認するのが難しくなるんだ。
問題を検討した後、研究者たちは共起を関連の一形態として扱うことに決めたんだ。つまり、もし2つのエンティティが一緒に出現すれば、それは潜在的な関係を示す可能性があるってことなんだ。このアプローチは、分析をシンプルにし、薬、病気、標的間の潜在的なリンクを広く理解できるようにしてるよ。
全体的な発見と影響
Lit-OTARフレームワークは、病気、薬の標的、潜在的な治療法の関係についての重要な洞察を提供してるよ。何百万もの記事を処理して、多くのユニークな関連を特定してきた。この結果は、既存の関係を理解するのに役立つだけでなく、以前は認識されていなかったエンティティを発見する新しい可能性も開いてるんだ。
このフレームワークは継続的に動いていて、更新によって研究者が最新のデータや洞察にアクセスできるようにしてる。文献を効果的に利用することで、Lit-OTARフレームワークは継続的な治療研究と新しい薬の開発を支援して、ヘルスケアの進展に貢献してるよ。
要するに、薬の標的を特定して病気のメカニズムを理解するための作業は複雑だけど、めっちゃ重要なんだ。オープンターゲットプラットフォームみたいなツールや、Lit-OTARのような協力が、この分野で大きな進展を遂げていて、研究者に貴重なリソースやデータを提供して、薬の発見の努力を進めてるんだ。
タイトル: Lit-OTAR Framework for Extracting Biological Evidences from Literature
概要: The lit-OTAR framework, developed through a collaboration between Europe PMC and Open Targets, leverages deep learning to revolutionise drug discovery by extracting evidence from scientific literature for drug target identification and validation. This novel framework combines Named Entity Recognition (NER) for identifying gene/protein (target), disease, organism, and chemical/drug within scientific texts, and entity normalisation to map these entities to databases like Ensembl, Experimental Factor Ontology (EFO), and ChEMBL. Continuously operational, it has processed over 39 million abstracts and 4.5 million full-text articles and preprints to date, identifying more than 48.5 million unique associations that significantly help accelerate the drug discovery process and scientific research (> 29.9m distinct target-disease, 11.8m distinct target-drug and 8.3m distinct disease-drug relationships). The results are made accessible through the Open Targets Platform (https://platform.opentargets.org/) as well as Europe PMC website (SciLite web app) and annotations API (https://europepmc.org/annotationsapi).
著者: Melissa Harrison, S. Tirunagari, S. Saha, A. Venkatesan, D. Suveges, A. Buniello, D. Ochoa, J. McEntyre, E. McDonagh
最終更新: 2024-12-17 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.06.583722
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.06.583722.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。