タンパク質複合体を認識するための新しいデータセット
研究者たちがCoNECoという、タンパク質複合体の名前を特定するためのデータセットを紹介したよ。
― 1 分で読む
生物学の世界では、たんぱく質で構成された複雑な構造を理解する必要が高まってるんだ。これらの構造は細胞の働きに重要な役割を果たしてる。研究者たちは、これらのたんぱく質複合体を特定して分類するために、新しい方法やツールを開発してる。でも、具体的なリソースが不足してて、これらのたんぱく質複合体の名前を正確に認識して正規化するのが難しいんだ。
新しいコーパスの必要性
テキストを分析して情報を抽出する技術が進歩してるにもかかわらず、たんぱく質複合体に特化したリソースはまだ整備されてないんだ。既存のリソースは、人間のたんぱく質を扱ったり、別のタスク向けに設計されてたりするものが多い。このギャップを研究者たちは埋める必要があって、たんぱく質複合体は多くの生物学的プロセスに重要だからね。
CoNECoの紹介
このギャップを埋めるために、研究者たちはCoNECoっていう新しいデータセットを提案したんだ。これは「Complex Named Entity Corpus」の略で、たんぱく質複合体の名前を認識して正規化するために特化したデータセットだ。研究者たちは1,600以上の文書に注釈を付けて、2,000以上のユニークなたんぱく質複合体の名前を特定して、広く使われてる分類システム「Gene Ontology」にマッピングしたんだ。
文書選択プロセス
CoNECoコーパスの作成は、分析するのに適切な文書を選ぶことから始まった。研究者たちは、たんぱく質複合体に関する情報が含まれてる既存の注釈文書に焦点を当てた。これには3つの主要なステップがあるよ:
ComplexTomeコーパスの利用: このコーパスは、たんぱく質の物理的相互作用を分析するシステムを訓練するために設計されていて、既にたんぱく質複合体に関する注釈があった文書が含まれてたから、CoNECoに適してたんだ。
追加のReactome要約の追加: 細胞のシグナリングに関連する文書をもっと含めるために、Reactomeデータベースから追加の要約を選んだ。これで、コーパス内のシグナリング関連のトピックの表現が広がったんだ。
イベント抽出コーパスからの選択: 最後に、研究者たちは、翻訳後修飾に関連している要約を選んで、複数のエンティティを含めて、関連するシグナリング文書に焦点を当てたんだ。
名前付きエンティティの注釈
文書が選ばれたら、研究者たちはたんぱく質複合体の注釈に集中した。全部で「たんぱく質を含む複合体」っていう1つのエンティティタイプを定義したよ。このために、たんぱく質複合体に関連する広範な用語のセットを提供してるGene Ontologyを参照したんだ。
注釈は正確さを確保するために慎重に行われた。チームは、たんぱく質複合体を指すテキストの正確なスパンをマークするための具体的なガイドラインに従ったんだ。エンティティの識別と正規化の一貫性を目指してね。たんぱく質複合体が言及されてても、Gene Ontologyに直接の一致がなくても、認識のために注釈は行われたんだ。
品質と一貫性の確保
注釈の品質を確認するために、研究者たちはコーパスの一部を評価した。2人のキュレーターを雇って独立して文書に注釈を付けてもらい、高品質の基準を確保するために同意を測った。テキスト内の名前とGene Ontologyデータベース内の名前の一貫性もチェックしたよ。
NERとNENアプローチ
研究者たちは、CoNECo内の名前付きエンティティの認識と正規化に2つの主要な方法を適用した:辞書ベースのアプローチと深層学習ベースのアプローチだ。
辞書ベースのアプローチ
辞書ベースの方法では、じょせんされた用語リストに依存してエンティティを特定し正規化するJensenLabタグ付けシステムを使った。この辞書にはGene Ontologyからのたんぱく質複合体に関連する用語と、Complex Portalっていうデータベースからの追加の名前が含まれてた。方法の効果は使用する辞書の品質に左右されるんだ。
深層学習アプローチ
反対に、研究者たちはRoBERTaっていう事前に訓練された言語モデルを使った深層学習方法も採用した。このモデルは単語が現れる文脈を理解するように設計されていて、CoNECoデータセットからの訓練に基づいて複雑なエンティティを特定するのにより効果的な可能性があるんだ。
結果と評価
CoNECoコーパスを設定して文書に注釈を付けた後、研究者たちは2つの方法のパフォーマンスを評価した。結果は、深層学習タグ付けが辞書ベースのアプローチよりも良いパフォーマンスを示した。深層学習アプローチは、精度と再現率が高かったけど、両方の方法はコーパス内のたんぱく質複合体の言及が少ないために課題に直面したんだ。
エラー分析
エラー分析では、両方の方法が直面したいくつかの共通の課題が明らかになった。大きな問題は命名のあいまいさで、一部の用語がたんぱく質複合体か遺伝子のどちらかを指すことがある。これがしばしば注釈漏れや誤認識を引き起こす原因になってる。
辞書ベースの方法は、辞書の完全性に大きく依存してるため、追加の障害があった。もし辞書に複合体名が欠けてたら、認識できなくて再現率が下がることになる。一方、深層学習方法は訓練データに含まれていない長い名前や特定の名前の特定が難しいという問題があったんだ。
大規模な文献タグ付け
研究者たちは、これらのタグ付け方法を多数の科学記事に適用して作業を拡張した。PubMedデータベースの3,600万の要約と、PubMed Centralのオープンアクセスリソースから600万の記事を処理したんだ。辞書ベースの方法は何百万もの複合体マッチを特定したけど、深層学習アプローチは辞書に含まれていない多くのユニークな名前を見つけたよ。
これらの大規模なタグ付け作業は、異なる命名規則や同義語がリファレンスソースに適切に表現されてないときに生じる課題を強調した。研究者たちは、訓練と評価に使用されるデータベースの継続的な改善が必要だと指摘したんだ。
結論
CoNECoコーパスの導入は、たんぱく質複合体を認識して正規化できる専門的なリソースの必要性に応える重要なステップを示してる。この作業は、これらの重要な生物学的エンティティのより良い識別の扉を開き、最終的には研究者たちが複雑な細胞機能を理解するのを助けることになるよ。注釈プロセスと認識の方法の両方を洗練させる継続的な努力があれば、この重要な生物学の分野で研究を強化する大きな可能性があるんだ。
タイトル: CoNECo: A Corpus for Named Entity recognition and normalization of protein Complexes
概要: MotivationDespite significant progress in biomedical information extraction, there is a lack of resources for Named Entity Recognition (NER) and Normalization (NEN) of protein-containing complexes. Current resources inadequately address the recognition of protein-containing complex names across different organisms, underscoring the crucial need for a dedicated corpus. ResultsWe introduce the Complex Named Entity Corpus (CoNECo), an annotated corpus for NER and NEN of complexes. CoNECo comprises 1,621 documents with 2,052 entities, 1,976 of which are normalized to Gene Ontology. We divided the corpus into training, development, and test sets and trained both a transformer-based and dictionary-based tagger on them. Evaluation on the test set demonstrated robust performance, with F1-scores of 73.7% and 61.2%, respectively. Subsequently, we applied the best taggers for comprehensive tagging of the entire openly accessible biomedical literature. AvailabilityAll resources, including the annotated corpus, training data, and code, are available to the community through Zenodo https://zenodo.org/records/11263147 and GitHub https://zenodo.org/records/10693653.
著者: Katerina Nastou, M. Koutrouli, S. Pyysalo, L. J. Jensen
最終更新: 2024-05-29 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.18.594800
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.18.594800.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://katnastou.github.io/annodoc-CoNECo/
- https://ftp.ebi.ac.uk/pub/databases/intact/complex/current/go/complex_portal.v2.gpad
- https://chat.openai.com/g/g-1uV7nfJTA-coneco-gpt-full
- https://chat.openai.com/g/g-Ns0dcCn8c-coneco-gpt-small
- https://chat.openai.com
- https://chat.openai.com/g/g-C6Nx12aEL-coneco-gpt-minimal
- https://katnastou.github.io/annodoc-CoNECo