Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

ディバイナー: 遺伝子アノテーションの新しいツール

Divinerは、いろんな種のDNA配列の欠けてるエクソンを特定するのを助けるよ。

― 1 分で読む


ディバイナー:遺伝子発見のディバイナー:遺伝子発見の再定義新しいツール。ゲノム内の隠れたエクソンを見つけるための
目次

研究者たちは、ヒトや植物、動物を含む真核生物のDNAの中でタンパク質を作る部分を探して理解しようとしています。これが難しいのは、多くの遺伝子がエクソンという部分で構成されていて、それがイントロンという非コーディング部分に挟まれているからです。細胞がタンパク質を作りたいとき、最初にその遺伝子のメッセンジャーRNA(mRNA)バージョンを作ります。この過程でイントロンは取り除かれ、エクソンが結合して最終的なmRNAが形成され、それがタンパク質に翻訳されます。

代替スプライシングの課題

遺伝子は代替スプライシングというプロセスを通じて異なる形で組み合わせることができます。細胞の種類や周囲の環境に応じて、特定のエクソンが最終的なmRNAに含まれることもあれば、除外されることもあります。つまり、1つの遺伝子が異なる機能を持つ複数のタンパク質、すなわちアイソフォームを生み出すことができるということです。タンパク質を作る機構は常に完璧ではなく、この複雑さのために、多くの計算手法は特定の遺伝子に対するすべての可能なアイソフォームを特定するのに苦労しています。

コンピュータアルゴリズムだけでこれらの遺伝子部分を特定するのは大きなハードルです。RNAシーケンシングやリボソームプロファイリングといった実験的手法は、これらの遺伝子部分を見つけるための最も信頼できる証拠を提供しますが、特にスプライシングに影響を与える条件の組み合わせの数が膨大なため、限られた情報しか得られません。

配列類似性の役割

エクソンを特定するために、研究者たちはさまざまな生物種を比較することができます。ある種と別の種のDNA配列を比較することで、ある種にはあって他の種にはないエクソンを特定することができるかもしれません。もし1つの種が特定のエクソンを示し、他の種がそれを持っていなければ、その欠missingエクソンは2つ目の種にも存在する可能性があることを示唆しています。目的は、これらの欠けた部分を特定し、異なる生物の間でタンパク質コーディング領域の完全なセットを理解することです。

Divinerの紹介

このプロセスを助けるために、Divinerという新しいソフトウェアツールが開発されました。Divinerの主な目標は、まだ文書化されていないエクソンを特定することです。タンパク質のコーディングに見えるDNAの部位に焦点を当て、既存のアノテーションには見当たらない部分だけを対象にしています。

Divinerは、Mirage2という別のツールによって生成された配列アライメントを使用します。異なる種のタンパク質の配列を比較することで、科学者たちがさまざまな生物のゲノムデータにおける欠missingエクソンの位置を特定できるようにします。

Divinerの仕組み

Divinerのプロセスは、種間の配列のアライメントから始まり、欠missingエクソンを示すギャップや不一致を特定します。ある種にエクソンが見つかり、別の種にない場合、Divinerは欠missing部分が予想されるゲノムの周辺領域を検索します。既知のエクソンをターゲットとするゲノムの領域にアラインすることで、Divinerはそのゲノムに欠missingエクソンが存在する可能性がある証拠を提供します。

Divinerは、ヒトやマウス、ラットなどのよく研究された種のゲノムデータでテストされ、多くの新しいエクソンを成功裏に特定しました。さらに、Divinerはフェレットのようなあまり研究されていない種においても新しいタンパク質を発見する可能性を示しました。

Divinerの能力を試す

Divinerは、さまざまなタンパク質配列のデータセットを使用して評価されました。大規模なタンパク質データベースからのヒト、マウス、ラットのアイソフォームの完全なセットでのテストでは、Divinerは多くのエクソン候補を見つけました。最も重要なのは、以前に文書化されていなかったいくつかの新しいエクソンの存在を推定できたことです。研究者たちは、既知のアノテーションと比較することで、Divinerが予測した本当に新しいエクソンのリストを確立しました。

Divinerの予測は品質が評価され、多くの新しいエクソンが既知のエクソンと類似の特性を持っていることが示されました。これは、予測されたエクソンが実際に機能的であり、これらの生物の遺伝学を理解する上で価値があることを示唆しています。

代替分析からの洞察

さらに、Divinerは既知の品質を持つタンパク質のキュレーションデータセットでテストされました。これにより、高確信度の新しいエクソンが発見されました。これらのタンパク質が実験的手法によって確認されていたため、この文脈でのDivinerの予測は、本当に存在するエクソンについてより保守的な見積もりを提供しました。

このソフトウェアは、予測されたエクソンの長さや品質を分析し、既知のエクソンと比較しました。結果は、新しいエクソンが確立されたエクソンと多くの特徴を共有していることを示し、ゲノムにおけるそれらの予測される存在を支持しています。

アノテーションスコアの重要性

タンパク質配列のアノテーションは、信頼性を反映するスコアを伴うことがよくあります。これらのスコアを比較することで、Divinerは予測されたエクソンに「遷移アノテーションスコア」を割り当てることができ、実際のタンパク質コーディング領域を表す可能性を示します。このシステムは、各予測エクソンに対する証拠の強さを把握し、Divinerの出力の有効性に対する信頼性を向上させるのに役立ちます。

あまり研究されていない種の新しいエクソン

よく知られたゲノムに取り組むだけでなく、Divinerはフェレットのようなあまり探索されていない種でも効果的でした。フェレットのタンパク質配列が既存のデータセットに追加されたとき、Divinerはフェレットゲノムには記録されていない多くの新しいエクソンを見つけました。フェレットでの新しいエクソンだけでなく、ヒト、マウス、ラットなど他の種でも新しいエクソンを発見しました。

この種間発見は、異なる生物からのデータを追加することで、各種の遺伝子アノテーションを強化し、遺伝的なつながりの複雑な網を浮き彫りにすることができることを強調しています。

ケーススタディ:構造予測

新しく発見されたエクソンがタンパク質構造にどうフィットするかを視覚化するために、研究者たちはヒトのエクソンをサポートするラット遺伝子の例を使いました。新しいエクソンを組み込んだ予測タンパク質構造を作成したとき、生成された形状は既存のヒトタンパク質の形に非常に似ていました。これは新しいラットのエクソンがヒトのそれと類似の機能的役割を持つ可能性が高いことを示唆しています。

結論

Divinerはさまざまなゲノムにおける新しいコーディング領域を特定するための強力なツールです。既知の配列や種間の進化的関係を巧みに活用することで、以前にアノテーションされていないエクソンを特定できます。複数のデータセットへの成功した適用を通じて、Divinerは遺伝子構造やタンパク質コーディングの可能性についての理解を深めるのに貴重な価値を示しました。

シーケンシング技術が進化し、より手頃な価格になり続ける中、Divinerはあまり研究されていない生物に対するアノテーション努力において重要な役割を果たし、新しいエクソンを発見し、遺伝学の知識を劇的に拡大する可能性があります。

オリジナルソース

タイトル: Diviner uncovers hundreds of novel human (and other) exons though comparative analysis of proteins

概要: BackgroundEukaryotic genes are often composed of multiple exons that are stitched together by splicing out the intervening introns. These exons may be conditionally joined in different combinations to produce a collection of related, but distinct, mRNA transcripts. For protein-coding genes, these products of alternative splicing lead to production of related protein variants (isoforms) of a gene. Complete labeling of the protein-coding content of a eukaryotic genome requires discovery of mRNA encoding all isoforms, but it is impractical to enumerate all possible combinations of tissue, developmental stage, and environmental context; as a result, many true exons go unlabeled in genome annotations. ResultsOne way to address the combinatoric challenge of finding all isoforms in a single organism A is to leverage sequencing efforts for other organisms - each time a new organism is sequenced, it may be under a new combination of conditions, so that a previously unobserved isoform may be sequenced. We present Diviner, a software tool that identifies previously undocumented exons in organisms by comparing isoforms across species. We demonstrate Diviners utility by locating hundreds of novel exons in the genomes of human, mouse, and rat, as well as in the ferret genome. Further, we provide analyses supporting the notion that most of the new exons reported by Diviner are likely to be part of a true (but unobserved) isoform of the containing species.

著者: Travis Wheeler, A. J. Nord

最終更新: 2024-05-06 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.05.592595

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.05.592595.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事