Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

代替スプライシングのためのシーケンシング深度の最適化

研究によると、人間の組織での代替スプライシングを検出するための最適なシーケンシング深度が明らかになった。

― 1 分で読む


シーケンシング深度の洞察がシーケンシング深度の洞察が明らかにされた発見。のためのシーケンシング深度に関する重要なヒトデータにおけるスプライシングイベント
目次

短いリードRNAシーケンシングは、遺伝子が異なる方法でスプライシングされるのを研究するための方法で、これを代替スプライシングと呼ぶんだ。この技術は、シーケンスを読むときのエラーが少なく、研究者が各シーケンスの量を測定できるし、コストも抑えられるから人気なんだ。ただし、これらのスプライシングイベントを正確に検出するためには、特に少量しか存在しないトランスクリプトを見つけることが目的なら、十分なシーケンシングの深さが必要なんだ。ヒトのサンプルでの代替スプライシングをしっかりカバーするために必要なリードの正確な数はまだはっきりしていない。だから、研究者たちは実験の設計についてのガイドラインが必要なんだよね、シーケンシングの深さとサンプル数のバランスをとるために。

シーケンシングの深さが代替スプライシング検出に与える影響

いくつかの研究が、シーケンシングの深さが代替スプライシングイベントの検出にどう影響するかを調べてきた。例えば、ある研究では、1億2千万円のリードを使ったとき、ほぼすべてのエクソンスキップイベントが正しく特定されたんだ。でも、他のスプライシングの形態は、高いリード数でもあまり信頼できなかった。研究によると、5000万リードしかないときでも、リード数が1億に増えるとパフォーマンスが大幅に改善することが示されてる。さらに、200万リードのシミュレーションデータセットを使った別の研究も、スプライシングイベントの検出が増えたと言ってる。ただ、これらの以前の研究の多くはシミュレーションデータに頼っていて、実際の生物学データの複雑さを完全には表していない可能性がある。また、これらの研究の多くは1億リード未満でテストしているから、スプライシングを包括的に検出するために必要な深さについての疑問が残ってる。

遺伝子発現の深さに関する研究

他の研究では、ヒトサンプルの遺伝子発現を分析するために必要なシーケンシングの深さを調べていて、200万から300万リードの深さが推奨されてる。いくつかの推定によると、多くの研究が十分なシーケンシングを使っていないことがわかっていて、これが結果に影響を与える可能性がある。一部の調査では、高いシーケンシング深度を使うことでどれだけ新しいスプライシングイベントが発見できるかを調べていて、中には10億リードまで行くものもある。特定の生物に焦点を当てた研究では、非常に稀なトランスクリプトを検出するためには約6800万リードが必要だという推定が出てる。ただ、ヒトゲノムの複雑さを考えると、この数はヒトデータの場合もっと高くなるだろうね。

ヒトサンプルに関する研究

私たちの研究では、さまざまなヒトの組織や条件からのRNAシーケンシングデータを分析して、500万リード以上のサンプルに焦点を当てて詳細な分析を行った。サンプル内での発現レベルを低から高まで分類して、どのように検出が変わるかを理解しようとしたんだ。

分析方法

この研究で使用したRNAシーケンシングデータセットは、さまざまなヒトサンプルから来ている。例えば、特定のSARS-CoV-2の変異を持つ患者からのRNAサンプルが、異なるシーケンシングの深さで集められた。標準的な方法を使ってRNAを抽出し、シーケンシングのためのライブラリを準備する前にRNAの質を高く保ったよ。

各RNAサンプルは、この分析用に設計された特定のソフトウェアを使ってヒトゲノムにアラインされた。その後、遺伝子発現を慎重にカウントして、マップされたリードに焦点を当ててシーケンシングの深さを決定した。データを効果的に視覚化・分析するために、さまざまなプログラミングスクリプトも使用した。

実データにおける代替スプライシングの調査

シーケンシングの深さがスプライシングイベントの検出にどう影響したかを分析するために、これらのイベントを持つ遺伝子の数をさまざまなサンプルにわたって計算した。遺伝子を発現レベルに基づいて分類し、異なるシーケンシングの深さでどれだけ検出されたかを調べた。

シーケンシングの深さが増えるにつれて、検出されたスプライシングイベントの数が大幅に増加する傾向があることを発見した。発現レベルが低い遺伝子には150万リードの深さが不十分だったが、発現が高い遺伝子には約7000万リードが必要だった。

深くシーケンスされたサンプルの分析

SARS-CoV-2のコホートを調べた後、他の深くシーケンスされたデータセットでの分析を続けた。データをいくつかの深さにダウンサンプルして、スプライシングイベントの検出率がどう変わるかを比較した。

多くのデータセットでは、リード数を増やすことでスプライシングイベントの検出が一貫して向上することに気づいた。ただし、高く発現する遺伝子に関しては、このイベントの検出増加が100-150万リードを超えると鈍化し始めた。心臓組織サンプルの分析はさらにこれらの傾向を確認し、新しいイベントの検出は続くものの、新発見の速度は減少していることを示した。

高い深さで検出されたスプライシングイベントの生物学的意義

より高いシーケンシング深度でのみ検出されたスプライシングイベントの重要性を理解するために、関与する遺伝子の機能的側面を調べた。200万リードに独占的な遺伝子のいくつかは特定の生物学的反応と関連づけられ、深いシーケンシングが重要な情報を明らかにできる可能性があることを示している。

病気に関連する遺伝子もチェックしたら、心臓疾患に関係するかもしれないいくつかの低発現遺伝子が見つかった。リードのカバレッジの分析は、これらのスプライシングイベントの存在を支持していて、単なる偽陽性ではないことを示した。

異なるデータソースの比較

GTExやTCGAのような主要な研究プロジェクトからのデータセットを比較したけど、これらには多くのRNAシーケンシングサンプルが含まれている。このデータセットは通常、シーケンシングの深さが低く、重要なスプライシング情報を見逃してしまう可能性があることを示唆してる。

利用可能なデータを使って、より高いシーケンシング深度でどれだけ追加のスプライシングイベントが発見できるかを推定したら、アンダーシーケンシングによる潜在的な発見の大きなギャップが明らかになった。

シーケンシング深さのコストへの影響

200万リード以上の極端に高い深さで実験を行うのは高価になる可能性があるから、追加のイベントを検出するためのコストを分析した。およそ200-250万リードに達した後、追加の検出ごとのコストが急激に上昇する明確な傾向が見られた。

私たちの結果から、代替スプライシングを研究するときには、低発現遺伝子に対しては200万リードの妥当な閾値を、発現が高い遺伝子には低い閾値を提案した。

結論

適切なシーケンシング深さを選ぶことは、特に代替スプライシングを調べるときに、効果的なRNAシーケンシング分析のために重要なんだ。私たちの研究によると、低発現遺伝子に対しては150-200万リードに設定するのが完全な検出を確保するために良いみたい。発現が高い遺伝子には100-150万リードの閾値が適切だね。

研究者たちは、この閾値が使用する技術やRNAの質、分析のために選択した特定のツールによって変わる可能性があることを常に考慮する必要がある。私たちの研究は、現代の研究において代替スプライシングイベントの全体像を把握するためにより深いシーケンシングが必要であることを強調している。これは生物学的プロセスや疾患を理解する上でも重要かもしれない。高い深さで検出された代替スプライシングイベントは微妙な生物学的信号を持っているかもしれなく、それを考慮に入れることでさまざまな状態の理解に役立つ可能性がある。今後の研究は、ヒトサンプルにおける代替スプライシングの包括的な探求を促進するために、より高いシーケンシング深度を目指すべきだね。

オリジナルソース

タイトル: RNA sequencing depth guidelines for the study of alternative splicing

概要: A key parameter in the experimental design of RNA-seq projects is the choice of sequencing depth. Considering a limited budget, one needs to find a tradeoff between the number of samples and the sensitivity of the analysis, particularly concerning lowly expressed genes. While previous studies have proposed a lower bound for the comprehensive analysis of differential gene expression, for the analysis of alternative splicing, it has only been proposed for human adipose tissue. However, alternative splicing differs across tissues and conditions. We analyzed publicly available and newly generated deep-sequenced paired-end RNA-seq samples (between 150 and >500 million reads, read length 50-150 bp) from human buffy coat cells and diverse sets of tissues, including gluteal subcutaneous fat, heart, and hypothalamus. Our results show that the sequencing depth typically used in published cohorts is not sufficient to comprehensively capture the landscape of alternative splicing. This motivates the use of deeper sequencing or long-read technologies in future studies. Toward this goal, we offer guidelines for choosing a suitable sequencing depth. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=177 SRC="FIGDIR/small/617406v2_ufig1.gif" ALT="Figure 1"> View larger version (24K): [email protected]@1b3d0fborg.highwire.dtl.DTLVardef@5d15c4org.highwire.dtl.DTLVardef@140035b_HPS_FORMAT_FIGEXP M_FIG C_FIG

著者: Olga Tsoy, S. Ameling, S. Franzenburg, M. D. Hoffmann, L. Liv-Willuth, H. K. Lee, L. Knabl, P. A. Furth, U. Voelker, L. Hennighausen, J. Baumbach, T. Kacprowski, M. List

最終更新: 2024-10-15 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.09.617406

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.09.617406.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事