Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

可動元素の遺伝学における役割

転移可能な要素が遺伝子機能や健康にどう影響するかを調べてる。

― 1 分で読む


可逆的要素が明らかにされた可逆的要素が明らかにされたての洞察。可動要素とそれが生物学に与える影響につい
目次

可動要素(TE)は、ゲノム内で移動できるDNAの特別な部分なんだ。彼らは私たちの遺伝物質の構成に大きな役割を果たしていて、いろんな生物学的プロセスに影響を与えることもある。人間の場合、これらの要素は遺伝物質の約半分を占めてる。

こういうモバイルなDNAの断片は、染色体の管理、遺伝子の調整、染色体の末端を維持するのに役立つ重要な機能があるんだけど、慢性的な炎症や特定の病気といった健康問題にも寄与することがある。

でも、TEを研究するのは結構複雑なんだ。彼らの繰り返しの性質がデータ解析に課題をもたらすから、遺伝学の研究ではしばしば見落とされがち。これを解決するために、新しいパイプラインが登場して、繰り返し要素の整列やリファレンスゲノム外の要素の特定など、主要な問題に焦点を当ててTEの調査を簡素化しようとしてる。

持ち運び可能な要素の種類

持ち運び可能な要素にはいくつかのタイプがあるんだ。主に興味があるのは、長い散在性核要素(LINE)、短い散在性核要素(SINE)、内因性レトロウイルス(ERV)などのレトロトランスポジショナルエレメント(RTE)だ。このタイプは多くの哺乳類に豊富で、さまざまなファミリーやサブファミリーに分類されてる。

RTEを定量化するのは難しい。もし2つのコピーが同じなら、どっちから読み取られたのかがわかりにくいんだ。でも、ほとんどのRTEには微妙な違いがあって、いくつかのリードをユニークに割り当てることができる。ユニークなリードだけを使うのが良さそうに見えるけど、若い要素はしばしば違いが少ないから、見落とされがち。だから、同じ配列からのリードを管理するためのツールが設計されてる。

TEtoolsやRepEnrichみたいなプログラムが開発されて、これらの要素を定量化する方法が改善されてる。TEtoolsは、正確性を高めるためにリードをランダムに1つのローカスに割り当てる手法を使ってる。RepEnrichは、リードをプールしてマルチマッピングリードを再マッピングすることで、サブファミリーのレベルでの発現を正確に評価することに焦点を当ててる。

技術が進化するにつれて、マルチマッピングリードの問題に対処するための新しい方法が登場してる。TElocalやL1EM、Telescopeみたいなプログラムが作られて、マルチマッピングリードを単一の場所に割り当てることができる。TE-Seqパイプラインは、カスタム遺伝子アノテーションを受け入れられるTelescopeツールを使ってるから、他のツールに比べて柔軟性があるんだ。

正確なTEアノテーションの重要性

ゲノム内の各TE挿入の完全なビューを得ることで、RNA-Seqの結果の質が大いに向上するんだ。多くの若いRTEサブファミリーは常に変化していて、標準リファレンスゲノムにはキャッチされない新しい挿入を生成してる。これって、これらの要素からのリードがリファレンス要素に誤って割り当てられる可能性があるってこと。

この問題に対処するために、TE-Seqパイプラインは長リードDNAシーケンシングからのデータを追加して、非リファレンスTE挿入を特定できるようにしてる。要素の周りの遺伝子や「遺伝子コンテキスト」を認識することで、その潜在的な調節影響を見積もるのに役立つ。もし要素が自分のプロモーターか近くの遺伝子を介して発現してるなら、結果に影響を与える可能性があって、より高い精度を確保できるんだ。

このパイプラインは、ゲノムコンテキストに基づいて発現の違いも評価して、TE発現の増加が本当の生物学的活動によるものか技術的アーティファクトによるものかを特定する助けにもなる。

TE-Seqパイプラインの概要

TE-Seqパイプラインは、主に2つのモジュールから成り立ってる:リファレンスアノテート(AREF)とショートリードRNA-Seq(SRNA)。AREFモジュールは、与えられたゲノムを完全にアノテートし、TEを特定し、その機能を明らかにすることから始まる。このデータセットが充実することで、研究者はさまざまなタイプのTEの違いを分析できるようになる。

もし長リードDNAシーケンスデータがあれば、パイプラインは非リファレンスTE挿入を特定して、更新されたリファレンスゲノムを作成できる。このことで、研究者は多型のTEを分析に含めることが可能になるんだ。

SRNAモジュールは、生のシーケンシングリードから始まって、品質管理を行い、それらをリファレンスゲノムに整列させる。次に、繰り返し特異的ツールが使用されて、繰り返し要素の発現を定量化する。差次的発現を評価して、遺伝子と繰り返し要素のファミリーに対する遺伝子セット濃縮解析を行う。

アノテーションセットの作成と洗練

アノテーションを作成するプロセスは、ユーザーが提供したリファレンスゲノムから始まる。もし事前計算されたファイルがなければ、RepeatMaskerというプログラムが各染色体の繰り返し要素をアノテートする。このデータは、使いやすい異なるフォーマットに変換される。

次に、アノテーションが処理されて、さらなる分析の準備がされる。これには、断片化された繰り返し要素を統合し、系統的かつ機能的なクラスにグループ化することが含まれる。若い要素は、平均的な遺伝的違いに基づいて特定される。

若くて潜在的に活性な要素については、研究者がそれらがタンパク質をコードする能力を分析する。オープンリーディングフレーム(ORF)が存在するかを確認して、タンパク質に翻訳できるDNAのセグメントを特定する。シーケンスを調べることで、研究者はどの要素が完全で機能的かを判断できるんだ。

ERV要素に関しては、パイプラインは全体のプロウイルスとソロLTRを区別して、詳しい分析のために正確に分類するように心がけてる。これには、これらの要素が非繰り返し遺伝子要素にどれだけ近いかを調べることも含まれてて、それが彼らの潜在的な機能を明らかにする手助けになる。

ナノポアDNAシーケンシングの利用

TE-Seqパイプラインは、ユーザーがナノポアDNAシーケンシングデータを取り入れて非リファレンスTE挿入を呼び出すことを可能にしてる。このプロセスは、リードをリファレンスゲノムに整列させるところから始まって、高品質の整列されたリードを使用して、以前に文書化されていない挿入を特定する。

信頼できる挿入のみが保持されて、厳しい基準に従って精度を確保する。結果として得られる挿入は、これまで認識されていなかった要素を含むリファレンスゲノムに追加される。この能力は、ゲノム内のTEの全体像を理解するのに特に役立つんだ。

ナノポアDNAシーケンシングが利用できない場合でも、最新のリファレンスゲノムを使用することで非リファレンスTEに関するいくつかの問題を軽減できる。更新されたリファレンスゲノムは、TE挿入のより包括的なマップを提供してくれる。

RNA-Seq分析

RNAシーケンシングデータを分析する際、パイプラインはまずリードをトリミングして質を向上させる。これらのリードはリファレンスゲノムに整列されて、マルチマッピングを助けて正しくリードを適切なローカスに割り当てる。

その後、ツールが使われて遺伝子数を推定し、繰り返し要素の発現を定量化する。このプロセスでは、ユニークにマッピングされたリードとマルチマッピングリードの両方を利用することができる。結果は、差異的発現を示す遺伝子や要素を特定し、生物学的プロセスにおける洞察を明らかにする。

カウントを正規化することで、遺伝子と繰り返し要素の間での正確な比較が可能になる。DESeq2という方法が統計分析と差次的発現を決定するために使われる。バッチ効果が検出されると、パイプラインはそれに対処して信頼できる結果を確保するけど、この修正が時にバイアスを引き起こすこともある。

TE-Seqパイプラインからの結果

TE-Seqパイプラインは、ヒトの肺線維芽細胞のプライマリデータセットに適用された。研究者は、ナノポアDNAシーケンシングを使用することで、多くの非リファレンスTE挿入を特定することができた。そのデータはTE挿入の豊かな景観を示していて、ゲノム内でのこれらの要素の動的な性質を示している。

RNAシーケンシングデータを分析すると、線維芽細胞の老化条件の初期と後期の両方で、多くのTEが上方調整されていることがわかった。この発見は重要で、TEが細胞の老化やそれに関連する生物学的プロセスに関与している可能性を示唆してる。

TE-Seqパイプラインを使用することで、研究者は特定の若いL1要素が老化した細胞で活動が増加していることを観察して、老化プロセスへの関与の可能性を示してる。このTEの探求は、ゲノム内での彼らの存在だけでなく、さまざまな生物学的シナリオにおける機能的影響も浮かび上がらせるんだ。

結論

TE-Seqパイプラインは、ゲノム内の可動要素を調べようとする研究者にとって、貴重なツールなんだ。TE分析の一般的な課題に対処し、さまざまなデータソースを統合することを可能にすることで、これらの重要な遺伝的コンポーネントを研究するための包括的なアプローチを提供してる。

科学が進化し続ける中で、健康や病気におけるTEの役割を理解することがますます重要になってくる。 このパイプラインを通じて促進された作業は、遺伝要素とそれが生物学や医学の広い範囲における影響についてのより深い知識に貢献するんだ。この技術を適用することで得られた結果は、細胞プロセスや病気メカニズムなどの新しい発見につながる可能性がある。

こんなツールを使えば、研究者は可動要素の複雑さや、それらが人間の健康や発展に与える関連性を明らかにするのがよりうまくできるようになるんだ。

オリジナルソース

タイトル: TE-Seq: A Transposable Element Annotation and RNA-Seq Pipeline

概要: MotivationThe recognition that transposable elements (TEs) play important roles in many biological processes has elicited growing interest in analyzing sequencing data derived from this dark genome. This is however complicated by the highly repetitive nature of these sequences in genomes, requiring the deployment of several problem-specific tools as well as the curation of appropriate genome annotations. This pipeline aims to make the analysis of TE sequences and their expression more generally accessible. ResultsThe TE-Seq pipeline conducts an end-to-end analysis of RNA sequencing data, examining both genes and TEs. It implements the most current computational methods tailor- made for TEs, and produces a comprehensive analysis of TE expression at both the level of the individual element and at the TE clade level. Furthermore, if supplied with long-read DNA sequencing data, it is able to assess TE expression from non-reference (polymorphic) loci. As a demonstration, we analyzed proliferating, early senescent, and late senescent lung fibroblast RNA-Seq data, and created a custom reference genome and annotations for this cell strain using Nanopore sequencing data. We found that several retrotransposable element (RTE) clades were upregulated in senescence, which included non-reference, intact, and potentially active elements. Availability and implementationTE-Seq is made available as a Snakemake pipeline which can be obtained at https://github.com/maxfieldk/TE-Seq. All software dependencies besides Snakemake and Docker/Singularity are packaged into a container which is automatically built and deployed by the pipeline at runtime.

著者: John M Sedivy, M. M. G. Kelsey, R. A. Kalekar

最終更新: 2024-10-15 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.11.617912

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.11.617912.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事

生物情報学代替スプライシングのためのシーケンシング深度の最適化

研究によると、人間の組織での代替スプライシングを検出するための最適なシーケンシング深度が明らかになった。

― 1 分で読む