RNA解析を通じたタンパク質バリアントの理解
RNAのバリエーションがどうやって多様なタンパク質機能につながるかの研究。
― 1 分で読む
目次
私たちの体の中で、遺伝子はたんぱく質を作る重要な役割を果たしてるんだ。たんぱく質は様々な機能に欠かせないもの。各遺伝子は、選択的転写やスプライシング、ポリアデニル化みたいなプロセスのおかげで、たくさんのバージョンのたんぱく質を生み出すことができる。だから、約20,000の遺伝子から18万以上の異なるたんぱく質のバリエーションが生まれる可能性があるんだ。でも、この複雑なシステムは時々うまくいかなくて、がんや心臓病のような問題を引き起こすこともある。科学者たちは、これらの変異を研究して、それが健康にどう影響するかを理解しようとしているんだ。
RNAとたんぱく質の分析
遺伝子発現の複雑さを理解するために、科学者たちはたんぱく質生成プロセスで重要な役割を果たすRNAを分析することができる。技術の進歩によって、サンプル内のRNAの多様性を深く分析することが可能になった。ロングリードRNAシーケンシングは、RNA分子の全体的な構造を見るのに役立つ技術で、従来の方法よりも詳しい洞察を提供し、RNAの形成や修飾の複雑なパターンを明らかにするんだ。
ロングリードシーケンシングは、RNAの異なる部分、つまりエクソンをつなげることができて、複雑なスプライシングイベントを特定できる。スプライシングによって異なるRNAセグメントが組み合わせられ、さまざまなたんぱく質の形が作られる。これが私たちの体の中でたんぱく質の機能や相互作用に影響を与えたりするんだ。
今の大事な質問は、これらのRNAの変異が最終的に作られるたんぱく質にどう影響するかってこと。これを解明するには、完全なたんぱく質のバージョンが何かを定義することが必要だね。
たんぱく質バリエーションの予測
研究者たちは、RNAシーケンシングから生じるたんぱく質のバリエーションを予測する方法を開発した。これは、ロングリードRNA分析から得られた詳細な配列を使って、潜在的なたんぱく質の構造を予測することを含んでる。この予測されたたんぱく質バリエーションをマッピングすることで、異なる生物学的条件下での多様性をより広く理解できるんだ。
スプライシングの変異を深掘り
スプライシングはたんぱく質の多様性の重要な源で、RNAの複数のポイントで起こる可能性がある。これによって、たんぱく質の構造が変わることがあるんだ。RNAの配列に初期の小さな変化があっても、たんぱく質の構造には大きな影響が出ることもある。たとえば、たんぱく質の端や他の重要な領域に変化が生じる。
この変異がどのように起こるか、そしてそれがたんぱく質にどんな影響を与えるかを理解することは、遺伝子がどのように機能ユニットに変わるかの複雑さを解き明かすために重要なんだ。特定のRNAの部分が存在するかしないかだけでなく、それらのパーツがどのように繋がり、最終的なたんぱく質の製品を形成するかが大事なんだ。
分析ツール
スプライシングによって引き起こされるたんぱく質の変異を研究するために、いくつかのツールやデータベースが開発されている。これらは、異なるたんぱく質の形がどのように機能するかを注釈付きで分析するのに役立つ。一部のツールは、各たんぱく質バリエーションの使用量の違いを定量化することに焦点を当てている。他のツールは、スプライシングイベントがそれらの構造や機能をどのように修正するかを理解するために、たんぱく質の特徴をマッピングするのに役立つ。
これらの進歩にもかかわらず、RNAの変化に基づくたんぱく質配列のすべての変異の可能性を捉える包括的なツールが必要なんだ。
バイオサーフィンの紹介
バイオサーフィンは、RNA、オープンリーディングフレーム(RNAがたんぱく質に翻訳される部分)やたんぱく質自体の3つのレベルで変化を追跡するために設計された新しいツールなんだ。異なるたんぱく質の形の詳細な比較を提供し、変化をそのRNAの起源にリンクさせるんだ。
RNAシーケンスから得られたデータを入力することで、バイオサーフィンツールはこの情報をわかりやすい形式に整理する。RNAのさまざまな変化が作られるたんぱく質にどのように影響するかを分析するのに役立ち、遺伝子データだけからはすぐには明らかにならない洞察を明らかにするんだ。
人データからのたんぱく質バリエーションの分析
バイオサーフィンは、既知の人間の遺伝子データベースから派生した大規模なたんぱく質アイソフォームを分析するのに使われた。これらのたんぱく質を調べることで、研究者たちは異なるたんぱく質機能を引き起こす可能性のある多くの変化した領域を特定した。多くのたんぱく質が複数のバリエーションを持っていて、軽微なRNAの変化でも異なる結果が得られることがわかったんだ。
この分析では、たんぱく質配列の始まり、中間、終わりの違いを調べた。結果、これらの多くの違いは、RNAの直接的な変化から生じるか、フレームシフトのようなより複雑なメカニズムから生じることがわかった。
N末端の変異
変化の大きなエリアは、たんぱく質の始まり、つまりN末端に関わる。ここでの変化は、RNAの異なるスタートポイントから来ることがある。一部のたんぱく質は、あるバリエーションではある配列から始まり、別のバリエーションでは異なるものから始まることがある。これらの変化の理由を追跡することで、多くはRNAの選択的スタート位置に由来することがわかった。
他の変化は、共有されたスタートポイントから生じた。こういったパターンは、RNAの変異がどのようにたんぱく質のバージョンを決定し、それらがどのように異なって機能するかを示しているんだ。
たんぱく質の内部変化
たんぱく質には、RNAの変化によって変わる中間部分があることが多い。たくさんの内部たんぱく質の変異は、特定のスプライシングイベントに関連している。たとえば、エクソンをスキップすることで、最終的なたんぱく質製品に欠落が生じることがある。
一部の変異は、スプライシングイベントの組み合わせから生じ、たんぱく質の構造にもっと大きな変化をもたらす。これらの変化を特定することは、同じ遺伝子から得られるたんぱく質がどのように異なるかを理解するために重要なんだ。
C末端の変異
たんぱく質の終わりでも、C末端と呼ばれる部分で変化が起こる。これらは、異なるストップコドンを導入するRNAの直接的な変化や、リボソームがRNAを読み取る方法が変わるフレームシフトによって生じることがある。これらの変異を理解することで、たんぱく質がどのように形成され、どのように機能する可能性があるかについての洞察が得られるんだ。
異なるコンテキストでのたんぱく質バリエーションの特徴付け
これらのたんぱく質の変化をさらに探るために、研究者たちは様々な生物学的状況での変異を調べた。これは、特定の人間の幹細胞株からのたんぱく質バリエーションを研究することを含み、予測されたバリエーションと既存の遺伝子データベースに見られるものとの比較を可能にしたんだ。
結果は、多くのパターンが一貫している一方で、予測されたアイソフォームはしばしば新たな次元のたんぱく質の多様性を明らかにし、特にC末端の変化では、多くのたんぱく質が以前の注釈には見られないバリエーションを示していた。
変化を機能性に結び付ける
最終的には、たんぱく質の変化を特定のRNA配列に結びつけることで、遺伝子の変異が健康や病気にどう影響するかを理解するのが容易になるんだ。これらのプロセスを分析するためのツールや技術を改善することで、私たちの遺伝子、生成されるたんぱく質、そしてそれらが体の中でどのように機能するかとの複雑な関係をより明確に把握できるようになるんだ。
結論
たんぱく質の多様性とそれを促進するメカニズムの研究は、人間の生物学の複雑さを解明するために不可欠なんだ。バイオサーフィンのようなツールは、これらの複雑さを解きほぐす重要な役割を果たし、研究者がRNAの変異、たんぱく質の多様性、および健康への潜在的な影響との間に深い関連を見出すのを助けるんだ。技術やバイオインフォマティクスの進歩が続く中、この知識を活用して生物学や医学の理解を深める未来が期待できるよ。
タイトル: Biosurfer for systematic tracking of regulatory mechanisms leading to protein isoform diversity
概要: Long-read RNA sequencing has shed light on transcriptomic complexity, but questions remain about the functionality of downstream protein products. We introduce Biosurfer, a computational approach for comparing protein isoforms, while systematically tracking the transcriptional, splicing, and translational variations that underlie differences in the sequences of the protein products. Using Biosurfer, we analyzed the differences in 32,799 pairs of GENCODE annotated protein isoforms, finding a majority (70%) of variable N-termini are due to the alternative transcription start sites, while only 9% arise from 5 UTR alternative splicing. Biosurfers detailed tracking of nucleotide-to-residue relationships helped reveal an uncommonly tracked source of single amino acid residue changes arising from the codon splits at junctions. For 17% of internal sequence changes, such split codon patterns lead to single residue differences, termed "ragged codons". Of variable C-termini, 72% involve splice- or intron retention-induced reading frameshifts. We found an unusual pattern of reading frame changes, in which the first frameshift is closely followed by a distinct second frameshift that restores the original frame, which we term a "snapback" frameshift. We analyzed long read RNA-seq-predicted proteome of a human cell line and found similar trends as compared to our GENCODE analysis, with the exception of a higher proportion of isoforms predicted to undergo nonsense-mediated decay. Biosurfers comprehensive characterization of long-read RNA-seq datasets should accelerate insights of the functional role of protein isoforms, providing mechanistic explanation of the origins of the proteomic diversity driven by the alternative splicing. Biosurfer is available as a Python package at https://github.com/sheynkman-lab/biosurfer.
著者: Gloria Sheynkman, M. Murali, J. Saquing, S. Lu, Z. Gao, B. Jordan, Z. Wakefield, A. Fiszbein, D. Cooper, P. Castaldi, D. Korkin
最終更新: 2024-03-18 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.15.585320
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.15.585320.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。