人間ゲノムの拡張を理解する
最近の人間とマウスのゲノムカタログ作成の進展が新たな洞察を明らかにしてる。
Gazaldeep Kaur, Tamara Perteghella, Sílvia Carbonell-Sala, Jose Gonzalez-Martinez, Toby Hunt, Tomasz Mądry, Irwin Jungreis, Carme Arnan, Julien Lagarde, Beatrice Borsari, Cristina Sisu, Yunzhe Jiang, Ruth Bennett, Andrew Berry, Daniel Cerdán-Vélez, Kelly Cochran, Covadonga Vara, Claire Davidson, Sarah Donaldson, Cagatay Dursun, Silvia González-López, Sasti Gopal Das, Matthew Hardy, Zoe Hollis, Mike Kay, José Carlos Montañés, Pengyu Ni, Ramil Nurtdinov, Emilio Palumbo, Carlos Pulido-Quetglas, Marie-Marthe Suner, Xuezhu Yu, Dingyao Zhang, Jane E. Loveland, M. Mar Albà, Mark Diekhans, Andrea Tanzer, Jonathan M. Mudge, Paul Flicek, Fergal J Martin, Mark Gerstein, Manolis Kellis, Anshul Kundaje, Benedict Paten, Michael L. Tress, Rory Johnson, Barbara Uszczynska-Ratajczak, Adam Frankish, Roderic Guigó
― 1 分で読む
目次
ヒトゲノムは、体がどう成長し、発展し、機能するかを教えてくれる大きな説明書みたいなもんだよ。もし体が車だとしたら、ゲノムはオーナーズマニュアルみたいなもので、各パーツがどう動くかや、何かがうまくいかない時にどうするかを書いてる。このマニュアルには、私たちを作り上げる遺伝子情報がDNAに保存されてるんだ。
ゲノム配列決定の初期
2001年に、科学者たちはヒトゲノムの初期の草案を発表した。長い本の最初の数章みたいなもんだよ。20年が経って、彼らはこのマニュアルの完全版を作成し、何百万もの個別のゲノムを含めたんだ。お気に入りのシリーズをようやく読み終えたって感じ!
これらのゲノムに保存されている情報はめっちゃ貴重で、科学者たちは人間の生物学をもっと知り、病気を治す新しい方法を開発するのに役立ってる。でも、この情報を理解するためには、遺伝子の信頼できる地図が必要なんだ。DNAの変異が私たちの特性にどう影響するかを知るためのGPSみたいなもんだね。
遺伝子数の予測
研究者たちが最初に人間が持つ遺伝子の数を予測し始めたとき、彼らの見積もりはバラバラだった。3万から4万の間だって言う人もいれば、2万7千から3万9千だって思ってる人もいた。まるで瓶の中のジェリービーンズを数えるみたいな感じで、みんな違う予測をしてたんだ!
ENCODEプロジェクト:DNAの地図作り
この遺伝子情報を理解するのを助けるために、ENCODEプロジェクトが始まった。ENCODEは、特定の役割を持つDNAの重要な部分をマップする探検家たちのグループみたいなもんだ。それから、GENCODEっていう、全ての遺伝子とそのいろんなバージョンをカタログ化する仲間のプロジェクトもできた。まるでDNAの百科事典みたいだね。
年月が経つにつれて、GENCODEはRefSeqっていう別のプロジェクトとともに重要な参考資料になった。これらのコレクションは、科学者たちが遺伝子について語るときの究極の図書館みたいなもんだ。
タンパク質コーディング遺伝子の安定性
かなり前から、GENCODEにリストされているタンパク質コーディング遺伝子の数は安定してる。これらは私たちの体が機能するのを助けるタンパク質を作る遺伝子だ。一方で、長いノンコーディングRNA(LncRNA)遺伝子は2007年以来、増加してるみたい。成長が鈍化してるみたいだけど、lncRNAはさまざまな生物学的プロセスや病気において重要な役割を果たしてることが分かってきた。
より良いlncRNAデータを求めて
タンパク質コーディング遺伝子のカタログ化が進んでるのに、lncRNAはまだちょっと混乱してる。いろんなカタログが作られてきたけど、一貫性のない方法や異なるデータソースを使ってることが多いんだ。まるで複数のサービスから曲を集めてプレイリストを作るみたいで、いくつかの曲が欠けてたり、間違ったラベルが付いてたりする感じ。
FANTOM CATやCHESSみたいなプロジェクトは、lncRNAに関するデータをもっと集めてきたけど、GENCODEは正確性についての懸念からこの情報を十分に活用してない。それが、lncRNAの注釈のごちゃごちゃした状況を生んで、研究を遅らせてるんだ。
完全なlncRNA注釈の重要性
lncRNAの不完全な注釈の問題に対処するために、GENCODEは完全な長さのlncRNAのカタログ作成を優先事項にしてる。彼らはCapture Long-read Sequencing(CLS)っていう戦略を実施して、コレクションを改善したんだ。異なるlncRNAバージョンを捕まえるための特別なアレイを設計して、人間とマウスのゲノム内の未知の遺伝子も特定したんだ。
先進的な配列技術と慎重に計画されたサンプルコレクションを使って、研究者たちはこの分野で大きな進展を遂げてきた。彼らは人間とマウスのさまざまな組織(脳、肝臓、心臓など)を分析して、新しいデータの豊富さを生み出した。
大発見:新しい遺伝子と転写産物
これらの努力のおかげで、GENCODEは新たに17,931の人間の遺伝子と22,784のマウスの遺伝子をカタログに追加した。これはヒトとマウスのゲノムが最初に草案された以来、遺伝子注釈における最大の拡張なんだ。この新しい遺伝子には人間の体で本当に役割を果たすことを示唆する特徴があることが分かってる。研究者たちは、特定の特性に関連していることも発見し、この新しいデータの信頼性をさらに高めてる。
遺伝子注釈の重要性
完全で正確な遺伝子のカタログを持つことは、体の仕組みを理解するのに重要だ。新しい遺伝子をGENCODEカタログに追加することで、科学者たちは以前は説明なしに置かれていた何百万もの遺伝子データに文脈を提供できる。まるでパズルの欠けていたピースを見つけて、全体像がはっきりする感じだね。
長いノンコーディング転写体のターゲット
最新の研究の目標は、lncRNAの包括的なリソースを作ることだった。GENCODEチームは、さまざまなタイプのlncRNAを含む広範なノンコーディング領域を捕まえるためのターゲティングアレイを設計した。彼らは多くの遺伝子に焦点を当てて、重要な部分がすべて含まれていることを確認しようとしたんだ。
そのために、さまざまな組織からライブラリを作成し、それらを複数の配列技術と組み合わせて、驚異の104の異なるデータセットを生成した。この集めたデータは、ターゲット領域に対して強いサポートを提供し、遺伝子に関する意味のある情報を抽出することができた。
転写モデルの作成プロセス
集めたRNAデータからモデルを作るために、研究者たちはLyRicっていうパイプラインを開発した。このシステムは、多種多様なサンプルをカバーした包括的な転写モデルセットを構築するのを助けたんだ。彼らは人間用に526,000以上、マウス用に483,000の転写モデルを生成したことが分かって、情報の宝庫だよ!
その中には、かなりの数の新しいモデルが含まれていて、これはこれまでに特定されたことがなかったんだ。研究チームは、これらの新しいモデルが本物の転写配列である強い兆候を示していることに気づいた。しかも、これらは組織特異的で、体の異なる部分で独自の役割を果たすかもしれないんだ。
lncRNAはどう違うの?
この研究は主にlncRNAに焦点を当ててたけど、知られたタンパク質コーディング遺伝子に関連する約100,000の新しいモデルも見つけた。この発見は、DNAの中に未発見のタンパク質がもっと隠れているかもしれないことを示唆してる!新たに特定されたタンパク質コーディング遺伝子は、精巣のような組織で検出されて、特定の生物学的機能に関与している可能性があるんだ。
統一されたlncRNAカタログを目指して
この研究の主な目標は、人間とマウスのlncRNAの完全なカタログを作成することだった。革新的な戦略を通じて、研究者たちはGENCODEカタログ内のlncRNA注釈を大幅に増加させることができた。まるで小さな図書館を広大な書籍コレクションに変えるみたいだね!
lncRNAの数は増えたけど、多くはまだ更新されたカタログに含まれてない。これは大きな進歩を示してるけど、もっと包括的な図を作るためにはさらなる作業が残ってるんだ。
整列を通じた知識の拡大
種間の関係をより理解するために、研究者たちは人間とマウスのlncRNAの整列も行った。このプロセスは、これらの2つの種の間にたくさんの遺伝子の対となるものがあることを明らかにした。この関係を特定することで、科学者たちはlncRNAがマウスの研究を通じて人間の生物学にどのように影響を与えるかをより探ることができる。
ゲノムの理解を深める
正確な遺伝子注釈は、遺伝子がどのように機能するのかを理解するだけでなく、個人間での多くのバリエーションを理解するのにも役立つ。研究者たちは、GENCODEカタログの拡張が、ゲノムが変化する時に何が起こるのかを理解するのにどれだけ役立つかを示したんだ。
転写の役割
全体で、研究者たちは私たちのゲノム内に80,000以上の新しい転写開始点(TSS)を発見した。これらのTSSは遺伝子の転写が始まる場所を示していて、異なる組織で遺伝子がどのように活性化されるかについての新しい情報を明らかにすることができる。この研究は、これらの新しいTSSの多くが活発な遺伝子に関連していることを示していて、拡張されたカタログが遺伝子の制御について貴重な洞察を提供することを示してる。
ヒストン修飾の理解
ヒストンの修飾は遺伝子発現を調整する上で重要な役割を果たす。研究者たちは、新たに特定されたTSSのほとんどが候補調整要素(cCRE)によって支持されていることを発見した。これは、遺伝子がオンまたはオフになるタイミングを決定するのに役立つ。この追加のサポートは、人間とマウスの遺伝子調整の理解を深めるんだ。
転写因子の結合
転写因子は遺伝子の転写を開始するのを助けるタンパク質なんだ。研究は、新しいTSSの多くが転写因子の結合データのピークで覆われていることを発見した。これは、これらのTSSが活発であり、遺伝子発現にとって重要である可能性が高いことを示している。
非正規翻訳の可能性
興味深いことに、研究者たちは一部のlncRNAが小さな非正規オープンリーディングフレーム(ncORF)をホストし、それがタンパク質に翻訳される可能性があることを発見した。彼らはlncRNAに翻訳サインを持つ多くの新しいncORFを特定した。これが示すのは、lncRNAにはこれまで考えられていた以上に多くの機能があるかもしれないってこと。新たな研究の扉が開かれるかもしれないね。
ゲノム変異と特性の関連付け
研究者たちは、遺伝的変異(GWAS研究から)の関係が新たに発見されたlncRNAとどれだけ合致するかを調べた。彼らは、新しいlncRNAの境界内にGWASヒットの高い密度があることを発見し、遺伝的変異と観察可能な特性との関連があることを示した。
種間での配列の保存
一般に、lncRNAはタンパク質コーディング遺伝子よりも保存が少なく、つまり配列が異なる種間で広く変わることがある。しかし、新たに特定されたlncRNAは、古い注釈と比較して保存度が高いことが示された。これは、いくつかのlncRNAが進化を通じて維持されてきた重要な役割を果たしている可能性があることを示唆している。
小さなRNA前駆体の発見
マイクロRNAのような小さなRNAは、長いRNA配列から生じることがある。研究者たちは、新たに注釈されたlncRNAの中に追加の小さなRNA前駆体を特定し、知られているマイクロRNAホストの数を増やした。この研究分野は、異なるタイプのRNAがどれほど深く相互に関連しているかを示している。
まとめ:継続的な研究の重要性
ヒトゲノムの物語はまだ終わってない。研究者たちが新しい遺伝子を発見し、注釈を精緻化し続けることで、遺伝学や人間の生物学、病気への理解が深まっていくんだ。新しい情報が加わることで、生命の壮大なタペストリーがより豊かになって、医学や生物学での未来の発見への道を開く。だから、DNAに乾杯しよう-私たちが人間である理由を知る探求は続くんだ!
タイトル: GENCODE: massively expanding the lncRNA catalog through capture long-read RNA sequencing
概要: Accurate and complete gene annotations are indispensable for understanding how genome sequences encode biological functions. For twenty years, the GENCODE consortium has developed reference annotations for the human and mouse genomes, becoming a foundation for biomedical and genomics communities worldwide. Nevertheless, collections of important yet poorly-understood gene classes like long non-coding RNAs (lncRNAs) remain incomplete and scattered across multiple, uncoordinated catalogs, slowing down progress in the field. To address these issues, GENCODE has undertaken the most comprehensive lncRNAs annotation effort to date. This is founded on the manual annotation of full-length targeted long-read sequencing, on matched embryonic and adult tissues, of orthologous regions in human and mouse. Altogether 17,931 novel human genes (140,268 novel transcripts) and 22,784 novel mouse genes (136,169 novel transcripts) have been added to the GENCODE catalog representing a 2-fold and 6-fold increase in transcripts, respectively - the greatest increase since the sequencing of the human genome. Novel gene annotations display evolutionary constraints, have well-formed promoter regions, and link to phenotype-associated genetic variants. They greatly enhance the functional interpretability of the human genome, as they help explain millions of previously-mapped "orphan" omics measurements corresponding to transcription start sites, chromatin modifications and transcription factor binding sites. Crucially, our targeted design assigned human-mouse orthologs at a rate beyond previous studies, tripling the number of human disease-associated lncRNAs with mouse orthologs. The expanded and enhanced GENCODE lncRNA annotations mark a critical step towards deciphering the human and mouse genomes.
著者: Gazaldeep Kaur, Tamara Perteghella, Sílvia Carbonell-Sala, Jose Gonzalez-Martinez, Toby Hunt, Tomasz Mądry, Irwin Jungreis, Carme Arnan, Julien Lagarde, Beatrice Borsari, Cristina Sisu, Yunzhe Jiang, Ruth Bennett, Andrew Berry, Daniel Cerdán-Vélez, Kelly Cochran, Covadonga Vara, Claire Davidson, Sarah Donaldson, Cagatay Dursun, Silvia González-López, Sasti Gopal Das, Matthew Hardy, Zoe Hollis, Mike Kay, José Carlos Montañés, Pengyu Ni, Ramil Nurtdinov, Emilio Palumbo, Carlos Pulido-Quetglas, Marie-Marthe Suner, Xuezhu Yu, Dingyao Zhang, Jane E. Loveland, M. Mar Albà, Mark Diekhans, Andrea Tanzer, Jonathan M. Mudge, Paul Flicek, Fergal J Martin, Mark Gerstein, Manolis Kellis, Anshul Kundaje, Benedict Paten, Michael L. Tress, Rory Johnson, Barbara Uszczynska-Ratajczak, Adam Frankish, Roderic Guigó
最終更新: 2024-10-31 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.29.620654
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.29.620654.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。