ヒトゲノム:コーディング遺伝子の解明
ヒトのコーディング遺伝子の検索と分類を深く探る。
Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress
― 1 分で読む
目次
ヒトゲノムって、細胞が必要な情報を与えてくれる巨大な取扱説明書みたいなもので、タンパク質を作るためのものなんだ。それが生命の基本。科学者たちが最初にヒトゲノムを解析したとき、25,000から40,000の遺伝子がタンパク質をコーディングしてるって推定したんだけど、研究が進むにつれてその数は19,000から22,000に修正されたんだ。じゃあ、余分な遺伝子たちはどうなったの?ただの夢幻の産物だったの?
何年もの間、多くの研究チームが私たちのゲノムを分析して、本当のコーディング遺伝子を特定するために懸命に働いてきた。その結果、どの遺伝子が本物でどれがニセモノかを理解する手助けになった。まるで「誰だ?」ゲームみたいに、研究者たちは実際にタンパク質を生成する遺伝子と単にそう見える遺伝子を見極めようとしている。
コーディング遺伝子を探す
コーディング遺伝子を特定するのは、リストの中で名前を探すだけじゃない。科学者たちは遺伝子が本当にタンパク質を生成できるかどうかを判断するために、いろんな証拠を使うんだ。実験データや、異なる種でどのくらい保守されているかを見たりする。もし遺伝子が保守されてるなら、それはおそらく基本的な目的を持ってるってことだし、コーディング遺伝子である可能性が高くなる。
新しいコーディング遺伝子は、実際に存在することを示す証拠が十分にあるときにリストに追加される。でも、データが増えるにつれて、遺伝子のステータスが変わることもある。ある意味、キャラクターが頻繁に立ち位置を変えるソープオペラを見ているようなもんだ!
研究チームの役割
私たちのゲノムのコーディング遺伝子を分析するために、3つの主要な研究グループが協力してる:Ensembl/GENCODE、RefSeq、UniProtKB。それぞれがコーディング遺伝子の定義に独自の見解を持っていて、ゲノム座標やタンパク質データを使ってリストをまとめてるんだ。ただ、基準が異なるため、同じ映画の脚本を解釈するのが違ったように、食い違いが生じてる。
たとえば、擬似遺伝子のWASH6Pは、このドラマの中で地位を何度も変えたキャラクター。コーディング遺伝子の型にはまらない、まさに遺伝子界のディーバだ!
数のゲーム
昔はコーディング遺伝子の推定総数がすごく高かったんだけど、研究者たちがデータに深く潜っていくと、数が減り始めた。より厳密な分析で、実際の数は20,000に近いかもしれないということがわかった。まるでビュッフェに行って、お皿を高く積んで、実際には半分しか食べられないと気づくようなもんだ。遺伝子のビュッフェが現実チェックをしてくれたんだ!
面白いことに、最近の報告ではコーディング遺伝子の数が再び増えているらしい。この増加は、研究者たちが以前は見逃していたかもしれない小さなオープンリーディングフレーム(ORF)を活発に探しているからだ。これらの小さな遺伝子は、コーディング世界の隠れた宝石かもしれないし、科学者たちはそれを見つけるために奮闘してる。
誤分類の課題
コーディング遺伝子の探索は難しいことがあるよね。多くの研究者は新しいコーディング遺伝子を見つけ出すことに集中してる。なぜなら、予測されたコーディング遺伝子がタンパク質を生成しないことを証明する方が難しいことが多いから。宝探しのようなもので、人々は金を掘り出す方が、土をふるい分けるよりもモチベーションが高いんだ。
いくつかのグループは、誤分類された遺伝子を特定しようと試みてる。画期的な分析では、多くの新しく注釈された遺伝子がコーディング遺伝子ではなく、ノンコーディングRNAに似ていることがわかった。一つのグループは、約20,500のコーディング遺伝子があると推定する一方で、別のグループは20,000未満だと予測した。まさに家族の争い、明確な勝者はいない!
何年もの間、研究者たちは何千もの遺伝子を潜在的なノンコーディングとしてフラッグ立てて、再分類の狂騒が巻き起こった。新しい証拠が入るたびに、何度も再分類された遺伝子もあるんだ。いつまでたっても椅子取りゲームのような感じで、毎回音楽が止まるたびに誰かの席が奪われてしまう!
リストの統合
この複雑な状況に取り組むために、研究者たちは3つの主要な参照セット(Ensembl/GENCODE、RefSeq、UniProtKB)を統合して、より統一された遺伝子リストを作成した。その結果、約22,210のコーディング遺伝子が注釈されたんだ。ただ、興味深いことに、注釈されたコーディング遺伝子の8分の1は、3つのグループすべてから承認スタンプを受けていなかった。まるで、服装に関する3つの異なる意見をもらっているようなもので、一つは大好き、もう一つは大嫌い、三つ目はただ混乱してる。
さらに精査と分析の後、実際に3つのセットでリストされた遺伝子の数は、以前の統合よりも少なかったことがわかった。実際、研究者たちはコーディングステータスに合意がない2,606の遺伝子を特定した。これらの遺伝子は、コーディングクラブに属するかどうかでまだ論争中なんだ。
コーディングステータス:評決
コーディングとして注釈された遺伝子の中で、約19,267は3つの研究チームによってコーディングだと見なされた。ただ、残りの遺伝子については、ソーティングプロセスの中で、リードスルージーン、擬似遺伝子、他のさまざまなステータスが明らかになって、コーディングステータスの状況がかなり複雑になることを示している。まるで洗濯物を仕分けているような感じで、白物だけだと思っていたら、急に赤い靴下が混ざってるみたい!
これらの交差しない遺伝子のステータスを特定するために、研究者たちは参照セットの遺伝子注釈を調べて、共通のステータスを見つけた。ある遺伝子はリードスルージーンと分類され、それらの全トランスクリプトがリードスルートランスクリプトであることを意味する。一方で、他の遺伝子は擬似遺伝子と見なされて、基本的に時間が経つにつれて機能を失った遺伝子ってことだ。
潜在的なノンコーディング特徴って?
明確さを求める中で、研究者たちはコーディング遺伝子のための潜在的なノンコーディング特徴を定義した。彼らはさまざまなソースからデータを集めて、コーディングプロファイルに合わないかもしれない遺伝子を特定する手助けになる基準を考案した。これらの特徴は赤旗として機能して、タンパク質生成の候補にならないかもしれない遺伝子を指摘している。
非同義対同義比のような統計的手法を使って、研究者たちはどの遺伝子が潜在的なノンコーディングの基準を満たしているかを評価した。彼らは疑わしいリストを絞り込み、最新の分析で1,118の遺伝子を特定した。
どうして一部の遺伝子が見逃されるの?
遺伝子がコーディングとして誤分類される理由が気になるよね。これは、いくつかの遺伝子が以前はコーディングの兆候を見せていたかもしれないけど、サポートする証拠が欠けているからなんだ。
たとえば、擬似遺伝子としてフラッグ立てられた遺伝子でも、オープンリーディングフレームが無傷の場合があるけど、機能するタンパク質の証拠が欠けているのが、彼らの本当の性質を示す重要な手がかりなんだ。最近何も出演していない映画スターが、まだファンがいるみたいなもんだ。過去の栄光が必ずしも今も現役とは限らない!
リードスルージーンの謎
リードスルージーンは特別に言及すべきだね。これらの遺伝子は、全トランスクリプトがリードスルーと分類されるユニークなカテゴリだ。これらの遺伝子は時々、本当のコーディング遺伝子と間違えられやすいけど、実際には機能するタンパク質を生成しないことも多い。
研究者たちはリードスルージーンのコーディングステータスを引き続き調べていて、多くの人がこれらの遺伝子は再分類されるべきだと考えている。さらなる証拠が明らかになるにつれて、コーディング遺伝子の状況は変化し続けていて、科学者たちはリストを正確に保つために気を配っている。
合意形成への努力
研究者たちは、コーディング遺伝子の数について合意を形成することが科学コミュニティにとって重要だと認識している。これは基本研究だけでなく、臨床応用にも重要だよね。参照セットに誤分類された遺伝子が多すぎると、大規模な生物医学実験が混乱し、誤った結果を導く可能性がある。
科学者たちがリストを調和させるために協力する中で、最終的に真のコーディング遺伝子のセットに合意できることを願っている。このプロジェクトには、様々な研究グループ間での協力とオープンなコミュニケーションが必要で、全員が同じページにいることを確保する必要がある。だって、みんなが異なるルールでゲームをしようとするのは面白くないからね!
コーディング遺伝子の変わりゆく風景
技術の進歩とデータの増加に伴って、コーディング遺伝子の風景は常に進化している。研究者たちは、まだあまり研究されていない小さな遺伝子に注目していて、そこに新たなタンパク質コーディングの可能性があるかもしれないと考えている。多くの研究者が、これが小さなORFに焦点を当てる始まりに過ぎないと考えていて、さらなる発見が近づいているかもしれない。
最近のCHM13アセンブリの完成は、多くの新しい遺伝子が特定され、研究コミュニティの中での興奮を引き起こした。これらの新しい遺伝子の多くは、大規模に重複したファミリーから来ているけれど、それがフィールドに導入されることで、コーディング遺伝子の理解を変える可能性がある。
結論:遺伝子注釈の未来
コーディング遺伝子を検出し、検証するプロセスは、協力、オープンマインド、そして最も重要なのは忍耐を必要とする複雑な、継続的な努力だ。新しい分析ごとに、研究者たちはパズルを組み立てながら、ヒトゲノムの理解を深めている。
データベース間の食い違いを解消し、コーディング遺伝子のリストを見直し続ける中で、研究者たちは最終的に私たちのゲノムにおけるコーディング遺伝子の定義が明確で正確なものになることを期待している。だから、探求は大変そうに見えるけど、科学者たちはそれに取り組む準備ができている—証拠、協力、そしておそらく、途中でコーヒーブレイクを交えながらね。
タイトル: More than 2,500 coding genes in the human reference gene set still have unsettled status
概要: In 2018 we analysed the three main repositories for the human proteome, Ensembl/GENCODE, RefSeq and UniProtKB. They disagreed on the coding status of one of every eight annotated coding genes. The analysis inspired bilateral collaborations between annotation groups. Here we have repeated our analysis with updated versions of the three reference coding gene sets. Superficially, little appears to have changed. Although there are slightly fewer genes predicted as coding overall, the three groups still disagree on the status of 2,606 annotated genes. However, a comparison without read-through genes and immunoglobulin fragments shows that the three reference sets have merged or reclassified more than 700 genes since the last analysis and that just 0.6% of Ensembl/GENCODE coding genes are not also annotated by the other two reference sets. We used eight features indicative of non-coding genes to examine the 21,873 coding genes annotated across the three reference sets. We found that more than 2,000 had one or more potential non-coding features. While some of these genes will be protein coding, we believe that most are likely to be non-coding genes or pseudogenes. Our results suggest that annotators still vastly overestimate the number of true coding genes.
著者: Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress
最終更新: 2024-12-09 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.12.05.626965
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.12.05.626965.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。