Simple Science

最先端の科学をわかりやすく解説

# 生物学# ゲノミクス

人間のゲノムにおけるコピー数変異の理解

研究が遺伝子コピーのバリエーションとその健康への影響を明らかにした。

Mark Chaisson, W. Ma

― 1 分で読む


遺伝子コピーの洞察が明らか遺伝子コピーの洞察が明らかになった異が明らかになったよ。新しい方法で健康に影響を与える遺伝子の変
目次

人間のゲノムには特定の遺伝子のコピー数に変化がよく見られるんだ。これらの変化は主に二つの方法で起こる: 複製っていう余分なコピーが作られる場合と、削除っていうコピーが失われる場合だ。これらの変化をまとめてコピー数変異(CNV)って呼ぶんだ。人間のゲノムのタンパク質コーディング遺伝子の約10%がコピー数に違いがある可能性があるよ。この変異は人口によって異なることがあって、体重指数やがん、心臓病みたいな様々な特性に影響を与えることがあるんだ。

CNVはゲノム全体に散らばってるけど、繰り返しの配列がある特定の領域、いわゆるセグメンタル重複は、これらの変異に寄与しやすいんだ。この遺伝子コピーの頻繁な変化は、異なる家系や関連する遺伝子のグループを生むことになる。CNVを引き起こすプロセスは、これらの遺伝子領域で変異のリスクを高めることもあるんだ。これが遺伝子の機能に違いをもたらすことがあって、それが健康や高血圧、2型糖尿病みたいな特定の病気のリスクに影響することがあるよ。驚くことに、CNVを示す遺伝子の多くは人間特有で、脳の機能に密接に関連してるんだ。

でも、標準的な参照に一致しない遺伝子の重複に関する情報はまだ限られてるんだ。特にDNAを解析する特定のシーケンシング方法を使うときにはね。今のところ、CNVを特定するためのツールは主にコピー数を数えることに重点を置いてて、実際の遺伝子の違いを調べることにはあまり焦点を当てていないんだ。さらに、シーケンスデータを参照ゲノムに整列させると、エラーやバイアスが入ることもあるんだ。

最近のシーケンシング技術の進歩で、DNAの単一分子をキャッチできるようになって、さまざまな人口からの遺伝子配列の詳細なカタログを作ることが可能になったんだ。この新しい方法はCNVをよりよく特定するのに役立つけど、遺伝情報の複雑さのせいで依然として挑戦があるんだ。特に異なる人口が時間とともに進化するにつれてね。

この挑戦に対処するために、ctyperっていう新しい方法が開発されたんだ。この方法は、さまざまなゲノムプロジェクトから集めた遺伝子配列の大規模データベースを使って、遺伝子のコピー数を分析するのに役立つんだ。これによって、ctyperは単一の参照ゲノムと比較することで生じるバイアスを避けられて、他の分析では見落とされるかもしれない違いを明らかにできるよ。ctyperのおかげで、研究者たちはより効果的に大規模な遺伝データを研究できるようになったんだ。特に大規模な人口から遺伝情報を集めるバイオバンクにとっては特に役立つよ。

パンゲノムアレル:遺伝子を分類する新しい方法

CNVを示す遺伝子を扱うとき、研究者たちはそれをパンゲノムアレルって呼ばれるグループに分類しようとしてるんだ。これは、さまざまな個体の遺伝子配列を見て、共通する特徴を特定することを含んでる。異なるゲノムアセンブリの助けを借りて、これらの配列は変異を含む遺伝子のセグメントを表すパンゲノムアレル(PA)に整理されるんだ。それぞれのPAは完全な遺伝子とその近くの要素を含むこともあれば、組換えによって変わりにくい小さな部分であることもあるんだ。

これらのPAのデータベースを作成する過程で、研究者たちは何千ものPAを特定したんだ。これらのPAの長さは様々で、ほとんどが完全な遺伝子で構成されてる。研究者たちはその後、これらのPAが遺伝子カテゴリー内および間でどのように異なるかを分析して、これらの変異が個体の健康にどのように影響するかを理解する手助けをしてるんだ。

遺伝子サンプルを分析するために、ctyperはDNAサンプルのこれらのPAのユニークな部分を数えて、どれだけのコピー数と変異が存在するかを推定するんだ。このアプローチは、特定の特性や病気に関連する遺伝子をジェノタイプするための洗練された方法を提供して、個体の遺伝的な構成をより明確に表現できるようにしてるんだ。

Ctyperの仕組み

ctyperを使うにはいくつかのステップがあるよ。最初に、研究者たちは様々な遺伝子アセンブリを含む大規模データベースから遺伝情報を集めるんだ。これらのデータを比較することで、遺伝子コピーの数に関するパターンを特定できるんだ。ctyperの方法は、この情報を処理して、任意のサンプルに存在する遺伝子コピーの詳細なマップを生成するんだ。

正確性を確保するために、ctyperは1000 Genomes Projectを含むさまざまなデータセットでテストされてるんだ。これは何千人もの個体からのデータを含んでるよ。この方法は、遺伝子コピーのバランスをチェックして、それを既知の配列と一致させることに焦点を当ててる。このプロセスは、遺伝子配列が繰り返されるゲノムの領域でデータ処理中に発生するかもしれないエラーを減らすのにも役立つんだ。

実際のテストでも、ctyperは高い精度を示してる。多くのジェノタイプが既存の遺伝データと密接に一致してて、遺伝子コピーの変異を効果的に特定できることを示してる。このアプローチは、健康や病気に焦点を当てた研究に適してて、大規模なデータコレクションを合理的な時間内に分析することを可能にしてるんだ。

遺伝子変異におけるトレンドと人口の多様性

これらの遺伝子変異が異なる人口にどのように現れるかを研究する際、研究者たちは主成分分析(PCA)などの手法を使ってるんだ。この分析は、遺伝子コピー数に基づいて異なる人口がどのように遺伝的に関連しているかを視覚化するのに役立つんだ。これはしばしば、地理的または民族的背景に沿ったクラスタを示して、どのように歴史的や環境的要因が遺伝的多様性を形作るかを示してるよ。

データからは、特にアフリカの特定の人口が遺伝子コピーの数が多い傾向があって、これは歴史的な食事の好みや他のライフスタイル要因に関連しているかもしれないって分かったんだ。例えば、炭水化物の消化に関連する酵素アミラーゼに関連する遺伝子の変異は、異なるグループの間で大きく異なることがわかったよ。

遺伝子の発現とその影響に関する洞察

コピー数を超えて、これらの変異が遺伝子の発現にどのように影響するかを理解することは重要だよ。遺伝子の発現は、存在する遺伝子コピーの数によって変わることがあって、特定の変異体が異なる影響を持つことがあるんだ。例えば、いくつかの遺伝子のコピーはより高い発現レベルを持つ一方で、他のものは機能が低下することがあるって研究で示されてるんだ。

研究は、特に脊髄性筋萎縮症のような特定の病気に重要なSMN遺伝子に焦点を当ててきたんだ。遺伝子コピー数に関連する発現レベルを分析することで、科学者たちはどの遺伝子変異が病気への感受性や抵抗性につながるかを特定できるんだ。

同様に、アミラーゼの遺伝子の分析は、その発現が近くの遺伝子の存在によって影響されることを示しているんだ。この発見は、なぜ特定の人口が炭水化物を異なるように処理するのか、その理由を説明するのに役立つし、特定の環境で栄養上の利点をもたらすこともあるんだ。

課題と今後の方向性

ctyperを使ってCNVを理解する上でかなり進展があったけど、まだ克服すべき課題があるんだ。一つには、非常に小さな変異の検出を完全にサポートするための追加の手法が必要なんだ。現在のツールは、特定された遺伝子コピー数に対する信頼度スコアを提供していないから、正確性についていくつかの疑問が残ってるんだ。

高次元の遺伝データを分析することの複雑さも解釈を妨げることがあるよ。新しい高品質の参照ゲノムが利用可能になるにつれて、ctyperみたいな方法は、遺伝的変異を特性や状態に結びつけようとしている研究者にとって、ますます価値が高まっていくと思うんだ。

要するに、コピー数変異を理解することは遺伝学において重要で、人間の健康や病気に大きな役割を果たしているんだ。シーケンシング技術の進歩やctyperのような新しい方法のおかげで、研究者たちは異なる人口でのこれらの変異がどのように個々の特性に影響を与えるかの詳細をよりよく分析できるようになったんだ。この研究は遺伝学や健康に与える影響を理解するための可能性を秘めているんだ。

オリジナルソース

タイトル: Genotyping sequence-resolved copy-number variation using pangenomes reveals paralog-specific global diversity and expression divergence of duplicated genes

概要: Copy-number variable (CNV) genes are important in evolution and disease, yet sequence variation in CNV genes is a blindspot for large-scale studies. We present a method, ctyper, that leverages pangenomes to produce copy-number maps with allele-specific sequences containing locally phased variants of CNV genes from NGS reads. We extensively characterized accuracy and efficiency on a database of 3,351 CNV genes including HLA, SMN, and CYP2D6 as well as 212 non-CNV medically-relevant challenging genes. The genotypes capture 96.5% of underlying variants in new genomes, requiring 0.9 seconds per gene. Expression analysis of ctyper genotypes explains more variance than known eQTL variants. Comparing allele-specific expression quantified divergent expression on 7.94% of paralogs and tissue-specific biases on 4.7% of paralogs. We found reduced expression of SMN-1 converted from SMN-2, which potentially affects diagnosis of spinal muscular atrophy, and increased expression of a duplicative translocation of AMY2B. Overall, ctyper enables biobank-scale genotyping of CNV and challenging genes.

著者: Mark Chaisson, W. Ma

最終更新: 2024-10-24 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.08.11.607269

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.08.11.607269.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事