ゲノムビルドの比較: GRCh37 と GRCh38
研究者たちはGRCh37とGRCh38のゲノムビルドを比較して、バリアント検出の重要な違いを明らかにした。
― 1 分で読む
目次
2001年に、科学者たちは人間のゲノムの最初のバージョンをまとめ終わったんだ。これは遺伝的な指示書みたいなもので、それ以来、何千ものミスを見つけて修正したり、個人によって異なる部分を特定したり、もっと多様な人々を研究に含めたりしてきたんだ。その結果、いくつかのアップデートされたバージョン、つまり「ビルド」が出てきたけど、それぞれのビルドには独自のセクション番号の付け方があるんだ。あたかも同じ本の異なる版がそれぞれ異なるページ番号を持っているような感じ。
これらの新しいビルドは一般的にもっと正確だけど、研究や医療でみんながそれを使うようになるには時間がかかるんだ。その大きな理由の一つは、このデータを扱うコンピュータシステムを更新するのにお金と時間がかかるから。研究者たちが新しいビルドを使いたいと思ったら、すべてのシーケンシングデータを再整列させる必要があって、たくさんの生データを保存したり、かなり重い計算をこなさなきゃいけないんだ。時間とお金を節約するために、科学者たちは「ライフトバー」っていうツールを作って、ゲノム座標を一つのビルドから別のビルドに変換できるようにしたんだ。これは、レシピをメートル法からインペリアル単位に変換するのに似てる。
でも、この便利なツールは主に個別の変異よりも大きなゲノムの塊を扱うために設計されてるんだ。もし単一の変異を一つのビルドから別のビルドに移動するために使うと、エラーが起きることがあって、これらのエラーがどんな問題を引き起こすかはっきりしないこともある、特に遺伝子の複雑な変化に関してね。
グレートバリアントショーダウン: GRCh37 vs. GRCh38
そこで、研究者たちは二つの人気のあるゲノムビルド、GRCh37とGRCh38を比較することにしたんだ。彼らは50組の腫瘍と正常組織からDNAを調べて、同じツールとプロセスでデータを分析したんだ。シーケンシングデータを両方のビルドに合わせることで、どの変異がそれぞれで検出されたかを見れたんだ。その後、GRCh37で見つけた変異をGRCh38に変換して比較したんだ。
彼らは4種類の遺伝的変化を詳しく見たんだ:通常の単一ヌクレオチド変異、構造変異、腫瘍組織にのみ現れる体細胞単一ヌクレオチド変異、そして体細胞構造変異。
彼らが見つけたこと: 生殖細胞系変異 vs. 体細胞変異
結果をまとめると、通常の遺伝的変化は両方のビルドで似ていて、93%を超える重複があったんだ。でも、GRCh37で見つかった約166,700の特定の変異はGRCh38には現れなかった。構造変異については数字が少なくて、個人ごとに約900のユニークな変化だった。GRCh38に合わせたデータを分析した結果、研究者たちはGRCh37よりも多くの構造変異を特定していたんだ。
体細胞変異については、少し難しくなった。単一ヌクレオチド変異の約82%と構造変異の53%しか両方のビルドで現れず、かなりの不一致があったよ。平均して、研究者たちはGRCh37で3,600以上のユニークな体細胞変異を見つけたけど、GRCh38ではそれ以上の変化があった。
不一致の謎
さらに深く掘り下げるために、研究者たちは各ビルドでの遺伝的呼び出しがどれくらい不一致だったかを計算したんだ。彼らは3つの異なる精度の指標を調べて、通常の遺伝的変異の不一致は体細胞変異に比べてずっと低いことがわかったよ。例えば、通常の単一ヌクレオチド変異の不一致は約3.8%しかなかったけど、体細胞単一ヌクレオチド変異の不一致率は26%近くまで上がった。
この不一致は、もし研究者が分析にGRCh37を使い続けると、重要な体細胞変異を見逃す可能性があることを示唆してるんだ。これはまるで「ウォーリーをさがせ!」の違う版を使ってウォーリーを探そうとするようなもの。研究者たちは、異なるタイプの構造変異は不一致のレベルが様々であることにも気づいた。それで、欠失や挿入はよく一致するけど、重複は混乱を招くことが多いんだ。
ゲノム全体の変動性
研究者たちは、不一致がゲノムのどこにランダムに分布しているのかも調べたんだ。すると、いくつかのエリアは他のエリアよりも明らかに問題が多いことがわかった。特に1つのセクションには、16,784の遺伝的変化があったけど、それと同時に高い不一致率もあったんだ。
他の要因もこれらの結果を理解するのを複雑にしているよ。たとえば、体細胞単一ヌクレオチド変異の不一致は、低い品質スコアと高いGC含量に関連していることが多かった。研究者たちは、特定のゲノムの部分が何回シーケンスされたかを示すカバレッジレベルが、これらの不一致に影響を与えることも観察したんだ。
偽陽性と検証
見つかった違いのほとんどは、変異検出プロセスのエラーによって説明できるかもしれない。研究者たちはターゲットを絞った深層シーケンシングを使って、自分たちの発見を検証しようとしたんだ。確認された変異は93%以上の検証率があったけど、各ビルドからのユニークな変異は偽陽性である可能性が高くて、GRCh37特有の変異の約34.6%とGRCh38特有の変異の51.3%が検証されたんだ。
StableLiftの導入: 新しいツール
こうした発見を受けて、科学者たちはStableLiftっていう新しいツールを紹介したんだ。この機械学習アプローチは、多くのデータ特徴を使って、任意の変異が異なるゲノムビルドで現れる可能性を計算するんだ。研究者たちは同じ50組の腫瘍-正常ペアのデータでStableLiftをトレーニングして、他のデータセットで検証したんだ。
StableLiftは特に通常の単一ヌクレオチド変異に対して高い精度を示して、問題のある変異呼び出しを多く取り除いたから、分析がよりクリーンで信頼性の高いものになったんだ。研究者たちは構造変異にもStableLiftを適用して、似たような素晴らしい結果を得たよ。
結論: 注意の呼びかけ
この研究は、研究者たちが異なるゲノムビルド間でデータを扱う方法に大切な光を当てているんだ。最新のゲノムビルドを使うのは簡単だけど、まだ多くの人が古いGRCh37を使っていて、それが誤解を招く結論につながることもあるんだ。
遺伝学の分野が進化し続けている中で、線形のゲノム参照からより複雑なモデルへ移行するにつれて、不一致を管理することはさらに重要になってくるんだ。StableLiftのようなツールを使えば、研究者たちはこうした課題をよりよく乗り越えられて、エラーを減らし、私たちの生物学的指示書における遺伝的変異を理解できるようになるんだ。
次に誰かが人間のゲノムについて話すときは、料理に似てるってことを思い出してね。正しいレシピ、正しい材料、そして時にはどの版の料理本を使ってるのかを知る必要があるよ!
タイトル: StableLift: Optimized Germline and Somatic Variant Detection Across Genome Builds
概要: Reference genomes are foundational to modern genomics. Our growing understanding of genome structure leads to continual improvements in reference genomes and new genome "builds" with incompatible coordinate systems. We quantified the impact of genome build on germline and somatic variant calling by analyzing tumour-normal whole-genome pairs against the two most widely used human genome builds. The average individual had a build-discordance of 3.8% for germline SNPs, 8.6% for germline SVs, 25.9% for somatic SNVs and 49.6% for somatic SVs. Build-discordant variants are not simply false-positives: 47% were verified by targeted resequencing. Build-discordant variants were associated with specific genomic and technical features in variant- and algorithm-specific patterns. We leveraged these patterns to create StableLift, an algorithm that predicts cross-build stability with AUROCs of 0.934 {+/-} 0.029. These results call for significant caution in cross-build analyses and for use of StableLift as a computationally efficient solution to mitigate inter-build artifacts.
著者: Nicholas K. Wang, Nicholas Wiltsie, Helena K. Winata, Sorel Fitz-Gibbon, Alfredo E. Gonzalez, Nicole Zeltser, Raag Agrawal, Jieun Oh, Jaron Arbet, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros
最終更新: Nov 3, 2024
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.31.621401
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.31.621401.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。