新しいツールLongTRがタンデムリピートの分析を進化させた
LongTRは、ロングリードDNA配列を使ってタンデムリピートの精度とスピードを向上させるよ。
― 1 分で読む
目次
タンデムリピート(TR)は、DNAの特定の部分で、遺伝子コードの特定の配列が連続して何度も現れるところだよ。主に2つのタイプのタンデムリピートがあって、短いタンデムリピート(STR)は1から6塩基対の繰り返しユニットで、可変数タンデムリピート(VNTR)は7塩基対以上の長い繰り返しユニットから成り立ってる。
これらのタンデムリピートは人間の間で遺伝的なバリエーションを生み出すため重要なんだ。このバリエーションは多くの特性や状態に影響を与え、ときにはメンデル遺伝学に従って特定の方法で遺伝することもある。
タンデムリピート分析の課題
ここ10年で、研究者たちは短いDNA配列を分析するためのさまざまなツールを開発してきたけど、いまだに複雑なタンデムリピートはこれらのツールにとって課題だね。
最近、ロングリードシーケンシング技術の進歩が、これらの複雑なDNA領域を分析するのに有望であることがわかったんだ。短いDNAシーケンス用に設計された従来のツールは、長いシーケンスにはうまく機能しない。リードの長さと精度の違いが、長いリードに直面したときに短いリード手法で明確な答えを得るのを難しくしてる。
LongTRの導入
この課題に対処するために、LongTRという新しいツールが登場したんだ。LongTRは、短いリードデータ用に作られたHipSTRという以前のツールの適応版だよ。LongTRは、PacBioやOxford Nanoporeのような技術からのロングリードシーケンスを使って、STRとVNTRの両方を分析できるんだ。
LongTRは、1つまたは複数のサンプルからDNAシーケンスデータを取り、タンデムリピートの参照セットと一緒に各繰り返し部分のシーケンスと長さを特定することで機能する。このツールは、類似のリードをグループ化して整列させ、遺伝情報を明確にする方法を使ってる。また、各位置での潜在的な遺伝的バリエーションをスコア付けするための高度な統計技術も使用してる。
LongTRの大きな利点は、複数のサンプルを同時に分析できることと、リードの位相を考慮に入れられることだね。長いシーケンスでよく起こるエラーを扱うための特定のモデルも用意されてる。最後に、各遺伝型の品質スコアを報告することで、研究者に結果の信頼性についての洞察を提供してる。
LongTRと他のツールの比較
研究者たちは、PacBioリードからタンデムリピートのジェノタイピング用に設計されたTRGTという別のツールとLongTRを比較した。彼らは、人間のタンデムリピートの参照セットを使って、HG002という有名なサンプルで両方のツールをテストした。
この分析では、LongTRは約569分で作業を終え、TRGTは約662分かかった。両方のツールはほぼすべてのタンデムリピートを分析でき、LongTRは99.78%、TRGTは99.83%のジェノタイピングを行った。両方のツールが同じ遺伝子を呼び出した場合、ほとんどの長さは同じか、1ユニットの違いだった。
精度を評価するため、研究者たちはHG002の高度なゲノムアセンブリからデータを抽出した。このアセンブリはさまざまな技術と方法を使って作られたため、信頼できる情報源として扱われた。分析の結果、LongTRは特に長いリピートでより高い精度を達成したことがわかった。特に、LongTRはTRGTができなかった多くのケースを特定したし、特にリードが不明瞭な複雑な領域やTRGTが誤ったサイズを報告したケースで目立った。
メンデル的一貫性とエラー処理
アシュケナジートリオと呼ばれる家族グループに関する別の研究では、研究者たちはTRジェノタイプの遺伝パターンを追跡する際のLongTRの性能を検査した。LongTRはメンデル遺伝において87%の一貫性を示し、TRGTは79%にとどまった。一貫性は高品質スコアで改善され、LongTRのコールに対する信頼度が高いほど、期待される遺伝パターンにより一致した。
同じ塩基対が繰り返されるホモポリマーリピートに関する特定のケースでは、LongTRとTRGTの両方が苦労した。しかし、LongTRのこれらのシーケンスにおけるエラーをモデル化する能力は、精度の目立った改善を示した。
長いリピートのジェノタイピング
研究者たちは、特にVNTRに関してLongTRの長いタンデムリピートを分析する能力もテストした。彼らは、VNTR専用に設計されたadVNTRという別のツールとLongTRを比較し、両方のツールが96%の一致を見せた。LongTRは大幅に早く、1.5時間で済んだのに対し、adVNTRは約23時間かかった。
LongTRは、ハンチントン病や脆弱X症候群に関連する特定の遺伝子における大きな拡張を特定する能力も示した。これらの状態に特徴的な大きなリピートを成功裏に検出し、他の分析で報告されたカウントと一致した。
複数技術の評価
LongTRの機能は、Oxford Nanoporeのデュプレックスリードという別のロングリード技術を使ってさらにテストされた。このリードは、PacBio HiFiリードに比べて長めだ。両技術から得られたジェノタイプの間には強い一致が見つかった。しかし、LongTRは全体的な精度に関してPacBioリードでより優れたパフォーマンスを示した。
いくつかの大きなリピート拡張はONTデータによって一意に特定され、アセンブリの情報と一致していた。これは、Oxford Nanoporeの長いリードが大きな挿入の検出を向上させることを示唆していて、短いリードを使った分析では難しい領域だね。
LongTRと短リードツールの比較
最後に、研究者たちはLongTRを使用して得られたタンデムリピートのジェノタイプを、短いイルミナリードで動作するHipSTRという以前のツールで得られたものと対比した。両方のツールが評価したジェノタイプのうち、88%が一致し、小さな長さの違いを許容すると97%に上昇した。
しかし、HipSTRは250塩基対以上のリピートに苦しむことが多く、これをホモ接合体の参照として報告するだけで詳細な情報を提供しなかった。これは、長いリピートに関しては短リードツールの限界を示していて、LongTRはうまく対処できた。
結論
LongTRは、ロングリードDNAシーケンスからタンデムリピートを正確に分析するための効果的なツールとして際立ってる。ほぼすべてのタンデムリピートをマッピング可能なゲノムの部分で処理でき、既存の方法を上回る精度と速度を持ってる。
LongTRは大部分のタンデムリピートを解決できるけど、もう少し複雑なケースはいまだに難しいから、マッピングベースのアプローチの限界を浮き彫りにしてる。テクノロジーや手法の将来的な改善、例えばパンジーゲノムやアセンブリベースの技術が、これらの難しい領域の分析を向上させる助けになるかもしれない。
最終的には、これらの進展は、タンデムリピートをより包括的に理解し、広範な遺伝研究に統合することを目指していて、人間の遺伝学や潜在的な健康への影響を理解するのにいろんな応用があるかもしれないね。
タイトル: Genome-wide profiling of genetic variation at tandem repeat from long reads
概要: Tandem repeats are frequent across the human genome, and variation in repeat length has been linked to a variety of traits. Recent improvements in long read sequencing technologies have the potential to greatly improve TR analysis, especially for long or complex repeats. Here we introduce LongTR, which accurately genotypes tandem repeats from high fidelity long reads available from both PacBio and Oxford Nanopore Technologies. LongTR is freely available at https://github.com/gymrek-lab/longtr.
著者: Melissa Gymrek, H. Ziaei Jam, J. M. Zook, S. Javadzadeh, J. Park, A. Sehgal
最終更新: 2024-01-23 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.01.20.576266
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.01.20.576266.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。