進化するSARS-CoV-2のゲノムをシーケンスする際の課題
COVID-19の変異株のシーケンシングに関する進行中の問題を見てみよう。
― 1 分で読む
目次
2020年3月、世界保健機関がCOVID-19をパンデミックと宣言した。その結果、ウイルスの遺伝子、特にSARS-CoV-2を研究するための方法を迅速に作成することになった。4年後、ウイルスは変化し、拡散しやすくなったけど、致死率は低くなった。そのため、ウイルスのゲノムを配列するための世界的な取り組みは減少している。しかし、ウイルスの進化を注視することは依然として重要で、予測不可能なこともあるから、パンデミックの初めに導入した方法を見直して更新する時期が来た。
ゲノム配列決定の仕組み
ウイルスのゲノムを配列決定する一般的な方法の一つは、ポリメラーゼ連鎖反応(PCR)というプロセスだ。この方法は、SARS-CoV-2に対して広く使われていて、他の方法よりも安価で早い。ウイルスの少量を含むサンプルで研究者が作業できるようにする。しかし、ウイルスは常に変化しているので、PCRプロセスに問題が起きることがある。時には、PCRプライマーがウイルスの遺伝物質に結合する場所に変化が起きることもある。もしその変化がプライマーの端に起きると、PCR結果が悪くなっちゃって、研究者は新しいプライマーを作成するか、正確な配列決定のために追加のプライマーを加える必要があるかもしれない。
SARS-CoV-2を配列決定するために使われる最も一般的なプライマーは、アークティックネットワークによって作成され、いくつかの更新が行われた。これらの更新にもかかわらず、ウイルスの変化に対応するのは難しい。一部のプライマー部分の変化はPCR結果に影響を与えず、調整を必要としない。しかし、プライマーからの無関係な遺伝物質は、ウイルスのゲノムを再構築する際の間違いを避けるために、サンプル処理中に取り除かなきゃいけない。
増幅中の誤りに加え、PCR方法は複製のエラーにより余分な遺伝物質を生み出すことがある。このプロセスは、問題を防ぐために2つの異なるグループで行う多くの重複した部分を使う。でも、プライマーが少しでも似ていると、意図しない産物ができることがある。PCRはライブラリ準備中にも行われるので、誤りのリスクを高めることもある。
バイオインフォマティクスの課題
ウイルスの進化は、配列決定されたDNAを組み立てるコンピュータプログラムを複雑にすることがある。ウイルスのゲノムを組み立てるための最も一般的な方法は、参照ゲノムにマッチさせることだ。このアプローチは、カバレッジが低くても結果を提供できるので、いくつかのギャップがあっても完全なゲノムを取得できることがある。ウイルスの遺伝子に対する変更は通常小さいことが予想されていて、この方法で通常キャッチできる。しかし、実際のウイルスと参照ゲノムとの遺伝的距離が増すと、リードを正確にマッピングするのが難しくなる。
ゲノム監視の現行プラクティス
デンマークのスタテンセラム研究所では、2021年6月からSARS-CoV-2ゲノムのルーチン検査を開始し、イリュミナプラットフォームで特定のプロトコルを使用している。ウイルスの変化に対応するために、これらのプロトコルは頻繁に更新されてきた。たとえば、オミクロン株が出現したとき、新しいプライマーがすぐに開発され、使用された。また、元の参照ゲノムはオミクロン構造に基づくものに置き換えられた。
研究の概要
今回の研究では、PCR方法と参考ゲノムの選択が配列結果にどのように影響したかを調べた。3つの主なアプローチを使った。最初に、異なるプライマー方式で配列決定されたサンプルを分析して、同じゲノムをproducedかを確認した。次に、新しい変異体のサンプルに異なる参照ゲノムを使用したときの結果を調べた。最後に、デンマークで新しい変異体の出現に関連して、ベースコール結果の変化を研究した。
サンプル準備
この研究で使用されたサンプルは、パンデミック中の全国スクリーニングから来た。病院やコミュニティから集められた。サンプルは、無菌チューブに保存された鼻拭いで、テストと配列決定のためにラボに送られた。サンプルが到着すると、ウイルス粒子が拭いから抽出される半自動処理システムにかけられた。
SARS-CoV-2の陽性反応が出たサンプルは、さらに配列決定のために準備された。全核酸が収集されて精製され、精製された物質の一部が変異体分析に使用された。cDNAを合成するための特定のキットが使用され、ターゲットPCR濃縮を行うための特定のプロトコルに従ってサンプルが作成された。
PCR濃縮後、サンプルはライブラリ準備を経て、分析のためのデータを生成するために高度な技術で配列決定された。
代替参照ゲノム
この研究では、新しい参照ゲノムが2つテストされた:BA.2変異体のコンセンサスゲノムに基づくものと、BA.2.86変異体のもの。研究者たちは、BA.2変異体の高品質なゲノムを集めて、元のWuhan-Hu-1参照ゲノムと比較することでコンセンサスゲノムを作成した。
ゲノム組み立てプロセス
サンプルは、ルーチン監視用の標準手順に従って処理され、データ分析のために特定のしきい値が設定された。サンプルから生成された配列の品質がチェックされ、あまりにも多くの不確定な塩基や汚染のあるサンプルはフィルタリングされた。品質チェックを通過したゲノムは、さまざまなソフトウェアツールを使用してさらに分析された。
プライマー方式の影響
プライマー方式の選択が配列結果にどのように影響したかを調べるため、研究者たちは2つの異なる方式で810サンプルを配列決定した。異なるプライマーアプローチ間で一部のベースコールが不一致であることがわかった。分析は、多くの不一致がサンプルの増幅方法に関連したあいまいなコールによるものであることを示した。しかし、特定のベースコールの違いも特定された。
あいまいな結果が頻繁に生成される特定の位置に対して追加の分析が行われた。特定のサンプルでは、プライマー領域に問題が見られ、はっきりしないベースコールにつながっていた。一部の位置では、配列内の置換に対して高い一貫性が見られたが、他の位置はより変動があった。
参照ゲノムの違い
新しいBA.2.86変異体を調べたときに、Wuhan-Hu-1参照ゲノムを使用することでいくつかの課題が明らかになった。この変異体のリードは参照と完全にアラインされないことが多く、ゲノム組み立てが不完全または不正確になることがあった。
異なる参照ゲノムに対する反応を比較することで、参照の選択が結果に大きく影響する可能性があることがわかった。新しい参照ゲノムを使うことでいくつかの特徴を明らかにできたが、多くのあいまいなコールは未解決のままだった。
変異体の継続的進化
Artic V5.3.2プライマー方式はオミクロン変異体のために設計された。しかし、BA.2.86変異体の出現はさらに複雑にした。研究者たちは、この新しい変異体の出現に伴い、あいまいなベースコールの頻度がどのように変化したかを調べた。
彼らは、BA.2.86変異体の出現に関して、サンプル間でいくつかの繰り返しのあいまいなコールを特定した。これらのコールの一部はプライマー結合領域でも見られた。推定では、サンプルの最大8%が、新しい変異体が優勢になるにつれてミスアライメントの兆候を示していた。
結論
SARS-CoV-2のゲノムを配列決定する継続的な取り組みは、ウイルスの進化や現在の方法の効果に関連するいくつかの課題を浮き彫りにしている。ウイルスが変わり続ける中で、プライマー方式や配列決定プロセスを常に更新することが重要だ。ターゲットPCR濃縮の問題に対処し、直接配列決定アプローチなどの代替手段を模索する必要があるかもしれない。
タイトル: SARS-CoV-2 sequencing artifacts associated with targeted PCR enrichment and read mapping
概要: Protocols and pipelines for SARS-CoV-2 genome sequencing were rapidly established when the COVID-19 outbreak was declared a pandemic. The most widely used approach for sequencing SARS-CoV-2 includes targeted enrichment by PCR, followed by shotgun sequencing and reference-based genome assembly. As the continued surveillance of SARS-CoV-2 worldwide is transitioning towards a lower level of intensity, it is timely to re-visit the sequencing protocols and pipelines established during the acute phase of the pandemic. In the current study, we have investigated the impact of primer scheme and reference genome choice by sequencing samples with multiple primer schemes (Artic V3, V4.1 and V5.3.2) and re-processing reads with multiple reference genomes. We have also analysed the temporal development in ambiguous base calls during the emergence of the BA.2.86.x variant. We found that the primers used for targeted enrichment can result in recurrent ambiguous base calls, which can accumulate rapidly in response to the emergence of a new variant. We also found examples of consistent base calling errors, associated with PCR artifacts and amplicon drop-out. Similarly, misalignments and partially mapped reads on the reference genome resulted in ambiguous base calls, as well as defining mutations being omitted from the assembly. These findings highlight some key limitations of using targeted enrichment by PCR and reference-based genome assembly for sequencing SARS-CoV-2, and the importance of continuously monitoring and updating primer schemes and bioinformatic pipelines.
著者: Kirsten Maren Ellegaard, V. Gunalan, R. Sieber, S. J. Baig, N. B. Larsen, M. Bennedbaek, J. Bybjerg-Grauholm, L. A. Escobar-Herrera, T. N. G. Hansen, T. H. Thorsen, A. Krusager, G. N. Aasbjerg, N. S. Al-Tamimi, C. Westergaard, C. W. Svarrer, M. Rasmussen, M. Stegger
最終更新: 2024-05-22 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.22.595297
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.22.595297.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。