ゲノムデータによるパンデミック対応の進展
遺伝子配列を使ってCOVID-19の感染動態をよりよく理解する。
Emma B Hodcroft, M. S. Wohlfender, R. A. Neher, J. Riou, C. L. Althaus
― 1 分で読む
COVID-19パンデミックで、SARS-CoV-2ウイルスについての遺伝情報を集めて共有するための大規模な取り組みが行われた。最初の配列が公開されてから4年後、1600万を超える完全ゲノム配列が共有された。この数字は、何十年にもわたって集められたインフルエンザウイルスの配列の数よりもはるかに多い。この期間中、科学者や政府、健康機関は、ウイルスについての理解を深めたり、パンデミックにどう対処するかを探るために、あらゆる手段を駆使しようとしていた。
ウイルスの感染経路を理解することはめっちゃ重要。基本再生産数(R0)や実効再生産数(RE)などの重要な測定値は、現在の制限がウイルスの拡散を抑えられているかどうかを示すのに役立つ。それに加えて、利用可能な多数の配列があるおかげで、遺伝的手法を使って感染動態や他の重要な詳細を推定することができた。
歴史的に、ウイルスの拡散を研究するために使われた多くの手法は、信頼できる症例数が得られなかった早期のアウトブレイク向けに開発されていた。遺伝子配列を使う大きな利点は、通常は取得が難しい詳細なデータが必要なパラメータを推定できること。重要な例として、感染の広がりのばらつきを計測することが挙げられ、これを分散パラメータ(K)で表現できる。kを測るためには、毎日の確認された症例だけでなく、各症例からどれだけの二次症例が発生するかも知る必要がある。パンデミックでは、kは「スーパースプレッディング」イベントの役割を定量化するのに役立ち、制御活動のガイドになる。いくつかの国では、関連する症例のクラスターを使ってkを推定できたが、通常は数千の症例からの詳細なデータに依存している。
COVID-19の症例がうまく抑えられていた場所では、研究者が感染動態を信頼性高く追跡できた。しかし、時間が経つにつれて症例が増え、データセットが小さいと大きなトレンドを完全に捉えられないかもしれない。SARS-CoV-2の配列が豊富にあるおかげで、これらの難しいパラメータをより正確に推定する方法が生まれた。
新しい方法
BlumbergとLloyd-Smithは、接触追跡データなしでR0やRe、kを推定する方法を開発した。この方法は、感染連鎖のサイズ分布に依存していて、これらの連鎖は最終的に広がるのを止めると仮定している。他のウイルス、例えばMERS-CoVにおいては、データの収集が比較的簡単だったため、効果的に使用されていた。
しかし、進行中のCOVID-19パンデミックでは、個別の伝播連鎖を簡単に分離できない。代わりに、多くの連鎖が集まってより大きな症例数を作り出している。この問題に対処するために、私たちは同一の配列のクラスターが感染連鎖の代理として機能する新しいアプローチを提案する。ウイルスは変異するから、各ユニークな遺伝子変異体は変わるまでの限られた時間しか存在できない。そこで、同一の配列の再生産数を症例の実効再生産数に関連づけるために、ゲノム再生産数(Rg)を導入する。
前のモデルを拡張し、ベイズフレームワークを作成することで、ウイルス配列データからReやkを推定できる。これは、ウイルスの感染、変異率、症例の不完全な検出を考慮しながら、配列クラスターのサイズ分布を見た数学モデルを開発することを含む。
データ収集
私たちは、GISAIDという大きなデータベースからすべての利用可能なSARS-CoV-2配列を収集した。分析には、スイス、デンマーク、ドイツからの配列が含まれている。これらの国では、検査や配列決定の方法が異なるため、症例検出のカバレッジも違っている。同一の配列のクラスターを、ウイルス内のヌクレオチド変異の数に基づいて特定した。
2021年を通じて配列を月ごとに整理するために、ある月に1つでも配列がサンプリングされていれば、その月に割り当てた。この期間は、Alpha変異株の重要な到来が含まれており、配列決定の努力が増えたため選ばれた。
数学モデル
私たちのモデルは、ウイルスの伝播クラスターを作成するのを助ける。変異が起こると、これらのクラスターは同一の配列の異なるグループに分かれる。各症例の感染が独立していて、二次症例の数が特定の方法で分布していると仮定した。ユニークなクラスターの数を決定した後、二次症例の数と実効再生産数との関係を確立した。
症例の不完全な検出の問題を取り入れるために、症例が検出されて配列決定される可能性を考慮した。私たちは、同一の配列クラスターのサイズ分布を通じて、Re、k、および症例を検出する確率を推定するために、ベイズ推論モデルを構築した。
結果
実際の配列データを使用して、3つの国から同一のSARS-CoV-2配列の多くのクラスターを特定した。驚くべきことに、小さなクラスターが特定したグループの大多数を占めていた。クラスターの数とサイズのばらつきは、年を通じて観察され、検査や配列決定の速度に影響を受けた。
Reの推定は、主に1未満の流行閾値の下にとどまり、症例が大きく増えていないことを示していた。ただし、推定は年を通じて変動した。スイス、デンマーク、ドイツの平均Reはそれぞれ約0.9、1.04、0.92だった。
分散パラメータkは、これらの国で異なる平均を示し、スーパースプレッディングイベントの違いを示していた。推定は0.15から0.38の範囲で、デンマークがより高い推定を示した。これは、デンマークが感染の制御がうまく、スーパースプレッディングの機会が少なかったことを示唆している。
検査の確率を見たとき、比較的高いことがわかったが、推定はそれほど確実ではなかった。この不確実性のため、他の情報源に基づいてその値を固定した別の分析でこの確率をテストした。
議論
私たちは、パンデミックに対する公衆衛生の対応を通知する重要なパラメータを推定するための新しい方法を開発した。私たちのアプローチは、パンデミック中に収集された大量の遺伝データがSARS-CoV-2の感染動態についての洞察を明らかにするのに使用できることを示している。
この研究には強みがある。ウイルス配列データだけを使ってkを推定できる能力があり、過去には難しかった。また、計算技術を使用することで、複雑な系統樹モデルなしで同一の配列のクラスターを効率的に特定できる。
しかし、限界もある。方法は、正確な推定を提供するために大量のデータと信頼できる検査を必要とする。配列決定での潜在的なエラーは、クラスターの人工的な分離や結合につながるかもしれない。また、症例はランダムに検出されると仮定したが、集中的な検査や接触追跡中はそうならないことがある。
結論
COVID-19パンデミックは、ウイルスの感染の仕組みをより良く理解するためにゲノムデータを活用する新しい道を開いた。私たちの研究は、公衆衛生の決定を導くパラメータを推定するのに有望なベイズモデルを強調している。配列技術が継続的に改善され、よりアクセスしやすくなるにつれて、これらの方法が他の病原体にも適用され、将来的に病気の広がりについての貴重な情報を提供することを期待している。この研究は、パンデミックの追跡や管理における遺伝情報の重要性を明らかにしている。
タイトル: Estimating Re and overdispersion in secondary cases from the size of identical sequence clusters of SARS-CoV-2
概要: The wealth of genomic data that was generated during the COVID-19 pandemic provides an exceptional opportunity to obtain information on the transmission of SARS-CoV-2. Specifically, there is great interest to better understand how the effective reproduction number Re and the overdispersion of secondary cases, which can be quantified by the negative binomial dispersion parameter k, changed over time and across regions and viral variants. The aim of our study was to develop a Bayesian framework to infer Re and k from viral sequence data. First, we developed a mathematical model for the distribution of the size of identical sequence clusters, in which we integrated viral transmission, the mutation rate of the virus, and incomplete case-detection. Second, we implemented this model within a Bayesian inference framework, allowing the estimation of Re and k from genomic data only. We validated this model in a simulation study. Third, we identified clusters of identical sequences in all SARS-CoV-2 sequences in 2021 from Switzerland, Denmark, and Germany that were available on GISAID. We obtained monthly estimates of the posterior distribution of Re and k, with the resulting Re estimates slightly lower than resulting obtained by other methods, and k comparable with previous results. We found comparatively higher estimates of k in Denmark which suggests less opportunities for superspreading and more controlled transmission compared to the other countries in 2021. Our model included an estimation of the case detection and sampling probability, but the estimates obtained had large uncertainty, reflecting the difficulty of estimating these parameters simultaneously. Our study presents a novel method to infer information on the transmission of infectious diseases and its heterogeneity using genomic data. With increasing availability of sequences of pathogens in the future, we expect that our method has the potential to provide new insights into the transmission and the overdispersion in secondary cases of other pathogens. Author summaryPathogen transmission is a stochastic process that can be characterized by two parameters: the effective reproduction number Re relates to the average number of secondary cases per infectious case in the current conditions of transmission and immunity, and the overdispersion parameter k captures the variability in the number of secondary cases. While Re can be estimated well from case data, k is more difficult to quantify since detailed information about who infected whom is required. Here, we took advantage of the enormous number of sequences available of SARS-CoV-2 to identify clusters of identical sequences, providing indirect information about the size of transmission chains at different times in the pandemic, and thus about epidemic parameters. We then extended a previously defined method to estimate Re, k, and the probability of detection from this sequence data. We validated our approach on simulated and real data from three countries, with our resulting estimates compatible with previous estimates. In a future with increased pathogen sequence availability, we believe this method will pave the way for the estimation of epidemic parameters in the absence of detailed contact tracing data.
著者: Emma B Hodcroft, M. S. Wohlfender, R. A. Neher, J. Riou, C. L. Althaus
最終更新: 2024-09-28 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.05.26.24307940
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.05.26.24307940.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。