食中毒の発生を追跡するための新しいツール
DODGEは柔軟な遺伝子解析手法を使って、感染症の発見を改善してるよ。
― 1 分で読む
目次
食中毒は世界中で深刻な健康問題で、毎年何百万もの感染を引き起こしてるんだ。その主な原因菌の一つがサルモネラ・エンテリカで、年間約7800万件の事例があるんだって。アウトブレイクに関わるサルモネラのタイプは主にS. TyphimuriumとS. Enteritidisだよ。これらの菌は農場や環境から来ることが多く、食べ物を通じて広がることがあるんだ。アウトブレイクが起きたときは、どの株が関与してるかをすぐに特定するのが重要で、公共衛生の担当者が感染拡大を抑えるための対策を取れるようにしないとね。
アウトブレイクの特定には、似たような遺伝的特徴を持つ株を認識することが必要なんだけど、バイ菌の集団は多様だから、正しい遺伝的基準を決定するのは簡単じゃないんだ。固定された遺伝的閾値に頼る従来の方法は、すべての状況でうまくいくわけじゃないから、アウトブレイクを特定するためのより柔軟なアプローチが求められているんだ。
より良い検出方法の必要性
全ゲノム解析(WGS)は、科学者が細菌の遺伝的構成を詳しく分析できる強力なツールだよ。WGSを使えば、遺伝的に同一でなくても異なる株の関係を特定できるから、より良いアウトブレイク検出が可能になるんだ。遺伝的に類似している基準で細菌をグループ分けできるからね。
でも、現在のアウトブレイク特定の方法は、ゲノム監視によって生成される膨大なデータに苦しむことが多いんだ。公共衛生機関が病原体を追跡するためにゲノムデータをますます使う中で、長期的にこの情報を効果的に分析できるソフトウェアが急務なんだ。
DODGEの紹介
DODGE(Dynamic Outbreak Detection for Genomic Epidemiology)は、食中毒のアウトブレイクをより効果的に特定するための新しい方法で、ソフトウェアツールだよ。細菌が時間とともに進化し広がる様子に基づいて、遺伝的閾値を柔軟に設定するんだ。古い方法とは違って、DODGEは研究してる細菌の地域的な遺伝的多様性に基づいて基準を適応させることができるんだ。
DODGEは、時間をかけて集められたゲノムデータを分析することによって機能するよ。前回のデータ収集以降に現れた新しい細菌のクラスターを探し出すんだ。ソフトウェアは、細菌間の遺伝的距離と収集時期の両方を考慮して、クラスターをさらに調査する価値があるかどうかを判断するんだ。DODGEを使うことで、公共衛生の担当者は新たな脅威をより明確に理解し、迅速に対応できるようになるんだ。
DODGEの使い方
DODGEは、cgMLSTアレルプロファイルやSNP(単一ヌクレオチド多型)として知られる特定のタイプの遺伝データとともに機能するように設計されてるよ。ユーザーは、承認されたデータベースから直接データを入力できるから、分析が楽になるんだ。このソフトウェアは、遺伝データや収集日、株の分類といった追加情報も扱うことができるんだ。
DODGEのアルゴリズムは、細菌をアウトブレイクを示す可能性のあるクラスタにグループ化するための一連のステップを経て動作するよ。最初に、すべての分離株間の遺伝的距離を計算し、その後、単一リンククラスタリングという方法を使ってグループ化するんだ。各クラスターについて、DODGEはそのクラスター内の細菌が収集された時間の幅をチェックするんだ。もしその時間の幅が事前に設定された制限を超えると、遺伝的閾値を調整し、時間のチェックを繰り返すんだ。このプロセスは、クラスターの時間の幅が指定された制限内に収まるまで続けられるよ。更なる調査が必要なクラスターは、調査クラスターとしてラベル付けされるんだ。
時間をかけたアウトブレイクの追跡
調査クラスターを時間をかけて効果的に特定するために、DODGEは含まれる細菌の遺伝的アイデンティティに基づいてクラスターに名前を付けるよ。これは、細菌株を分類するための既存のシステムを使って行われるから、時間を超えて一貫性が保たれるんだ。クラスターの名前には、その遺伝的アイデンティティと識別に使用された遺伝的閾値が含まれるよ。
DODGEはデータをセグメントごとに処理するから、新しい情報が入るたびに継続的に分析できるんだ。たとえば、数ヶ月分のデータを扱うときは、DODGEはまずメインの研究期間の前に集められた背景データの分析を行うんだ。その後、各週や各月の別々の分析を実施して、新しい調査クラスターがあるか、もしくは広がっているかを特定するんだ。
ケーススタディ:DODGEの適用方法
DODGEは、オーストラリアとイギリスの二つのデータセットを使ってテストされたよ。
オーストラリアのデータセット
オーストラリアの研究では、2017年1月と2月にニュージーランドとクイーンズランドで収集されたすべてのS. Typhimuriumのゲノムデータが分析されたんだ。ソフトウェアはデータを調べて、214の分離株を含む14の調査クラスターを特定したよ。それは、その時期に収集されたサンプルの41%以上を占めているんだ。各クラスターの平均サイズは約15分離株で、典型的な時間の幅は29日だったよ。これらのクラスター内のほとんどの分離株は、元々クラスターとして特定された後に収集されたんだ。
イギリスのデータセット
イギリスのデータセットには、2014年から2022年にかけてのより広範囲なS. Typhimuriumの分離株が含まれていたよ。ここでは、DODGEが1,727の分離株を含む93の調査クラスターを見つけたんだ。これはデータセットの約16.7%を占めるものだったよ。平均クラスターサイズはほぼ20分離株で、典型的な時間の幅は9ヶ月を少し超える程度だった。オーストラリアのデータと同様に、かなりの数の分離株がクラスターが特定された後に収集されたんだ。
DODGEの実際の影響
DODGEは、過去に文書化されたアウトブレイクに一致するクラスターを特定することに成功したんだ。例えば、2020年4月のアウトブレイクが2020年2月に特定されたDODGEの調査クラスターに関連していたこともあった。これにより、従来の方法よりも早くアウトブレイクを示す可能性があることがわかったんだ。この早期発見は、保健担当者が迅速に対応する可能性を高め、人々に影響を与える数を減らすかもしれないよ。
オーストラリアとイギリスのデータセットの両方で、クラスターが初めて検出された後に多くの分離株がサンプリングされていることが示唆されていて、これはongoing community outbreaksを示している可能性があるんだ。こうしたクラスターを迅速に特定できることで、公共衛生の取り組みは、タイムリーな介入を通じて更なる拡大を防ぐことに焦点を当てることができるんだ。
結論
DODGEは、食中毒に関連するゲノムデータを分析するための価値ある新しいツールだよ。これにより、公共衛生の担当者は、細菌の遺伝的多様性に応じて調整される柔軟な遺伝的閾値を使用して、アウトブレイクをより効果的に特定し追跡できるんだ。この適応性により、検出速度が向上し、新たな公衆衛生の脅威への対応が強化される可能性があるよ。データが増えるにつれて、DODGEは食中毒との戦いにおいて重要な役割を果たし続けるだろうね。
タイトル: DODGE: Automated point source bacterial outbreak detection using cumulative long term genomic surveillance.
概要: SummaryThe reliable and timely recognition of outbreaks is a key component of public health surveillance for foodborne diseases. Whole genome sequencing (WGS) offers high resolution typing of foodborne bacterial pathogens and facilitates the accurate detection of outbreaks. This detection relies on grouping WGS data into clusters at an appropriate genetic threshold, however, methods and tools for selecting and adjusting such thresholds according to the required resolution of surveillance and epidemiological context are lacking. Here we present DODGE (Dynamic Outbreak Detection for Genomic Epidemiology), an algorithm to dynamically select and compare these genetic thresholds. DODGE can analyse expanding datasets over time and clusters that are predicted to correspond to outbreaks (or investigation clusters) can be named with the established genomic nomenclature systems to facilitate integrated analysis across jurisdictions. DODGE was tested in two real-world genomic surveillance datasets of different duration, two months from Australia and nine years from the UK. In both cases only a minority of isolates were identified as investigation clusters. Two known outbreaks in the UK dataset were detected by DODGE and were recognised at an earlier timepoint than the outbreaks were reported. These findings demonstrated the potential of the DODGE approach to improve the effectiveness and timeliness of genomic surveillance for foodborne diseases and the effectiveness of the algorithm developed. Availability and implementationDODGE is freely available at https://github.com/LanLab/dodge and can easily be installed using Conda. Supplementary informationSupplementary Tables, Results, Figure 1 and Figure 2 O_FIG O_LINKSMALLFIG WIDTH=193 HEIGHT=200 SRC="FIGDIR/small/24301506v1_fig1.gif" ALT="Figure 1"> View larger version (48K): [email protected]@16dec4dorg.highwire.dtl.DTLVardef@1b4b3f6org.highwire.dtl.DTLVardef@930876_HPS_FORMAT_FIGEXP M_FIG O_FLOATNOFigure 1.C_FLOATNO The DODGE pipeline, algorithm and Australian dataset investigation clusters. A. Flowchart describing 6 stages of the DODGE algorithm. B. Example investigation cluster detection with the same 6 stages marked. Blue circles represent isolates, red numbered lines are genetic distances. At each genetic threshold isolates within the grey shaded area are the cluster being evaluated. C. High level schematic of the DODGE pipeline including the DODGE algorithm. Genetic data in the form of allele profiles (Enterobase or MGTdb) or SNPs (output by snippy) for isolates from a given temporal window (a week or month) are combined with previous time periods to generate a combined distance matrix. Distances between isolate pairs that are not in an optional input distance matrix (Blue arrow) are calculated and added. Clusters are identified using single linkage clustering from the distance matrix. These clusters are compared to existing investigation and non-investigation clusters from previous time periods (blue arrow) to identify expanded or unchanged investigation clusters. Remaining non investigation clusters are then used to identify novel investigation clusters using the DODGE algorithm detailed in B and C. Green boxes are input files, red outlined boxes are output files, blue arrows represent outputs from one time period used as inputs in the next. D. Investigation clusters identified from the Australian dataset over time. X axis is date of collection by week. Y axis is investigation cluster with MGT ST based ID. The area of circles is proportional to number of isolates in that investigation cluster in that week. Colour represents the genetic threshold used for that investigation cluster. Red outline indicates the week in which the cluster was identified as an investigation cluster by the DODGE algorithm. C_FIG
著者: Ruiting Lan, M. Payne, D. Hu, Q. Wang, G. Sullivan, R. M. Graham, I. U. Rathnayake, A. Jennison, V. Sintchenko
最終更新: 2024-01-22 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.01.21.24301506
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.01.21.24301506.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。