Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 公衆衛生・グローバルヘルス

データ拡張を使ったインフル入院予測の改善

限られた歴史データを使ってインフル入院予測を向上させる新しい方法。

― 1 分で読む


インフルエンザ入院データのインフルエンザ入院データのインサイト法。インフルエンザの入院率を予測する新しい方
目次

病気のモデル化は、インフルエンザのような健康の脅威に対処するために公衆衛生当局が必要とするものだよ。でも、歴史的データが足りなくて、インフルエンザによる入院の正確な予測を作るのが難しいっていう問題があるんだ。CDCのFluSightグループと一緒にアメリカでの短期的なインフルエンザ入院を予測しようとしたときに、この課題に気づいたんだ。

2020年に、アメリカの保健省はHHS Protectというシステムを通じてインフルエンザの入院について報告を始めたんだけど、今はNational Healthcare Safety Network(NHSN)として知られているんだ。このデータを報告する義務は2022年2月から2024年4月までの間だけだったから、信頼できる州レベルのデータはわずか2年以上しかないんだ。もっとデータがあれば、より良い予測ができるんだよ。そこで、2020年以前のインフルエンザ入院を推定してギャップを埋めることを目指したんだ。以下では、この時系列を拡張し、アメリカのインフルエンザ入院を理解するための方法を説明するよ。

データソース

インフルエンザ入院のタイムラインを構築するために、FluSurv-NET(FSN)とILINetの2つのフルデータソースを見たんだ。これらのシステムは公衆衛生にとって価値があるけど、制限もあるんだよ。たとえば、FSNは選ばれた州からのインフルエンザ入院記録しか集めてなくて、データは2009年にさかのぼるんだ。一方、ILINetはインフルエンザ様の病気に関する外来受診に焦点を当ててるけど、入院は追跡しないし、他の病気の受診も含まれることがあるんだ。

入院の傾向を理解するのが目的だったから、FSNのデータをILINetよりも優先することにしたんだ。

データ拡張プロセス

インフルエンザ入院のタイムラインに追記するプロセスは、4つの主要なステップから構成されていたよ:連結、補間、外挿、そして代入。歴史的データを推定する際のバイアスを減らすために、外挿にはFSNの記録を使ったんだ。まず、インフルシーズン外の週にギャップを埋める必要があったから、補間が役立ったんだ。最後に、連結ステップで既存のデータセットを慎重に統合したよ。

最初に、特定のソフトウェアツールを使ってFSNデータを抽出し、2009年から始まる19州の情報を集めたんだ。2020年10月から2024年4月までのFSNデータも集めたけど、FSNはインフルシーズン外のデータを報告しないから、データにギャップが残っちゃったんだ。これを解決するために、ニューヨーク州の2つのエリアからインフル入院データの平均を取ったよ。さらに、別のソフトウェアツールを使って州の人口データを追加して、入院率を生データに変換し、NHSNの報告に適合させたんだ。

FSNとNHSNのデータを統合した後、インフルエンザ入院のギャップがたくさんあることに気づいたんだ。ある州はFSNに報告してないし、他の州は特に夏やパンデミックの間は不規則に報告してたんだ。

短いギャップ

最初に対処したのは、FSNデータの短いギャップだったよ。これらのギャップは小さかったり、インフル入院が一般的に低い時期だったから、線形補間というシンプルな方法で埋めたんだ。でも、長いギャップに対して大きな仮定を避けるために、補間を26週間未満のギャップに限ったよ。

補間の後もまだ多くの欠損エントリがあったけど、今ではいくつかの州に対してFSNからのデータとNHSNからのデータの2つの入院データの列があったんだ。データセットを完成させるために、マルチバリアント代入という技術を使って欠損値を推定する予定だったけど、正確さを確保するためには、2つの入院変数を統合する必要があったんだ。

外挿ステップ

NHSNの入院を推定するための変換方法を確立したよ。FSNデータが利用可能なケースを見て、一般化線形モデル(GLM)を使ったんだ。このモデルは、FSNデータしかないときにNHSNの入院を予測する助けになったよ。FSNの記録はNHSNよりも高い数値を示すことが多かったけど、GLMを使って1セットの入院数を作ることができたんだ。

この外挿の後、FSNに報告していない州のギャップがまだ残っているデータセットができたよ。この新しいデータセットは17,062件のインフル入院記録で構成されていたけど、22,888件の欠落記録があったんだ。残りのギャップを埋めるために、複数代入という技術を使って、州の位置、日付、人口サイズなどの既存の変数に基づいて欠損データを推定したんだ。

代入プロセスの検証

代入方法が有効であることを確認するために、すでにNHSNの信号があった限られた最近のデータでテストしたんだ。一部のデータを一時的に取り除いて、欠損値をどれだけ正確に推定できるかをチェックしたよ。全体的に見ると、私たちの方法は特に通常のインフルシーズン中はかなり良いパフォーマンスを見せたけど、パンデミックの年はあまり正確ではなかったんだ。

予測パフォーマンス

拡張されたデータセットを使って、自己回帰統合移動平均(ARIMA)という時系列アプローチを使って短期予測を実行して、その有用性をテストしたよ。ARIMAモデルは、歴史的データに基づいて未来の入院数を予測するのに役立つんだ。元のNHSNデータセットや完全な拡張データセットなど、さまざまなデータバージョンをテストして、どれが最も良いパフォーマンスを示すかを見たんだ。

全国レベルでは、元のNHSNデータと代入データのバリエーションを使用した予測がどれほど良く機能したかに大きな違いはなかったけど、最も良いパフォーマンスは2010年6月以前のインフル入院を除外したモデルから来ていたよ。これは、異常なインフルシーズンのデータを除外することで精度が向上することを示しているんだ。

州レベルの予測を見たとき、2010年前に終わったデータやパンデミックの除外を含むデータを使用したモデルがうまく機能する傾向があることに気づいたんだ。逆に、拡張データを使わなかったり、パンデミックの年だけを除去したりするとパフォーマンスが悪くなったよ。これは、歴史的データの深さと重要な健康イベントのバランスを見つけることが、より良い予測結果につながることを示唆しているんだ。

結論

私たちが開発したアプローチは、インフルエンザ入院の予測を改善するのに役立つし、疫学的時系列を効果的に拡張する方法を示しているんだ。FSNとNHSNのデータを組み合わせることで、2009年まで遡る州レベルのインフルエンザ入院の連続的な推定を作成したよ。この拡張データセットは、実際に報告された入院データの年数が限られていることを考えると、特に重要なんだ。

今後の作業は、私たちの方法の限界に対処し、NHSNデータが利用可能になるにつれて代入方法を検証することに焦点を当てるべきだね。病院の報告ルールが変わり続ける中で、効果的なデータ拡張方法の必要性は重要だよ。それに、私たちのアプローチは、他の公衆衛生の文脈で自分たちのデータを拡張しようとしている他の研究者のモデルとして役立つかもしれないんだ。

要するに、私たちはFSNとNHSNのデータを成功裏に統合してギャップを埋め、インフルエンザ入院の連続したタイムラインを作成したよ。この新しいデータセットは、予測のために使用される時系列モデルを改善し、より良い公衆衛生への対応と準備戦略につながるだろうね。

オリジナルソース

タイトル: An Imputation-Based Approach for Augmenting Sparse Epidemiological Signals

概要: Near-term disease forecasting and scenario projection efforts rely on the availability of data to train and evaluate model performance. In most cases, more extensive epidemiological time series data can lead to better modeling results and improved public health insights. Here we describe a procedure to augment an epidemiological time series. We used reported flu hospitalization data from FluSurv-NET and the National Healthcare Safety Network to estimate a complete time series of flu hospitalization counts dating back to 2009. The augmentation process includes concatenation, interpolation, extrapolation, and imputation steps, each designed to address specific data gaps. We demonstrate the forecasting performance gain when the extended time series is used to train flu hospitalization models at the state and national level.

著者: Amy E Benefield, D. Williams, V. Nagraj

最終更新: 2024-08-03 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.07.31.24311314

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.07.31.24311314.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事