COVID-19ケース検出のための機械学習
新しい方法で、調査データと機械学習を使ってCOVID-19の検出が改善されてるよ。
― 1 分で読む
目次
COVID-19のパンデミック中、医療システムは病気の広がりを追跡する必要があった。そのためには、迅速で信頼できるデータが求められ、より良い医療判断を下す手助けをする必要があった。COVID-19の拡大を監視するための最も一般的な方法の一つが、ポリメラーゼ連鎖反応(PCR)テストって呼ばれるテストだった。でも、テストを受けるタイミングや無症状の人が多いこと、テストキットの不足など、いくつかの課題があった。こうした問題を解決するために、調査データを使った様々な方法が作られて、パンデミックに関する情報を集めることが行われた。例えば、PCRテストを受けた人が報告した症状を分析して、テスト方法の改善に役立てた。スマホアプリも利用されて、症状を報告するようにしたり、オンライン調査が行われて、症状や社会行動、隔離の実践について質問したりして、陽性ケースを特定する手助けをした。
COVID-19検出へのアプローチ
調査から得た個人データを分析することで、COVID-19を検出するためのいくつかの方法が提案された。これらの方法は、予測ルール、ロジスティック回帰、機械学習モデルの3つのカテゴリーに分類できる。
予測ルール
予測ルールの方法は、特定の症状セットを使ってアクティブなケースを特定する。最もよく知られている予測ルールは、健康当局が提供するCOVID様疾患の基準に基づいている。さらに、より正確な評価のために追加の予測ルールも作られた。
ロジスティック回帰
ロジスティック回帰の方法では、報告された特徴(症状、性別、年齢層など)がアクティブなケースを特定するのにどのように寄与しているかを理解するためのシンプルな方程式を作成する。ただし、これらの技術は限られた数の特徴を使用することが多く、他のデータから得られる有用な情報を見落とすことがあるため、検出の精度が下がることがある。
機械学習モデル
機械学習モデルは、COVID-19の検出を改善するためにますます使用されている。これらのモデルは、複雑なデータを分析し、より多様な個人特性を考慮することで、より正確な予測を行うことができる。
グローバルCOVID-19トレンド&影響調査
2020年4月、メリーランド大学はフェイスブックと提携して、グローバルCOVID-19トレンド&影響調査という大規模な健康調査を開始した。この調査は、様々な人々から症状、PCRテストの結果、ワクチン接種の意思、隔離行動、個人の背景情報に関する日次データを収集することを目的としていた。質問は56言語で提供され、114か国からの回答を集め、多様な社会経済グループの広範な代表性を確保した。この調査は、パンデミックのトレンドや健康指標に関する詳細で有用な情報を提供した。
新しい機械学習アプローチ
この記事では、アクティブなCOVID-19ケースを検出するために、木構造の監督型分類器と特徴選択技術を使用した機械学習アプローチを紹介する。従来の方法とは異なり、新しいアプローチは幅広い個人特性を考慮する。モデルを改善し、不正確さのリスクを減らすために、Shapley値に基づく特徴選択法を使って、より良い予測のために最も関連性の高い特徴を見つける。
木構造分類器の実装
このアプローチの6つのバージョンを、ランダムフォレスト(RF)、ライトグラデーションブースティング(LGB)、エクストリームグラデーションブースティング(XGB)の3つの異なる木構造分類器を使って試した。モデルは、ブラジル、カナダ、日本、南アフリカのUMD-CTIS調査のデータを使用して評価され、2020年と2021年のデータをカバーした。新しい方法の性能は様々な指標を使って評価され、その結果は既存の技術と比較された。
スタディポピュレーション
提案された検出方法の効果は、ブラジル、カナダ、日本、南アフリカの調査データを使用して評価された。国は地理的多様性と十分なデータの可用性に基づいて選ばれた。研究は、2020年4月から2020年12月までの期間と、2021年全体を見た。これらの期間を調べることで、研究者はワクチン接種キャンペーンがモデル内の異なる特徴の重要性にどのように影響を与えたかを確認できた。
各国と期間に対して、過去24時間以内に少なくとも1つの症状を報告し、過去14日間にテスト結果を提供した人々からの回答を収集した。新しいアプローチは、いくつかの選択された特性に分析を制限するのではなく、UMD-CTIS調査を通じて収集されたすべての特徴を考慮した。
パフォーマンス分析
異なるパフォーマンス指標が計算され、各国と年にわたる方法のさまざまな実装を比較した。指標には、F1スコア、特異度、感度、精度が含まれた。2020年のブラジルでは、ランダムフォレストモデルがすべての指標で最も優れた全体性能を示し、Shapley値に基づく特徴選択を使用したモデルが次点の値を提供した。
パフォーマンス分析では、受信者操作特性(ROC)曲線を調べて、異なる国や年を通じて機械学習モデルの効果を決定した。例えば、2020年では、ランダムフォレストモデルがブラジルと南アフリカで最高のROC値を示し、陽性ケースの検出に高い精度を示した。
2021年には、ランダムフォレストモデルが再びブラジルで良いパフォーマンスを見せ、一方でXGBのような他の分類器はカナダや日本で良い結果を示した。この国や年を超えた一貫性は、提案された方法の堅牢性を強調している。
他の技術との比較
提案された検出方法は、他の調査データを活用したいくつかの既存技術と比較された。結果は、新しい機械学習手法が一般的にF1スコアにおいてこれらの以前の技術を上回っていることを示した。特に、ランダムフォレストアプローチは、一貫して最高のスコアを達成した。
正規化された日次ケース推定
提案された検出方法の実用性を評価するために、2021年1月から2022年6月までの4カ国のCOVID-19ケースの日次推定が生成された。ランダムフォレスト、ライトグラデーションブースティング、エクストリームグラデーションブースティングモデルを使用して作成された推定日次ケース曲線は正規化され、各国の医療システムの公式レポートと比較された。
結果は、推定日次ケース曲線と公式データの間に強い一致を示し、提案された方法がパンデミックのトレンドを推定するのに効果的であることを示している。正規化された曲線は、グローバルなパンデミック監視を提供するプロジェクトにも役立った。
説明可能性分析
機械学習アプローチが医療で一般的になるにつれて、透明性や解釈の必要性が高まっている。この研究では、Shapley値とランダムフォレスト法を用いた木構造の特徴重要性分析という2つの主要な説明可能性手法が使用された。これらの方法は、モデルの予測に影響を与える特徴を明らかにするのに役立つ。
Shapley値
結果を分析するために、Shapley値法を使って各特徴が最終予測にどれだけ寄与したかを決定した。2020年の年には、嗅覚または味覚の喪失に関連する変数が一貫して重要であることがわかった。COVID-19陽性の個人と時間を共に過ごしたかどうかも関連していた。
2021年の分析では、ワクチン接種状況やコミュニティ曝露の特徴がより重要になっていることが示された。この変化は、パンデミックの進化する性質とワクチン接種がウイルスの拡散を制御する上での重要性が高まっていることを反映している。
ランダムフォレスト特徴重要性
ランダムフォレスト法を使用して、様々な特徴重要性の測定が探求された。結果は、アクティブなCOVID-19ケースを特定するための最も関連性の高い特徴が再度嗅覚や味覚の喪失に関連していることを示した。一方、新たな変異株が出現するにつれて、ワクチン接種やコミュニティの拡散に関連する特徴がより際立ってきた。
全体として、両方の説明方法は、COVID-19検出に寄与する要因に関する貴重な洞察を提供し、研究者がモデルの予測を理解し解釈する手助けをした。
倫理的考慮
この研究は倫理ガイドラインを遵守し、適切な倫理委員会の承認を受けた。調査参加者からはインフォームドコンセントが得られ、収集されたデータが責任を持って倫理的に使用され、参加者のプライバシーが守られることを確保した。
データの可用性と資金
この研究で使用されたデータは、集約形式で公にアクセスできるようになる。しかし、個々の調査回答はデータ使用契約のため、共有できない。研究を支援するために様々な組織から資金が提供された。
結論
この研究で紹介された機械学習アプローチは、幅広い個人特性と高度な特徴選択技術を使用してアクティブなCOVID-19ケースを検出するための有望な方法を提供する。提案された方法の効果と堅牢性は、複数の国での強力なパフォーマンス指標と既存技術との精査によって裏付けられている。Shapley値などの方法を通じてモデルの予測を説明し解釈する能力は、公共の健康対策に対する発見の有用性を高めている。
今後の分析は、進化する状況に応じて適応し続け、パンデミックに関する貴重な洞察を提供し、将来的には健康指標のより良い追跡を促進する。この研究は、感染症との戦いにおいて高度なデータ分析方法がどのように効果的に活用できるかを示している。
タイトル: Feature Selection for an Explainability Analysis in Detection of COVID-19 Active Cases from Facebook User-Based Online Surveys
概要: In this paper, we introduce a machine-learning approach to detecting COVID-19-positive cases from self-reported information. Specifically, the proposed method builds a tree-based binary classification model that includes a recursive feature elimination step. Based on Shapley values, the recursive feature elimination method preserves the most relevant features without compromising the detection performance. In contrast to previous approaches that use a limited set of selected features, the machine learning approach constructs a detection engine that considers the full set of features reported by respondents. Various versions of the proposed approach were implemented using three different binary classifiers: random forest (RF), light gradient boosting (LGB), and extreme gradient boosting (XGB). We consistently evaluate the performance of the implemented versions of the proposed detection approach on data extracted from the University of Maryland Global COVID-19 Trends and Impact Survey (UMD-CTIS) for four different countries: Brazil, Canada, Japan, and South Africa, and two periods: 2020 and 2021. We also compare the performance of the proposed approach to those obtained by state-of-the-art methods under various quality metrics: F1-score, sensitivity, specificity, precision, receiver operating characteristic (ROC), and area under ROC curve (AUC). It should be noted that the proposed machine learning approach outperformed state-of-the-art detection techniques in terms of the F1-score metric. In addition, this work shows the normalized daily case curves obtained by the proposed approach for the four countries. It should note that the estimated curves are compared to those reported in official reports. Finally, we perform an explainability analysis, using Shapley and relevance ranking of the classification models, to identify the most significant variables contributing to detecting COVID-19-positive cases. This analysis allowed us to determine the relevance of each feature and the corresponding contribution to the detection task.
著者: Juan Marcos Ramirez, J. Rufino, J. Aguilar, C. Baquero, J. Champati, D. Frey, R. E. Lillo, A. Fernandez Anta
最終更新: 2023-06-05 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.05.26.23290608
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.05.26.23290608.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。