Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 感染症(HIV/AIDSを除く)

機械学習を使ったNAFLD患者の死亡リスク予測

新しいモデルが機械学習技術を使ってNAFLD患者の死亡リスクを予測するんだって。

― 1 分で読む


MLモデルがNAFLDの死MLモデルがNAFLDの死亡率を予測に予測する。機械学習はNAFLD患者の死亡率を効果的
目次

非アルコール性脂肪肝疾患(NAFLD)は、今や世界中で最も一般的な慢性肝疾患で、約10億人が影響を受けていると推定されてる。この病気は、肝不全や肝がんなどの深刻な健康問題を引き起こすことがある。また、NAFLDを持つ人は、心疾患やがん、重度の肝問題などさまざまな原因で亡くなるリスクが高い。NAFLDによる死亡リスクがある人を早期発見することで、医療提供者がリソースをより効果的に活用し、必要なケアを提供できる。

繊維化ステージの重要性

NAFLD患者の健康を評価する際、肝臓の瘢痕の指標である繊維化のステージが、全体の死亡率を予測する重要な要素だ。肝生検が繊維化を確認する最良の方法だけど、侵襲的で不便、コストもかかるんだ。NAFLD繊維化スコア(NFS)やFibrosis-4インデックス(FIB-4)、アスパラギン酸アミノトランスフェラーゼ対血小板比率(APRI)など、非侵襲的なスコアリング方法がいくつかあって、肝臓の健康を推定するのに役立つ。でも、NAFLD患者の死亡率を予測する効果は研究によってばらばらで、より良いツールが必要だね。

医療における機械学習

機械学習(ML)が医療分野でますます一般的になってきている。従来の方法よりも予測能力が向上しているって。最近の研究では、肝繊維化を予測する際、MLがFIB-4やFibroScanといった標準的なテストを上回っていることがわかっている。でも、NAFLD患者の死亡率を特に予測する信頼できるモデルはまだ作られていない。

研究の概要

この研究は、アメリカのNAFLD患者向けにMLを使った死亡予測モデルを作成し、検証することを目的としている。研究者たちは、アメリカの人口の健康情報を提供する国民健康栄養調査(NHANES-III)のデータを使った。このデータには、インタビュー、健康診断、検査、超音波、そして2019年末までの死亡記録が含まれている。

データソースと倫理

NHANES-IIIデータベースでは、アメリカの人口を代表するサンプルを確保するために慎重に参加者が選ばれている。倫理的なガイドラインが守られ、参加者からの同意を得て、データが匿名化されたため、追加の承認は免除された。

研究グループと定義

この研究では、13,856人の成人参加者を調べた。重度の飲酒習慣がある人、ウイルス性肝炎や鉄過剰状態のある人は除外した。また、死亡や身体検査、検査結果の情報が欠けている人も除外し、NAFLDの患者は3,233人になった。NAFLDは、様々な肝脂肪の程度を示す超音波画像を通じて特定された。

考慮された要因

研究者たちは、NAFLDに関連する29の要因を検討した。これには、年齢や性別といった人口統計の詳細、ウエスト周囲径や血圧といった測定値、コレステロールやグルコースレベルといった血液検査、肝機能検査が含まれている。最終的な目標は、2019年12月31日までの死亡率とこれらの変数との関連を調べることだ。

機械学習モデルの開発

死亡率を予測するために、5つの異なるMLモデルが作成された:ロジスティック回帰(LR)、決定木、ランダムフォレスト(RF)、k最近傍(KNN)、XGBoost。モデルの正確性を確保するために、10分割層化交差検証というトレーニング手法が使用された。これは、データを10の部分に分けて、9の部分でモデルをトレーニングし、残りの1つでテストすることを何度も繰り返して信頼性を高めるものだ。各モデルの重要性を評価し、死亡率の強い予測因子を特定した。

モデルのパフォーマンス

テスト段階では、モデルが良い結果を示した。死亡率を予測する能力は、精度、感度、特異度などのさまざまなメトリクスで測定された。LRモデルは特に強力で、すべてのモデルの中で最高の精度と感度を示した。決定木モデルはシンプルで最高の性能ではなかったけど、そのわかりやすさで役立った。

重要な要因の理解

年齢が、すべてのモデルで死亡率を予測する最も重要な要因として浮かび上がった。これは、年齢と肝臓の健康問題、全体の死亡率を結びつける早期の発見と一致している。また、収縮期血圧やHbA1c(血糖の指標)なども重要な要因として取り上げられた。NAFLDはメタボリック・シンドロームと密接に関連していて、心疾患や糖尿病のリスク因子を含むから、これらの要素が死亡率とさらに結びついているんだ。

研究の限界

この研究は貴重な洞察を提供する一方で、限界もある。超音波を使用することで、NAFLDのすべてのケースを把握できないかもしれない。また、NHANES-IIIデータベースからの情報の欠如も問題だった。さらに、この研究は主にアメリカの個人を対象としているため、結果が普遍的に適用されるわけではない。研究のデザインも、モデルの再現性を制限するかもしれない。

研究の強み

限界があるにしても、この研究は注目すべき強みがある。NAFLD患者の死亡率予測におけるMLの有効性を評価した最初の研究の一つだからだ。結果は、規模が大きく多様なグループに基づいている。研究は、医療提供者が実際に使用できるシンプルなモデルを提案している。

結論

この研究は、ML技術を通じてNAFLD患者の死亡リスクを予測する新しいモデルを成功裏に作成した。LRモデルは全体的に最高のパフォーマンスを示し、年齢や血圧といったわかりやすい要因に基づく決定木モデルも論理的な予測能力を示した。性能を向上させ、その適用性を広げるための追加研究が必要だね。全体として、この研究はNAFLDの理解と管理を向上させるためのMLの可能性を強調している。

オリジナルソース

タイトル: Machine learning-based mortality prediction models for non-alcoholic fatty liver disease in the general United States population

概要: Background & AimsNowadays, the global prevalence of non-alcoholic fatty liver disease (NAFLD) has reached about 25%, which is the most common chronic liver disease worldwide, and the mortality risk of NAFLD patients is higher. Our research created five machine learning (ML) models for predicting overall mortality in ultrasound-proven NAFLD patients and compared their performance with conventional non-invasive scoring systems, aiming to find a generalizable and valuable model for early mortality prediction in NAFLD patients. MethodsNational Health and Nutrition Examination Survey (NHANES)-III from 1988 to 1994 and NHANES-III related mortality data from 2019 were used. 70% of subjects were separated into the training set (N = 2262) for development, while 30% were in the testing set (N= 971) for validation. The outcome was all-cause death at the end of follow-up. Twenty-nine related variables were trained as predictor features for five ML-based models: Logistic regression (LR), K-nearest neighbors (KNN), Gradient-boosted decision tree (XGBoost), Random forest (RF) and Decision tree. Five typical evaluation indexes including area under the curve (AUC), F1 score, accuracy, sensitivity and specificity were used to measure the prediction performance. Results3233 patients with NAFLD in total were eligible for the inclusion criteria, with 1231 death during the average 25.3 years follow up time. AUC of the LR model in predicting the mortality of NAFLD was 0.888 (95% confidence interval [CI] 0.867-0.909), the accuracy was 0.808, the sensitivity was 0.819, the specificity was 0.802, and the F1 score was 0.765, which showed the best performance compared with other models (AUC were: RF, 0.876 [95%CI 0.852-0.897]; XGBoost, 0.875 [95%CI 0.853-0.898]; Decision tree, 0.793 [95%CI 0.766-0.819] and KNN, 0.787 [95%CI 0.759-0.816]) and conventional clinical scores (AUC were: Fibrosis-4 Score (FIB-4), 0.793 [95%CI 0.777-0.809]; NAFLD fibrosis score (NFS), 0.770 [95%CI 0.753-0.787] and aspartate aminotransferase-to-platelet ratio index (APRI), 0.522 [95%CI 0.502-0.543]). ConclusionsML-based models, especially LR model, had better discrimination performance in predicting all-cause mortality in patients with NAFLD compared to the conventional non-invasive scores, and an interpretable model like Decision tree, which only used three predictors: age, systolic pressure and glycated hemoglobin, is simple to use in clinical practice.

著者: Jiarui Zheng, Z. Wang, B. Feng

最終更新: 2024-07-16 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.07.10.24310253

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.07.10.24310253.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事