Prédire le risque de mortalité chez les patients atteints de NAFLD en utilisant l'apprentissage automatique
Un nouveau modèle prédit le risque de mortalité chez les patients atteints de NASH en utilisant des techniques d'apprentissage automatique.
― 7 min lire
Table des matières
- Importance du stade de Fibrose
- Apprentissage automatique en médecine
- Aperçu de l'étude
- Sources de données et éthique
- Groupe d'étude et définitions
- Facteurs considérés
- Développement du modèle d'apprentissage automatique
- Performance du modèle
- Comprendre les facteurs clés
- Limitations de l'étude
- Forces de l'étude
- Conclusion
- Source originale
La stéatose hépatique non alcoolique (NAFLD) est maintenant la condition hépatique chronique la plus courante dans le monde, touchant environ 1 milliard de personnes. Cette maladie peut entraîner des problèmes de santé graves, comme l'insuffisance hépatique et le cancer du foie. De plus, les gens avec NAFLD ont souvent un risque plus élevé de mourir de diverses causes, souvent à cause de maladies cardiaques, de cancers ou de problèmes hépatiques sévères. Détecter tôt ceux qui risquent de mourir à cause de la NAFLD peut aider les professionnels de santé à mieux utiliser les ressources et à offrir les soins nécessaires.
Fibrose
Importance du stade dePour évaluer la santé des personnes avec NAFLD, le stade de fibrose-un indicateur de cicatrisation du foie-est un facteur clé pour prédire la Mortalité globale. Bien que les biopsies du foie soient la meilleure méthode pour vérifier la fibrose, elles sont invasives, compliquées et coûteuses. Il existe plusieurs méthodes de scoring non invasives, comme le score de fibrose NAFLD (NFS), l'indice de fibrose-4 (FIB-4) et l'indice rapport aspartate aminotransférase/plaquettes (APRI), qui peuvent aider à estimer la santé du foie. Cependant, leur efficacité pour prédire les taux de mortalité chez les patients NAFLD a montré des résultats mitigés dans les études, d'où le besoin de meilleurs outils.
Apprentissage automatique en médecine
L'apprentissage automatique (ML) devient de plus en plus courant dans le domaine de la santé. Il offre de meilleures capacités prédictives par rapport aux méthodes traditionnelles. Des études récentes indiquent que le ML surpasse les tests standards comme le FIB-4 et FibroScan pour prédire la fibrose du foie. Cependant, un modèle fiable spécifiquement pour prédire la mortalité chez les patients NAFLD n'a pas encore été créé.
Aperçu de l'étude
Cette étude visait à créer et valider un modèle de prédiction de mortalité utilisant le ML pour les patients NAFLD aux États-Unis. Les chercheurs ont utilisé des données de l'Enquête nationale sur la santé et la nutrition (NHANES-III), qui fournit des informations de santé sur la population américaine. Les données comprenaient des interviews, des examens de santé, des tests en laboratoire et des échographies, ainsi que des dossiers de décès jusqu'à fin 2019.
Sources de données et éthique
La base de données NHANES-III utilise une méthode soignée pour sélectionner les participants afin d'assurer un échantillon représentatif de la population américaine. Des lignes directrices éthiques ont été suivies, y compris l'obtention du consentement des participants, tandis que le comité d'éthique a renoncé à d'autres approbations parce que les données étaient dé-identifiées.
Groupe d'étude et définitions
Pour cette étude, les chercheurs ont examiné un groupe de 13 856 participants adultes. Ils ont exclu les individus ayant des habitudes de consommation d'alcool excessives, ceux ayant une hépatite virale ou des conditions de surcharge en fer. Ils ont également retiré ceux ayant des informations manquantes sur les décès, les examens physiques ou les tests de laboratoire, laissant 3 233 patients avec NAFLD. La NAFLD a été identifiée par des images échographiques montrant différents degrés de graisse hépatique.
Facteurs considérés
Les chercheurs ont examiné 29 facteurs liés à la NAFLD qui pourraient influencer la mortalité. Cela incluait des détails démographiques (comme l'âge et le sexe), des mesures (comme le tour de taille et la pression artérielle), des tests sanguins (comme les niveaux de cholestérol et de glucose) et des tests de fonction hépatique. Le but final était de voir comment ces variables étaient liées à la mortalité jusqu'au 31 décembre 2019.
Développement du modèle d'apprentissage automatique
Cinq Modèles ML différents ont été créés pour prédire la mortalité : régression logistique (LR), arbre de décision, forêt aléatoire (RF), k-plus proches voisins (KNN) et XGBoost. Pour garantir l'exactitude des modèles, une méthode d'entraînement appelée validation croisée stratifiée à 10 plis a été utilisée. Cela signifie que les données étaient divisées en dix parties, le modèle étant entraîné sur neuf parties et testé sur la dernière, répété plusieurs fois pour améliorer la fiabilité. L'importance de chaque modèle a été évaluée, et les meilleurs prédicteurs de mortalité ont été identifiés.
Performance du modèle
Lors de la phase de test, les modèles ont montré des résultats prometteurs. Leur capacité à prédire la mortalité a été mesurée à l'aide de divers indicateurs, y compris l'exactitude, la sensibilité et la spécificité. Le modèle LR était particulièrement fort, affichant la plus haute exactitude et sensibilité parmi tous les modèles. Le modèle d'arbre de décision, bien que plus simple et pas le meilleur performant, s'est révélé utile grâce à sa simplicité.
Comprendre les facteurs clés
L'âge est apparu comme le facteur le plus crucial prédisant la mortalité dans tous les modèles. Cela correspond à des constatations antérieures liant l'âge aux problèmes de santé du foie et à la mortalité générale. De plus, des facteurs comme la pression artérielle systolique et l'HbA1c (une mesure de la glycémie) ont été soulignés comme des contributeurs significatifs. La NAFLD est étroitement liée aux syndromes métaboliques, qui incluent des facteurs de risque pour les maladies cardiaques et le diabète, reliant encore plus ces éléments aux taux de mortalité.
Limitations de l'étude
Bien que l'étude présente des perspectives précieuses, elle a certaines limites. L'utilisation de l'échographie au lieu de la biopsie hépatique peut ne pas capturer tous les cas de NAFLD. Les données manquantes de la base de données NHANES-III ont également été une préoccupation. De plus, puisque cette recherche impliquait principalement des individus aux États-Unis, les conclusions peuvent ne pas être universelles. La conception de l'étude pourrait également limiter la reproduction des modèles.
Forces de l'étude
Malgré les limites, l'étude a des forces notables. C'est l'une des premières à évaluer l'efficacité du ML pour prédire la mortalité chez les patients NAFLD. Les résultats étaient basés sur un groupe d'individus important et diversifié. L'étude propose un modèle simple que les professionnels de santé pourraient potentiellement utiliser en pratique.
Conclusion
L'étude a réussi à créer un nouveau modèle pour prédire le risque de mortalité chez les patients NAFLD grâce à la technologie ML. Le modèle LR a été le meilleur au global, tandis que le modèle d'arbre de décision, basé sur des facteurs facilement interprétables comme l'âge et la pression artérielle, a montré des capacités de prédiction logiques. Il y a un besoin de recherche supplémentaire pour améliorer la performance et élargir son applicabilité dans les milieux cliniques. Dans l'ensemble, l'étude souligne le potentiel du ML pour améliorer la compréhension et la gestion de la NAFLD.
Titre: Machine learning-based mortality prediction models for non-alcoholic fatty liver disease in the general United States population
Résumé: Background & AimsNowadays, the global prevalence of non-alcoholic fatty liver disease (NAFLD) has reached about 25%, which is the most common chronic liver disease worldwide, and the mortality risk of NAFLD patients is higher. Our research created five machine learning (ML) models for predicting overall mortality in ultrasound-proven NAFLD patients and compared their performance with conventional non-invasive scoring systems, aiming to find a generalizable and valuable model for early mortality prediction in NAFLD patients. MethodsNational Health and Nutrition Examination Survey (NHANES)-III from 1988 to 1994 and NHANES-III related mortality data from 2019 were used. 70% of subjects were separated into the training set (N = 2262) for development, while 30% were in the testing set (N= 971) for validation. The outcome was all-cause death at the end of follow-up. Twenty-nine related variables were trained as predictor features for five ML-based models: Logistic regression (LR), K-nearest neighbors (KNN), Gradient-boosted decision tree (XGBoost), Random forest (RF) and Decision tree. Five typical evaluation indexes including area under the curve (AUC), F1 score, accuracy, sensitivity and specificity were used to measure the prediction performance. Results3233 patients with NAFLD in total were eligible for the inclusion criteria, with 1231 death during the average 25.3 years follow up time. AUC of the LR model in predicting the mortality of NAFLD was 0.888 (95% confidence interval [CI] 0.867-0.909), the accuracy was 0.808, the sensitivity was 0.819, the specificity was 0.802, and the F1 score was 0.765, which showed the best performance compared with other models (AUC were: RF, 0.876 [95%CI 0.852-0.897]; XGBoost, 0.875 [95%CI 0.853-0.898]; Decision tree, 0.793 [95%CI 0.766-0.819] and KNN, 0.787 [95%CI 0.759-0.816]) and conventional clinical scores (AUC were: Fibrosis-4 Score (FIB-4), 0.793 [95%CI 0.777-0.809]; NAFLD fibrosis score (NFS), 0.770 [95%CI 0.753-0.787] and aspartate aminotransferase-to-platelet ratio index (APRI), 0.522 [95%CI 0.502-0.543]). ConclusionsML-based models, especially LR model, had better discrimination performance in predicting all-cause mortality in patients with NAFLD compared to the conventional non-invasive scores, and an interpretable model like Decision tree, which only used three predictors: age, systolic pressure and glycated hemoglobin, is simple to use in clinical practice.
Auteurs: Jiarui Zheng, Z. Wang, B. Feng
Dernière mise à jour: 2024-07-16 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.07.10.24310253
Source PDF: https://www.medrxiv.org/content/10.1101/2024.07.10.24310253.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.