Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Soins intensifs et médecine de soins intensifs

Le besoin de meilleure validation dans les systèmes de notation des UCI

La revue souligne l'importance de la validation externe pour les modèles de scoring prédictif en réanimation.

― 8 min lire


Systèmes de pointage enSystèmes de pointage ensoins intensifsnécessitent validation.des résultats pour les patients.importante pour de bonnes prédictionsLa validation externe est super
Table des matières

Dans les unités de soins intensifs (USI), les médecins doivent surveiller de près les patients pour s'assurer qu'ils reçoivent les soins adéquats. Pour ça, les hôpitaux utilisent des scores pronostiques. Ces scores évaluent la gravité de l'état d'un patient, prédisent les résultats possibles et aident les soignants à décider des traitements nécessaires et comment répartir les ressources. Ces systèmes de notation sont devenus courants dans les soins critiques à travers le monde.

Systèmes de Notation Traditionnels

Deux systèmes de notation bien connus sont l'Évaluation de la Physiologie Aiguë et de la Santé Chronique (APACHE) et l'Évaluation Séquentielle de la Défaillance Organique (SOFA). Ils utilisent un petit nombre de facteurs spécifiques pour identifier les patients qui pourraient s'aggraver. Bien que ces systèmes soient simples et faciles à utiliser, ils ne fournissent souvent pas de prévisions très précises sur les résultats des patients.

Le Rôle des Dossiers de santé électroniques

Avec la montée des dossiers de santé électroniques (DSE) détaillés, il y a une chance de créer de meilleurs systèmes de notation plus personnalisés. L'intelligence artificielle (IA) et l'Apprentissage automatique (AA) peuvent analyser de grandes quantités de données pour créer ces scores améliorés. De nombreuses études montrent que les scores basés sur l'AA peuvent prédire divers résultats de santé plus précisément, comme la mortalité, la septicémie, les lésions rénales et l'insuffisance respiratoire.

Défis des Scores Basés sur l'AA

Malgré leurs avantages, les systèmes de notation basés sur l'AA présentent des risques. Un problème majeur est le "surajustement", où un modèle fonctionne bien sur les données sur lesquelles il a été entraîné mais ne marche pas aussi bien dans d'autres contextes. Si un système de notation est développé sur la base d'un groupe spécifique de patients, il peut ne pas être précis pour d'autres groupes. Il est donc essentiel de tester ces systèmes sur des données provenant d'hôpitaux qui n'ont pas participé à leur développement. Malheureusement, cette étape de Validation Externe est souvent négligée, ce qui soulève des questions sur l'efficacité réelle des scores basés sur l'AA dans les USI.

Objectif de la Revue

Cette revue vise à voir à quelle fréquence la validation externe est réalisée dans la recherche et si cela a augmenté ces dernières années. L'étude examine également la performance des systèmes de notation en USI basés sur l'AA lorsqu'ils sont utilisés dans de nouveaux hôpitaux. L'objectif est de contribuer à créer des scores fiables basés sur l'AA qui peuvent être utilisés efficacement au chevet des patients dans les hôpitaux.

Critères d'Éligibilité

Pour faire partie de cette revue, les études devaient répondre à des critères spécifiques. Elles devaient créer un modèle basé sur l'AA capable de prédire quand un patient en USI pourrait se détériorer, en utilisant des données structurées provenant des DSE. Les études devaient également valider leurs modèles en utilisant des données d'un autre hôpital qui n'était pas inclus dans les données originales. La revue était centrée sur des événements aigus nécessitant une attention dans la semaine suivant la prédiction.

Stratégie de Recherche

Les chercheurs ont cherché des articles pertinents dans les principales bases de données médicales et ont inclus uniquement des articles de recherche primaire. Ils ont organisé la recherche en trois thèmes : apprentissage automatique et IA, le cadre de l'USI, et la détérioration des patients. La validation externe a été vérifiée manuellement pendant le dépistage.

Sélection des Études

Lorsqu'ils ont trouvé des articles, ils ont éliminé les doublons et filtré les titres et résumés pour affiner le focus. Deux auteurs ont également vérifié les textes complets pour l'éligibilité. Ils visaient à s'assurer que leur processus était complet et précis.

Collecte de Données

Pour les études incluses dans la revue, les chercheurs ont collecté des informations de base sur les résultats, les sources de données, et si l'étude avait été validée de manière externe. Pour les études validées, une collecte de données plus détaillée a eu lieu, y compris des détails sur la population cible, le nombre d'hôpitaux impliqués, et la performance des modèles dans les validations internes et externes.

Analyse Statistique

L'étude a examiné les changements au fil du temps dans les études effectuées sur des validations externes. Ils ont utilisé des méthodes statistiques pour analyser les différences de niveaux de performance entre les réglages de validation internes et externes.

Résultats de l'Étude

Au total, les chercheurs ont identifié des milliers de dossiers à analyser. Après le dépistage et l'élimination des doublons, ils se sont retrouvés avec plusieurs centaines d'études axées sur la prédiction de la détérioration des patients en USI. Seul un petit pourcentage de ces études a effectué une validation externe. Les chercheurs ont remarqué que la validation externe était souvent négligée, ce qui a soulevé des inquiétudes quant à l'exactitude des modèles de notation basés sur l'AA.

Tendances au Fil du Temps

Le nombre d'études incluses dans la revue a augmenté au fil des ans. Surtout après 2018, une augmentation significative tant des études incluses que de celles impliquant la validation externe a été observée. Seulement un petit nombre d'études étaient validées dans les années précédentes.

Sources de Données

La plupart des études validées ont utilisé des données provenant d'hôpitaux aux États-Unis. Quelques études incluaient des données d'autres pays. Les ensembles de données publiques les plus couramment utilisés dans les études validées étaient MIMIC et eICU.

Performance dans de Nouveaux Hôpitaux

Parmi les études valides, la plupart ont rapporté des données sur la performance de leurs modèles lorsqu'ils étaient appliqués à de nouveaux hôpitaux. En général, ces modèles ont moins bien performé lors de la validation externe par rapport aux données d'entraînement originales. Souvent, cette baisse de performance était significative. Dans de nombreux cas, le déclin dépassait un seuil critique qui indiquait une mauvaise performance dans de nouvelles populations de patients.

Implications pour la Pratique Clinique

La poussée pour intégrer l'IA dans les soins de santé a été forte, surtout avec l'essor du traitement du langage naturel et d'autres avancées technologiques. Cependant, beaucoup des résultats publiés semblent exploratoires, manquant de validation rigoureuse. La revue a souligné que le problème de vérification insuffisante s'applique également aux systèmes de notation basés sur l'AA dans les USI.

La validation externe est cruciale pour garantir qu'un modèle peut prédire avec précision les résultats des patients dans différents hôpitaux. Un nombre significatif d'études n'a pas validé adéquatement ses modèles, montrant un besoin évident de meilleures pratiques dans ce domaine.

Importance d'une Validation Rigoureuse

Pour que les systèmes de notation basés sur l'AA soient utiles dans les contextes cliniques, ils doivent démontrer fiabilité et précision lorsqu'ils sont appliqués à un large éventail de patients. Se fier uniquement aux résultats de l'hôpital d'origine où un modèle a été développé peut conduire à des conclusions trompeuses. Si les scores fonctionnent mal dans de nouveaux contextes, cela peut passer inaperçu sans validation externe adéquate.

Recommandations pour de Futures Recherches

Les futures études devraient donner la priorité à la validation externe pour confirmer la robustesse des modèles de notation nouvellement développés. Les chercheurs devraient également fournir des ensembles de données diversifiés pour la validation afin de s'assurer que les résultats sont applicables dans divers environnements cliniques.

Conclusion

Cette revue met en lumière l'importance de la validation externe dans les systèmes de notation basés sur l'AA dans les contextes d'USI. Bien que les avancées en IA promettent d'améliorer les soins aux patients, le manque de validation approfondie limite la traduction des résultats de recherche dans la pratique clinique. Pour que les modèles basés sur l'AA soient bénéfiques, il est essentiel qu'une attention rigoureuse à la validation externe devienne une norme dans le processus de développement. Cela aiderait à garantir que les systèmes de santé puissent compter sur ces modèles pour améliorer efficacement les résultats des patients.

Source originale

Titre: Generalisability of AI-based scoring systems in the ICU: a systematic review and meta-analysis

Résumé: BackgroundMachine learning (ML) is increasingly used to predict clinical deterioration in intensive care unit (ICU) patients through scoring systems. Although promising, such algorithms often overfit their training cohort and perform worse at new hospitals. Thus, external validation is a critical - but frequently overlooked - step to establish the reliability of predicted risk scores to translate them into clinical practice. We systematically reviewed how regularly external validation of ML-based risk scores is performed and how their performance changed in external data. MethodsWe searched MEDLINE, Web of Science, and arXiv for studies using ML to predict deterioration of ICU patients from routine data. We included primary research published in English before April 2022. We summarised how many studies were externally validated, assessing differences over time, by outcome, and by data source. For validated studies, we evaluated the change in area under the receiver operating characteristic (AUROC) attributable to external validation using linear mixed-effects models. ResultsWe included 355 studies, of which 39 (11.0%) were externally validated, increasing to 17.9% by 2022. Validated studies made disproportionate use of open-source data, with two well-known US datasets (MIMIC and eICU) accounting for 79.5% of studies. On average, AUROC was reduced by -0.037 (95% CI -0.064 to -0.017) in external data, with >0.05 reduction in 38.6% of studies. DiscussionExternal validation, although increasing, remains uncommon. Performance was generally lower in external data, questioning the reliability of some recently proposed ML-based scores. Interpretation of the results was challenged by an overreliance on the same few datasets, implicit differences in case mix, and exclusive use of AUROC.

Auteurs: Patrick Rockenschaub, E. M. Akay, B. G. Carlisle, A. Hilbert, F. Meyer-Eschenbach, A.-F. Näher, D. Frey, V. I. Madai

Dernière mise à jour: 2023-10-12 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.10.11.23296733

Source PDF: https://www.medrxiv.org/content/10.1101/2023.10.11.23296733.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires