Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Problèmes de reproductibilité dans l'analyse d'images médicales

Une étude révèle de grosses inquiétudes sur la capacité à reproduire les résultats des compétitions de segmentation d'images médicales.

― 9 min lire


Crise de laCrise de lareproductibilité dansl'analyse d'imagesrésultats d'imagerie médicale.importants pour reproduire lesLes défis montrent des problèmes
Table des matières

Dans le domaine de la recherche médicale, les essais cliniques sont le principal moyen de tester de nouveaux médicaments. Cependant, dans l'analyse d'images médicales, les chercheurs utilisent souvent des compétitions, appelées défis, pour comparer leurs méthodes. Ces défis sont censés montrer l'efficacité de différentes approches, mais des études récentes ont révélé que les résultats peuvent varier considérablement. Cela soulève des questions sur la fiabilité de ces résultats, surtout quand il s'agit de reproduire les méthodes des équipes participantes.

L'objectif de ce travail est d'examiner à quel point les méthodes utilisées dans ces défis sont réellement reproductibles. On s'est concentré sur le Défi de Segmentation d'Images Médicales Robustes de 2019, où les équipes devaient segmenter des images médicales. Les résultats de nos efforts de reproduction ont montré que les classements du défi original différaient énormément de notre réimplémentation. Cela indique que les classements ne sont peut-être pas aussi fiables qu'ils en ont l'air.

La segmentation précise des images médicales est cruciale pour développer de nouveaux outils assistés par ordinateur. Beaucoup de méthodes modernes utilisent des techniques d'apprentissage profond qui ont montré de bons résultats avec différents types d'images médicales, comme les scanners CT, les IRM, et les images d'endoscopie. Les défis sont devenus un moyen courant de tester quels modèles performent le mieux en imagerie médicale. Des événements comme la Conférence sur le Calcul d'Images Médicales et les Interventions Assistées par Ordinateur (MICCAI) et le Symposium International IEEE sur l'Imagerie Biomédicale (ISBI) organisent souvent ces défis.

Cependant, des analyses récentes ont montré que le contrôle de la qualité dans ces défis est insuffisant, rendant difficile l'interprétation et la reproduction des résultats. Souvent, seules quelques informations nécessaires sont partagées, ce qui complique encore plus le processus pour ceux qui essaient de reproduire les découvertes.

Pour comprendre à quel point les méthodes étaient reproductibles, nous avons tenté de refaire le travail de toutes les équipes du Défi de Segmentation d'Images Médicales Robustes de 2019 uniquement sur la base des détails qu'elles ont fournis sur leurs méthodes. Ce défi était particulièrement adapté pour notre étude car les participants devaient soumettre des descriptions détaillées de leurs algorithmes, y compris l'architecture du réseau qu'ils ont utilisée, les augmentations de données appliquées, et tous les Hyperparamètres impliqués. Malgré une abondance d'informations, nous avons eu du mal à reproduire les résultats, ce qui suggère qu'il y a des problèmes sérieux avec la documentation des participants.

Matériaux et Méthodes

Le défi de 2019 s'est concentré sur la Robustesse et la généralisabilité des algorithmes des participants. Il a utilisé environ 10 040 images annotées provenant de 30 procédures chirurgicales sur trois types de chirurgie différents. Le défi était organisé en trois étapes, chacune augmentant en difficulté. Les étapes supérieures nécessitaient une meilleure Généralisation des algorithmes pour segmenter les images avec succès.

Nos expériences étaient centrées sur une tâche spécifique dans le défi : segmenter plusieurs instances d'instruments dans les images. Dans le cadre de leurs soumissions, les équipes devaient fournir une description détaillée de leurs méthodes pour permettre la reproductibilité. Cela incluait de partager leur architecture de réseau, les augmentations de données utilisées, et les hyperparamètres choisis. Notre objectif était de suivre de près ces descriptions dans notre réimplémentation, en veillant à utiliser les mêmes langages de programmation et bibliothèques quand c'était possible.

Quand nous avons trouvé des informations floues ou manquantes dans les méthodes, nous avons d'abord cherché des clarifications dans la littérature citée par les participants. Si cela ne nous aidait pas, nous avons consulté d'autres sources. En dernier recours, nous avons examiné des projets similaires disponibles publiquement pour combler les lacunes, souvent en prenant l'approche la plus courante qui semblait correspondre à la tâche. Par exemple, si une équipe ne mentionnait pas quel type d'optimiseur elle utilisait, nous optons pour l'option la plus populaire disponible.

Dans le défi original, les équipes étaient classées selon deux critères : la robustesse et les capacités de généralisation. Le classement de robustesse utilisait le quantile à 5 % des valeurs de l'ensemble de test. Le classement de précision était déterminé via des tests statistiques. Nous avons mis l'accent sur l'analyse des résultats de la troisième étape de l'ensemble de test et comparé nos découvertes aux classements du défi original.

Au cours de notre réimplémentation, nous avons rencontré de nombreuses ambiguïtés dans les descriptions des méthodes fournies par les équipes. Nous avons identifié deux catégories de problèmes : les déficiences mineures, qui étaient des hypothèses que nous avons faites pensant qu'elles auraient peu d'impact sur la performance, et les déficiences majeures, qui étaient des lacunes significatives d'informations qui ont probablement affecté les résultats finaux. Les domaines où nous avons trouvé le plus de divergences étaient la sélection de modèles et l'Augmentation de données.

Résultats

Lorsque nous avons calculé les métriques de performance de nos méthodes réimplémentées, nous avons découvert que les résultats différaient significativement du défi original, avec une seule équipe montrant des résultats similaires. Cette différence était également reflétée dans les classements. Dans le défi original, l'équipe gagnante a changé lorsque nous avons exécuté notre réimplémentation, la plupart des équipes passant à une seule place en haut ou en bas. L'analyse a montré un niveau élevé de variabilité dans les classements.

Pour les classements de robustesse, les gagnants ont également changé dans notre réimplémentation. Le changement de rang moyen pour ce schéma était légèrement supérieur à celui du classement de précision. Dans les résultats originaux, seules quelques équipes n'avaient pas atteint un certain seuil de performance, tandis que dans notre réimplémentation, un plus grand nombre n'a pas respecté les critères attendus.

Nous avons constaté que les classements du défi original étaient plus stables, montrant moins de variabilité par rapport à notre réimplémentation. Les résultats indiquaient que les résultats réimplémentés étaient plus incertains, car de nombreux détails algorithmiques étaient soit vagues soit manquants dans les descriptions fournies par les participants.

Discussion

Ce travail visait à reproduire les classements du Défi de Segmentation d'Images Médicales Robustes en réimplémentant les algorithmes selon les descriptions soumises par les participants. Malheureusement, nous n'avons pas pu obtenir les mêmes résultats, ce qui suggère que les équipes n'ont pas documenté leurs méthodes de manière suffisamment claire.

Bien que les modèles d'apprentissage profond puissent être imprévisibles, contribuant à des problèmes de reproductibilité, nous pensons que la principale raison de notre échec à reproduire les résultats découle du manque de documentation claire et détaillée de la part des participants. Le nombre d'hypothèses que nous avons dû faire était considérable et a affecté chaque étape critique du processus de développement du modèle. Dans certains cas, nous n'avons même pas pu déterminer un élément de base de l'algorithme d'une équipe, ce qui montre l'étendue des problèmes de documentation.

Les décisions de conception complexes avaient souvent des descriptions moins précises que les plus simples. Par exemple, les choix d'optimiseur standard sont généralement plus faciles à spécifier et sont souvent clairement présentés dans le code. Beaucoup de participants ont réussi à rendre compte avec précision de leurs détails d'optimiseur, tandis que la sélection de modèles et l'augmentation de données, qui sont plus compliquées, étaient mal documentées.

Plusieurs équipes ont négligé des aspects clés du défi dans leur documentation. En matière de choix du meilleur modèle, les équipes ne choisissent pas toujours celui qui minimise la perte de validation. Ce défi nécessitait un équilibre délicat, où le bon choix pouvait faire la différence entre le succès et l'échec dans les classements.

De plus, la documentation autour des augmentations de données était souvent insuffisante. Bien que les équipes indiquent généralement quelles augmentations elles ont utilisées, les détails spécifiques sur la façon dont elles ont été appliquées-comme l'ordre ou les probabilités-ont souvent été omis. Ce manque de détail a rendu difficile la reproduction précise de leurs résultats.

Il est important de noter que rendre le code source publiquement disponible pourrait grandement améliorer la reproductibilité. Cependant, pour les équipes issues de l'industrie, cela pourrait être un défi. Par conséquent, les détails dans les descriptions de méthode devraient être particulièrement complets et précis.

Conclusion

Cette étude souligne qu'il est même difficile de reproduire des méthodes bien documentées dans des défis. La manière la plus efficace de s'attaquer au problème de non-reproductibilité pourrait être d'exiger que toutes les équipes partagent publiquement leur code source. Bien que cela puisse poser des défis pratiques, surtout pour les participants de l'industrie, cela aiderait énormément à reproduire les résultats et à faire avancer le domaine. Cette étude espère susciter des discussions parmi ceux impliqués dans l'organisation de futurs défis pour développer de meilleures pratiques en matière de documentation et de reproductibilité.

Source originale

Titre: Challenge Results Are Not Reproducible

Résumé: While clinical trials are the state-of-the-art methods to assess the effect of new medication in a comparative manner, benchmarking in the field of medical image analysis is performed by so-called challenges. Recently, comprehensive analysis of multiple biomedical image analysis challenges revealed large discrepancies between the impact of challenges and quality control of the design and reporting standard. This work aims to follow up on these results and attempts to address the specific question of the reproducibility of the participants methods. In an effort to determine whether alternative interpretations of the method description may change the challenge ranking, we reproduced the algorithms submitted to the 2019 Robust Medical Image Segmentation Challenge (ROBUST-MIS). The leaderboard differed substantially between the original challenge and reimplementation, indicating that challenge rankings may not be sufficiently reproducible.

Auteurs: Annika Reinke, Georg Grab, Lena Maier-Hein

Dernière mise à jour: 2023-07-14 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.07226

Source PDF: https://arxiv.org/pdf/2307.07226

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires