Défis dans la gestion des ensembles de données d'imagerie médicale
Cet article parle des problèmes liés aux ensembles de données d'imagerie médicale sur des plateformes publiques.
― 11 min lire
Table des matières
- Contexte
- Problèmes avec les ensembles de données d'imagerie médicale sur les plateformes de contribution communautaire
- La nature dynamique des ensembles de données
- Vers l'actionnabilité des ensembles de données
- Renforcer l'actionnabilité des données ouvertes
- Limitations et travaux futurs
- Source originale
- Liens de référence
Les ensembles de données d'imagerie médicale sont des ressources clés dans des domaines comme l'apprentissage machine et la vision par ordinateur. Ils aident les chercheurs à comprendre les métriques de performance et à évaluer les impacts des algorithmes sur les gens. L'imagerie médicale est particulièrement importante pour l'utilisation de l'IA dans le secteur de la santé. Ces ensembles de données ont des caractéristiques uniques qui les distinguent des ensembles de données de vision par ordinateur classiques, et ne pas reconnaître ces différences peut causer des problèmes.
Un gros souci est que les images médicales doivent souvent avoir des informations identifiables supprimées pour protéger la Vie privée des patients. De plus, comme un même patient peut avoir plusieurs images, il est crucial de s'assurer que les séparations de données sont bien gérées pour éviter de mélanger les images du même patient dans les ensembles d'entraînement et de test. Enfin, des informations détaillées sur l'ensemble de données, appelées Métadonnées, sont nécessaires pour éviter des résultats biaisés des modèles.
Traditionnellement, les ensembles de données d'imagerie médicale étaient privés et réservés à certaines institutions. Cette situation a créé un besoin de nouvelles méthodes de partage et de gestion des données. Récemment, des plateformes de contribution communautaire (CCP), comme Kaggle et HuggingFace, ont émergé, permettant le partage public d'ensembles de données médicales. Même si ce changement est positif, il présente aussi des défis. Beaucoup d'ensembles de données sur ces plateformes manquent de licences claires et de métadonnées, ce qui peut poser des problèmes de qualité et d'utilisabilité des données.
Contexte
Anatomie d'un ensemble de données d'imagerie médicale
Un ensemble de données d'imagerie médicale commence par une collection d'images provenant de différentes méthodes d'imagerie, comme les radiographies ou les IRM. Ces images sont prises pour des raisons cliniques liées aux soins d'un patient spécifique. Au fil du temps, les images peuvent subir un traitement, où des experts peuvent ajouter des rapports ou des étiquettes aux scans.
Les images collectées et les annotations peuvent être utilisées pour entraîner et évaluer des modèles d'apprentissage machine qui soutiennent les professionnels de la santé. Cependant, avant qu'un ensemble de données ne soit prêt pour l'apprentissage machine, il doit passer par des étapes supplémentaires comme le nettoyage et la suppression des informations identifiantes du patient. En outre, des annotations supplémentaires peuvent être nécessaires pour un entraînement efficace des modèles.
Un exemple d'ensemble de données d'imagerie médicale pourrait inclure une série d'images IR de trois patients, avec des informations sur leur état de santé. Il est essentiel de gérer les données des patients avec soin pour s'assurer que les modèles formés sur ces ensembles de données ne donnent pas de résultats trompeurs.
Différences avec les ensembles de données de vision par ordinateur généraux
Les ensembles de données d'imagerie médicale, tout en partageant certaines caractéristiques avec les ensembles de données de vision par ordinateur généraux, ont des défis uniques. Les traiter comme les mêmes peut créer des résultats nuisibles.
Tout d'abord, les images médicales nécessitent souvent la suppression d'informations identifiables, ce qui est un processus plus complexe que pour les ensembles de données classiques. De plus, comme un patient peut avoir plusieurs images, il est important de prévenir les cas où des images du même patient apparaissent à la fois dans les ensembles d'entraînement et de test.
Enfin, les ensembles de données d'imagerie médicale doivent inclure des métadonnées sur la démographie des patients et l'origine des scans. Sans ces informations, des biais peuvent passer inaperçus, conduisant à de mauvaises performances des modèles sur certains groupes de patients.
Disponibilité et tendances des ensembles de données d'imagerie médicale
Dans le passé, les ensembles de données d'imagerie médicale étaient souvent enfermés dans des institutions privées. Ces ensembles de données étaient petits, limitant leur utilisation en apprentissage machine. Cependant, récemment, de plus en plus d'ensembles de données sont devenus accessibles au public et plus volumineux.
Certains ensembles de données visent à résoudre des défis en imagerie médicale, permettant un meilleur entraînement des modèles. Ces ensembles de données en accès libre sont maintenant souvent hébergés sur diverses plateformes, ce qui augmente leur disponibilité mais crée également des défis pour la qualité et la gouvernance.
Initiatives de données ouvertes
Ces ensembles de données sont collectés à partir de diverses sources, y compris des institutions académiques et des entreprises technologiques, et sont hébergés sur différentes plateformes. Certaines plateformes sont détenues par des entreprises privées qui ont commencé à s'associer avec des entreprises technologiques. Cela soulève des questions sur la manière dont l'intérêt public est servi par ces initiatives de données ouvertes.
Les discussions actuelles sur les systèmes d'IA ont rendu essentiel de réfléchir à des modèles alternatifs pour gérer et partager les données. Il est clair que bien que les CCP offrent un moyen de partage public, la manière dont les données sont documentées et gouvernées est critique et doit être améliorée.
Problèmes avec les ensembles de données d'imagerie médicale sur les plateformes de contribution communautaire
Licences vagues et manque de métadonnées
Beaucoup des ensembles de données les plus utilisés manquent de licences claires et d'identifiants permanents, ce qui crée une incertitude sur leur utilisation. C'est un problème majeur, surtout pour les ensembles de données destinés à être largement partagés.
En ce qui concerne les ensembles de données d'imagerie médicale, la moitié d'entre eux ont été publiés sans licence claire. Ce manque d'information peut semer la confusion chez les utilisateurs sur la manière d'utiliser correctement les données, ce qui peut entraîner des problèmes juridiques potentiels.
Ensembles de données dupliqués et métadonnées manquantes
La prolifération d'ensembles de données d'imagerie médicale ouverts peut conduire à des duplications, ce qui complique encore plus la situation. Par exemple, il existe de nombreuses versions d'ensembles de données sur les lésions cutanées qui contiennent parfois des données qui se chevauchent.
Cette duplication gaspille des ressources et rend difficile la reproduction des résultats de recherche. De nombreux ensembles de données existent sur différentes plateformes, souvent avec des descriptions pauvres ou incomplètes, rendant difficile pour les chercheurs de suivre l'origine des données ou comment elles doivent être utilisées.
Documentation sur les plateformes de contribution communautaire
Problèmes deLa documentation des ensembles de données hébergés sur des plateformes comme Kaggle et HuggingFace est souvent insuffisante. Bien que ces plateformes puissent fournir une certaine structure pour la documentation, de nombreux champs restent vides ou mal remplis.
Malgré les efforts pour créer de meilleures pratiques de documentation, elles sont souvent insuffisantes et ne répondent pas aux besoins de compréhension des caractéristiques des ensembles de données. Ce manque de contexte peut entraver l'utilisation responsable des ensembles de données ouverts.
La nature dynamique des ensembles de données
Les ensembles de données doivent être considérés comme des ressources évolutives plutôt que comme des collections d'informations statiques. Cette perspective souligne la nécessité d'une surveillance efficace pour garantir que la qualité des données est maintenue tout au long de leur cycle de vie.
Défis dans le suivi des changements
Un obstacle à la gestion des ensembles de données est le manque d'identifiants stables qui peuvent se lier de manière cohérente à des versions spécifiques d'un ensemble de données. Cela peut créer des défis pour les chercheurs et les utilisateurs, car cela complique le processus de suivi des mises à jour et des changements.
Importance de la gestion continue
Pour atténuer tout risque potentiel associé à l'utilisation des ensembles de données, il est crucial de mettre en œuvre une gestion continue. Cela signifie surveiller continuellement les ensembles de données pour s'assurer qu'ils sont exacts et utilisés de manière responsable.
Vers l'actionnabilité des ensembles de données
Cette discussion met l'accent sur l'importance de jeter un œil plus attentif à la qualité des ensembles de données d'imagerie médicale ouverts. En faisant cela, nous pouvons identifier les lacunes dans les Qualités nécessaires pour un entraînement efficace de l'IA.
Trois préoccupations concernant les ensembles de données ouverts
Pour s'assurer que les ensembles de données ouverts sont efficaces, ils doivent avoir un accès prévisible, une haute qualité et une documentation complète. Ces éléments sont essentiels pour garantir que les ensembles de données peuvent être utilisés de manière responsable et efficace.
- Accès : Les ensembles de données doivent être faciles à trouver et utilisables sous des licences claires pour que les chercheurs sachent comment les manipuler.
- Qualité : L'évaluation des ensembles de données doit se concentrer sur des applications réelles pour s'assurer qu'elles répondent aux besoins des utilisateurs dans la pratique.
- Documentation : Les ensembles de données doivent avoir une documentation complète et mise à jour pour aider les utilisateurs à comprendre comment les utiliser correctement.
Renforcer l'actionnabilité des données ouvertes
Pour améliorer la situation des ensembles de données d'imagerie médicale ouverts, un modèle de gouvernance basé sur les biens communs peut être établi. Ce modèle peut aider à garantir de meilleures pratiques en matière de documentation, de partage et de maintien de ces ensembles de données.
Modèle de gestion proposé
Inspiré par des cadres communautaires réussis, un modèle de gestion des données à deux niveaux peut être introduit. Cela impliquerait :
- Administrateurs de données : Ces personnes veilleraient à ce que les ensembles de données aient une licence appropriée et des métadonnées maintenues.
- Gardiens de données : Ceux-ci seraient responsables d'une surveillance continue pour s'assurer que les ensembles de données sont à jour et bien documentés.
Limitations et travaux futurs
Bien que cette discussion mette en lumière les problèmes liés aux ensembles de données d'imagerie médicale, il est important de reconnaître que le domaine est encore en développement. Il y a un besoin de plus de recherche sur la manière dont les ensembles de données dans différents domaines sont partagés et maintenus.
Mettre l'accent sur l'implication de la communauté
Comprendre comment les créateurs et les chercheurs interagissent avec les ensembles de données est crucial. Engager ceux qui sont affectés par ces ensembles de données peut conduire à de meilleures pratiques à l'avenir.
Aborder le manque de financement
La recherche sur l'amélioration des ensembles de données est importante mais manque souvent de financement. Il est vital que les organisations soutiennent les efforts pour améliorer la qualité des ensembles de données ouverts.
En résumé, les ensembles de données d'imagerie médicale sont essentiels pour créer des modèles d'IA fiables dans le secteur de la santé. Cependant, il existe des défis importants concernant la manière dont ces ensembles de données sont actuellement gérés sur les plateformes de contribution communautaire. En adoptant un modèle de gestion basé sur les biens communs, il est possible d'améliorer la qualité et l'utilisabilité des ensembles de données d'imagerie médicale, garantissant qu'ils répondent aux besoins des chercheurs et des praticiens dans le domaine.
Titre: Copycats: the many lives of a publicly available medical imaging dataset
Résumé: Medical Imaging (MI) datasets are fundamental to artificial intelligence in healthcare. The accuracy, robustness, and fairness of diagnostic algorithms depend on the data (and its quality) used to train and evaluate the models. MI datasets used to be proprietary, but have become increasingly available to the public, including on community-contributed platforms (CCPs) like Kaggle or HuggingFace. While open data is important to enhance the redistribution of data's public value, we find that the current CCP governance model fails to uphold the quality needed and recommended practices for sharing, documenting, and evaluating datasets. In this paper, we conduct an analysis of publicly available machine learning datasets on CCPs, discussing datasets' context, and identifying limitations and gaps in the current CCP landscape. We highlight differences between MI and computer vision datasets, particularly in the potentially harmful downstream effects from poor adoption of recommended dataset management practices. We compare the analyzed datasets across several dimensions, including data sharing, data documentation, and maintenance. We find vague licenses, lack of persistent identifiers and storage, duplicates, and missing metadata, with differences between the platforms. Our research contributes to efforts in responsible data curation and AI algorithms for healthcare.
Auteurs: Amelia Jiménez-Sánchez, Natalia-Rozalia Avlona, Dovile Juodelyte, Théo Sourget, Caroline Vang-Larsen, Anna Rogers, Hubert Dariusz Zając, Veronika Cheplygina
Dernière mise à jour: 2024-10-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.06353
Source PDF: https://arxiv.org/pdf/2402.06353
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://medium.com/@alexandra.olteanu/responsible-ai-research-needs-impact-statements-too-7b7141031faf
- https://www.cs.toronto.edu/~kriz/cifar.html
- https://www.image-net.org
- https://yann.lecun.com/exdb/mnist/
- https://ufldl.stanford.edu/housenumbers/
- https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- https://github.com/zalandoresearch/fashion-mnist
- https://www.vision.caltech.edu/datasets/cub_200_2011/
- https://places.csail.mit.edu
- https://cs.stanford.edu/~acoates/stl10/
- https://stanfordmlgroup.github.io/competitions/chexpert/
- https://github.com/tensorflow/datasets/issues/2384
- https://drive.grand-challenge.org
- https://github.com/tensorflow/datasets/issues/660
- https://fastmri.med.nyu.edu
- https://github.com/tensorflow/datasets/issues/972
- https://github.com/huggingface/datasets/issues/3991
- https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=1966254
- https://nihcc.app.box.com/v/ChestXray-NIHCC
- https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T
- https://physionet.org/content/mimic-cxr/2.0.0/
- https://datasets.simula.no/kvasir-seg/
- https://cecas.clemson.edu/~ahoover/stare/
- https://luna16.grand-challenge.org
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/
- https://arxiv.org/pdf/2011.05186.pdf
- https://challenge.isic-archive.com/data/
- https://dl.acm.org/doi/abs/10.1145/3510548.3519376
- https://grand-challenge.org