Améliorer la recherche d'images en pathologie numérique
De nouvelles méthodes visent à améliorer la recherche d'images en histopathologie et à réduire le biais de l'IA.
― 10 min lire
Table des matières
- Le Problème des biais de l'IA
- Le Besoin de Meilleures Techniques de Recherche d'Images
- Une Nouvelle Approche pour Améliorer la Recherche d'Images
- Comprendre les Images de diapositives entières
- Le Rôle de l'Apprentissage automatique en Pathologie Numérique
- Approches d'Apprentissage Non Supervisé
- S'attaquer au Biais dans la Médecine Numérique
- Les Effets du Biais dans les Modèles d'Apprentissage Automatique
- Solutions Proposées pour Réduire le Biais
- Expérimentation et Résultats
- Comparaison des Résultats
- Conclusion
- Source originale
Dans le domaine de la santé, surtout en pathologie, les images numériques sont super importantes. Elles aident les médecins à diagnostiquer des maladies en leur permettant d'examiner de près des échantillons de tissus. Mais, il y a des défis majeurs quand il s'agit de chercher des images spécifiques dans d'énormes collections de ces diapositives numériques. Les chercheurs bossent pour améliorer les techniques de recherche d'images, surtout pour l'histopathologie, qui consiste à analyser des tissus pour comprendre des maladies comme le cancer.
Le Problème des biais de l'IA
Un gros problème en utilisant l'intelligence artificielle (IA) pour la recherche d'images, c'est le biais. Le biais veut dire que le système peut favoriser certains types de données, entraînant des résultats inexactes ou injustes. Dans la pathologie numérique, l'IA pourrait ne pas fonctionner correctement si elle est formée sur des données provenant seulement de certains hôpitaux ou groupes de patients. Ça peut mener à des erreurs de diagnostic ou des suggestions de traitement incorrectes. En plus, beaucoup de modèles existants ne sont pas conçus pour gérer efficacement la recherche d'images, se concentrant souvent juste sur la classification des images en catégories définies.
Le Besoin de Meilleures Techniques de Recherche d'Images
La plupart des méthodes actuelles de recherche d'images utilisent des modèles d'apprentissage profond qui se concentrent sur la classification plutôt que sur la recherche d'images similaires. Ça peut être inefficace. Par exemple, si un modèle est formé pour étiqueter des images, il peut ne pas donner les meilleurs résultats lorsqu'on lui demande de trouver des images similaires. Le processus de recherche devient donc moins efficace.
Une Nouvelle Approche pour Améliorer la Recherche d'Images
Face à ces problèmes, les chercheurs proposent de nouvelles méthodes pour améliorer les performances des recherches d'images en histopathologie. Deux concepts principaux sont introduits pour répondre à ces préoccupations : une fonction de perte de classement et une technique appelée apprentissage séquestre.
Fonction de Perte de Classement
La fonction de perte de classement est conçue pour aider les modèles à apprendre comment classer les images en fonction de leur similarité. En se concentrant sur les relations entre les images, au lieu de juste les catégoriser, le modèle peut fournir de meilleurs résultats lors des recherches. Cette approche met l'accent sur la recherche d'images qui correspondent à certaines caractéristiques ou fonctionnalités plutôt que de simplement se limiter à des étiquettes prédéfinies.
Apprentissage Séquestre
L'apprentissage séquestre adopte une approche unique pour réduire le biais dans les modèles d'IA. Dans cette méthode, les images provenant du même hôpital où les données ont été collectées sont exclues de certaines étapes de la formation. En faisant cela, le modèle apprend à ignorer des schémas spécifiques associés à des hôpitaux individuels, favorisant ainsi une représentation plus équilibrée des données. Cela aide le modèle à mieux généraliser et réduit les risques de résultats biaisés.
Comprendre les Images de diapositives entières
Les images de diapositives entières (WSIs) sont de grandes représentations numériques détaillées de diapositives de tissu. Elles contiennent beaucoup d'informations mais posent aussi des défis à cause de leur taille, de leur complexité et du besoin d'annotations précises. Ces défis font que travailler efficacement avec les WSIs nécessite souvent des méthodes sophistiquées capables de gérer cette énorme quantité de données.
Défis dans le Travail avec les WSIs
Un des principaux problèmes avec les WSIs, c'est qu'elles sont souvent des images gigapixels, ce qui signifie qu'elles sont très grandes et nécessitent beaucoup de mémoire et de puissance de traitement pour être analysées. De plus, obtenir des annotations d'experts à un niveau de détail aussi élevé peut être difficile et prendre beaucoup de temps. La plupart des méthodes se concentrent sur des parties plus petites de la diapositive entière, appelées patches, pour rendre l'analyse plus gérable.
Le Rôle de l'Apprentissage automatique en Pathologie Numérique
L'apprentissage automatique a été de plus en plus appliqué à la pathologie numérique pour aider à automatiser et améliorer l'analyse des images d'histopathologie. Les chercheurs développent des modèles pour identifier efficacement des caractéristiques importantes dans les images qui peuvent mener à des diagnostics précis. Cependant, créer des modèles efficaces dans ce domaine s'est révélé être une tâche complexe.
L'Importance des Caractéristiques
Dans l'apprentissage automatique, les caractéristiques sont les attributs clés qui définissent les données analysées. Pour la recherche d'images, ces caractéristiques doivent être représentatives, c'est-à-dire qu'elles décrivent fidèlement le contenu de l'image. Les réseaux de neurones profonds (DNNs) sont souvent utilisés pour extraire ces caractéristiques des images. En alimentant des images dans un DNN, les chercheurs peuvent obtenir des vecteurs de caractéristiques qui capturent les éléments essentiels nécessaires pour la comparaison lors des recherches.
Approches d'Apprentissage Non Supervisé
Étant donné les défis associés aux WSIs, beaucoup de chercheurs se sont tournés vers des méthodes non supervisées, qui ne nécessitent pas de données étiquetées. Par exemple, certaines techniques se concentrent sur des recherches basées sur des patches, où de petites portions de la diapositive entière sont examinées plutôt que l'image complète. Cette approche aide à réduire la complexité impliquée dans le traitement d'images grandes.
S'attaquer au Biais dans la Médecine Numérique
Le biais peut se manifester de différentes manières dans les études médicales. Trois types principaux ont été identifiés : le biais basé sur les données, le biais algorithmique et le biais humain.
- Le biais basé sur les données apparaît lorsque le jeu de données utilisé pour la formation n'est pas représentatif de l'ensemble de la population.
- Le biais algorithmique survient lorsqu'un modèle formé sur des données biaisées continue de renforcer ces biais pendant ses prédictions.
- Le biais humain peut résulter des intentions ou des limitations de ceux qui conçoivent les modèles.
Ces biais peuvent affecter considérablement la capacité des systèmes d'IA à généraliser à travers différentes populations et entraîner des erreurs de diagnostic potentielles en santé.
Les Effets du Biais dans les Modèles d'Apprentissage Automatique
Les modèles d'apprentissage profond tendent à suradapter, ce qui signifie qu'ils mémorisent trop étroitement les données d'entraînement, les rendant moins efficaces quand ils font face à des informations nouvelles et inédites. C'est particulièrement préoccupant en pathologie numérique, où les modèles formés sur des caractéristiques de site spécifiques peuvent mal performer lorsqu'ils sont appliqués à des données de sources différentes.
Des recherches récentes ont indiqué que certains modèles sont capables de classifier des images en fonction de leur institution source, en se basant sur des identifiants uniques dans les images. Cela suggère que les modèles pourraient se concentrer sur ces identifiants plutôt que sur les véritables caractéristiques médicales nécessaires pour le diagnostic.
Solutions Proposées pour Réduire le Biais
Les deux méthodes proposées visent à traiter ces problèmes de biais et à améliorer l'exactitude de la recherche d'images en histopathologie.
Mise en Œuvre de la Fonction de Perte de Classement
La fonction de perte de classement encourage les modèles à être formés avec un accent sur la similarité des images plutôt que sur une classification stricte. Ce changement permet au modèle d'améliorer sa performance dans les recherches en comprenant mieux les relations entre des images similaires. En conséquence, le modèle est guidé de manière efficace pour prioriser les caractéristiques qui sont significatives pour la recherche plutôt que de simplement étiqueter.
Le Rôle de l'Apprentissage Séquestre
En mettant en œuvre l'apprentissage séquestre, les chercheurs peuvent s'assurer que les images de la même institution n'influencent pas les prédictions du modèle. Cette action aide à minimiser le risque de biais provenant de schémas spécifiques au site et permet au modèle de se concentrer sur des caractéristiques clés pertinentes pour le diagnostic des types de cancer sans être influencé par des raccourcis erronés.
Expérimentation et Résultats
Les méthodes proposées ont été validées en utilisant le jeu de données du Cancer Genome Atlas (TCGA), qui est une grande collection de WSIs couvrant divers types de cancer. Les chercheurs ont réalisé plusieurs expériences pour évaluer l'efficacité de la fonction de perte de classement et de l'apprentissage séquestre.
Formation des Modèles
Les chercheurs ont formé des modèles sur des jeux de données de cancer du poumon et du cerveau en utilisant différentes configurations. Les modèles devaient apprendre à classifier les images efficacement tout en améliorant également leurs capacités de recherche. Pendant la formation, ils ont comparé la performance du modèle par rapport aux modèles d'état de l'art existants pour évaluer les améliorations.
Métriques d'Évaluation
Pour évaluer la performance des modèles, les chercheurs se sont fiés à des métriques comme le score F1, qui combine précision et rappel pour évaluer l'équilibre entre faux positifs et faux négatifs. Des scores F1 plus élevés indiquaient une meilleure performance du modèle lors des recherches d'images.
Comparaison des Résultats
Les expériences ont révélé que les modèles utilisant la fonction de perte de classement surpassaient significativement les modèles traditionnels qui se concentraient uniquement sur la classification. Dans les ensembles de données du poumon et du cerveau, les nouvelles méthodes ont amélioré la précision et réduit le biais, montrant leur efficacité dans les recherches d'images.
Conclusion
Les avancées dans l'apprentissage profond pour la pathologie numérique annoncent un futur prometteur pour améliorer les soins de santé grâce à des diagnostics précis et des recherches d'images efficaces. En s'attaquant de manière proactive aux biais et en se concentrant sur les vraies caractéristiques qui comptent dans le diagnostic médical, les chercheurs peuvent développer des systèmes d'IA plus fiables. L'introduction de la perte de classement et de l'apprentissage séquestre sont des étapes critiques vers l'atteinte de ces objectifs.
Alors que la pathologie numérique continue de s'intégrer dans la pratique clinique, il est essentiel de peaufiner ces méthodes pour s'assurer qu'elles puissent être utilisées efficacement et équitablement. La collaboration continue entre la technologie et les professionnels de la santé porte la promesse d'améliorer les soins aux patients grâce à des processus diagnostiques améliorés.
Titre: Ranking Loss and Sequestering Learning for Reducing Image Search Bias in Histopathology
Résumé: Recently, deep learning has started to play an essential role in healthcare applications, including image search in digital pathology. Despite the recent progress in computer vision, significant issues remain for image searching in histopathology archives. A well-known problem is AI bias and lack of generalization. A more particular shortcoming of deep models is the ignorance toward search functionality. The former affects every model, the latter only search and matching. Due to the lack of ranking-based learning, researchers must train models based on the classification error and then use the resultant embedding for image search purposes. Moreover, deep models appear to be prone to internal bias even if using a large image repository of various hospitals. This paper proposes two novel ideas to improve image search performance. First, we use a ranking loss function to guide feature extraction toward the matching-oriented nature of the search. By forcing the model to learn the ranking of matched outputs, the representation learning is customized toward image search instead of learning a class label. Second, we introduce the concept of sequestering learning to enhance the generalization of feature extraction. By excluding the images of the input hospital from the matched outputs, i.e., sequestering the input domain, the institutional bias is reduced. The proposed ideas are implemented and validated through the largest public dataset of whole slide images. The experiments demonstrate superior results compare to the-state-of-art.
Auteurs: Pooria Mazaheri, Azam Asilian Bidgoli, Shahryar Rahnamayan, H. R. Tizhoosh
Dernière mise à jour: 2023-04-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.08498
Source PDF: https://arxiv.org/pdf/2304.08498
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.