Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

SelectiveKD : Une approche futée pour détecter le cancer du sein

Une nouvelle méthode améliore la détection du cancer du sein en utilisant des données étiquetées et non étiquetées.

― 7 min lire


SelectiveKD Améliore laSelectiveKD Améliore laDétection du Cancerétiquetées.avec des données étiquetées et nonAvancées dans la détection du cancer
Table des matières

Le cancer du sein, c'est un gros souci de santé, et détecter tôt peut vraiment améliorer les résultats des traitements. La Tomosynthèse Numérique du Sein (DBT), c'est une technologie qui fournit des images en 3D du sein, permettant aux médecins de repérer le cancer plus efficacement que les mammographies en 2D traditionnelles. Mais analyser ces images 3D, c'est pas facile et ça prend du temps pour les radiologues.

Le défi de l'annotation

Pour entraîner des systèmes informatiques qui aident à détecter le cancer à partir des images DBT, il faut plein de données étiquetées (c'est-à-dire des images marquées pour montrer si elles contiennent du cancer ou pas). Malheureusement, obtenir des étiquettes précises pour des milliers d'images demande beaucoup de boulot et coûte cher. Traditionnellement, seulement quelques tranches (ou images) de chaque pile DBT sont marquées, ce qui peut entraîner du bruit et de la confusion dans les données.

Présentation de SelectiveKD

Pour résoudre ce problème, des chercheurs ont développé un nouvel outil appelé SelectiveKD. Ce truc permet à un modèle de détection de cancer d'apprendre à partir d'Images annotées (celles qui sont étiquetées) et d'images non annotées (celles qui ne le sont pas). En utilisant une technique appelée Distillation de connaissances, le modèle peut mieux apprendre en recevant des conseils d'un modèle enseignant, qui est créé à partir des images étiquetées.

Distillation de connaissances expliquée

La distillation de connaissances, c'est un peu comme avoir un prof qui guide un élève. Le modèle enseignant est d'abord formé sur les données étiquetées. Ensuite, quand le modèle élève est entraîné, il peut utiliser les infos du modèle enseignant pour améliorer son propre apprentissage. C'est super utile parce que le modèle élève peut aussi appliquer ce qu'il apprend aux Images non étiquetées dans le même ensemble de données.

Comment ça marche SelectiveKD

SelectiveKD utilise une méthode ingénieuse pour filtrer le bruit qui pourrait être introduit par le modèle enseignant. Ça se fait avec quelque chose qu'on appelle le pseudo-annotation. Pendant ce processus, le modèle enseignant fait des prévisions sur les images non étiquetées. Seules les prévisions sur lesquelles le prof est sûr (c'est-à-dire celles où il a un bon pressentiment) sont utilisées pour entraîner le modèle élève. En étant sélectif sur les données à inclure, le modèle peut apprendre plus efficacement sans se laisser embrouiller par des étiquettes incorrectes.

Collecte de données pour l'étude

Les chercheurs ont testé SelectiveKD sur un gros ensemble de données qui contenait plus de 10 000 examens DBT collectés dans divers établissements médicaux. Cet ensemble de données avait différents types de cas : certains montraient du cancer du sein, d'autres des problèmes bénins et certains étaient normaux. Plusieurs dispositifs ont été utilisés pour collecter ces données, ce qui compliquait la tâche de s'assurer que le modèle puisse bien fonctionner avec différents types de données.

Les avantages de SelectiveKD

Les résultats de l'utilisation de SelectiveKD étaient prometteurs. Le modèle a mieux détecté le cancer en combinant des données étiquetées et non étiquetées. Notamment, il a réussi à s'adapter à des données collectées à partir de différents dispositifs sans nécessiter d'annotations supplémentaires de ces dispositifs. Ça veut dire que le modèle peut toujours bien fonctionner, même s'il n'a jamais vu de données d'un dispositif spécifique avant.

Efficacité des coûts

Un aspect important de SelectiveKD, c'est le potentiel d'économies. En utilisant moins d'exemples étiquetés et en tirant parti des données non étiquetées, le modèle peut atteindre des performances similaires. Ça aide à réduire les coûts de l'annotation des données, rendant la technologie plus accessible pour une utilisation étendue.

Stratégies pratiques d'annotation

Annoter les données DBT peut être un projet long, car chaque examen est composé de plusieurs images. Une méthode que certains établissements utilisent consiste à annoter seulement l'image où le cancer est le plus visible. Ça aide à réduire la charge de travail, mais il faut quand même vérifier plusieurs images pour trouver la meilleure à annoter.

Une autre façon de récolter des étiquettes, c’est via des annotations faibles. Ça consiste à utiliser d'autres tests médicaux, comme des échographies ou des biopsies, pour indiquer si le cancer est présent, mais sans fournir d'infos détaillées au niveau des tranches. Cette méthode a ses limites car elle ne peut pas toujours indiquer l'emplacement exact du cancer dans les images.

Atténuer le bruit dans l'apprentissage

Pour s'assurer que SelectiveKD est efficace, il a une stratégie pour filtrer le bruit provenant des prévisions. En se concentrant sur les prévisions de haute confiance et en utilisant à la fois des pertes supervisées et non supervisées pendant l'entraînement, le modèle peut apprendre plus précisément de ses erreurs et s'améliorer avec le temps. Cette approche à double perte aide le modèle à équilibrer les avantages des données étiquetées et non étiquetées.

Tests expérimentaux

Les chercheurs ont réalisé plusieurs tests pour comparer SelectiveKD aux méthodes traditionnelles. Différents setups impliquaient diverses combinaisons de données étiquetées et non étiquetées. Ils ont aussi expérimenté avec différents seuils de confiance pour voir comment gérer au mieux l'inclusion des images non étiquetées.

Les résultats ont montré que l'utilisation de SelectiveKD surpasse systématiquement le modèle de base, surtout quand des données provenant de dispositifs qui n'ont pas été utilisés pendant la formation étaient incluses. Ça indique que SelectiveKD pourrait être particulièrement utile dans des milieux médicaux réels où des machines de différents fabricants sont utilisées.

Généralisation à travers différents dispositifs

Un des résultats les plus marquants, c'est que la performance du modèle s'améliorait le plus lorsqu'il était testé sur des données provenant de dispositifs qu'il n'avait jamais vus avant. Ça montre la capacité du modèle à bien fonctionner dans différentes situations, ce qui est crucial pour des logiciels utilisés dans des environnements cliniques divers.

Conclusion

L'introduction de SelectiveKD représente un pas en avant significatif dans l'efficacité des modèles de détection du cancer en DBT. En combinant intelligemment des données étiquetées et non étiquetées, il est possible d'atteindre des niveaux de précision élevés avec moins de dépendance à une annotation extensive, qui est souvent chronophage et coûteuse.

Avec la poursuite des recherches, on espère que ces méthodes pourront être perfectionnées et élargies pour inclure des capacités plus complètes, comme localiser précisément les lésions et améliorer les taux de détection dans divers sous-groupes de patients. En fin de compte, des avancées comme celles-ci continuent d'améliorer la valeur de la technologie d'apprentissage profond dans le domaine de la santé, offrant de meilleures perspectives pour le dépistage et le diagnostic du cancer du sein.

Source originale

Titre: SelectiveKD: A semi-supervised framework for cancer detection in DBT through Knowledge Distillation and Pseudo-labeling

Résumé: When developing Computer Aided Detection (CAD) systems for Digital Breast Tomosynthesis (DBT), the complexity arising from the volumetric nature of the modality poses significant technical challenges for obtaining large-scale accurate annotations. Without access to large-scale annotations, the resulting model may not generalize to different domains. Given the costly nature of obtaining DBT annotations, how to effectively increase the amount of data used for training DBT CAD systems remains an open challenge. In this paper, we present SelectiveKD, a semi-supervised learning framework for building cancer detection models for DBT, which only requires a limited number of annotated slices to reach high performance. We achieve this by utilizing unlabeled slices available in a DBT stack through a knowledge distillation framework in which the teacher model provides a supervisory signal to the student model for all slices in the DBT volume. Our framework mitigates the potential noise in the supervisory signal from a sub-optimal teacher by implementing a selective dataset expansion strategy using pseudo labels. We evaluate our approach with a large-scale real-world dataset of over 10,000 DBT exams collected from multiple device manufacturers and locations. The resulting SelectiveKD process effectively utilizes unannotated slices from a DBT stack, leading to significantly improved cancer classification performance (AUC) and generalization performance.

Auteurs: Laurent Dillard, Hyeonsoo Lee, Weonsuk Lee, Tae Soo Kim, Ali Diba, Thijs Kooi

Dernière mise à jour: Sep 24, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.16581

Source PDF: https://arxiv.org/pdf/2409.16581

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires