Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Nouvelle méthode pour identifier les lésions cutanées inconnues

Un cadre pour découvrir de nouvelles affections cutanées en utilisant l'apprentissage profond.

― 7 min lire


Détection avancée desDétection avancée deslésions cutanéesdiagnostic du cancer de la peau.Un cadre améliore la précision du
Table des matières

Identifier les Lésions cutanées est essentiel pour diagnostiquer le cancer de la peau. Les méthodes actuelles utilisant l'apprentissage profond ont montré de bons résultats, surtout avec des images prises grâce à une technique appelée dermatoscopie. Cependant, ces méthodes ne peuvent reconnaître que certaines conditions cutanées qui ont été définies à l'avance par des chercheurs. Comme de plus en plus de conditions cutanées sont découvertes avec le temps, il est important d'avoir un moyen d'identifier ces nouvelles conditions sans avoir besoin de les étiqueter manuellement.

Il existe de nombreuses maladies de la peau connues - plus de 2000, dont environ 200 sont courantes. Avec l'apparition de nouvelles maladies, il n'est pas pratique d'annoter de nouvelles données pour chacune de ces conditions. Comme les maladies connues et inconnues partagent souvent des similitudes, les connaissances existantes sur les conditions connues peuvent aider à identifier de nouvelles.

Une approche pour résoudre ce problème est la découverte de nouvelles classes (NCD). Cette méthode essaie d'utiliser ce que l'on sait sur les conditions existantes pour trouver et regrouper de nouvelles maladies cutanées inconnues. La plupart des méthodes NCD impliquent deux étapes principales : d'abord, former un modèle avec des données étiquetées provenant de conditions connues ; ensuite, grouper les conditions inconnues en fonction des connaissances acquises.

Le Cadre Proposé

Dans notre recherche, nous présentons un nouveau cadre pour la découverte de nouvelles classes en nous concentrant sur les lésions cutanées. L'objectif est de trouver automatiquement de nouvelles catégories de conditions cutanées à partir d'images de dermatoscopie. Pour cela, nous prenons plusieurs étapes :

  1. Apprentissage des Caractéristiques : D'abord, nous utilisons une technique appelée Apprentissage contrastif pour créer un modèle de base solide qui comprend les caractéristiques des catégories connues et inconnues.

  2. Stratégie de Clustering : Ensuite, nous mettons en œuvre une méthode unique qui se concentre sur l'incertitude. Cette approche permet au modèle de produire de meilleures prédictions pour le regroupement des conditions inconnues. Nous utilisons une méthode appelée auto-étiquetage pour générer des étiquettes temporaires pour les conditions inconnues qui seront traitées de manière similaire aux vraies étiquettes des conditions connues.

  3. Amélioration des Prédictions : En dernière étape, nous affinons ces étiquettes temporaires en examinant des images similaires dans le jeu de données. Cela aide à améliorer la précision globale du processus de regroupement.

Importance de l'Identification Précise des Lésions Cutanées

Une identification rapide et précise des lésions cutanées peut faire une énorme différence dans le traitement du cancer de la peau. Un diagnostic précoce conduit souvent à de meilleurs résultats pour les patients. Cependant, les modèles d'apprentissage profond traditionnels nécessitent beaucoup de données étiquetées pour chaque catégorie pour fonctionner efficacement. Collecter ces données n'est pas toujours faisable, surtout lorsqu'il s'agit de nombreuses conditions cutanées différentes ou rares.

L'apprentissage semi-supervisé, qui utilise un mélange de données étiquetées et non étiquetées, a été suggéré comme un moyen d'améliorer la performance du modèle lorsque les données étiquetées sont limitées. Cependant, cela nécessite souvent au moins un peu de données étiquetées pour chaque condition, ce qui n'est pas toujours disponible dans des scénarios réels.

Défis des Méthodes Actuelles

Malgré les avancées, de nombreuses méthodes existantes pour la découverte de nouvelles classes ont des limitations. L'approche courante en deux étapes peut conduire à des étiquettes bruyantes lors du regroupement des conditions inconnues. Ces étiquettes bruyantes peuvent entraver le processus de regroupement et engendrer des erreurs au fil du temps. De plus, la plupart des méthodes se concentrent uniquement sur l'alignement global des échantillons avec les centres de catégorie, négligeant les relations locales entre les échantillons.

Notre Approche en Détail

Pour répondre aux défis mentionnés ci-dessus, nous proposons un nouveau cadre qui comprend trois composants principaux :

1. Apprentissage Contrastif

Cette étape aide à construire une solide représentation des caractéristiques pour notre modèle. En contrastant différentes images et leurs versions augmentées, nous pouvons entraîner notre modèle à distinguer les caractéristiques de manière plus efficace. Cet entraînement aide à empêcher le modèle de se concentrer trop sur les catégories connues.

2. Multi-View Cross-Pseudo-Supervision Sensible à l'Incertitude

Dans cette partie, notre modèle crée des prédictions basées sur différentes vues des mêmes images. Nous combinons ensuite ces prédictions pour générer des résultats finaux. Pour mieux gérer les étiquettes temporaires créées pour les conditions inconnues, nous incorporons l'incertitude. Lorsque les prédictions sont très incertaines, nous comprenons que les étiquettes temporaires peuvent ne pas être fiables. Par conséquent, nous ajustons la manière dont nous utilisons ces étiquettes en fonction de la confiance du modèle dans ses prédictions.

3. Agrégation d'Informations Locales

Enfin, nous introduisons une méthode pour améliorer la compréhension par le modèle des voisinages locaux. Chaque fois que nous traitons un lot d'images, nous suivons les caractéristiques des échantillons récents. En comparant ces caractéristiques avec celles en mémoire, nous pouvons mieux affiner les étiquettes temporaires et améliorer la précision globale. Cette étape garantit que le modèle ne considère pas seulement des motifs globaux mais aussi des similarités locales.

Résultats Expérimentaux

Pour valider notre méthode, nous avons mené des expériences approfondies sur un célèbre ensemble de données en dermatologie, ISIC 2019. Cet ensemble de données comprend des milliers d'images dermatoscopiques catégorisées en diverses maladies cutanées. Étant donné la nature déséquilibrée de cet ensemble, nous avons dû équilibrer le nombre d'échantillons utilisés pour chaque catégorie.

Nous avons effectué deux tâches dans nos expériences. Pour la première tâche, nous avons classé quatre catégories comme connues et quatre comme inconnues. Pour la seconde tâche, nous avons échangé ces catégories. En exécutant plusieurs essais, nous avons pu évaluer la performance moyenne de notre modèle par rapport aux méthodes existantes.

Comparaison avec d'Autres Méthodes

Après avoir mené des expériences, nous avons comparé notre cadre avec plusieurs méthodes de pointe en NCD. Les résultats ont montré que notre cadre performait mieux dans le regroupement des catégories inconnues. Alors que d'autres méthodes s'amélioraient par rapport aux repères de base, notre méthode excellait, offrant de meilleures prédictions et minimisant les effets des étiquettes bruyantes.

Comprendre l'Impact de Chaque Composant

Pour garantir que notre cadre était efficace, nous avons également réalisé des études d'ablation - essentiellement des tests qui isolent des parties de notre méthode pour voir leur impact individuel. Les résultats ont indiqué que :

  • L'apprentissage contrastif a considérablement amélioré la capacité du modèle à comprendre les caractéristiques et a amélioré l'exactitude du regroupement.

  • La multi-view cross-pseudo-supervision sensible à l'incertitude a permis à notre modèle de mieux généraliser en encourageant la cohérence entre différentes vues des images.

  • L'agrégation d'informations locales a renforcé la performance du modèle en affinant les étiquettes temporaires en fonction des relations de voisinage.

Conclusion

En résumé, notre méthode nouvellement proposée pour la découverte de nouvelles classes dans les lésions cutanées démontre des améliorations significatives par rapport aux approches traditionnelles. Nous avons établi un cadre qui intègre l'apprentissage contrastif, la gestion de l'incertitude et les méthodes d'agrégation locale pour identifier efficacement de nouvelles catégories de maladies cutanées à partir d'images. Les résultats obtenus lors de tests rigoureux montrent que notre approche peut aider au dépistage précoce du cancer de la peau en reconnaissant avec précision les conditions cutanées émergentes.

Les futures travaux étendront l'applicabilité de ce cadre à d'autres domaines de l'analyse d'images médicales, ouvrant la voie à de meilleures options de diagnostic et de traitement dans diverses conditions médicales.

Source originale

Titre: Towards Novel Class Discovery: A Study in Novel Skin Lesions Clustering

Résumé: Existing deep learning models have achieved promising performance in recognizing skin diseases from dermoscopic images. However, these models can only recognize samples from predefined categories, when they are deployed in the clinic, data from new unknown categories are constantly emerging. Therefore, it is crucial to automatically discover and identify new semantic categories from new data. In this paper, we propose a new novel class discovery framework for automatically discovering new semantic classes from dermoscopy image datasets based on the knowledge of known classes. Specifically, we first use contrastive learning to learn a robust and unbiased feature representation based on all data from known and unknown categories. We then propose an uncertainty-aware multi-view cross pseudo-supervision strategy, which is trained jointly on all categories of data using pseudo labels generated by a self-labeling strategy. Finally, we further refine the pseudo label by aggregating neighborhood information through local sample similarity to improve the clustering performance of the model for unknown categories. We conducted extensive experiments on the dermatology dataset ISIC 2019, and the experimental results show that our approach can effectively leverage knowledge from known categories to discover new semantic categories. We also further validated the effectiveness of the different modules through extensive ablation experiments. Our code will be released soon.

Auteurs: Wei Feng, Lie Ju, Lin Wang, Kaimin Song, Zongyuan Ge

Dernière mise à jour: 2023-09-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.16451

Source PDF: https://arxiv.org/pdf/2309.16451

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires