Simple Science

La science de pointe expliquée simplement

# Biologie# Biologie des systèmes

Avancées dans les techniques de segmentation cellulaire

Une nouvelle méthode améliore la segmentation des types de cellules inconnus sans étiquetage supplémentaire.

― 7 min lire


Méthodes améliorées deMéthodes améliorées desegmentation cellulairenon entraînés.précision pour les types de cellulesDe nouvelles techniques améliorent la
Table des matières

Des développements récents en microscopie ont permis de capturer un grand nombre d'images microscopiques de cellules. C'est super important pour les sciences de la vie, car il faut créer des méthodes qui peuvent analyser et extraire des infos utiles de cette énorme quantité de données. Un processus clé dans cette analyse est la segmentation cellulaire, qui consiste à identifier et délimiter les différentes zones de cellules dans ces images. C'est crucial pour mesurer les formes et les caractéristiques des cellules afin d'obtenir des insights sur les processus biologiques.

Les méthodes traditionnelles de segmentation cellulaire reposent sur diverses techniques de traitement d'images, mais elles sont souvent inadaptées car elles nécessitent des réglages spécifiques pour chaque image. Cette incohérence peut mener à de mauvais résultats et à des temps de traitement lents. Récemment, de nouvelles approches utilisant le deep learning ont émergé. Ces méthodes peuvent automatiquement ajuster les réglages, ce qui améliore l'efficacité et la précision. Les modèles de deep learning, comme les réseaux neuronaux convolutifs (CNN), peuvent être entraînés à reconnaître quelles parties d'une image représentent des cellules et lesquelles ne le sont pas.

Défis de la Segmentation Cellulaire

Cependant, il y a des défis avec ces modèles de deep learning. Un problème courant survient lorsque ces modèles sont entraînés sur un type de cellule, puis utilisés sur un autre type de cellule inconnu. Leur performance chute souvent car ils ont du mal à reconnaître les nouvelles caractéristiques de ces types cellulaires non entraînés. Une solution simple consisterait à créer de nouveaux ensembles de données étiquetées pour chaque type de cellule inconnu, mais c'est long et coûteux car cela nécessite un étiquetage détaillé de chaque pixel d'une image.

L'hypothèse dans le deep learning est que les données utilisées pour l'entraînement et le test sont similaires. Si les différences entre elles sont trop grandes, la performance du modèle diminue. Cette situation est connue sous le nom de décalage de domaine. Pour résoudre ce problème, plusieurs méthodes ont été développées qui ne nécessitent pas de nouvelles images étiquetées. Ces méthodes ajustent le modèle pour mieux s'aligner sur les caractéristiques des nouvelles données qu'il rencontre.

Nouvelle Méthode de Segmentation Cellulaire

Dans notre travail, nous avons introduit une nouvelle méthode pour améliorer la segmentation cellulaire sans avoir besoin de données étiquetées supplémentaires. Notre approche utilise deux modèles encodeur-décodeur séparés qui apprennent ensemble à ajuster les différences au niveau des pixels. Cela signifie que pendant qu'un modèle prédit les zones cellulaires, l'autre modèle peut utiliser cette prédiction pour améliorer sa propre compréhension et vice versa.

Nous avons testé cette méthode sur un ensemble de données public contenant des images en contraste de phase de plusieurs types de cellules humaines et de souris. Les résultats ont montré que notre méthode améliorait considérablement la précision de segmentation pour des types cellulaires inconnus. Dans certains cas, elle a même surpassé les modèles d'Apprentissage supervisé traditionnels, qui nécessitaient des données étiquetées pour l'entraînement.

Ensemble de Données et Analyse

Pour nos expériences, nous avons utilisé un ensemble de données spécifique qui incluait une variété de types cellulaires. Les images ont été soigneusement sélectionnées pour représenter différentes morphologies cellulaires. Pour garantir que les modèles puissent apprendre efficacement, nous avons exclu les données contenant des erreurs d'étiquetage ou des images de cellules très encombrées. De plus, nous avons organisé les ensembles de données d'entraînement et de test de manière à éviter tout biais lié à des motifs d'image spécifiques qui pourraient influencer l'apprentissage.

Les images utilisées ont été traitées pour maintenir la cohérence, et diverses techniques d'augmentation ont été appliquées pour renforcer l'entraînement du modèle. Cela incluait le retournement et le recadrage des images, ce qui aide le modèle à apprendre à reconnaître les cellules dans différentes positions et orientations.

Aperçu de la Méthode Proposée

Notre méthode proposée, appelée CULPICO, consiste en deux modèles encodeur-décodeur qui interagissent pour améliorer leur apprentissage. Chaque modèle traite les images pour prédire où se trouvent les cellules. Les prédictions faites par un modèle servent de guide pour l'autre modèle, permettant aux deux de peaufiner leurs prédictions en fonction d'une compréhension partagée.

L'entraînement consiste en deux parties principales : l'apprentissage supervisé sur des données bien étiquetées et l'Auto-apprentissage coopératif sur des données non étiquetées. Pendant l'entraînement supervisé, les modèles apprennent à partir d'images avec des étiquettes indiquant les emplacements des cellules. Dans la phase d'auto-apprentissage, ils utilisent leurs prédictions pour s'améliorer sur des images sans étiquettes.

Évaluation de la Méthode

Pour évaluer notre méthode, nous avons comparé ses performances à celles de modèles de référence inférieurs et supérieurs qui ont été entraînés uniquement sur des ensembles de données étiquetées et non étiquetées, respectivement. Les résultats ont indiqué que notre méthode surpassait significativement le modèle de référence inférieur, en particulier sur des combinaisons de types cellulaires qui présentaient précédemment des défis.

Nous avons également visualisé les données pour analyser les caractéristiques morphologiques des cellules. Cela a impliqué de réduire la complexité des données d'image à deux dimensions pour une meilleure visualisation. À travers cette analyse, nous avons remarqué que les images se regroupaient selon les types cellulaires, indiquant des distinctions claires entre elles.

Résultats et Comparaisons de Performance

La performance de notre méthode proposée a été validée par des tests approfondis avec diverses combinaisons de types cellulaires. Nous avons calculé des métriques pour mesurer précisément à quel point la segmentation était performante, en nous concentrant particulièrement sur la capacité du modèle à identifier les véritables zones cellulaires sans étiqueter incorrectement l'espace de fond.

Nos résultats ont montré que la méthode CULPICO améliorait robustement la performance pour de nombreux types cellulaires inconnus, démontrant des capacités comparables ou meilleures que celles des modèles supervisés traditionnels dans certains cas. La méthode a réussi à affiner ses capacités de prédiction, entraînant une diminution marquée des erreurs de segmentation, en particulier des faux négatifs.

Analyse des Facteurs du Modèle

Une analyse plus approfondie a révélé que l'amélioration notable de la segmentation provenait de la manière dont notre méthode mettait à jour ses prédictions pour les zones cellulaires. Les modèles pouvaient ajuster dynamiquement leurs résultats en fonction des écarts au niveau des pixels entre leurs étiquettes prédites. Cette synergie a permis un apprentissage continu, réduisant progressivement les erreurs tout au long de l'entraînement.

Des évaluations visuelles des résultats de segmentation ont reflété des améliorations significatives sur plusieurs combinaisons de types cellulaires. En particulier, nous avons remarqué que les modèles performaient exceptionnellement bien lorsqu'ils étaient associés à certains types cellulaires qui fournissaient des caractéristiques mutuellement informatives.

Conclusion

En résumé, notre méthode d'adaptation de domaine non supervisée améliore efficacement la segmentation pour des types cellulaires auparavant non vus sans nécessiter d'étiquetage supplémentaire. L'approche CULPICO répond non seulement au défi de l'adaptation à de nouvelles images cellulaires, mais montre également un potentiel pour des applications plus larges dans la recherche en sciences de la vie. En utilisant l'auto-apprentissage coopératif, la méthode pourrait accélérer de manière significative le rythme d'extraction de connaissances biologiques, ouvrant la voie à de nouvelles découvertes dans le domaine.

Source originale

Titre: Cell segmentation without annotation by unsupervised domain adaptation based on cooperative self-learning

Résumé: Cell segmentation, which extracts cells from microscopic images, is essential for quantitative evaluation of cell morphology. Recently, supervised deep-learning-based models have been shown to achieve highly accurate segmentation. However, the performance of these supervised models is often degraded when the models infer unknown cell types that are not included in the train dataset. One approach to overcoming the performance degradation is acquiring new annotated data for each cell type. However, constructing datasets for all cell types is not feasible because labeling every single pixel, rather than each image, is required in the segmentation task. Learning methods that can achieve highly accurate segmentation without annotation is strongly required. Here, we developed a cell segmentation method based on unsupervised domain adaptation with cooperative self-learning (CULPICO: Cooperative Unsupervised Learning for PIxel-wise COloring). The proposed method consists of two independent segmentation models and a mutual exchange mechanism of inference data. For the data with labels, the models are trained through supervised learning. For the data without labels, the models infer a label probability at each pixel and generate a pseudo-label as unsupervised learning. The pseudo-labels created by each model are mutually used as ground-truth in the other model. Loss function is corrected by considering pixel-level discrepancies between the label probabilities inferred by the two models. The proposed method, despite being an unsupervised learning method, can segment the unknown cell types without labels with an accuracy comparable to supervised learning models. Our method, which could solve the performance degradation problem without constructing new datasets, is expected to accelerate life science by reducing the cost of extracting quantitative biological knowledge.

Auteurs: Akira Funahashi, S. Miyaki, S. Nishimoto, Y. Tokuoka, T. G. Yamada, T. Morikura

Dernière mise à jour: 2024-07-09 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.07.05.602197

Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.05.602197.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires