Avancer le profilage cellulaire : s'attaquer aux effets de lot dans l'analyse d'image
Une étude explore des méthodes pour corriger les effets de lot dans l'analyse d'images cellulaires.
― 9 min lire
Table des matières
L'analyse d'image est super importante en recherche biologique et médicale, ça aide les scientifiques à étudier les formes, structures et comportements des cellules. Grâce à des colorants spéciaux et des techniques de microscopie avancées, les chercheurs peuvent observer des échantillons biologiques avec plein de détails au fil du temps et sous différents angles. Ça permet de mieux comprendre comment les cellules fonctionnent et réagissent aux changements de leur environnement.
La microscopie à haut débit, une méthode qui permet de capturer plein d'images en peu de temps, donne des infos détaillées sur comment les cellules changent quand elles sont exposées à différentes influences génétiques ou chimiques. Les mesures prises à partir de ces images peuvent révéler des infos sur le fonctionnement des gènes et le développement des maladies, tout en aidant à identifier les effets et dangers potentiels de nouveaux traitements.
Chaque profil d'image représente diverses caractéristiques d'une cellule, comme sa taille, sa forme, sa brillance (intensité) et sa texture. Bien que ces profils soient généralement mesurés au niveau des cellules individuelles, ils peuvent aussi être combinés pour donner une vue d'ensemble au niveau de l'expérience ou du traitement.
Cell Painting
Une des techniques les plus populaires pour le profilage d'image s'appelle Cell Painting. Cette méthode utilise une combinaison de six colorants pour teindre huit parties de la cellule, comme le noyau et les mitochondries, en capturant des images sur cinq canaux. Ça permet d’extraire plein de détails sur l'apparence et le comportement des cellules. Un logiciel automatique traite ces images pour analyser les données, offrant pas seulement des infos spécifiques sur les cellules individuelles mais aussi des aperçus sur la diversité au sein d'une population cellulaire.
Cell Painting est économique, car le coût des colorants est relativement faible, et les chercheurs peuvent obtenir des milliers d'images de cellules à partir d'une seule expérience. Importamment, les données de Cell Painting peuvent être combinées avec des méthodes d'apprentissage automatique pour créer des modèles qui aident à la découverte et au développement de médicaments.
Le Besoin d'une Base de Données Partagée
Pour tirer pleinement parti de l'analyse d'image et de Cell Painting, les chercheurs ont besoin d'accéder à une grande collection de données partagées. Tandis que des entreprises individuelles ont travaillé sur leurs propres données, avoir un jeu de données disponible publiquement est essentiel pour des avancées supplémentaires en recherche biologique. D'autres domaines, comme la génomique, ont montré les bénéfices des collections de données partagées, prouvant comment elles peuvent mener à des progrès significatifs.
Pour répondre à ce besoin, une collaboration nommée le Joint Undertaking for Morphological Profiling (JUMP) Cell Painting Consortium a été formée. Ce partenariat inclut des entreprises pharmaceutiques, des fournisseurs de technologie et des organisations à but non lucratif. Ensemble, ils ont publié un jeu de données public à grande échelle qui inclut des informations provenant de plus de 140 000 expériences, capturant un large éventail d'influences génétiques et chimiques sur les cellules. Une caractéristique clé de ce jeu de données est qu'il permet aux chercheurs de comparer leurs résultats avec les données existantes, ce qui améliore leurs résultats de recherche.
Défis avec les Effets de lot
Dans toute grande expérience biologique, divers facteurs peuvent affecter les résultats. Par exemple, quand les données sont collectées dans des lots séparés-que ce soit à partir de différents groupes de puits sur une plaque ou de différents environnements de laboratoire-des variations non désirées peuvent surgir. Ces variations sont connues sous le nom d'"effets de lot", et elles peuvent obscurcir les véritables signaux biologiques, rendant difficile pour les chercheurs d'interpréter leurs données avec précision.
Les effets de lot peuvent se produire à cause de plusieurs facteurs, comme des différences dans les conditions expérimentales, le temps pris pour traiter les échantillons, et l'équipement utilisé. Dans le contexte de JUMP Cell Painting, les variations des réglages du microscope, la manière dont les cellules ont été cultivées, et même des changements d'intensité lumineuse peuvent influencer les profils d'image collectés.
Pour faire face à ces effets de lot, les chercheurs utilisent des méthodes de correction de lot. Ces méthodes aident à minimiser ces variations non désirées, rendant plus facile l'identification des vraies différences biologiques. Cependant, il existe peu de méthodes établies pour corriger les effets de lot dans le profilage basé sur l'image, ce qui signifie que c'est un défi constant pour les chercheurs.
Un Aperçu des Techniques de Correction de Lot
Dans cette étude, diverses méthodes de correction des effets de lot ont été comparées. Ces méthodes visaient à établir combien elles pouvaient réduire le bruit lié aux lots tout en préservant l'importante information biologique. Cela a été accompli en examinant la performance de sept techniques différentes, principalement dérivées de méthodes utilisées en séquençage RNA à cellule unique, mais adaptées pour une utilisation dans le profilage basé sur l'image.
Ces techniques comprenaient :
- Combat : Cette méthode prend en compte les effets de lot en les modélisant comme du bruit ajouté aux signaux biologiques.
- Harmony : Un algorithme qui fonctionne de manière itérative pour ajuster les données en fonction de la diversité des lots.
- MNN (Mutual Nearest Neighbors) : Cette technique aligne les données en trouvant des échantillons similaires à travers les lots.
- Scanorama : Semblable à MNN mais regarde plusieurs lots à la fois pour trouver des clusters d'échantillons similaires.
- scVI : Cette méthode utilise un type de modèle d'apprentissage profond qui fonctionne avec des données à cellule unique.
- DESC : Cette technique se concentre sur la préservation des informations biologiques tout en corrigeant les effets de lot.
- Sphering : Une méthode qui utilise des échantillons de contrôle pour ajuster les données aux variations non désirées.
Chacune de ces méthodes fonctionne sous différentes hypothèses et vise à atteindre le meilleur équilibre entre la suppression des effets de lot et la conservation des signaux biologiques.
Évaluation des Méthodes
Pour évaluer l'efficacité de ces méthodes, l'équipe a mis en place cinq scénarios différents qui variaient en complexité. Ces scénarios ont aidé à mesurer comment chaque méthode pouvait gérer différents types de données, soit collectées dans le même laboratoire, soit dans plusieurs laboratoires avec des équipements différents.
Scénario 1 : Laboratoire Unique et Microscope
Dans le premier scénario, toutes les données ont été collectées dans un seul labo avec le même microscope. Les conditions étaient contrôlées, avec plusieurs répliques pour chaque composé. Cette situation a permis aux chercheurs d'établir une performance de base pour les méthodes de correction de lot. Globalement, la plupart des méthodes étaient efficaces pour réduire les effets de lot, avec Harmony montrant les meilleurs résultats tout en préservant la variance biologique.
Scénario 2 : Plusieurs Laboratoires, Même Microscope
Ce scénario impliquait des données provenant de plusieurs laboratoires mais utilisant le même type de microscope. Ici, les effets de lot sont devenus plus prononcés à cause des variations introduites par différents labs. Harmony et Scanorama ont mieux performé dans le clustering des échantillons selon les composés, démontrant leur capacité à corriger les effets de lot mieux que les autres.
Scénario 3 : Plusieurs Laboratoires, Multiples Composés
Dans ce cas, les chercheurs ont examiné des données de plusieurs labs, mais avec une plus large gamme de composés et moins de répliques par composé. Les méthodes ont eu plus de mal ici à enlever les effets de lot, bien que Harmony, Scanorama et scVI aient encore fourni de meilleurs résultats que les autres.
Scénario 4 : Différents Types de Microscope
Le quatrième scénario a introduit différents systèmes d'imagerie à haut débit tout en maintenant le nombre de composés le même. Les variations dans la technologie d'imagerie ont produit des effets de lot plus forts, compliquant le processus de correction. Encore une fois, Harmony et Scanorama ont donné les meilleurs résultats quantitatifs, mais toutes les méthodes ont montré une performance réduite à cause de la complexité introduite par l'instrumentation diverse.
Scénario 5 : Scénario le Plus Complexe
Le dernier scénario a combiné plusieurs types de microscopes, différents laboratoires, divers composés, et peu de répliques. Dans ce cas, les effets de lot se sont avérés être les plus difficiles à gérer, et aucune méthode n'a pu corriger complètement les effets. Scanorama a encore mieux performé pour le retrait des effets de lot tandis qu'Harmony a maintenu le score le plus élevé pour la préservation des informations biologiques.
Conclusion
Les avancées dans les essais basés sur des images à haut débit comme Cell Painting offrent d'énormes opportunités pour la découverte scientifique en biologie et le développement de nouveaux traitements. Cependant, la gestion et l'interprétation des données produites par ces technologies peuvent être compliquées, principalement à cause des effets de lot.
Cette recherche a identifié le besoin de méthodes de correction de lot efficaces pour garantir la valeur des jeux de données partagés. En comparant plusieurs techniques à travers divers scénarios, il a été constaté que Harmony et Scanorama fournissaient généralement les meilleures performances. Ces méthodes montrent un potentiel pour aborder les effets de lot mais soulignent aussi les limitations rencontrées lorsque la complexité des données augmente, surtout quand différents équipements et laboratoires sont impliqués.
L'étude met en avant l'importance d'affiner les méthodes de correction de lot et d'explorer de nouvelles approches pour faciliter l'intégration de jeux de données divers. Les travaux futurs devraient se concentrer sur le développement de ces méthodes afin de renforcer leur évolutivité et leur efficacité, soutenant finalement des applications plus larges en recherche biologique et découverte de médicaments.
Titre: Evaluating batch correction methods for image-based cell profiling
Résumé: High-throughput image-based profiling platforms are powerful technologies capable of collecting data from billions of cells exposed to thousands of perturbations in a time- and cost-effective manner. Therefore, image-based profiling data has been increasingly used for diverse biological applications, such as predicting drug mechanism of action or gene function. However, batch effects pose severe limitations to community-wide efforts to integrate and interpret image-based profiling data collected across different laboratories and equipment. To address this problem, we benchmarked seven high-performing scRNA-seq batch correction techniques, representing diverse approaches, using a newly released Cell Painting dataset, the largest publicly accessible image-based dataset. We focused on five different scenarios with varying complexity, and we found that Harmony, a mixture-model based method, consistently outperformed the other tested methods. Our proposed framework, benchmark, and metrics can additionally be used to assess new batch correction methods in the future. Overall, this work paves the way for improvements that allow the community to make best use of public Cell Painting data for scientific discovery.
Auteurs: Shantanu Singh, J. Arevalo, E. Su, R. van Dijk, A. E. Carpenter
Dernière mise à jour: 2024-02-28 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.09.15.558001
Source PDF: https://www.biorxiv.org/content/10.1101/2023.09.15.558001.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.