Comparaison entre Seurat et Scanpy : Perspecitves de l'analyse scRNA-seq
Une étude révélant des différences clés dans les outils d'analyse des données scRNA-seq.
― 8 min lire
Table des matières
Le séquençage d'ARN unicellulaire (scRNA-seq) est une méthode utilisée pour étudier l'expression des gènes au niveau des cellules individuelles. Cette technique permet aux scientifiques de voir comment les gènes s'allument ou s'éteignent dans différentes cellules, ce qui peut aider à comprendre divers processus biologiques et maladies. Avec l'augmentation de l'utilisation du scRNA-seq, de nombreux outils et méthodes ont été développés pour analyser les données résultantes, les plus populaires étant Seurat et Scanpy.
Les bases du scRNA-seq
Dans une expérience typique de scRNA-seq, le processus commence par la collecte de cellules d'un échantillon. Ces cellules sont ensuite traitées pour extraire l'ARN, qui représente l'expression génétique active. L'ARN est séquencé pour générer des données brutes qui sont ensuite converties en un format appelé matrice de comptage cellule-gène. Cette matrice contient des informations sur combien de fois chaque gène est exprimé dans chaque cellule.
Avant l'analyse, les données subissent une série d'étapes, y compris un filtrage pour éliminer les données de mauvaise qualité et une normalisation pour corriger toute variation qui pourrait fausser les résultats. Après ces étapes, les chercheurs peuvent identifier des gènes très variables (HVGs) qui pourraient être d'intérêt et réduire la complexité des données pour faciliter l'analyse.
Outils d'analyse courants : Seurat et Scanpy
Seurat, sorti en 2015, est largement utilisé dans le domaine de la bioinformatique pour l'analyse des données scRNA-seq. Il est construit avec le langage de programmation R. Scanpy, qui est arrivé en 2017, est un outil basé sur Python offrant des fonctionnalités similaires. Les deux outils proposent une gamme d'options et ont leurs propres communautés d'utilisateurs actives. Les chercheurs choisissent souvent entre eux en fonction de leur familiarité avec les langages de programmation.
L'entrée pour Seurat et Scanpy est la matrice de comptage cellule-gène. Beaucoup de chercheurs utilisent des logiciels spécifiques, comme Cell Ranger ou kallisto-bustools, pour générer cette matrice à partir de données de séquençage brutes. Cell Ranger est conçu pour fonctionner sans problème avec les plateformes de 10x Genomics, tandis que kallisto-bustools est une alternative open-source connue pour sa rapidité et son efficacité.
Coût des expériences scRNA-seq
Réaliser une expérience standard de scRNA-seq peut coûter assez cher, souvent des milliers de dollars. Ce coût inclut divers facteurs, comme le prix des kits de séquençage et le nombre de lectures nécessaires pour des données de haute qualité. Par exemple, certaines plateformes recommandent d'utiliser environ 20 000 à 50 000 paires de lectures pour chaque cellule. Préparer des échantillons augmente aussi les coûts, car cela peut nécessiter des matériaux biologiques précieux.
Variabilité dans les résultats d'analyse
Une hypothèse courante en bioinformatique est que le choix du logiciel ou de la version ne devrait pas affecter significativement l'interprétation des résultats. Cependant, des études ont montré que des différences substantielles peuvent apparaître entre les outils et leurs versions. Cette étude vise à quantifier la variabilité des données générées en utilisant Seurat et Scanpy, tant en termes de différentes versions de ces outils que de l'impact de travailler avec différentes quantités de données.
Comparaison entre Seurat et Scanpy
Des recherches comparant Seurat version 5 et Scanpy version 1.9 en utilisant un ensemble de données spécifique ont montré des différences notables même lorsque les mêmes données d'entrée étaient utilisées et que les paramètres par défaut étaient appliqués. Ces différences ont été observées à plusieurs étapes de l'analyse, du filtrage des cellules et de la sélection des HVGs à l'exécution de l'ACP, du clustering et de l'identification des gènes marqueurs.
Filtrage et Normalisation initiaux
Seurat et Scanpy ont initialement filtré les cellules et les gènes de manière similaire. Après ce processus de filtrage, ils ont aussi normalisé les données de manière identique, ce qui signifie qu'ils ont ajusté les valeurs pour prendre en compte d'éventuels biais. Toutefois, la sélection des HVGs a montré des différences, avec les deux outils produisant un indice de Jaccard de 0,22, indiquant qu'une petite fraction des HVGs se chevauchait entre eux.
Analyse en composantes principales (ACP)
L'ACP est une technique utilisée pour réduire la complexité des données tout en préservant ses caractéristiques les plus importantes. En comparant les résultats de l'ACP de Seurat et Scanpy, il y avait des différences notables dans la façon dont les cellules étaient représentées dans l'espace réduit. Bien que les formes générales des graphiques soient similaires, les placements spécifiques des cellules différaient considérablement.
Clustering et UMAP
Le clustering est le processus de regroupement de cellules similaires en fonction de leurs motifs d'expression génique. En appliquant des algorithmes de clustering, Seurat et Scanpy ont produit des résultats différents. Le degré d'accord entre les clusters formés par les deux outils était relativement faible, mettant en évidence une autre source de variabilité. UMAP est une autre méthode de visualisation utilisée pour représenter les clusters. L'analyse a montré que les formes des clusters dans les graphiques UMAP différaient entre les deux logiciels.
Analyse de l'Expression Génétique Différentielle
L'analyse d'expression différentielle examine les gènes pour voir lesquels sont significativement plus exprimés dans un groupe de cellules par rapport aux autres. Les résultats de Seurat et Scanpy ont montré un indice de Jaccard de 0,62, suggérant que bien de nombreux gènes marqueurs étaient similaires, le nombre de gènes marqueurs significatifs identifiés par Seurat était environ 50 % plus élevé que celui de Scanpy. Cette divergence est due à des réglages par défaut différents pour les corrections statistiques et les méthodes de filtrage.
Réduction des Données
Pour mieux comprendre la variabilité entre les deux outils, l'étude a exploré comment la réduction des données (diminution du nombre de lectures ou de cellules) affectait les résultats. L'analyse a indiqué qu'avec des fractions très faibles des lectures originales, les résultats pouvaient toujours être comparables à ceux générés par des ensembles de données complets en utilisant soit Seurat soit Scanpy. Cette découverte suggère que les chercheurs pourraient obtenir des aperçus significatifs sans avoir besoin d'analyser chaque morceau de données, ce qui est crucial pour gérer les coûts et les ressources.
Impact des Versions de Logiciel
En plus des différences entre Seurat et Scanpy, les changements entre les versions de logiciels peuvent aussi avoir un impact significatif sur les résultats. Par exemple, comparer Seurat v4 avec v5 a révélé des différences considérables dans les gènes marqueurs significatifs en raison des ajustements dans la manière dont les changements de log-fold sont calculés.
Grains Aléatoires et Reproductibilité
Certaines étapes de l'analyse impliquent du hasard, comme le clustering et UMAP. L'analyse a trouvé que la variabilité introduite par différents grains aléatoires était beaucoup plus petite que les différences observées entre Seurat et Scanpy. Cela souligne l'importance de la reproductibilité dans l'analyse scRNA-seq et encourage une planification soigneuse dans la conception expérimentale.
Défis et Recommandations
Travailler avec différentes versions des outils d'analyse scRNA-seq pose des défis. Par exemple, Seurat peut avoir des problèmes de performance dans certaines conditions, tandis que Scanpy peut rencontrer des problèmes de dépendance de paquets. Ces défis soulignent la nécessité pour les développeurs de maintenir la compatibilité descendante et de s'assurer que les mises à jour sont communiquées clairement.
Pour les chercheurs, utiliser la même version d'un outil tout au long d'un projet est crucial pour la cohérence. Il est aussi essentiel de documenter les choix de paramètres et d'entrées pour s'assurer que les résultats puissent être répliqués dans de futures études.
Conclusion
Cette analyse met en lumière les différences dans la manière dont Seurat et Scanpy gèrent les données scRNA-seq, soulignant l'importance du choix du logiciel et de la version lors de l'interprétation des résultats. En comprenant ces complexités, les chercheurs peuvent prendre des décisions plus éclairées et améliorer la reproductibilité de leurs découvertes dans l'analyse de séquençage d'ARN unicellulaire.
Titre: The impact of package selection and versioning on single-cell RNA-seq analysis
Résumé: Standard single-cell RNA-sequencing analysis (scRNA-seq) workflows consist of converting raw read data into cell-gene count matrices through sequence alignment, followed by analyses including filtering, highly variable gene selection, dimensionality reduction, clustering, and differential expression analysis. Seurat and Scanpy are the most widely-used packages implementing such workflows, and are generally thought to implement individual steps similarly. We investigate in detail the algorithms and methods underlying Seurat and Scanpy and find that there are, in fact, considerable differences in the outputs of Seurat and Scanpy. The extent of differences between the programs is approximately equivalent to the variability that would be introduced in benchmarking scRNA-seq datasets by sequencing less than 5% of the reads or analyzing less than 20% of the cell population. Additionally, distinct versions of Seurat and Scanpy can produce very different results, especially during parts of differential expression analysis. Our analysis highlights the need for users of scRNA-seq to carefully assess the tools on which they rely, and the importance of developers of scientific software to prioritize transparency, consistency, and reproducibility for their tools.
Auteurs: Lior Pachter, J. M. Rich, L. Moses, P. H. Einarsson, K. Jackson, L. Luebbert, A. S. Booeshaghi, S. Antonsson, D. K. Sullivan, N. Bray, P. Melsted
Dernière mise à jour: 2024-04-11 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.04.04.588111
Source PDF: https://www.biorxiv.org/content/10.1101/2024.04.04.588111.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.