Simple Science

La science de pointe expliquée simplement

# Biologie# Biologie du développement

Avancées dans les Modèles de Développement Précoce des Mammifères

La recherche améliore la compréhension du développement précoce des types de cellules mammifères grâce à des modèles avancés.

― 12 min lire


Nouveaux modèles dans leNouveaux modèles dans ledéveloppement desmammifèresmammifères.des premiers types de cellules chez lesLa recherche améliore les prévisions
Table des matières

Les mammifères commencent leur développement quand un spermatozoïde féconde un ovule, formant une cellule unique appelée zygote. Ce zygote est spécial parce qu'il a le potentiel de devenir n'importe quel type de cellule dans le corps. Peu après sa formation, le zygote se divise plusieurs fois pour former un groupe de cellules tout en gardant la même taille globale. Bien que l'ovule fournisse quelques instructions via les ARN maternels, le zygote commence à contrôler son propre développement très tôt. Chez les souris, ce contrôle commence lorsque le zygote est à l'étape à deux cellules, tandis que chez les humains, ça débute à l'étape huit cellules.

Au fur et à mesure que les cellules continuent à se diviser, elles forment une boule compacte appelée morula. À ce stade, certaines cellules commencent à s'organiser en deux groupes différents. Un groupe deviendra le placenta, et ces cellules forment la couche extérieure appelée trophoblastes. Le groupe intérieur contient les cellules qui finiront par se développer en l'embryon lui-même. À mesure que l'embryon mûrit pour devenir un blastocyste, il crée une cavité remplie de liquide. À ce moment-là, les cellules intérieures commencent à se différencier davantage, se transformant en deux types : l’épiblaste (qui formera l'embryon) et l'endoderme primitif (qui aidera à former des structures extra-embryonnaires). Une fois cette organisation terminée, l'embryon est prêt à s'attacher à l'utérus de la mère pour poursuivre son développement.

Pendant les premières étapes de développement, les scientifiques ont utilisé une nouvelle méthode appelée séquençage unicellulaire, qui permet aux chercheurs d'étudier ces premières étapes en détail. De nombreux Jeux de données provenant de diverses technologies ont été rassemblés pour comprendre comment ces premières cellules prennent des décisions qui les mènent à devenir différents Types de cellules. Avec les avancées dans les technologies des cellules souches, les scientifiques créent maintenant des modèles pour imiter le développement humain précoce en laboratoire. Ces modèles aident les chercheurs à comprendre comment différents types de cellules se forment et comment elles interagissent.

Défis dans la recherche

Cependant, étudier ces premières étapes est difficile. Les chercheurs font souvent face à des défis pour obtenir suffisamment de cellules en raison de préoccupations éthiques et de la difficulté à les isoler. Comme les embryons humains sont si précieux et limités, même de petites quantités de données peuvent être très importantes. Ainsi, combiner les jeux de données existants pour créer des outils utiles pour tester de nouveaux modèles est essentiel. Pour cela, les chercheurs ont besoin d'une meilleure façon de rassembler différents jeux de données pour les analyser collectivement.

Les méthodes traditionnelles qui fusionnent les jeux de données supposent souvent que les choses sont plus simples qu'elles ne le sont. Elles fonctionnent bien quand les données sont propres et directes, mais le développement précoce est beaucoup plus complexe, avec de nombreux signaux et événements se produisant en même temps. Différentes méthodes de séquençage produisent également des résultats variés, rendant difficile l'intégration des données. À mesure que la quantité de données augmente, il devient de plus en plus difficile de les analyser avec les méthodes actuelles. De nouvelles techniques utilisant l'apprentissage profond et les réseaux neuronaux sont apparues pour aborder ces problèmes, permettant aux scientifiques de regrouper les données en dimensions inférieures, ce qui facilite l'analyse.

Création d'un modèle pour le développement précoce

Dans cette étude, les scientifiques ont utilisé des outils informatiques avancés pour créer des modèles de développement durant les premières étapes des souris et des humains. Ils ont collecté des données unicellulaires des deux espèces et construit des Classificateurs pour identifier différents types de cellules à divers moments du développement. De plus, ils ont trouvé comment interpréter ces modèles complexes, une tâche qui a été difficile en raison de la nature "boîte noire" des systèmes d'apprentissage profond.

Les chercheurs ont voulu tester leurs modèles sur des cellules souches cultivées en laboratoire pour voir à quel point ils pouvaient prédire quels types de cellules ces cellules cultivées en laboratoire deviendraient. Ils espéraient que leurs modèles deviendraient des ressources précieuses, fournissant des informations sur les types de cellules et aidant à évaluer le nombre croissant de types de cellules créées en laboratoire.

Création d'un modèle de référence

Pour créer un modèle fiable, les chercheurs ont collecté des ensembles de données d'embryons préimplantation de souris et d'humains, se concentrant uniquement sur des publications de haute qualité fournissant des informations détaillées sur les cellules et leurs types. Ils visaient à construire une "vérité de base" pour leur recherche. Au total, ils ont rassemblé 13 ensembles de données de souris et six ensembles de données humaines, couvrant de nombreuses études réalisées sur plus d'une décennie.

Les ensembles de données choisis contenaient le plus grand nombre de cellules. Ils ont travaillé pour automatiser le prétraitement, ce qui a rendu plus facile la gestion et l'analyse de ces ensembles de données complexes. Les méthodes utilisées ont également permis des mises à jour futures et l'ajout de nouvelles données, gardant la recherche actuelle.

Prétraitement et intégration des données

La phase initiale du traitement des données a impliqué le filtrage des ensembles de données pour éliminer toute donnée de mauvaise qualité et ne garder que les informations les plus pertinentes. Les chercheurs ont supprimé les ensembles de données avec des étiquettes ambiguës ou non fiables, s'assurant que seules les meilleures données étaient incluses dans leur modèle de référence. Ils se sont concentrés sur l'identification des 3 000 gènes les plus variables pour simplifier leur analyse. Ce choix aide à améliorer l'identification des types de cellules, rendant les résultats plus clairs et précis.

Pour les ensembles de données de souris, les chercheurs ont normalisé les données provenant de diverses méthodes de séquençage pour les mettre en accord les unes avec les autres. Ils ont supprimé les gènes qui pourraient introduire des erreurs en raison de leur variance et se sont concentrés uniquement sur les cellules de haute qualité. Cet effort a abouti à l'analyse de plus de 2 000 cellules.

Pour l'ensemble de données humaines, ils ont rencontré des défis en raison d'étiquettes ambiguës. Pour s'assurer que les classificateurs fonctionnaient correctement, ils ont étiqueté les cellules incertaines comme "Inconnu" et ont utilisé cela pour la validation lors de l'optimisation du modèle. Malgré les défis, les chercheurs ont conservé toutes les cellules pour maximiser les données disponibles.

Construction et évaluation du modèle

Pour intégrer les ensembles de données, les chercheurs ont utilisé divers outils informatiques à la pointe de la technologie. Ils ont utilisé des techniques avancées d'apprentissage automatique pour créer des modèles qui pouvaient classer et analyser efficacement les données. Ils visaient à affiner leur modèle à travers une évaluation rigoureuse de sa performance, s'assurant qu'il serait robuste et fiable.

Les chercheurs ont suivi diverses mesures de performance pendant l'entraînement et ont effectué les ajustements nécessaires pour améliorer l'exactitude. Ils ont obtenu les meilleurs résultats en combinant différentes méthodes d'intégration et en évaluant comment les modèles se comportaient. Ils ont validé leurs modèles en analysant comment ils détectaient différents types de cellules et leurs relations entre elles.

Résultats et perspectives

Les résultats ont montré que les modèles des chercheurs étaient capables d'identifier correctement diverses étapes de développement pour les cellules de souris et d'humains. Ils ont constaté que le regroupement des types de cellules correspondait bien aux connaissances existantes sur le Développement embryonnaire. Ils ont pu suivre les trajectoires de différents types de cellules alors qu'elles passaient par diverses étapes.

Pour les modèles de souris, les chercheurs ont identifié trois lignées principales de cellules : trophoblastes, épiblaste et endoderme primitif. En analysant les données, les chercheurs ont confirmé que leurs modèles reflétaient avec précision les relations et les transitions entre ces lignées. Cependant, des défis demeuraient, notamment concernant la façon dont les modèles distinguaient les types de cellules similaires.

Dans les modèles humains, la disponibilité limitée des embryons a posé des contraintes à l'analyse. Beaucoup de cellules ont été classées comme ayant des caractéristiques de trophoblastes, créant un déséquilibre dans l'ensemble de données. Malgré ces défis, les modèles pouvaient toujours identifier les principales étapes de développement, bien que distinguer les types de cellules individuels se soit avéré plus difficile.

Classificateurs d'apprentissage automatique

Les chercheurs ont développé des classificateurs d'apprentissage automatique pour automatiser la classification des types de cellules basés sur les données d'expression génique. Les modèles utilisaient une combinaison de marqueurs connus et de nouvelles caractéristiques identifiées pour améliorer l'exactitude. Ils ont utilisé des arbres de décision par boosting de gradient et des réseaux neuronaux pour entraîner des classificateurs sur les ensembles de données, cherchant à optimiser leur performance.

Les classificateurs de souris ont bien fonctionné, dépassant les attentes en termes d'exactitude. Les chercheurs ont investi des efforts pour s'assurer que ces classificateurs pouvaient identifier efficacement les types de cellules connus et inconnus. Les classificateurs visaient à accommoder les particularités des données, en particulier compte tenu des déséquilibres présents dans les ensembles de données humaines.

Explication des modèles

Pour rendre les modèles plus interprétables, les chercheurs se sont tournés vers SHAP (SHapley Additive exPlanations) pour comprendre quels gènes étaient les plus importants pour attribuer des identités spécifiques aux types de cellules. Bien que les méthodes traditionnelles fournissent certaines informations sur l'importance des caractéristiques, les modèles de réseaux neuronaux restaient difficiles à interpréter.

Les chercheurs ont adapté SHAP à leurs modèles spécifiques, extrayant des caractéristiques clés qui définissaient différents types de cellules. Ils ont ensuite testé dans quelle mesure ces caractéristiques correspondaient aux attentes issues de recherches antérieures, révélant un mélange intéressant de marqueurs traditionnels et de nouveaux gènes qui se sont révélés significatifs.

L'analyse a permis une compréhension plus claire de la façon dont les modèles classifiaient les cellules, comblant le fossé entre les résultats d'apprentissage automatique et la compréhension biologique.

Applications pratiques

Un des aspects les plus passionnants de la recherche était la capacité des chercheurs à appliquer leurs modèles à des ensembles de données expérimentales. Ils ont testé leurs prédictions sur des modèles in vitro, vérifiant à quel point les modèles pouvaient identifier les types de cellules générés en laboratoire.

Pour les expériences sur les souris, ils ont examiné comment les cellules souches embryonnaires double-reporter se développaient en endoderme primitif et ont confirmé l'exactitude de leurs prédictions, particulièrement aux étapes ultérieures du développement. Ils ont réussi à cartographier la progression des cellules et à valider leurs résultats par rapport aux connaissances existantes.

Pour les modèles humains, les chercheurs ont utilisé des données provenant de blastoïdes dérivés de cellules souches embryonnaires pour évaluer à quel point leur classificateur pouvait prédire les identités cellulaires. Bien que les prédictions aient été légèrement moins certaines par rapport aux souris, les modèles ont tout de même bien fonctionné, démontrant leur applicabilité dans un cadre de laboratoire.

Conclusion

En conclusion, cette recherche illustre le potentiel des outils informatiques avancés pour améliorer notre compréhension du développement précoce des mammifères. En intégrant divers ensembles de données unicellulaires et en utilisant des classificateurs d'apprentissage automatique, les chercheurs ont développé des modèles robustes capables de prédire les types de cellules à travers différentes espèces.

Ces modèles non seulement fournissent des informations précieuses sur les types de cellules présents lors du développement embryonnaire précoce, mais servent également de ressources utiles pour évaluer de nouveaux modèles in vitro. À mesure que les chercheurs continuent de perfectionner et d'élargir ces modèles, le potentiel de compréhension des processus biologiques complexes pourrait encore croître.

L'étude ouvre aussi la voie à des approches plus impartiales pour définir les identités d'état cellulaire, s'éloignant d'une dépendance stricte aux marqueurs historiques. Au lieu de cela, elle souligne l'importance de comprendre l'éventail plus large de gènes impliqués dans la définition des types de cellules, offrant une perspective nouvelle sur la biologie du développement.

Les chercheurs espèrent que ces modèles ouvriront la voie à des avancées dans le domaine, permettant de meilleures perspectives et innovations en recherche sur les cellules souches et médecine régénérative dans le futur.

Source originale

Titre: Deep Learning Based Models for Preimplantation Mouse and Human Development

Résumé: The rapid growth of single-cell transcriptomic technology has produced an increasing number of datasets for both embryonic development and in vitro pluripotent stem cell derived models. This avalanche of data about pluripotency and the process of lineage specification has meant it has become increasingly difficult to define specific cell types or states and compare these to in vitro differentiation. Here we utilize a set of deep learning (DL) tools to integrate and classify multiple datasets. This allows for the definition of both mouse and human embryo cell types, lineages and states, thereby maximising the information one can garner from these precious experimental resources. Our approaches are built on recent initiatives for large scale human organ atlases, but here we focus on the difficult to obtain and process material that spans early mouse, and in particular, human development. Using publicly available data for these stages, we test different deep learning approaches and develop both a model to classify cell types in an unbiased fashion and define the set of genes required to identify lineages, cell types and states. We have used our predictions to probe pluripotent stem cell models for both mouse and human development, showcasing the importance of this resource as a dynamic reference for early embryogenesis.

Auteurs: Joshua M Brickman, M. Proks, N. Salehin

Dernière mise à jour: 2024-02-16 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.02.16.580649

Source PDF: https://www.biorxiv.org/content/10.1101/2024.02.16.580649.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires