Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Avancées dans les prévisions d'expression génétique grâce aux génomes personnalisés

De nouveaux modèles améliorent les prédictions de la fonction des gènes en utilisant des données génomiques individuelles.

Charles G Danko, A. Y. He, N. P. Palamuttam

― 8 min lire


Des génomes personnalisésDes génomes personnalisésaméliorent les prévisionsgénétiques.dans la fonction des gènes.compréhension des variations génétiquesNouvelle approche améliore la
Table des matières

Les modèles d'apprentissage profond deviennent des outils importants pour prédire comment nos gènes fonctionnent en se basant sur la séquence de l'ADN. Ces modèles peuvent examiner des séquences d'ADN pour prédire certains marqueurs qui nous indiquent comment les gènes sont régulés. Cependant, certaines études récentes ont montré que ces modèles ont souvent du mal à prédire avec précision les différences entre les individus, surtout en ce qui concerne l'expression des gènes. C'est en partie parce qu'ils ont du mal à considérer l'impact des amplificateurs éloignés, qui sont des régions de l'ADN qui aident à contrôler les gènes à distance.

La plupart des modèles existants utilisent un génome de référence, ce qui signifie qu'ils sont formés sur un seul ensemble de séquences d'ADN sans tenir compte des différences individuelles. Bien que cette méthode puisse bien fonctionner pour créer de grands ensembles de données, elle rate comment les variations génétiques peuvent influencer la fonction des gènes. Du coup, il y a un intérêt croissant à savoir si utiliser des génomes personnalisés pourrait améliorer les prédictions.

CLIPNET : Un nouvel outil

Récemment, un modèle appelé CLIPNET a été développé. Ce modèle d'apprentissage profond utilise des séquences d'ADN pour prédire où se produit la transcription-la première étape de l'expression des gènes. CLIPNET a été formé en utilisant des données provenant de dizaines de lignées cellulaires lymphoblastoïdes humaines, ce qui lui a permis de prédire le début de la transcription avec une grande précision. De plus, il peut aussi évaluer comment les variations génétiques affectent le début de la transcription, offrant des informations précieuses sur la façon dont des changements spécifiques dans notre ADN influencent l'expression des gènes.

Formation avec des génomes personnalisés

Pour voir si entraîner CLIPNET avec des génomes personnalisés pourrait améliorer ses capacités prédictives, les chercheurs ont mené plusieurs expériences. Ils ont formé CLIPNET sur différents groupes de bibliothèques PRO-cap, qui contiennent des données sur le début de la transcription. Ils ont découvert que les prédictions s'amélioraient à mesure que le nombre d'individus dans l'ensemble d'entraînement augmentait, avec des gains de précision notables après avoir formé sur environ 20 à 30 individus.

En ce qui concerne les effets des variantes génétiques sur le début de la transcription, CLIPNET avait besoin d'un nombre similaire d'individus pour produire des prédictions précises. Cela suggère que l'utilisation de données génomiques personnalisées peut fournir de meilleures informations sur la manière dont les variations génétiques influencent la fonction des gènes.

En utilisant une autre approche, les chercheurs ont formé un modèle CLIPNET basé sur un référentiel, qui n'utilisait que des séquences d'un génome standard tout en masquant les variantes génétiques. Ce modèle formé sur référence a bien performé pour prédire les profils de début de transcription. Cependant, il a sous-performé par rapport au modèle CLIPNET personnalisé en ce qui concerne la prédiction des effets des variations génétiques.

Les résultats ont indiqué que même si plus de données améliorent la précision globale du modèle, l'utilisation de génomes personnalisés améliore spécifiquement les prédictions liées à la façon dont les variations génétiques impactent la fonction des gènes.

Aller au-delà d'un type cellulaire

Ensuite, les chercheurs ont voulu voir si ces améliorations s'appliquent à différents types cellulaires et conditions expérimentales. Ils ont utilisé une méthode appelée essais de rapporteurs massivement parallèles (MPRA) pour valider leurs découvertes. Bien que PRO-cap et MPRA mesurent des processus biologiques différents, ils sont toujours liés. Il est raisonnable de supposer qu'un modèle prédisant les effets des variations génétiques sur le début de la transcription devrait aussi bien prédire les activités d'amplificateurs qui régulent l'expression des gènes.

Pour tester cette idée, CLIPNET a été adapté à un ensemble de données PRO-cap d'une lignée cellulaire différente (K562). Le modèle transféré a montré de fortes corrélations avec les données expérimentales et a bien performé par rapport à un autre modèle qui a été formé depuis son inception sur des données K562. Cependant, CLIPNET a montré de meilleures performances en prédisant les effets des variantes par rapport au modèle formé sur référence.

Comparaison des effets des variantes génétiques

Dans une analyse plus approfondie, les chercheurs ont comparé à quel point différents modèles prédisaient les effets des SNPS (polymorphismes de nucléotide unique) sur l'expression des gènes. Le modèle CLIPNET personnalisé a constamment fourni des prédictions plus alignées avec les résultats expérimentaux que le modèle formé sur référence et un autre modèle populaire appelé ProCapNet. Cela a montré que s'entraîner avec des génomes personnalisés permet au modèle de capter des différences subtiles dans des séquences d'ADN presque identiques-quelque chose que les modèles formés sur référence ratent.

Applications pratiques

Il y a plusieurs applications pratiques pour ces résultats. D'abord, les essais de rapporteurs massivement parallèles sont souvent utilisés pour identifier et valider des SNPs causaux potentiels liés à divers traits dans les études génétiques. En formant des modèles en utilisant à la fois de vastes ensembles de données génomiques et des informations génomiques personnalisées, les chercheurs peuvent mieux interpréter les effets moléculaires des variations génétiques et prioriser les cibles potentielles à valider.

Ensuite, le domaine de la conception d'amplificateurs est en plein essor. Des modèles comme CLIPNET sont particulièrement utiles pour concevoir et comprendre les éléments amplificateurs, étant donné qu'ils montrent souvent des motifs spécifiques dans la manière dont ils initient la transcription des gènes.

Défis dans les prédictions de l'expression génique

Malgré les avancées, des défis subsistent pour prédire l'expression des gènes en fonction des variations génétiques. Les recherches montrent que bien que l'ajustement des modèles avec des informations génétiques puisse améliorer les prédictions pour les gènes connus, ces améliorations ne s'étendent pas nécessairement aux gènes non observés. Les modèles d'expression génique tendent à se concentrer fortement sur les promoteurs, ce qui rend difficile la capture des effets des amplificateurs éloignés avec précision.

Cette difficulté découle du fait que modéliser les interactions complexes des différents éléments régulateurs nécessite une quantité significative de données. Cependant, le nombre d'exemples d'entraînement est limité à un petit ensemble de gènes, ce qui rend l'apprentissage de ces interactions difficile.

Une voie à suivre

Les résultats indiquent une approche prometteuse pour développer des modèles qui peuvent mieux interpréter l'impact des Variants génétiques sur l'expression des gènes. La première étape est de se concentrer sur l'apprentissage précis de la manière dont les variants affectent l'activité régulatrice locale. Les résultats montrent que les modèles locaux bénéficient de l'incorporation de variations génétiques et de l'utilisation de jeux de données plus larges avec plusieurs mesures provenant du même type de cellule.

Une fois que des modèles locaux robustes sont établis, ils peuvent être intégrés à des modèles plus larges qui prédisent l'expression des gènes. De plus, l'emploi de modèles complexes aux côtés de contraintes biologiques, comme des données expérimentales issues d'essais de contacts chromatinien, pourrait donner de meilleurs résultats.

Cette méthode par étapes offre une voie plus réalisable pour s'attaquer aux complexités associées aux modèles de régulation génique. Elle pose une base pour une plus grande généralisabilité et des applications potentielles dans l'interprétation des effets des variations génétiques associées à divers traits.

Conclusion

En résumé, former des modèles d'apprentissage profond sur des séquences génomiques personnalisées montre des avantages clairs pour prédire les effets des variations génétiques. Bien que l'utilisation de plus de données d'entraînement améliore généralement la performance du modèle, la formation personnalisée offre des perspectives uniques que les modèles de référence ne peuvent pas atteindre. Ces avancées promettent d'améliorer notre compréhension de la régulation génique et de l'impact de la diversité génétique sur la santé et les maladies, faisant avancer le domaine de la génomique.

Articles similaires