Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Progrès dans la conception de l'ARN guide CRISPR

De nouvelles méthodes améliorent la conception des ARN guides CRISPR en s'attaquant à l'incertitude.

― 8 min lire


CRISPR Guide ARN :CRISPR Guide ARN :Nouvelles idées de designsélection des ARN guides CRISPR.Approche innovante pour améliorer la
Table des matières

La technologie CRISPR est devenue un outil clé pour modifier le patrimoine génétique des organismes. Cette méthode utilise des protéines spécifiques et de l'ARN pour couper l'ADN à des endroits précis, permettant aux scientifiques de faire des changements dans les gènes. L'ARN agit comme un guide, menant la protéine de découpe au bon endroit sur l'ADN. Pour une protéine populaire, Cas9, une séquence spécifique appelée PAM aide à trouver la zone cible dans l'ADN.

Au cours des dix dernières années, CRISPR a été utilisé de différentes façons, que ce soit pour étudier des maladies, aider des espèces en danger ou améliorer des cultures. Ça a aussi du potentiel pour de nouveaux traitements médicaux. Cependant, créer l'ARN guide nécessaire pour ces modifications peut être compliqué et réclame beaucoup de compétences.

Conception de l'ARN Guide

Quand on conçoit l'ARN guide, l'objectif est de s'assurer qu'il modifie efficacement la partie désirée de l'ADN. Plusieurs facteurs peuvent influencer l'efficacité de l'ARN guide, et les chercheurs ont développé de nombreux outils pour identifier des guides efficaces. Cependant, beaucoup de ces outils donnent des résultats qui se chevauchent, et il y a encore de la place pour l'amélioration.

À mesure que les scientifiques accumulent plus de données, ils cherchent des moyens d'améliorer le processus de conception en utilisant des techniques d'apprentissage automatique, en se concentrant sur des méthodes qui peuvent apprendre à partir de grandes quantités d'informations.

Un défi avec des techniques d'apprentissage automatique complexes, c'est qu'elles peuvent être difficiles à comprendre, agissant souvent comme une "boîte noire". Ça veut dire que, même si ces modèles peuvent faire des Prédictions, c'est souvent compliqué de comprendre comment ils y sont arrivés.

Dans cette discussion, on va examiner le rôle de l'Incertitude dans les prédictions. Peut-on utiliser des méthodes simples pour estimer cette incertitude ? Si oui, peut-on créer de meilleures conceptions d'ARN guide qui prennent en compte cette incertitude ?

Comment l'incertitude fonctionne dans la conception de l'ARN Guide

Pour étudier ça, les chercheurs ont analysé un grand ensemble de données provenant d'expérimentations sur l'ARN guide. Ils ont développé un modèle d'apprentissage profond appelé CRISPRon pour prédire l'efficacité de différents ARN guides. Ce modèle prend des séquences d'ADN et d'autres caractéristiques importantes comme entrées et a été d’abord entraîné avec des données montrant la fréquence de succès de l'ARN guide.

Les résultats ont montré que le modèle pouvait prédire les résultats assez bien. Les chercheurs se sont ensuite concentrés sur l'amélioration de ce modèle pour inclure l'incertitude dans ses prédictions. Ils voulaient saisir deux types d'incertitude : l'une basée sur les données (aléatoire) et l'autre sur les limitations du modèle lui-même (épistémique).

Pour traiter le premier type, le modèle a été modifié pour prédire une gamme de résultats possibles plutôt qu'un seul numéro. Ça permet aux chercheurs de générer des prédictions qui tiennent compte de la variabilité dans les données.

Pour le second type d'incertitude, les chercheurs ont utilisé une méthode appelée "ensemble profond". Au lieu d'utiliser juste un modèle, ils ont entraîné plusieurs modèles, chacun partant de points différents. De cette façon, ils ont rassemblé une variété de prédictions qui peuvent donner des idées sur la confiance qu'on peut accorder au résultat global.

Le modèle de l'ensemble expliqué

L'approche de l'ensemble profond implique d'entraîner un grand nombre de modèles, ce qui peut être vu comme un échantillonnage de la gamme de résultats possibles. Cette technique peut souvent mener à de meilleures prédictions car elle saisit l'incertitude qui provient des différents chemins d'entraînement que divers modèles peuvent suivre.

Les modèles ont été formés sur un ensemble de séquences de 30 lettres provenant d'ADN, en utilisant les mêmes caractéristiques qu'auparavant. Les prédictions ont ensuite été moyennées pour fournir un résultat final tout en estimant l'incertitude pour chaque prédiction.

Les chercheurs ont combiné le nouveau modèle avec d'autres ensembles de données, qui comprenaient des résultats d'expériences précédentes. Ça leur a permis de filtrer les guides répétés et de s'assurer qu'ils utilisaient un ensemble de données diversifié. L'ensemble de données final incluait des milliers de guides uniques adaptés à des tests plus poussés.

Évaluation des performances

Pour déterminer comment le nouveau modèle d'ensemble a performé, plusieurs méthodes d'évaluation ont été utilisées. Ils ont comparé les prédictions du modèle avec les taux de changement réels des expériences. Cette comparaison a examiné à quel point les scores prédits correspondaient à la réalité.

Une autre évaluation s'est concentrée sur l'efficacité des guides choisis. Étant donné que plusieurs guides pourraient potentiellement fonctionner pour un gène, il était plus important de sélectionner ceux qui avaient une forte chance de succès plutôt que de choisir chaque option possible. La précision est devenue un point crucial aux côtés de mesures traditionnelles comme le rappel.

Les chercheurs ont fixé des seuils pour classer les guides comme efficaces ou inefficaces selon leur performance prédite. Ils ont expérimenté avec la variation de ces seuils pour voir comment cela impactait les performances.

En évaluant la sélection des guides, ils ont noté à quel point le modèle d'ensemble a bien performé par rapport à l'utilisation d'un seul modèle. L'ensemble a pu prédire les résultats plus précisément et a montré une meilleure compréhension de l'incertitude.

Sélection des guides efficaces

Après avoir testé le modèle d'ensemble, les résultats ont montré qu'il excellait à choisir des guides efficaces. La haute précision observée signifiait qu'il y avait une grande confiance que les guides sélectionnés fonctionnent bien.

Différentes configurations ont été testées, variant les seuils pour le score et l'incertitude. Ça a aidé à trouver le meilleur moyen de choisir des guides efficaces. Étonnamment, la haute précision a été maintenue même en explorant différentes méthodes de mesure de l'incertitude.

Bien qu'une haute précision ait été atteinte, le rappel était légèrement inférieur. Ça voulait dire que tous les guides n'étaient pas sélectionnés, mais assez l'étaient encore pour faciliter des expériences réussies dans la plupart des cas. En pratique, ces résultats ont montré que le modèle était très efficace pour isoler les meilleurs guides tout en gérant l'incertitude.

Les chercheurs ont aussi vérifié comment le modèle pourrait fonctionner sur l'ensemble du génome de la souris. Ils voulaient voir si les guides sélectionnés étaient susceptibles d'être efficaces dans un contexte plus large. Les résultats ont montré qu'un pourcentage substantiel de gènes avait au moins un guide sélectionné, mettant en évidence la capacité du modèle à trouver des options utiles.

Conclusions sur l'incertitude et la conception des guides

Les résultats globaux suggèrent que le modèle d'ensemble profond, qui prend en compte les deux types d'incertitude, peut grandement améliorer la sélection des ARN guides CRISPR. En comprenant et quantifiant l'incertitude, les chercheurs peuvent mieux concevoir des stratégies pour sélectionner ces guides, atteignant une haute précision dans leurs prédictions.

Bien que le nouveau modèle montre du potentiel, il y a encore des opportunités pour un développement supplémentaire. Les chercheurs prévoient d'explorer d'autres méthodes et modèles pour améliorer l'approche. Ils pourraient aussi rassembler plus de données provenant d'expériences pour affiner les prédictions et tester différentes distributions pour l'incertitude.

Ce travail représente un pas significatif vers l'application de l'incertitude dans la conception des ARN guides CRISPR. À mesure que ce domaine de recherche continue à se développer, le potentiel de création d'outils génétiques hautement efficaces croît, ouvrant la voie à des avancées passionnantes en médecine, agriculture et au-delà.

Source originale

Titre: Leveraging uncertainty quantification to optimise CRISPR guide RNA selection

Résumé: CRISPR-based genome editing relies on guide RNA sequences to target specific regions of interest. A large number of methods have been developed to predict how efficient different guides are at inducing indels. As more experimental data becomes available, methods based on machine learning have become more prominent. Here, we explore whether quantifying the uncertainty around these predictions can be used to design better guide selection strategies. We demonstrate how using a deep ensemble approach achieves better performance than utilising a single model. This approach can also provide uncertainty quantification. This allows to design, for the first time, strategies that consider uncertainty in guide RNA selection. These strategies achieve precision over 91% and can identify suitable guides for more than 93% of genes in the mouse genome. Our deep ensemble model is available at https://github.com/bmdslab/CRISPR_DeepEnsemble.

Auteurs: Dimitri Perrin, C. Schmitz, J. Bradford, R. Salomone

Dernière mise à jour: 2024-02-05 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.02.01.578527

Source PDF: https://www.biorxiv.org/content/10.1101/2024.02.01.578527.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires