Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Avancées récentes dans la technologie de séquençage des protéines

De nouvelles techniques améliorent la précision pour lire et identifier les protéines.

― 9 min lire


Innovations en séquençageInnovations en séquençagedes protéinesprotéines.précision dans l'identification desDe nouvelles méthodes améliorent la
Table des matières

Ces dernières années, il y a eu de grosses améliorations dans la façon dont les scientifiques lisent le code génétique qu'on trouve dans notre ADN et les Protéines créées à partir de ce code. Ces avancées sont super importantes vu que les protéines jouent des rôles essentiels dans presque toutes les fonctions des organismes vivants. Voyons un peu ces développements de manière simple.

Comprendre l'ADN et le séquençage des protéines

Le séquençage des nucléotides, c'est le processus qui consiste à déterminer l'ordre des nucléotides dans un échantillon d'ADN. Les scientifiques utilisent plein de technologies différentes pour ça, et au cours des dix dernières années, certaines méthodes sont devenues plus efficaces. Par exemple, des techniques comme le Séquençage par nanopores permettent aux chercheurs de lire l'ADN à très petite échelle avec une grande précision.

Pour les protéines, qui sont faites de blocs de construction appelés acides aminés, le séquençage est un peu plus compliqué. Contrairement à l'ADN, les protéines sont constituées de 20 acides aminés différents, chacun ayant des formes et des charges uniques. Cela rend l'identification d'acides aminés spécifiques dans une séquence plus difficile que d'identifier les quatre bases trouvées dans l'ADN.

Technologies actuelles dans le séquençage des protéines

La Spectrométrie de masse est l'une des méthodes traditionnelles d'identification des protéines. Cette technique mesure la masse des protéines et la compare à celles connues dans une base de données. Cependant, beaucoup de chercheurs se concentrent sur l'identification des protéines plutôt que sur la détermination de leurs séquences complètes, car parfois, connaître une partie d'une séquence suffit pour identifier.

Malgré son utilisation répandue, la spectrométrie de masse a ses limites. Par exemple, elle peut ne pas bien fonctionner pour les protéines présentes en très faible quantité. Pour résoudre ce problème, les chercheurs explorent de nouvelles méthodes de séquençage des protéines qui pourraient offrir une meilleure sensibilité.

Certaines des méthodes plus récentes impliquent de marquer des acides aminés spécifiques avec des marqueurs fluorescents pour créer une empreinte unique pour chaque protéine. Des études récentes suggèrent qu'il pourrait être possible de baliser un petit nombre d'acides aminés sans que les marqueurs interférent les uns avec les autres. Cela pourrait permettre aux scientifiques d'identifier les protéines en fonction de ces empreintes.

La promesse du séquençage par nanopore pour les protéines

Le séquençage par nanopore devient une technique prometteuse pour lire les séquences de protéines. Cela pourrait potentiellement permettre aux scientifiques de séquencer des protéines de pleine longueur, offrant ainsi une identification plus précise. Les avancées actuelles incluent des nanopores conçus pour faire passer en douceur des peptides (chaînes courtes d'acides aminés) à travers une toute petite ouverture tout en capturant des signaux électriques correspondant à des acides aminés spécifiques.

Les chercheurs envisagent aussi d'utiliser des signaux optiques qui peuvent fournir plus d'informations sur les acides aminés spécifiques en cours de séquençage. Pour que le séquençage des protéines soit efficace, des améliorations importantes sont nécessaires, notamment des méthodes qui permettent de lire correctement les 20 acides aminés.

Défis du séquençage des protéines

Même avec ces avancées, il reste des obstacles à franchir pour séquencer efficacement les protéines. Les appareils conçus à cet effet vont probablement combiner plusieurs stratégies pour faciliter l'identification des protéines. Par exemple, ils pourraient se concentrer sur la lecture de seulement quelques types d'acides aminés ou utiliser des fragments de protéines pour augmenter la précision.

Il est possible que les premiers appareils donnent des lectures avec des erreurs, ce qui rendrait difficile une identification précise des acides aminés. Du coup, les scientifiques vont probablement développer des algorithmes qui fournissent une probabilité pour chaque Acide aminé en fonction des signaux reçus, ce qui peut aider à identifier la bonne séquence d'acides aminés.

Utilisation des Probabilités pour l'identification

Pour comprendre les informations récoltées à partir des appareils de séquençage, les scientifiques peuvent commencer par une hypothèse de base sur les acides aminés présents. Par exemple, s'ils savent qu'une protéine particulière contient beaucoup d'un acide aminé spécifique, ils peuvent ajuster leurs estimations de probabilité en conséquence. Quand les signaux de séquençage arrivent, ils peuvent mettre à jour ces probabilités pour refléter les acides aminés susceptibles d'être représentés dans les signaux.

En analysant les données, ils construisent une matrice qui montre les probabilités de chaque acide aminé apparaissant à chaque position dans la séquence. Cependant, en raison des erreurs dans les lectures, il n'est pas toujours possible de reconstruire chaque partie de la protéine de manière précise. Par conséquent, la meilleure approche est de comparer les résultats avec une base de données de protéines connue.

Tester les nouvelles méthodes

Dans des études pour tester les méthodes d'identification des protéines, les chercheurs ont utilisé une gamme de conditions pour voir comment leurs systèmes fonctionnaient. Ils se sont concentrés sur beaucoup de facteurs, comme la capacité de l'appareil à résoudre les signaux, la longueur des segments de protéines analysés, et le genre d'erreurs qui pourraient survenir pendant le processus. Différents algorithmes et modèles statistiques, comme les Modèles de Markov Cachés (HMM), ont été utilisés pour analyser les données et améliorer la précision.

Les résultats ont montré qu même avec des segments de protéines plus courts ou des signaux de qualité modérée, un pourcentage significatif de protéines pouvait encore être identifié avec précision. C'est encourageant, car cela suggère que ces méthodes pourraient être utiles dans des contextes réels.

Incorporation de plusieurs fragments

Dans beaucoup de cas, utiliser plusieurs fragments de la même protéine peut améliorer la précision de l'identification. Quand les chercheurs ont combiné les résultats de plusieurs fragments, ils ont remarqué que la précision s'améliorait dans tous les cas. Ça veut dire que même si un fragment ne donne pas de résultat clair, combiner les informations de plusieurs fragments peut fournir assez de données pour identifier une protéine avec confiance.

Évaluer différents ensembles d'acides aminés

Un autre aspect intéressant de cette recherche est l'utilisation d'ensembles réduits d'acides aminés pour l'identification. Par exemple, certaines méthodes peuvent se concentrer sur l'identification d'un nombre limité d'acides aminés, particulièrement ceux qui sont plus abondants dans les protéines. Des études ont montré qu'en utilisant juste quelques acides aminés abondants, il est possible d'atteindre de bons taux d'identification, tandis que l'utilisation d'acides aminés moins abondants a souvent conduit à une précision plus faible.

Cela met en lumière l'importance de savoir quels acides aminés cibler quand on essaie d'identifier des protéines, car certains acides aminés sont plus informatifs que d'autres.

Évaluer l'impact des erreurs

Comme avec toute technologie, des erreurs peuvent survenir dans les processus de séquençage. Les chercheurs ont conçu des expériences pour évaluer comment différents taux d'erreurs, comme les insertions ou les suppressions dans la séquence, affectaient l'exactitude globale de la méthode d'identification. Ils ont trouvé que le système d'identification restait très efficace même avec des taux d'erreur modérés, surtout quand une séquence complète de protéine était disponible.

Cependant, l'utilisation de fragments de protéines plus courts a montré une précision réduite dans des conditions sujettes aux erreurs, ce qui pose des défis pour des applications pratiques où les erreurs peuvent être plus fréquentes.

Directions futures dans le séquençage des protéines

À mesure que les technologies de séquençage continuent d'évoluer, l'objectif reste de créer des appareils capables d'identifier les protéines avec précision et efficacité, même dans des scénarios difficiles. Le potentiel d'atteindre une haute précision, même avec des signaux de moindre qualité ou pour des protéines présentes en petites quantités, rend ces avancées excitantes pour l'avenir de la biologie et de la médecine.

De plus, les techniques développées maintenant pourraient ouvrir la voie à de nouvelles méthodes qui pourraient un jour révolutionner la façon dont nous comprenons les protéines et leurs rôles dans les processus biologiques. Cela pourrait mener à des percées dans des domaines comme la découverte de médicaments et la médecine personnalisée, où comprendre les fonctions des protéines est crucial.

Conclusion

En résumé, les avancées dans les technologies de séquençage des protéines permettent de lire et d'identifier les protéines avec plus d'efficacité. Bien que des défis restent, des techniques comme le séquençage par nanopore et des approches statistiques novatrices ouvrent la voie à des méthodes d'identification des protéines plus efficaces. La recherche et le développement continuels devraient mener à de meilleures stratégies pour analyser les protéines, bénéficiant finalement à divers domaines de la science et de la médecine.

Source originale

Titre: A generalised protein identification method for novel and diverse sequencing technologies

Résumé: Protein sequencing is a rapidly evolving field with much progress towards the realisation of a new generation of protein sequencers. The early devices, however, may not be able to reliably discriminate all 20 amino acids, resulting in a partial, noisy and possibly error-prone signature of a protein. Rather than achieving de novo sequencing, these devices may aim to identify target proteins by comparing such signatures to databases of known proteins. However, there are no broadly applicable methods for this identification problem. Here, we devise a hidden Markov model method to study the generalized problem of protein identification from noisy signature data. Using a hypothetical sequencing device that can simulate several novel devices, we show that on the human protein database (N=20,181) our method has a good performance under many different operating conditions such as various levels of signal resolvability, different numbers of discriminated amino acids, sequence fragments and insertion and deletion error rates. Our results demonstrate the possibility of protein identification with high accuracy on many early experimental devices. We anticipate our method to be applicable for a wide range of protein sequencing devices in the future.

Auteurs: Nick Goldman, B. K. Bhandari

Dernière mise à jour: 2024-03-04 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.02.29.582769

Source PDF: https://www.biorxiv.org/content/10.1101/2024.02.29.582769.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires