Simple Science

La science de pointe expliquée simplement

# Biologie# Génomique

Comprendre les variantes de protéines grâce à l'analyse de l'ARN

Une étude sur comment les variations d'ARN mènent à des fonctions protéiques différentes.

― 8 min lire


Variants de protéines àVariants de protéines àpartir de l'analyse d'ARNprotéines.influencent les fonctions desExaminer comment les variations d'ARN
Table des matières

Dans nos corps, les gènes jouent un rôle majeur dans la création de Protéines, qui sont essentielles pour diverses fonctions. Chaque gène peut donner naissance à plusieurs versions d'une protéine grâce à des processus comme la transcription alternative, l'épissage et la polyadénylation. Ça veut dire qu'à partir d'environ 20 000 gènes, on peut avoir plus de 180 000 Variantes protéiques différentes. Cependant, ce système complexe peut parfois mal fonctionner, entraînant des problèmes comme le cancer ou des maladies cardiaques. Les scientifiques cherchent des moyens d'étudier et de comprendre ces variations et leur impact sur la santé.

Analyser l'ARN et les Protéines

Pour saisir la complexité de l'expression génétique, les scientifiques peuvent analyser l'ARN, qui est un acteur crucial dans le processus de fabrication des protéines. Les avancées technologiques permettent une analyse approfondie de la diversité de l'ARN dans les échantillons. Le séquençage de l'ARN en longues lectures est une technique qui aide les scientifiques à voir la structure complète des molécules d'ARN. Elle fournit des informations plus détaillées par rapport aux méthodes traditionnelles, révélant des motifs complexes sur comment l'ARN est formé et modifié.

Le séquençage en longues lectures peut connecter différentes sections de l'ARN, appelées exons, et peut identifier des événements d'épissage complexes. L'épissage permet de mélanger et d'associer différents segments d'ARN, menant à la création de diverses formes de protéines. Cela peut affecter comment les protéines fonctionnent et interagissent dans nos corps.

La question clé maintenant est : comment ces variations d'ARN affectent-elles les protéines qui sont finalement produites ? Pour répondre à cela, il est essentiel de définir quelles pourraient être les versions complètes des protéines.

Prédire les Variantes Protéiques

Les chercheurs ont développé des méthodes pour prédire toute la gamme des variantes protéiques pouvant découler du séquençage de l'ARN. Cela implique d'utiliser les séquences détaillées obtenues par l'analyse de l'ARN en longues lectures pour prévoir les structures protéiques potentielles. En cartographiant ces variants protéiques prédits, les scientifiques peuvent mieux comprendre la diversité présente dans différentes conditions biologiques.

Plongée Profonde dans les Variations d'Épissage

L'épissage est une source significative de diversité protéique, et cela peut se produire à plusieurs points dans l'ARN. Il peut modifier la façon dont les protéines sont construites, même si les changements initiaux dans la séquence d'ARN sont petits. Parfois, de petits changements peuvent avoir de grands impacts sur la structure de la protéine, comme des changements à ses extrémités ou d'autres régions importantes.

Comprendre comment ces variations se produisent et leurs effets sur les protéines est crucial pour déchiffrer les complexités de la façon dont nos gènes se traduisent en unités fonctionnelles. Ce n'est pas juste une question de présence ou d'absence de certains segments dans l'ARN ; c'est comment ces morceaux se connectent et interagissent pour former le produit protéique final.

Outils pour l'Analyse

Pour étudier les variations protéiques causées par l'épissage, plusieurs outils et bases de données ont été développés. Ils aident à annoter et analyser comment différentes formes de protéines pourraient fonctionner. Certains outils se concentrent sur la quantification des différences dans la quantité de chaque variant protéique utilisé. D'autres aident à cartographier les caractéristiques des protéines pour comprendre comment les événements d'épissage modifient leur structure et leur fonction.

Malgré ces avancées, il y a encore un besoin d'outils complets qui peuvent capturer tous les effets possibles des variations dans les séquences protéiques basées sur les changements sous-jacents dans l'ARN.

Présentation de Biosurfer

Biosurfer est un nouvel outil conçu pour analyser les Isoformes protéiques, suivant les changements à trois niveaux : l'ARN, les cadres de lecture ouverts (qui sont les segments qui déterminent comment l'ARN est traduit en protéines), et les protéines elles-mêmes. Il fournit une comparaison détaillée des différentes formes de protéines, reliant les changements à leurs origines ARN.

En entrant des données provenant de séquences d'ARN, l'outil Biosurfer organise ces informations dans un format facile à comprendre. Il aide à analyser comment différents changements dans l'ARN affectent la protéine produite, révélant des informations qui peuvent ne pas être immédiatement évidentes en regardant simplement les données génétiques.

Analyser les Variantes Protéiques à Partir des Données Humaines

Biosurfer a été utilisé pour analyser un grand ensemble d'isoformes protéiques dérivées de bases de données humaines de gènes connus. En examinant ces protéines, les chercheurs ont identifié de nombreuses régions modifiées qui pourraient mener à différentes fonctions protéiques. Ils ont découvert que de nombreuses protéines avaient plusieurs variantes, indiquant que même de petits changements d'ARN peuvent produire différents résultats sur la fonction des protéines.

Cette analyse a inclus l'examen des différences au début, au milieu et à la fin des séquences protéiques. Les résultats ont montré qu'un grand nombre de ces différences proviennent soit de changements directs dans l'ARN, soit de mécanismes plus complexes, comme des décalages de cadre qui peuvent altérer radicalement la protéine résultante.

Variations N-Terminales

Une zone de changement significative se produit au début de la protéine, connue sous le nom de N-terminus. Les changements ici peuvent être dus à des points de départ différents dans l'ARN. Certaines protéines peuvent commencer avec une séquence dans une variante et une différente dans une autre. En suivant les raisons derrière ces variations, les chercheurs ont découvert que beaucoup d'entre elles découlaient de sites de départ alternatifs dans l'ARN.

D'autres provenaient de points de départ partagés. Ces modèles soulignent comment les variations dans l'ARN peuvent dicter quelles versions de protéines sont produites et comment elles peuvent fonctionner différemment.

Changements Internes dans les Protéines

Les protéines ont souvent des régions au milieu qui peuvent changer à cause d'altérations dans l'ARN. Un grand nombre de ces variations internes des protéines sont liées à des événements d'épissage spécifiques. Par exemple, sauter un exon peut entraîner une pièce manquante dans le produit protéique final.

Certaines variations découlent de combinaisons d'événements d'épissage, menant à des changements plus étendus dans la structure de la protéine. Identifier ces changements est important pour comprendre comment les protéines peuvent différer les unes des autres, même si elles proviennent du même gène.

Variations C-Terminales

Des changements se produisent également à la fin des protéines, connue sous le nom de C-terminus. Ceux-ci peuvent résulter de changements directs dans l'ARN qui introduisent différents codons d'arrêt ou de décalages de cadre qui modifient la façon dont le ribosome lit l'ARN. Comprendre ces variations peut fournir des insights sur comment les protéines se forment et leur fonctionnalité potentielle dans les processus biologiques.

Caractériser les Variantes Protéiques dans Différents Contextes

Pour explorer davantage ces changements protéiques, les chercheurs ont examiné comment les variations diffèrent dans diverses situations biologiques. Cela incluait l'étude des variantes protéiques d'une lignée de cellules souches humaines spécifiques, permettant une comparaison entre les variants prédits et ceux trouvés dans des bases de données de gènes existantes.

Les résultats ont démontré que bien que de nombreux modèles étaient cohérents, les isoformes prédites révélaient souvent de nouvelles dimensions de la diversité protéique, en particulier dans les changements C-terminaux, où de nombreuses protéines présentaient des variations non observées dans les annotations antérieures.

Lier les Changements à la Fonctionnalité

Au final, être capable de relier les changements dans les protéines à des séquences d'ARN spécifiques améliore notre compréhension de comment les variations génétiques peuvent impacter la santé et la maladie. En améliorant les outils et techniques que nous utilisons pour analyser ces processus, nous pouvons obtenir une image plus claire des relations complexes entre nos gènes, les protéines qu'ils produisent, et comment elles fonctionnent dans le corps.

Conclusion

L'étude de la diversité protéique et des mécanismes qui la motivent est essentielle pour découvrir les complexités de la biologie humaine. Des outils comme Biosurfer jouent un rôle vital dans la décomposition de ces complexités, permettant aux chercheurs d'établir des connexions plus profondes entre les variations de l'ARN, la diversité des protéines et leur impact potentiel sur la santé. Avec les avancées continues dans la technologie et la bioinformatique, l'avenir s'annonce prometteur pour exploiter ces connaissances afin d'améliorer notre compréhension de la biologie et de la médecine.

Source originale

Titre: Biosurfer for systematic tracking of regulatory mechanisms leading to protein isoform diversity

Résumé: Long-read RNA sequencing has shed light on transcriptomic complexity, but questions remain about the functionality of downstream protein products. We introduce Biosurfer, a computational approach for comparing protein isoforms, while systematically tracking the transcriptional, splicing, and translational variations that underlie differences in the sequences of the protein products. Using Biosurfer, we analyzed the differences in 32,799 pairs of GENCODE annotated protein isoforms, finding a majority (70%) of variable N-termini are due to the alternative transcription start sites, while only 9% arise from 5 UTR alternative splicing. Biosurfers detailed tracking of nucleotide-to-residue relationships helped reveal an uncommonly tracked source of single amino acid residue changes arising from the codon splits at junctions. For 17% of internal sequence changes, such split codon patterns lead to single residue differences, termed "ragged codons". Of variable C-termini, 72% involve splice- or intron retention-induced reading frameshifts. We found an unusual pattern of reading frame changes, in which the first frameshift is closely followed by a distinct second frameshift that restores the original frame, which we term a "snapback" frameshift. We analyzed long read RNA-seq-predicted proteome of a human cell line and found similar trends as compared to our GENCODE analysis, with the exception of a higher proportion of isoforms predicted to undergo nonsense-mediated decay. Biosurfers comprehensive characterization of long-read RNA-seq datasets should accelerate insights of the functional role of protein isoforms, providing mechanistic explanation of the origins of the proteomic diversity driven by the alternative splicing. Biosurfer is available as a Python package at https://github.com/sheynkman-lab/biosurfer.

Auteurs: Gloria Sheynkman, M. Murali, J. Saquing, S. Lu, Z. Gao, B. Jordan, Z. Wakefield, A. Fiszbein, D. Cooper, P. Castaldi, D. Korkin

Dernière mise à jour: 2024-03-18 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.03.15.585320

Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.15.585320.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires