Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Progressi nell'analisi delle sequenze di proteine

Un nuovo metodo migliora la selezione degli isoformi proteici canonici.

― 6 leggere min


Selezione delle isoformeSelezione delle isoformeproteiche migliorataproteiche.delle annotazioni delle funzioniNuovo metodo migliora l'accuratezza
Indice

Le Sequenze proteiche sono catene di amminoacidi fondamentali per il funzionamento degli organismi viventi. Queste sequenze determinano come funzionano le Proteine e i loro ruoli in vari processi biologici. Gli scienziati studiano spesso le sequenze proteiche per capire come le proteine funzionano, interagiscono ed evolvono.

L'importanza delle banche dati delle sequenze proteiche

I ricercatori hanno creato banche dati che archiviano e organizzano le sequenze proteiche. Queste banche dati sono fondamentali perché permettono agli scienziati di confrontare le sequenze proteiche tra diversi organismi. Confrontando le sequenze, gli scienziati possono identificare somiglianze e differenze, il che può portare alla scoperta delle funzioni proteiche.

Ad esempio, le somiglianze tra proteine di diverse specie possono fornire indizi sui loro ruoli in varie funzioni biologiche. Questo è particolarmente utile per gli organismi meno studiati o non modelli, ovvero quelli che non sono i soggetti tipici della ricerca di laboratorio. In questi casi, l'80-100% delle annotazioni funzionali proviene dal confronto delle sequenze con dati noti nelle banche dati.

Come i scienziati confrontano le sequenze proteiche

Uno strumento comunemente usato per confrontare le sequenze proteiche è chiamato BLAST (Basic Local Alignment Search Tool). Questo programma identifica rapidamente sequenze simili in grandi banche dati ed è uno dei metodi più citati nella letteratura scientifica. Utilizzando strumenti come questo, i ricercatori possono fare inferenze sulle funzioni delle proteine basandosi sulla loro somiglianza con altre proteine.

Banche dati proteiche di riferimento

Il database UniProt Reference Proteomes è una delle risorse più estese disponibili. Contiene oltre 24.000 set di proteine, che includono proteine di varie fonti come virus, batteri, archeobatteri ed eucarioti (che includono animali e piante). Questo database è particolarmente utile per i ricercatori che cercano di comprendere le funzioni proteiche tra diversi organismi.

Quando si studiano proteine da organismi che producono più forme da un gene, gli scienziati selezionano una sola forma per rappresentare tutte le varianti. Questa forma selezionata è chiamata isoforma "Canonico". Avere una sequenza canonica ben definita è cruciale per studi accurati sulla funzione e sulla struttura delle proteine.

Sfide nella selezione della giusta isoforma

In passato, la forma proteica più lunga prodotta da un gene veniva scelta come isoforma canonica. Tuttavia, questo metodo talvolta produceva risultati che non riflettevano la realtà biologica. Ad esempio, confrontando le proteine di topi e ratti, molte coppie risultavano quasi identiche ma avevano grandi gap nelle loro sequenze. Questo solleva interrogativi sull'accuratezza della regola dell'isoforma più lunga.

Tali errori possono portare a fraintendimenti su come le proteine funzionano e interagiscono tra loro. Pertanto, sviluppare strategie migliori per selezionare le Isoforme canoniche è essenziale per la ricerca sulle proteine.

Strategie per una migliore selezione delle isoforme

Sono state sviluppate diverse strategie per migliorare la selezione delle isoforme canoniche. Un metodo si chiama PALO, che mira a selezionare forme proteiche simili per lunghezza per studi evolutivi. Un altro approccio è il database APPRIS, che fornisce annotazioni basate su caratteristiche strutturali e funzionali delle proteine.

Introduzione di Ortho2tree

Per migliorare ulteriormente la selezione delle isoforme canoniche, è stato sviluppato un nuovo metodo chiamato ortho2tree. Ortho2tree utilizza una strategia basata su distanza e gap nelle sequenze proteiche per identificare le migliori forme candidate. Il suo obiettivo principale è ridurre il numero di gap negli allineamenti di proteine strettamente correlate.

Ortho2tree inizia con set di proteine che sono evolute da un antenato comune. Costruisce una mappa di queste proteine in base a quanto bene si allineano tra loro, concentrandosi sulla minimizzazione dei gap lunghi. In questo modo, ortho2tree seleziona isoforme che forniscono una rappresentazione più accurata della realtà biologica.

Il processo dietro Ortho2tree

Il processo di ortho2tree funziona attraverso diversi passaggi:

  1. Identificare le sequenze: Raccoglie sequenze di proteine appartenenti allo stesso ortogruppo, un gruppo di geni che sono correlati attraverso l'evoluzione.
  2. Allineare le proteine: Le sequenze selezionate vengono allineate utilizzando un programma di Allineamento multiplo.
  3. Creare un albero delle distanze: Si forma una struttura ad albero in base ai gap negli allineamenti.
  4. Identificare cladi a basso costo: L'algoritmo scansiona l'albero per trovare cladi (gruppi di sequenze correlate) che hanno pochi gap e sono diversi.
  5. Classificare i cladi: Ogni clade viene valutato in base a diversi fattori, inclusi il numero di specie diverse rappresentate e la qualità dell'allineamento.

Risultati di Ortho2tree

Applicando il metodo ortho2tree, i ricercatori sono stati in grado di modificare e migliorare la selezione delle isoforme canoniche in molte famiglie proteiche. I risultati iniziali mostrano che questa strategia riduce il numero di gap lunghi negli allineamenti proteici, portando a una comprensione più chiara delle funzioni proteiche.

Confronto con metodi esistenti

Confrontando i risultati di ortho2tree con altri metodi, è emerso chiaramente che ortho2tree produce allineamenti più coerenti con ciò che si osserva in batteri e lieviti, organismi che non hanno più isoforme ma forniscono un buon riferimento per i gap di sequenza.

Ruolo delle isoforme canoniche

L'importanza di selezionare sequenze canoniche accurate non può essere sottovalutata. Queste sequenze selezionate sono fondamentali per molte analisi e servono come risorsa primaria per prevedere la struttura e la funzione delle proteine. Sequenze canoniche male assegnate possono distorcere i risultati della ricerca.

Gli impatti più ampi di Ortho2tree

Lo sviluppo di ortho2tree ha ampie implicazioni per la ricerca sulle proteine. Può migliorare l'accuratezza delle annotazioni delle funzioni proteiche e aiutare a comprendere le relazioni evolutive tra le proteine. Man mano che ortho2tree viene applicato a set di proteine più diversificati, inclusi piante e vertebrati, continuerà a migliorare la nostra comprensione della biologia proteica.

Direzioni future

Andando avanti, ci si aspetta che il pipeline di ortho2tree estenda le sue applicazioni a più organismi, ampliando così l'accuratezza e il dettaglio delle annotazioni delle funzioni proteiche. Questo porterà a migliori intuizioni su come le proteine interagiscono e funzionano nei sistemi viventi.

Conclusione

Le sequenze proteiche e la loro attenta analisi sono centrali per comprendere i processi biologici. Lo sviluppo di banche dati delle sequenze proteiche complete e ben organizzate rappresenta un significativo progresso nella biologia molecolare. L'introduzione di metodi come ortho2tree rafforza l'affidabilità delle selezioni delle isoforme canoniche, riducendo i gap negli allineamenti proteici e migliorando la nostra comprensione delle funzioni proteiche tra organismi diversi. Con il continuo sviluppo della ricerca in quest'area, le intuizioni ottenute avranno effetti profondi su molti campi, tra cui medicina, genetica e biologia evolutiva.

Fonte originale

Titolo: Improved selection of canonical proteins for reference proteomes

Estratto: The "canonical" protein sets distributed by UniProt are widely used for similarity searching, and functional and structural annotation. For many investigators, canonical sequences are the only version of a protein examined. However, higher eukaryotes often encode multiple isoforms of a protein from a single gene. For unreviewed (UniProtKB/TrEMBL) protein sequences, the longest sequence in a Gene-Centric group is chosen as canonical. This choice can create inconsistencies, selecting >95% identical orthologs with dramatically different lengths, which is biologically unlikely. We describe the ortho2tree pipeline, which examines Reference Proteome canonical and isoform sequences from sets of orthologous proteins, builds multiple alignments, constructs gap-distance trees, and identifies low-cost clades of isoforms with similar lengths. After examining 140,000 proteins from eight mammals in UniProtKB release 2022 05, ortho2tree proposed 7,804 canonical changes for release 2023 01, while confirming 53,434 canonicals. Gap distributions for isoforms selected by ortho2tree are similar to those in bacterial and yeast alignments, organisms unaffected by isoform selection, suggesting ortho2tree canonicals more accurately reflect genuine biological variation. 82% of ortho2tree proposed-changes agreed with MANE; for confirmed canonicals, 92% agreed with MANE. Ortho2tree can improve canonical assignment among orthologous sequences that are more than 60% identical, a group that includes vertebrates and higher plants.

Autori: Giuseppe Insana, M. J. Martin, W. R. Pearson

Ultimo aggiornamento: 2024-05-23 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.04.583387

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.04.583387.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili