Progressi nella ricerca sulle proteine usando il machine learning
Nuovi modelli prevedono le funzioni delle proteine e le mutazioni per migliorare le risposte sanitarie.
― 8 leggere min
Indice
- Il Caso di SARS-CoV-2
- Apprendimento Automatico negli studi sulle proteine
- Sviluppo di un nuovo modello
- Processo di raccolta dati
- Analisi del Dataset di focolai
- Il ruolo dei modelli di linguaggio proteico
- Previsione della filogenesi e dell'ospite da sequenze virali
- Previsioni delle proprietà biochimiche
- Previsioni dell'affinità degli anticorpi
- L'importanza della sorveglianza genomica
- Sfide negli studi sulle proteine con l'apprendimento automatico
- Direzioni future
- Conclusione
- Fonte originale
- Link di riferimento
Le Proteine sono essenziali per la vita. Sono coinvolte in quasi ogni processo nel nostro corpo, dallottimizzazione delle infezioni all'aiuto nella comunicazione tra le cellule. La funzione di una proteina è determinata dalla sua specifica sequenza di mattoncini chiamati amminoacidi e dalla forma che assume nello spazio tridimensionale.
Quando le proteine subiscono cambiamenti, noti come Mutazioni, le loro funzioni possono anche cambiare. Alcune mutazioni possono essere dannose, portando a malattie come il cancro o permettendo ai virus di sfuggire ai trattamenti. Rilevare queste mutazioni genetiche può essere fatto con il Sequenziamento Genomico. Tuttavia, collegare queste mutazioni a effetti specifici sulla funzione proteica di solito richiede test aggiuntivi, che possono richiedere molto tempo per essere completati.
Per accelerare e ridurre i costi di questo processo, gli scienziati usano test ad alta capacità. Questi test permettono ai ricercatori di esaminare molte mutazioni diverse contemporaneamente. Ad esempio, due metodi, il deep mutation scanning e l'incrocio di lieviti riprogrammati, possono analizzare migliaia di sequenze proteiche mutate in pochi mesi.
Il Caso di SARS-CoV-2
Un'area in cui sono stati applicati test ad alta capacità è nello studio del SARS-CoV-2, il virus che causa il COVID-19. Il virus usa una proteina chiamata Spike per invadere le cellule umane. La parte di questa proteina che si lega ai recettori umani è nota come dominio di legame del recettore (RBD). A causa del suo ruolo critico, l'RBD è un obiettivo importante per i vaccini e i trattamenti mirati al COVID-19.
Le mutazioni nell'RBD possono cambiare il comportamento del virus e quanto bene funzionano i vaccini contro di esso. Ad esempio, la variante Omicron ha mutazioni che la aiutano a eludere gli anticorpi, rendendola più difficile da trattare. Alcune mutazioni possono persino permettere al virus di saltare dagli animali agli esseri umani, il che rappresenta un rischio significativo per la salute pubblica.
Apprendimento Automatico negli studi sulle proteine
Con abbastanza dati su come le mutazioni influenzano la funzione delle proteine, le tecniche di apprendimento automatico (ML) possono essere utili per analizzare i modelli nelle sequenze proteiche. Queste tecniche possono prevedere come le mutazioni cambieranno il comportamento delle proteine. Un approccio comune di apprendimento automatico è l'uso di reti Long Short-Term Memory (LSTM), spesso impiegate nell'elaborazione del linguaggio naturale.
Più recentemente, modelli più grandi noti come modelli di linguaggio di grandi dimensioni (LLM) sono diventati comuni. Questi modelli sono addestrati utilizzando enormi quantità di testo per comprendere le relazioni tra le parole, il che può essere applicato anche alle sequenze proteiche. Utilizzando questi modelli, i ricercatori hanno sviluppato strumenti per trovare modelli complessi nei dati proteici. Alcuni modelli si concentrano specificamente sulle proteine e possono prevedere le loro funzioni in base alle loro sequenze.
Sviluppo di un nuovo modello
Il nostro obiettivo è creare modelli di linguaggio che possano prendere le sequenze di proteine da patogeni e prevedere come influenzeranno la salute. Questo include intuizioni su come il virus potrebbe cambiare comportamento o quanto saranno efficaci i vaccini contro di esso.
Per farlo, stiamo confrontando diversi progetti di modelli per analizzare la proteina Spike virale e gli anticorpi che la mirano. I nostri principali risultati includono:
- I modelli di linguaggio proteico possono rivelare schemi nascosti nelle sequenze proteiche che si collegano alla filogenesi del virus e al suo ospite mirato.
- Aggiungere strati di regressione ai modelli di linguaggio può prevedere con precisione le proprietà delle proteine mutate.
- Questi modelli possono aiutare a monitorare i cambiamenti virali che potrebbero portare a nuove minacce per la salute.
Processo di raccolta dati
Per costruire il nostro modello, abbiamo raccolto quattro set di dati principali:
Dataset di focolai: Questo dataset include oltre 347.000 sequenze uniche di RBD dal virus SARS-CoV-2. Riflette come il virus si sia evoluto e diffuso durante la pandemia.
Dataset di Deep Mutation Scanning (DMS): Questo consiste in oltre 116.000 sequenze di RBD uniche con misurazioni dettagliate su come interagiscono con il recettore ACE2 umano.
Dataset Beta-CoV: Include sequenze di RBD di altri coronavirus, aiutandoci a confrontare come diversi virus siano correlati tra loro.
Dataset di anticorpi: Presenta sequenze di anticorpi noti per legarsi alla proteina Spike, consentendoci di studiarne l'efficacia.
Ogni set di dati è stato suddiviso in set di addestramento e di test, consentendoci di addestrare il nostro modello e convalidarne le previsioni.
Analisi del Dataset di focolai
Nel dataset di focolai, abbiamo studiato la distribuzione delle filogenesi e la varietà di amminoacidi nelle sequenze di RBD. Abbiamo trovato che le principali filogenesi virali includono Omicron, Delta e Alpha. Utilizzando un modello di apprendimento automatico, siamo stati in grado di visualizzare queste sequenze e osservare come si raggruppano in base alla filogenesi.
Applicando un algoritmo speciale, siamo riusciti a separare efficacemente le sequenze provenienti da diverse filogenesi virali senza bisogno di ulteriori metodi di raggruppamento. Questa separazione indica che i nostri modelli possono aiutare a identificare sequenze che potrebbero rappresentare minacce significative per la salute pubblica.
Il ruolo dei modelli di linguaggio proteico
Le proteine vengono rappresentate come codici numerici prima di entrare nei modelli di apprendimento automatico. Esistono vari metodi per convertire le sequenze proteiche in queste rappresentazioni numeriche, come l'uso di one-hot encoding o modelli più complessi come BERT.
Per il nostro approccio, abbiamo modificato il modello BERT originale per concentrarci specificamente sull'apprendimento dalle sequenze proteiche. Questo ci ha permesso di prevedere meglio gli amminoacidi mascherati in base al loro contesto all'interno delle sequenze RBD. Il nostro modello BERT modificato ha ottenuto un'alta precisione nella previsione di questi amminoacidi mascherati.
Questa rappresentazione ci ha portato a credere che il nostro modello possa non solo prevedere amminoacidi singoli, ma anche distinguere tra diverse filogenesi del virus.
Previsione della filogenesi e dell'ospite da sequenze virali
Abbiamo poi integrato il nostro modello BERT modificato con un altro approccio di apprendimento automatico chiamato LSTM bidirezionale (BLSTM). Questa combinazione ci ha permesso di analizzare come diverse sequenze virali si relazionano tra loro in base a informazioni di filogenesi e ospite.
Attraverso questa analisi, siamo riusciti a visualizzare l'ultimo stato nascosto del modello, rivelando cluster di sequenze provenienti da diverse filogenesi. Questa capacità suggerisce che il nostro modello può assistere i ricercatori nell'identificare sequenze virali che sono strettamente correlate e potrebbero richiedere ulteriori monitoraggi.
Previsioni delle proprietà biochimiche
Con il nostro modello ESM-BLSTM, ci siamo concentrati sulla previsione di come le mutazioni RBD influenzano le affinità di legame con altre proteine e i livelli di espressione. Abbiamo confrontato varie architetture di modelli per vedere quale producesse i risultati migliori.
Il modello ESM-BLSTM ha superato modelli più semplici nella previsione di queste proprietà biochimiche. Ha mostrato previsioni accurate per le affinità di legame e i livelli di espressione, richiamando risultati ottenuti da esperimenti di laboratorio.
Previsioni dell'affinità degli anticorpi
Volevamo vedere se i nostri modelli potevano prevedere anche quanto bene gli anticorpi si legano ai loro obiettivi. Utilizzando il modello BERT modificato, abbiamo cercato di apprendere embedding dalle sequenze di anticorpi per prevedere le loro interazioni con la proteina Spike.
Tuttavia, la performance in quest'area non è stata così alta, forse a causa della varietà di tipi di anticorpi e dei dati di addestramento limitati. Nonostante ciò, il nostro modello ESM-BLSTM ha mostrato risultati competitivi nelle previsioni delle affinità di legame, convalidando il suo potenziale per studi futuri.
L'importanza della sorveglianza genomica
La sorveglianza genomica del SARS-CoV-2 ha generato milioni di sequenze genomiche. Questo ampio set di dati, insieme a esperimenti ad alta capacità, consente ai ricercatori di applicare metodi di bioinformatica e apprendimento automatico per studiare l'evoluzione e la diffusione virale.
I nostri modelli dimostrano la capacità di non solo prevedere proteine effettore, ma anche di aiutare a identificare mutazioni di interesse. Questo può aiutare a monitorare potenziali focolai e migliorare le risposte a minacce emergenti per la salute.
Sfide negli studi sulle proteine con l'apprendimento automatico
Una sfida significativa nella ricerca sulle proteine è trovare modi efficaci per rappresentare le sequenze proteiche che catturano sia le proprietà biochimiche conosciute che quelle sconosciute. Le tecniche di deep learning che utilizzano rappresentazioni distribuite possono superare i metodi classici, specialmente nella gestione di relazioni complesse.
Sebbene il nostro approccio del modello BERT abbia dato buoni risultati, affronta ancora difficoltà quando applicato alla previsione delle proprietà biochimiche. Mostra che i metodi di embedding utilizzati per l'addestramento possono influenzare le prestazioni nei compiti successivi. Nonostante l'accuratezza impressionante nella previsione di amminoacidi mascherati, le previsioni per le affinità di legame e i livelli di espressione sono state meno fortunate.
Direzioni future
Per migliorare le prestazioni dei nostri modelli, si potrebbero perseguire diverse strategie. Un approccio è affinare gli embedding utilizzati in modo che catturino meglio le caratteristiche sottostanti delle proteine studiate. Il fine-tuning degli embedding esistenti attraverso compiti di addestramento aggiuntivi potrebbe aiutare a migliorare le previsioni.
Combinando modelli di linguaggio con informazioni strutturali, possiamo comprendere meglio come le proteine interagiscono tra loro. Un modello completo che incorpori entrambi i tipi di informazioni potrebbe portare a previsioni più accurate sulla selezione dell'ospite e sugli eventi di spillover.
Conclusione
Il nostro lavoro mostra il potenziale di utilizzare tecniche avanzate di apprendimento automatico per analizzare sequenze proteiche e prevedere le loro funzioni. Sviluppando modelli robusti come ESM-BLSTM, possiamo assistere nella rilevazione precoce di mutazioni che potrebbero rappresentare un rischio per la salute pubblica. Questa ricerca continua sarà cruciale nel rispondere a sfide future poste da patogeni in evoluzione.
Questo studio sottolinea l'importanza del monitoraggio delle proteine e del ruolo dei dati genomici nel guidare le decisioni di salute pubblica. I progressi in questi modelli non solo miglioreranno la nostra comprensione del comportamento virale, ma rafforzeranno anche la nostra prontezza ad affrontare le emergenze sanitarie scatenate da malattie infettive emergenti.
Titolo: Learning the language of proteins and predicting the impact of mutations
Estratto: Mutations in proteins directly impact their structure and function. Understanding the "language" of proteins, or the sequence to function (genotype-phenotype) relationship has many real-world applications. One set of applications includes those in biodefense, such as biological threat detection and biosurveillance, antibody engineering, and medical countermeasure development. In this study, we present a novel language model-based approach that can rapidly analyze vast collections of sequences, and make near real-time functional predictions that compare favorably to those made using conventional bioinformatic and experimental methods. Our findings reveal that tailored protein language models can predict protein mutation phenotypes, such as binding affinity or level of expression, when they are trained with high-throughput functional data. Protein language models applied to viral genomes can also discern the lineage within a family (e.g., sarbecovirus sequences). Coupled with sequenced-based biosurveillance, this type of model may provide early warning signals of potential zoonotic spillovers (i.e. host jumping) or "escape" from existing medical countermeasures posed by novel mutations. This research not only underscores the potential of ML and language models in addressing pressing challenges in understanding the mapping of sequence to function, but further elucidates their potential application in accelerating the response to biological threats as they evolve.
Autori: Bin Hu, M. Babinski, K. R. Gibson, P.-e. Li, V. Li, P. Chain
Ultimo aggiornamento: 2024-04-06 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.04.05.588133
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588133.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.