Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Avanzamenti nell'ingegneria delle proteine con METL

METL combina dati sintetici e machine learning per migliorare il design delle proteine.

― 6 leggere min


METL trasforma il designMETL trasforma il designdelle proteinedati.proteine grazie a intuizioni basate suiMETL rivoluziona l'ingegneria delle
Indice

Le proteine sono molecole fondamentali nei nostri corpi, costituite da lunghe catene di unità più piccole chiamate aminoacidi. L'ordine di questi aminoacidi in una proteina determina la sua struttura e funzione. Capire come funzionano le proteine è cruciale in molti campi, tra cui medicina e biotecnologia. Un modo per studiare le proteine è usare modelli che analizzano le loro sequenze e prevedono come i cambiamenti in queste sequenze possano influenzarne il comportamento.

Negli ultimi anni, i ricercatori hanno sviluppato modelli speciali chiamati Modelli Linguistici delle Proteine (PLMs) per aiutare con questo compito. Questi modelli applicano tecniche di elaborazione del linguaggio per analizzare e interpretare le sequenze proteiche, molto simile a come comprendiamo le lingue umane. Esaminando enormi quantità di dati proteici, questi modelli identificano schemi e relazioni che sono importanti per prevedere la funzionalità delle proteine.

L'importanza dell'ingegneria proteica

L'ingegneria proteica è un campo che si concentra sulla progettazione e modifica delle proteine per raggiungere funzioni specifiche. Questo può includere il miglioramento della stabilità, attività o altre caratteristiche di una proteina. Tuttavia, l'ingegneria proteica spesso affronta sfide a causa di dati sperimentali limitati. I metodi tradizionali possono essere lenti e costosi, rendendo difficile esplorare molte varianti proteiche.

Per superare queste sfide, i PLMs possono essere addestrati su dati sia sperimentali che simulati generati da modelli molecolari. Integrando conoscenza biofisica in questi modelli, i ricercatori possono migliorare la loro capacità di progettare e prevedere proteine con tratti desiderabili.

Combinare conoscenza biologica con machine learning

La maggior parte dei PLMs è stata addestrata su sequenze proteiche naturali, il che significa che apprendono da proteine esistenti in natura. Tuttavia, questo approccio spesso non cattura i principi fisici che governano come funzionano le proteine. Per affrontare questo, i ricercatori hanno introdotto una nuova tecnica chiamata Apprendimento del Trasferimento degli Effetti Mutazionali (METL).

Il METL combina machine learning tradizionale con dati biofisici. Generando grandi dataset basati su simulazioni molecolari, i ricercatori possono insegnare ai PLMs le proprietà fondamentali delle proteine. Questo aiuta i modelli a capire come specifici cambiamenti nelle sequenze di aminoacidi possano influenzare la struttura e la funzione delle proteine.

Come funziona il METL

Il METL prevede tre fasi principali:

  1. Generazione di Dati Sintetici: I ricercatori creano un gran numero di varianti proteiche utilizzando strumenti di modellazione molecolare. Questi strumenti simulano come le proteine si ripiegano e si comportano in diversi ambienti. Il risultato è un dataset che include non solo la sequenza di ciascuna proteina ma anche attributi biofisici che descrivono le loro proprietà.

  2. Pre-addestramento del modello: I dati sintetici vengono utilizzati per pre-addestrare un PLM. Durante questa fase, il modello apprende a riconoscere schemi e relazioni tra le sequenze di aminoacidi e i loro attributi biofisici corrispondenti.

  3. Affinamento su dati sperimentali: Infine, il modello pre-addestrato viene affinato utilizzando dati sperimentali reali. Questo passaggio consente al modello di fare previsioni su caratteristiche specifiche delle proteine basate su conoscenze precedenti e osservazioni nel mondo reale.

Vantaggi dell'approccio METL

Utilizzando il METL, i ricercatori possono superare alcune limitazioni delle tecniche di modellazione proteica tradizionali. La combinazione di dati sintetici ed esperimentali consente ai modelli di:

  • Apprendere con dati limitati: Il METL brilla in situazioni in cui i dati sperimentali sono rari. I dati sintetici forniscono ulteriori esempi di addestramento, consentendo al modello di fare previsioni migliori.

  • Generalizzare a nuove proteine: I modelli METL possono fare previsioni su varianti proteiche che non sono state viste durante l'addestramento. Questo è cruciale nell'ingegneria proteica, poiché permette di esplorare nuovi design proteici.

  • Prevedere una gamma di proprietà: I modelli possono prevedere varie proprietà delle proteine, come stabilità, affinità di legame e attività. Questa versatilità li rende strumenti preziosi per i ricercatori.

Costruire il framework METL

Nello sviluppo del framework METL, i ricercatori hanno utilizzato sia dataset locali che globali. I dataset locali contengono sequenze di aminoacidi circostanti una specifica proteina di interesse, mentre i dataset globali includono una grande varietà di sequenze proteiche di diverse famiglie.

I ricercatori hanno addestrato due versioni di METL: METL-Local, che si specializza su proteine specifiche, e METL-Global, che copre sequenze proteiche diverse. Questo approccio consente previsioni più personalizzate in base al tipo e all'obiettivo dello studio.

Valutazione delle prestazioni di METL

I ricercatori hanno testato rigorosamente le prestazioni di METL utilizzando diversi dataset sperimentali. I confronti con metodi di base consolidati hanno mostrato che METL ha superato molti approcci esistenti, in particolare quando addestrato su dataset più piccoli. La capacità del modello di generalizzare a proteine non viste lo ha reso uno strumento efficace per il design proteico.

Sfide nel modeling predittivo

Il modeling predittivo nell'ingegneria proteica presenta delle sfide, soprattutto quando si tratta di generalizzare a nuovi dati. Esempi di addestramento limitati possono portare a modelli distorti, rendendo difficile fare previsioni accurate. I ricercatori hanno testato METL contro vari compiti di estrapolazione per valutare la sua efficacia.

Questi compiti includevano l'estrapolazione delle mutazioni (prevedere gli effetti delle sostituzioni di aminoacidi non presenti nei dati di addestramento) e l'estrapolazione delle posizioni (prevedere effetti in posizioni di sequenza non incluse negli esempi di addestramento). METL ha mostrato prestazioni solide in questi compiti, dimostrando la sua capacità di apprendere da dati limitati.

Progettazione di varianti della Proteina fluorescente verde

Per mostrare le capacità del METL, i ricercatori hanno applicato il framework per progettare varianti della Proteina Fluorescente Verde (GFP). La GFP è una proteina ampiamente studiata nota per la sua brillante fluorescenza, rendendola un modello utile per esplorare l'ingegneria proteica.

I ricercatori hanno affinato il METL su un piccolo dataset di varianti GFP e lo hanno usato per progettare nuove sequenze con proprietà di fluorescenza desiderate. I risultati sono stati promettenti, con molte delle varianti progettate che hanno mostrato fluorescenza misurabile nei test sperimentali.

Il futuro dell'ingegneria proteica con METL

Lo sviluppo di METL rappresenta un significativo progresso nel campo dell'ingegneria proteica. Integrando conoscenze biofisiche con il machine learning, i ricercatori possono progettare e prevedere proteine in modo più efficace che mai. Il lavoro futuro continuerà probabilmente a perfezionare il framework METL, incorporando tecniche di modellazione molecolare più sofisticate ed espandendo le sue applicazioni in vari campi.

Questo approccio innovativo non solo apre la strada a nuovi design proteici, ma approfondisce anche la nostra comprensione dei processi fondamentali che governano il comportamento delle proteine. Con l'avanzare della tecnologia e dei metodi computazionali, il potenziale per METL e framework simili di rivoluzionare la scienza delle proteine è immenso.

Conclusione

In conclusione, METL è uno strumento potente che combina dati sintetici, modellazione biofisica e tecniche avanzate di machine learning per migliorare la nostra comprensione e manipolazione delle proteine. La sua capacità di apprendere da dati limitati e generalizzare a nuove sequenze lo rende una risorsa preziosa per i ricercatori nel campo dell'ingegneria proteica. Colmando il divario tra conoscenza biologica e metodi computazionali, METL si prepara a svolgere un ruolo cruciale nel futuro della scienza delle proteine.

Fonte originale

Titolo: Biophysics-based protein language models for protein engineering

Estratto: Protein language models trained on evolutionary data have emerged as powerful tools for predictive problems involving protein sequence, structure, and function. However, these models overlook decades of research into biophysical factors governing protein function. We propose Mutational Effect Transfer Learning (METL), a protein language model framework that unites advanced machine learning and biophysical modeling. Using the METL framework, we pretrain transformer-based neural networks on biophysical simulation data to capture fundamental relationships between protein sequence, structure, and energetics. We finetune METL on experimental sequence-function data to harness these biophysical signals and apply them when predicting protein properties like thermostability, catalytic activity, and fluorescence. METL excels in challenging protein engineering tasks like generalizing from small training sets and position extrapolation, although existing methods that train on evolutionary signals remain powerful for many types of experimental assays. We demonstrate METLs ability to design functional green fluorescent protein variants when trained on only 64 examples, showcasing the potential of biophysics-based protein language models for protein engineering.

Autori: Philip A Romero, S. Gelman, B. Johnson, C. Freschlin, S. D'Costa, A. Gitter

Ultimo aggiornamento: 2024-03-17 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.15.585128

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.15.585128.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili