Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Biofisica

Ribonanza: Avanzando nella Predizione della Struttura dell'RNA

I dati raccolti in massa e il machine learning migliorano la previsione della struttura dell'RNA.

― 6 leggere min


Avanzamenti nellaAvanzamenti nellaprevisione dellastruttura dell'RNAdella forma dell'RNA.Nuovi modelli migliorano le previsioni
Indice

L'RNA, o acido ribonucleico, è una molecola vitale presente in tutte le cellule viventi. Gioca un ruolo essenziale nel codificare, decodificare, regolare ed esprimere i geni. L'RNA è cruciale non solo nei processi naturali della vita, ma anche nello sviluppo di nuovi trattamenti medici e tecnologie. Gli scienziati stanno costantemente cercando di capire come le molecole di RNA si ripiegano e assumono forme complesse, poiché questa comprensione può portare a terapie e strumenti migliori per varie malattie.

Sfide nella previsione della struttura dell'RNA

Nonostante i progressi nella previsione delle forme delle proteine, la previsione della struttura dell'RNA rimane una sfida significativa. Ci sono diverse ragioni per questa difficoltà:

  1. Dati limitati: Non ci sono abbastanza forme 3D verificate sperimentalmente dell'RNA disponibili per i ricercatori da usare come riferimento.

  2. Difficoltà di valutazione: Valutare quanto bene i modelli prevedano le forme dell'RNA non è stato fatto in modo rigoroso.

  3. Limitazioni dei modelli: Alcuni modelli di Deep Learning per la struttura secondaria dell'RNA spesso non performano bene e faticano a generalizzare con diversi tipi di RNA.

Per affrontare queste sfide, alcuni ricercatori suggeriscono di usare nuove tecniche sperimentali per raccogliere più dati sulle forme dell'RNA.

Cambiare approccio: Crowdsourcing per i dati

Per trovare soluzioni, la comunità di ricerca ha iniziato a raccogliere dati in modo più collaborativo. Il concetto di crowdsourcing è stato utilizzato efficacemente in altre aree, come l'elaborazione delle immagini e la comprensione linguistica. Ispirato a questi successi, è stato avviato un progetto chiamato Ribonanza.

Ribonanza ha combinato gli sforzi di una piattaforma di crowdsourcing specializzata nel design dell'RNA e una piattaforma per competizioni di scienza dei dati. Questo ha permesso di raccogliere una vasta gamma di sequenze di RNA e generare dati sperimentali, seguiti dalla valutazione dei modelli di machine learning.

Come funziona Ribonanza

Il progetto Ribonanza ha coinvolto tre fasi principali:

  1. Raccolta di sequenze di RNA: I ricercatori hanno raccolto sequenze di RNA da varie fonti, inclusi contributori individuali che usavano la piattaforma Eterna.

  2. Produzione e sperimentazione dell'RNA: Queste sequenze sono state poi sintetizzate e sono state applicate tecniche di mappatura chimica per raccogliere dati su come si ripiegano.

  3. Valutazione del Modello di machine learning: Infine, i modelli di deep learning sono stati addestrati e valutati per prevedere la struttura dell'RNA in base ai dati raccolti.

Il processo di raccolta dei dati

La fase iniziale di Ribonanza ha visto una collaborazione significativa con scienziati cittadini, che hanno lavorato al design di sequenze di RNA. Sono state utilizzate anche banche dati esperte per raccogliere sequenze note. La maggiore fonte di dati sull'RNA è provenuta dalla piattaforma Eterna, dove gli utenti sono stati sfidati a creare design di RNA con forme complesse.

Una volta stabilito questo set di dati diversificato, le sequenze di RNA sono state sintetizzate. Sono stati condotti esperimenti di mappatura chimica per determinare quali parti dell'RNA fossero attivamente coinvolte nella formazione delle strutture. Queste informazioni sono fondamentali per capire come l'RNA possa adottare forme e funzioni diverse.

Ruolo del deep learning nella previsione della struttura dell'RNA

Tradizionalmente, la previsione della struttura dell'RNA si basava su set di dati più piccoli, rendendo difficile catturare la vera diversità delle forme dell'RNA. Tuttavia, con il grande set di dati raccolto per Ribonanza, i ricercatori hanno impiegato un modello di machine learning chiamato RNAdegformer. Questo modello ha utilizzato tecniche di deep learning che hanno permesso l'analisi di un campione molto più grande di sequenze.

I modelli di deep learning hanno il potenziale di apprendere schemi intricati all'interno dei dati. L'RNAdegformer è stato addestrato su un vasto set di dati, consentendogli di sviluppare rappresentazioni interne delle strutture dell'RNA. Il modello ha utilizzato layer convoluzionali, che eccellono nel catturare motivi locali, e meccanismi di attenzione per comprendere le relazioni tra le diverse parti delle sequenze di RNA.

Ribonanza Challenge su Kaggle

Per spingere ulteriormente oltre i confini della previsione della struttura dell'RNA, sono state invitate squadre indipendenti a partecipare a una competizione su Kaggle, una piattaforma per concorsi di scienza dei dati. Oltre 800 partecipanti hanno partecipato a questa sfida, sfruttando il vasto dataset di sequenze di RNA e i risultati della mappatura chimica.

Durante la competizione, i modelli sono stati costantemente testati e le squadre miravano a superare i modelli esistenti. La competizione ha rivelato che molte squadre hanno sviluppato approcci unici per la previsione della struttura dell'RNA. I risultati sono stati promettenti, dimostrando che modelli diversi possono competere efficacemente e apprendere rappresentazioni diverse delle forme dell'RNA.

Punti salienti dalla competizione Kaggle

La competizione Kaggle ha fornito diversi spunti chiave:

  1. Prestazione dei modelli: Alcune squadre hanno costantemente prodotto previsioni migliori rispetto al modello di base RNAdegformer. Queste migliori submission hanno mostrato una maggiore accuratezza, indicando che i loro metodi utilizzavano efficacemente i dati disponibili.

  2. Approccio Mutate-and-Map: Nei test che coinvolgevano strutture specifiche di RNA, le previsioni dei modelli si allineavano strettamente con i dati sperimentali, confermando che i modelli stavano apprendendo aspetti significativi della struttura dell'RNA.

  3. Previsioni diverse: Ogni top model ha mostrato diverse forze, evidenziando la varietà di approcci utilizzati dai partecipanti.

Progressi da RibonanzaNet

Costruendo sul successo della competizione Kaggle, è stato sviluppato un nuovo modello chiamato RibonanzaNet. Questo modello ha sintetizzato le migliori caratteristiche dalle submission di successo su Kaggle, eliminando la necessità di matrici di probabilità di accoppiamento di basi. L'obiettivo era creare un unico modello capace di prevedere efficacemente la struttura dell'RNA usando gli spunti raccolti dalla competizione.

RibonanzaNet è stato testato su vari compiti, tra cui:

  1. Previsione del dropout: Valutare quali sequenze potrebbero cadere durante gli esperimenti, aiutando a evitare sequenze problematiche in future ricerche.

  2. Previsione della degradazione dell'RNA: Comprendere come l'RNA si degraderebbe nel tempo, particolarmente utile per i vaccini mRNA che devono rimanere stabili.

  3. Modellazione della struttura secondaria: Prevedere con precisione l'accoppiamento delle basi per le sequenze di RNA, fondamentale per compiti di modellazione 3D successivi.

  4. Previsione della struttura terziaria: Tentare di migliorare la previsione delle forme 3D dell'RNA basata sulle informazioni delle strutture secondarie.

Risultati di RibonanzaNet

RibonanzaNet ha ottenuto risultati notevoli in diversi compiti:

  • Previsioni migliorate: Ha superato i modelli della competizione Kaggle nella previsione delle misurazioni di mappatura chimica, dimostrando che la sua architettura era efficace.

  • Funzionalità in vari compiti: Il modello si è dimostrato capace di affrontare varie sfide legate all'RNA, indicando la sua versatilità.

  • Progressi nella previsione della struttura: RibonanzaNet ha superato le soluzioni esistenti nella previsione accurata delle strutture secondarie e ha mostrato promesse nelle previsioni delle strutture terziarie quando associato a modelli complementari.

Direzioni future

Sebbene il progetto Ribonanza abbia fatto progressi significativi, ci sono ancora sfide da superare. Gli attuali set di dati, sebbene estesi, sono più piccoli rispetto a quelli utilizzati in altri campi di deep learning, come il processamento del linguaggio naturale. C'è potenziale per set di dati ancora più grandi per migliorare ulteriormente l'accuratezza dei modelli.

In conclusione, Ribonanza segna un passo significativo in avanti nella previsione della struttura dell'RNA. Sfruttando i dati crowdsourced e le tecniche avanzate di machine learning, i ricercatori sono meglio attrezzati per comprendere e modellare le forme complesse delle molecole di RNA. Con sforzi e progressi continui, il futuro della ricerca sull'RNA e le sue applicazioni in medicina è promettente.

Fonte originale

Titolo: Ribonanza: deep learning of RNA structure through dual crowdsourcing

Estratto: Prediction of RNA structure from sequence remains an unsolved problem, and progress has been slowed by a paucity of experimental data. Here, we present Ribonanza, a dataset of chemical mapping measurements on two million diverse RNA sequences collected through Eterna and other crowdsourced initiatives. Ribonanza measurements enabled solicitation, training, and prospective evaluation of diverse deep neural networks through a Kaggle challenge, followed by distillation into a single, self-contained model called RibonanzaNet. When fine tuned on auxiliary datasets, RibonanzaNet achieves state-of-the-art performance in modeling experimental sequence dropout, RNA hydrolytic degradation, and RNA secondary structure, with implications for modeling RNA tertiary structure.

Autori: Rhiju Das, S. He, R. Huang, J. Townley, R. C. Kretsch, T. G. Karagianes, D. B. T. Cox, H. Blair, D. Penzar, V. Vyaltsev, E. Aristova, A. Zinkevich, A. Bakulin, H. Sohn, D. Krstevski, T. Fukui, F. Tatematsu, Y. Uchida, D. Jang, J. S. Lee, R. Shieh, T. Ma, E. Martynov, M. V. Shugaev, H. S. T. Bukhari, K. Fujikawa, K. Onodera, C. Henkel, S. Ron, J. Romano, J. J. Nicol, G. P. Nye, Y. Wu, C. Choe, W. Reade, Eterna participants

Ultimo aggiornamento: 2024-06-11 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.02.24.581671

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.02.24.581671.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili