Sci Simple

New Science Research Articles Everyday

# Biología # Biofísica

EMSequenceFinder: Una Nueva Era en el Modelado de Proteínas

Un nuevo método que mejora la asignación de secuencias de proteínas a partir de mapas de crio-EM.

Dibyendu Mondal, Vipul Kumar, Tadej Satler, Rakesh Ramachandran, Daniel Saltzberg, Ilan Chemmama, Kala Bharath Pilla, Ignacia Echeverria, Benjamin M. Webb, Meghna Gupta, Klim Verba, Andrej Sali

― 6 minilectura


Revolución en el Modelado Revolución en el Modelado de Proteínas proteínas. el análisis de la estructura de Un nuevo método mejora la precisión en
Tabla de contenidos

Cuando se trata de entender cómo funcionan las proteínas, conocer su estructura es clave. Imagina intentar resolver un rompecabezas sin ver la imagen de la caja; así se sienten los científicos cuando no tienen una vista clara de la estructura de una proteína. Afortunadamente, hay una técnica genial llamada microscopía crioelectrónica (o cryo-EM, para abreviar) que ayuda a los científicos a ver mejor las proteínas en su estado natural.

Cryo-EM es como un superhéroe para estudiar grandes estructuras moleculares; permite a los investigadores ver estas estructuras con una resolución casi atómica. Este método ha crecido mucho en los últimos años, facilitando la comprensión de cómo se construyen las proteínas y cómo funcionan. Pero, como cualquier superhéroe, ¡también tiene sus desafíos!

El Proceso de Construcción de Modelos de Proteínas

Construir un modelo completo de la estructura de una proteína usando cryo-EM implica algunos pasos, como seguir una receta para hornear un pastel (sin el delicioso olor). Lo primero que hacen los científicos es identificar el marco principal de la proteína en el mapa de densidad. Una vez trazado este esqueleto, el siguiente paso es asignar las secuencias de aminoácidos correctas a esos fragmentos del esqueleto. Finalmente, los científicos llenan los huecos con cadenas laterales y bucles para completar el modelo.

Sin embargo, hacer todo esto no es tan fácil como parece. Los métodos tradicionales han logrado automatizarlo un poco, especialmente para mapas de alta resolución (esos con detalles más claros de 3.5 Å). Pero cuando la resolución baja, las cosas se complican. Encontrar las secuencias correctas se convierte en algo así como buscar tu snack favorito en una despensa desordenada — ¡es difícil saber qué estás mirando!

Las Limitaciones de los Métodos Actuales

A resoluciones medias, como entre 4-8 Å, los métodos existentes a menudo tienen problemas. Aunque las herramientas pueden trazar esqueletos, suelen quedarse cortas a la hora de asignar secuencias, especialmente para mapas peores de 4 Å. Piensa en esto: si las piezas del rompecabezas de la proteína están muy borrosas, ¡es difícil saber dónde encajan!

Los ajustes manuales pueden ayudar, pero son tediosos y no siempre fiables. Aquí es donde surge la necesidad de mejores métodos, como un caballero buscando una mejor espada para la batalla.

Llega EMSequenceFinder

Para abordar el tema de la asignación de secuencias en mapas de baja resolución, se desarrolló un nuevo método llamado EMSequenceFinder. Imagínalo como un compañero leal que ayuda a los científicos a encontrar las secuencias de aminoácidos correctas más rápido y con más precisión.

Este método utiliza algo llamado una función de puntuación bayesiana para clasificar los 20 tipos estándar de aminoácidos en función de lo bien que encajan en el mapa de densidad. Es como reunir pistas y juntarlas para resolver un misterio. Y con la ayuda de una Red Neuronal Convolucional (CNN), que es un tipo de modelo de aprendizaje profundo, EMSequenceFinder predice el mejor hilo de secuencia para los fragmentos del esqueleto de la proteína.

Cómo Funciona EMSequenceFinder

EMSequenceFinder funciona tomando algunos datos: el mapa de cryo-EM, los trazos del esqueleto y las secuencias de aminoácidos. Clasifica estas secuencias en función de lo bien que encajan. Piensa en ello como ordenar calcetines por color: te dirá qué secuencia se ajusta mejor a la estructura de la proteína.

La CNN juega un papel clave analizando una gran cantidad de datos de mapas de cryo-EM anteriores y estructuras de proteínas correspondientes. Esto es algo que le llevaría a un humano años hacer, pero que puede hacerse en cuestión de segundos por una computadora. Usando esta CNN entrenada, EMSequenceFinder puede identificar la mejor secuencia para las estructuras del esqueleto dadas.

El Rendimiento de EMSequenceFinder

En pruebas, EMSequenceFinder mostró que podía asignar secuencias con precisión a aproximadamente el 77.8% de los fragmentos del esqueleto para mapas de cryo-EM a resoluciones intermedias. Cuando los científicos aplicaron este método para estudiar la Proteína No Estructural 2 (NSP2) del virus SARS-CoV-2, lo hizo bastante bien. Con resoluciones entre 3.7 y 7.0 Å, EMSequenceFinder mantuvo una precisión que varió del 95% a 4 Å a alrededor del 50% a 6 Å.

Eso es como pasar de adivinar un número a realmente resolver un rompecabezas — ¡no está mal para un compañero!

La Importancia de la Precisión

¿Por qué es tan crucial esta precisión? Bueno, un modelo completo y preciso de una proteína no solo ayuda a los científicos a entender su función, sino que también ayuda en el diseño de fármacos o tratamientos. Piénsalo como tener un mapa detallado antes de embarcarte en una búsqueda del tesoro; hace que encontrar lo que buscas sea mucho más fácil.

Poniendo a Prueba EMSequenceFinder

Para asegurarse de que EMSequenceFinder era lo que decía ser, se comparó con otros métodos de última generación. Los resultados mostraron que EMSequenceFinder superó a los demás, especialmente en el área desafiante de los mapas de resolución media. Mientras que otras herramientas tenían problemas, EMSequenceFinder ofreció mejores resultados de manera consistente.

Imagina intentar hornear un pastel con una receta que siempre le falta un ingrediente. EMSequenceFinder es la receta que tiene todo lo necesario, ayudando a crear un pastel hermoso — o, en este caso, un modelo completo de proteína.

Aplicaciones del Mundo Real

Las aplicaciones del mundo real de EMSequenceFinder son amplias. Al hacer posible asignar secuencias con precisión, los científicos pueden trabajar de manera más eficiente, con menos conjeturas. ¡Es como recibir las notas secretas de un grupo de estudio antes de un examen importante!

Conclusión

En resumen, estudiar las estructuras de proteínas es esencial para entender la biología y desarrollar nuevos tratamientos. La microscopía crioelectrónica ha logrado avances significativos en este ámbito, pero aún quedan desafíos, particularmente a resoluciones más bajas. Con la introducción de EMSequenceFinder, los investigadores ahora tienen un método fiable para asignar secuencias a modelos de proteínas con precisión, asegurando que pueden navegar mejor por el complejo mundo de las biomoléculas.

A medida que los científicos continúan enfrentando estos desafíos, solo podemos esperar que sigan descubriendo los misterios de la vida, una proteína a la vez. Ya sea el próximo gran avance en medicina o una comprensión más profunda de los mecanismos biológicos, ¡el futuro se ve brillante! Así que, ¡brindemos por la tecnología y los valientes científicos que la utilizan! ¡Salud por mejores estructuras de proteínas y por todos los fascinantes descubrimientos que están a la vuelta de la esquina!

Fuente original

Título: Recognizing amino acid sidechains in a medium resolution cryo-electron density map

Resumen: Building an accurate atomic structure model of a protein into a cryo-electron microscopy (cryo-EM) map at worse than 3 [A] resolution is difficult. To facilitate this task, we devised a method for assigning the amino acid residue sequence to the backbone fragments traced in an input cryo-EM map (EMSequenceFinder). EMSequenceFinder relies on a Bayesian scoring function for ranking 20 standard amino acid residue types at a given backbone position, based on the fit to a density map, map resolution, and secondary structure propensity. The fit to a density is quantified by a convolutional neural network that was trained on [~]5.56 million amino acid residue densities extracted from cryo-EM maps at 3-10 [A] resolution and corresponding atomic structure models deposited in the Electron Microscopy Data Bank (EMDB). We benchmarked EMSequenceFinder by predicting the sequences of 58,044 distinct [a]-helix and {beta}-strand fragments, given the fragment backbone coordinates fitted in their density maps. EMSequenceFinder identifies the correct sequence as the best-scoring sequence in 77.8% of these cases. We also assessed EMSequenceFinder on separate datasets of cryo-EM maps at resolutions from 4 to 6 [A]. The accuracy of EMSequenceFinder (63.5%) was better than that of two tested state-of-the-art methods, including findMysequence (45%) and sequence_from_map in Phenix (12.9%). We further illustrate EMSequenceFinder by threading the SARS-CoV-2 NSP2 sequence into eight cryo-EM maps at resolutions from 3.7 to 7.0 [A]. EMSequenceFinder is implemented in our open-source Integrative Modeling Platform (IMP) program. Thus, it is expected to be helpful for integrative structure modeling based on a cryo-EM map and other information, such as models of protein complex components and chemical crosslinks between them.

Autores: Dibyendu Mondal, Vipul Kumar, Tadej Satler, Rakesh Ramachandran, Daniel Saltzberg, Ilan Chemmama, Kala Bharath Pilla, Ignacia Echeverria, Benjamin M. Webb, Meghna Gupta, Klim Verba, Andrej Sali

Última actualización: 2024-12-12 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.12.10.627859

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.12.10.627859.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares