Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología Cuantitativa# Biomoléculas# Aprendizaje automático

Avances en Ingeniería de Proteínas con Modelos de IA

Los modelos de lenguaje están cambiando cómo se diseñan las proteínas para la medicina.

― 7 minilectura


IA en la Ingeniería deIA en la Ingeniería deProteínasterapéuticas.proteínas y las aplicacionesLos modelos de IA mejoran el diseño de
Tabla de contenidos

Las proteínas son vitales para todos los seres vivos. Desempeñan muchas funciones dentro de nuestras células. Los científicos siempre están buscando formas de crear nuevas proteínas para su uso en medicina e investigación. Los avances recientes en inteligencia artificial, especialmente usando modelos de lenguaje, muestran promesas para ayudar a diseñar y producir proteínas de manera más eficiente.

¿Qué Son los Modelos de Lenguaje?

Los modelos de lenguaje son programas de computadora que pueden aprender patrones en los datos. A menudo se usan en el procesamiento de lenguaje natural, como entender o generar texto. Más recientemente, estos modelos se están adaptando para entender datos biológicos, como las secuencias de proteínas. En vez de solo mirar palabras, estos modelos analizan las secuencias de aminoácidos que componen las proteínas.

Límites Actuales de los Modelos de Lenguaje de Proteínas

Los modelos de lenguaje de proteínas tradicionales tienen limitaciones. Solo pueden generar proteínas a partir de un conjunto de aminoácidos que ya conocen. Esto significa que no pueden crear proteínas con formas nuevas o modificadas de aminoácidos. Esta limitación impide que los científicos exploren completamente las posibilidades del diseño de proteínas.

El Potencial de los Modelos de lenguaje químico

Los modelos de lenguaje químico son diferentes. Analizan moléculas más pequeñas a nivel atómico. Esto significa que tienen en cuenta cada átomo, enlace y estructura, lo que lleva a una comprensión más detallada de las interacciones moleculares. Los investigadores encontraron que estos modelos químicos pueden usarse para entender y generar proteínas descomponiéndolas en sus detalles atómicos. Esto permite crear proteínas que van más allá del código genético estándar.

Generando Proteínas Átomo por Átomo

Uno de los descubrimientos importantes es que estos modelos de lenguaje químico pueden generar proteínas completas átomo por átomo. Esto implica entender los diversos niveles de información molecular que definen las proteínas, desde sus secuencias básicas (el orden de los aminoácidos) hasta sus estructuras más complejas. Usando estos modelos, los investigadores pueden crear tipos de proteínas completamente nuevas, incluso aquellas con cadenas laterales modificadas que no existen en la naturaleza.

Explorando Nuevo Espacio Químico

La investigación también muestra que estos modelos no solo pueden crear proteínas, sino también explorar el área de compuestos químicos. Esto significa que pueden combinar proteínas con pequeñas moléculas similares a fármacos, generando compuestos completamente nuevos. Estos compuestos podrían tener usos potenciales en el tratamiento de enfermedades, como el cáncer, diseñando medicamentos que apunten específicamente a células no saludables mientras dejan sanas intocadas.

La Importancia de la Ingeniería de Proteínas

La ingeniería de proteínas es crucial en muchas disciplinas científicas. Los ingenieros modifican proteínas para combatir virus y cánceres, o para tratar enfermedades genéticas. La capacidad de los modelos de lenguaje para ayudar en este proceso podría acelerar enormemente la investigación y el desarrollo. Con predicciones más precisas de las estructuras de las proteínas, los científicos pueden diseñar terapias efectivas mucho más rápido.

Conjuntos de datos Usados para Entrenar Modelos

Para entrenar estos modelos de lenguaje de manera efectiva, los investigadores recopilaron varios conjuntos de datos. Se enfocaron en proteínas que consisten en 50 a 150 aminoácidos, que es un rango de tamaño común para muchas proteínas funcionales. El conjunto de datos incluye proteínas de bases de datos donde los científicos documentan las estructuras de proteínas y sus funciones.

Los investigadores también crearon conjuntos de datos sintéticos que incluyen proteínas modificadas para tener aminoácidos no naturales o proteínas que están vinculadas a pequeñas moléculas. Esto permite que los modelos aprendan de una variedad más amplia de ejemplos, mejorando aún más su capacidad para generar proteínas novedosas.

Proceso de Entrenamiento de Modelos de Lenguaje

El proceso de entrenamiento implica descomponer los datos de proteínas en un formato que los modelos puedan entender. Esto incluye traducir las estructuras de proteínas en cadenas lineales que representan los componentes atómicos. Los modelos aprenden analizando estas cadenas y prediciendo la siguiente parte de la secuencia basada en el contexto de lo que han visto antes.

Los modelos están diseñados para reconocer patrones dentro de estas secuencias. Después del entrenamiento, pueden generar nuevas secuencias que imitan las propiedades de proteínas reales.

Evaluación del Rendimiento

Después de generar nuevas secuencias de proteínas, los investigadores evalúan qué tan bien estas secuencias generadas corresponden a proteínas reales. Usan herramientas como AlphaFold, que predice cómo es probable que las proteínas se plieguen según sus secuencias. Esta evaluación asegura que las proteínas generadas no solo tengan secuencias válidas, sino también estructuras plausibles.

Descubrieron que un porcentaje significativo de las muestras generadas eran de hecho proteínas con estructuras que podían predecirse con precisión. Esto muestra que los modelos están aprendiendo de manera efectiva.

Generando Proteínas Modificadas

Además de generar proteínas estándar, también se les pidió a los modelos que crearan proteínas que incluyeran aminoácidos no naturales. Los modelos aprendieron a modificar secuencias existentes para incorporar nuevos elementos mientras mantenían las proteínas estructuralmente sanas.

Esta capacidad abre puertas para crear proteínas con funciones y propiedades completamente nuevas que los sistemas biológicos actuales no soportan.

Conjugados Anticuerpo-Fármaco

Otra aplicación emocionante de estos modelos de lenguaje es en el diseño de conjugados anticuerpo-fármaco. Estas son proteínas especiales utilizadas en terapias dirigidas para enfermedades como el cáncer. Conectan un anticuerpo, que puede reconocer y unirse a células específicas, con un fármaco que mata esas células.

Los investigadores experimentaron vinculando anticuerpos a varias pequeñas moléculas. Al entrenar los modelos de lenguaje para entender tanto las proteínas como los fármacos, pueden generar nuevas combinaciones que podrían funcionar mejor en un contexto terapéutico.

Los Resultados

Los resultados de estos experimentos muestran que los modelos de lenguaje fueron generalmente exitosos en producir nuevas proteínas que se asemejan a las conocidas, mientras también contenían características novedosas. Las proteínas generadas mantuvieron una buena integridad estructural, lo que indica que los modelos aprendieron relaciones significativas entre las secuencias de aminoácidos y las funciones de las proteínas.

Los estudios revelaron un potencial fascinante para que estos modelos cambien la forma en que los científicos abordan el diseño biomolecular. En vez de trabajar solo con proteínas conocidas, ahora pueden aventurarse en crear moléculas completamente nuevas con diversas aplicaciones.

Direcciones Futuras

Aunque los resultados iniciales son prometedores, aún queda mucho trabajo por hacer. Los esfuerzos futuros se centrarán en mejorar la precisión de los modelos y aumentar su rango. Esto incluye desarrollar formas de generar proteínas más grandes y estructuras más complejas.

Además, es esencial abordar qué tan bien los modelos pueden predecir las formas tridimensionales de las proteínas. Sin representaciones 3D precisas, es complicado asegurar que las proteínas recién generadas funcionen como se espera.

Conclusión

Los avances en el uso de modelos de lenguaje para la generación de proteínas significan un gran paso en la ingeniería de proteínas. Al cambiar el enfoque de las secuencias de aminoácidos a representaciones atómicas, los investigadores pueden descubrir nuevas posibilidades para el diseño de proteínas. La capacidad de crear proteínas no naturales y explorar el espacio de compuestos químicos presenta oportunidades emocionantes en el campo de la medicina y la biotecnología.

A medida que la tecnología continúa desarrollándose, el potencial para descubrir proteínas novedosas y soluciones terapéuticas solo crecerá, abriendo el camino a una nueva frontera en la ciencia biomolecular.

Fuente original

Título: Atom-by-atom protein generation and beyond with language models

Resumen: Protein language models learn powerful representations directly from sequences of amino acids. However, they are constrained to generate proteins with only the set of amino acids represented in their vocabulary. In contrast, chemical language models learn atom-level representations of smaller molecules that include every atom, bond, and ring. In this work, we show that chemical language models can learn atom-level representations of proteins enabling protein generation unconstrained to the standard genetic code and far beyond it. In doing so, we show that language models can generate entire proteins atom by atom -- effectively learning the multiple hierarchical layers of molecular information that define proteins from their primary sequence to their secondary, and tertiary structure. We demonstrate language models are able to explore beyond protein space -- generating proteins with modified sidechains that form unnatural amino acids. Even further, we find that language models can explore chemical space and protein space simultaneously and generate novel examples of protein-drug conjugates. The results demonstrate the potential for biomolecular design at the atom level using language models.

Autores: Daniel Flam-Shepherd, Kevin Zhu, Alán Aspuru-Guzik

Última actualización: 2023-08-16 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.09482

Fuente PDF: https://arxiv.org/pdf/2308.09482

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares