Nuevos modelos para predecir mecanismos de enfermedades genéticas
Los modelos avanzados ayudan a identificar variaciones genéticas relacionadas con los procesos de enfermedad.
― 9 minilectura
Tabla de contenidos
- Diferentes Mecanismos de Enfermedades Genéticas
- Mejorando los Modelos de Predicción
- Herramientas y Técnicas Utilizadas en el Estudio
- Diseño del Modelo y Procesamiento de Datos
- Evaluación de los Modelos
- Resultados y Conclusiones
- Evaluación Funcional de las Proteínas
- Conclusión
- Fuente original
- Enlaces de referencia
Las enfermedades genéticas son enfermedades causadas por cambios en los genes. Estos cambios pueden afectar cómo funcionan las proteínas en nuestros cuerpos. Las proteínas son esenciales para varias funciones, y cuando no funcionan correctamente, puede llevar a problemas de salud.
Una forma en que estos cambios genéticos, conocidos como mutaciones, pueden causar problemas es haciendo que una proteína pierda su función. Esto se llama Pérdida de función (LOF). A veces, la mutación puede evitar que la proteína se produzca por completo, o puede crear una versión de la proteína que no funciona bien. Cuando esto ocurre, surgen muchas enfermedades genéticas. La mayoría de los trastornos recesivos implican mutaciones LOF. Los trastornos recesivos requieren dos copias del gen mutado para que la enfermedad aparezca, mientras que los trastornos dominantes pueden ocurrir con solo una copia del gen mutado.
En algunos casos, la copia funcional restante del gen no puede compensar la pérdida causada por la mutación. Esta situación se llama haploinsuficiencia y puede llevar a enfermedades dominantes. Por otro lado, algunas enfermedades dominantes son causadas por otros mecanismos que no dependen únicamente de LOF. Estos mecanismos pueden incluir Ganancia de función (GOF), donde la mutación crea una nueva o alterada función en la proteína, o efectos dominante-negativo (DN), donde la proteína mutada interfiere con la normal.
Entender cómo estas mutaciones afectan a las proteínas puede ser realmente útil para diagnosticar y tratar mejor los trastornos genéticos. En los últimos años, la tecnología ha mejorado, así que los científicos pueden estudiar muchas variantes al mismo tiempo. Nuevos métodos, como el escaneo mutacional profundo, se están utilizando para entender mejor cómo cambios específicos en los genes afectan las funciones de las proteínas.
Diferentes Mecanismos de Enfermedades Genéticas
Las enfermedades genéticas dominantes pueden ser causadas por varios mecanismos moleculares. Por ejemplo, una enfermedad del corazón conocida como miocardiopatía puede verse influenciada por mutaciones en los genes que producen tanto efectos LOF como DN. Esto significa que una mutación puede causar que una proteína pierda su función y perturbe la actividad normal de la proteína.
Aunque cada mutación en un gen suele tener un efecto principal, la investigación ha mostrado que muchos genes tienden a mostrar mecanismos específicos más a menudo que otros. Este conocimiento ha llevado a identificar características relacionadas con proteínas no LOF. Sin embargo, las herramientas actuales para predecir cómo las variantes genéticas afectan a las proteínas luchan por identificar con precisión variantes no LOF.
Es crítico mejorar estas herramientas de predicción ya que hay una posibilidad de que podamos perder variantes importantes porque no podemos predecir con precisión sus efectos. Tener un modelo que prediga mecanismos moleculares podría ayudar a encontrar genes donde las herramientas existentes podrían fallar, evitando así que se pase por alto información valiosa.
En trabajos anteriores, se creó un modelo simple para señalar genes que probablemente estén vinculados a mecanismos no LOF. Las predicciones iniciales, sin embargo, fueron limitadas debido a la información incompleta sobre las características estructurales y funcionales de las proteínas, especialmente porque se basaron en datos estructurales detallados que no siempre están disponibles. Además, como los mecanismos DN y GOF comparten características similares, fueron agrupados en una única categoría. Esto hizo que las predicciones fueran menos precisas.
Mejorando los Modelos de Predicción
Para abordar estos desafíos, se crearon tres modelos de predicción separados utilizando técnicas estadísticas avanzadas. Cada modelo se enfoca en diferenciar entre varias clases de mecanismos moleculares, específicamente LOF versus no LOF, DN versus LOF y GOF versus LOF. Haciendo esto, maximizan la cantidad de información utilizada para el entrenamiento y permiten una clasificación flexible.
El análisis de proteínas vinculadas a enfermedades muestra que estos mecanismos predichos se alinean con características conocidas de los procesos subyacentes. Esto indica fuertemente que el nuevo enfoque de modelo es útil.
Para ayudar a la comunidad más amplia a entender las variantes genéticas, se han puesto a disposición predicciones para todos los genes de codificación de proteínas humanas. Estas predicciones pueden ayudar a identificar el mecanismo probable de una variante en genes dominantes que antes no tenían asociación a ningún proceso conocido. Además, pueden guiar a los investigadores en la priorización de genes para estudios de laboratorio y en el examen de las características relacionadas con estos mecanismos.
Herramientas y Técnicas Utilizadas en el Estudio
En este proyecto, se utilizaron varias herramientas y bases de datos para recopilar y analizar datos. El estudio se basó en estructuras de proteínas predichas por AlphaFold, que proporcionaron información sobre las estructuras de las proteínas humanas. Se llevaron a cabo cálculos de propiedades como área de superficie y estabilidad de la proteína utilizando herramientas de software especializadas.
Para construir los modelos de predicción, se tomaron varias mediciones clave de las proteínas, incluidas características que indican su función potencial e interacciones con otras proteínas. Estas características se derivaron de datos experimentales y predicciones realizadas por varios métodos computacionales.
Se aplicaron técnicas de aprendizaje automático para crear clasificadores. Estos clasificadores aprendieron de los datos de entrenamiento para hacer predicciones sobre nuevos datos, evaluando la probabilidad de que una mutación determinada conduzca a un mecanismo molecular dominante en el contexto de enfermedades genéticas.
Diseño del Modelo y Procesamiento de Datos
Usar tres clasificadores binarios en lugar de un único modelo multiclase mejoró significativamente las predicciones. Si se hubiera utilizado un solo modelo, habría requerido manejar demasiadas clases, lo cual no habría funcionado bien debido a la cantidad limitada de casos para ciertas combinaciones.
Durante la fase de entrenamiento, los datos se procesaron para asegurarse de que estuvieran normalizados y de que se tuvieran en cuenta los valores faltantes. Esto implicó eliminar características altamente correlacionadas que podrían sesgar los resultados. Al crear un conjunto de datos no redundante de proteínas que no compartieran muchas similitudes de secuencia, los investigadores pudieron analizar mejor las propiedades únicas asociadas con cada mecanismo molecular.
Evaluación de los Modelos
El rendimiento de estos modelos se evaluó cuidadosamente utilizando varias métricas. Se utilizó un proceso conocido como validación cruzada para asegurar que los modelos no estuvieran sobreajustados, lo que significa que no solo funcionarían bien en los datos de entrenamiento, sino que también generalizarían efectivamente a nuevos datos no vistos.
La capacidad de los clasificadores para hacer predicciones precisas se midió utilizando pruebas estadísticas específicas. Los investigadores calcularon diversas métricas de rendimiento, como el área bajo la curva de característica operativa del receptor (AUROC), para evaluar qué tan bien cada modelo funcionaba al distinguir entre los diferentes mecanismos.
Los modelos se compararon según cuán consistentemente hacían predicciones precisas a través de diferentes conjuntos de prueba, y sus predicciones se compararon con datos clínicos conocidos.
Resultados y Conclusiones
Los modelos predijeron con éxito las características de las proteínas en los diferentes mecanismos moleculares. Los análisis mostraron que las mutaciones en proteínas con funciones DN o GOF eran a menudo menos dañinas en comparación con las que estaban en proteínas LOF. Esto se alinea con la idea de que las mutaciones LOF suelen llevar a la desestabilización, mientras que las mutaciones GOF tienden a ajustar funciones sin causar un daño severo.
Los modelos se probaron más para ver qué tan bien podrían predecir el agrupamiento de mutaciones patogénicas dentro de las estructuras de proteínas. Los resultados indicaron que las proteínas clasificadas como DN o GOF exhibieron un mayor agrupamiento de mutaciones que las proteínas LOF. Esta observación apoya la noción de que las mutaciones LOF están más dispersas a lo largo de la estructura de la proteína, mientras que las mutaciones asociadas con mecanismos no LOF tienden a congregarse en regiones funcionales.
Además, el análisis demostró que las herramientas de predicción actuales luchan para predecir con precisión las mutaciones missense patogénicas vinculadas a proteínas DN o GOF. Estos hallazgos indican claramente la necesidad de nuevos métodos que puedan interpretar mejor las variantes missense en contextos no LOF.
Evaluación Funcional de las Proteínas
Para validar aún más las predicciones realizadas por los modelos, los investigadores examinaron las funciones moleculares asociadas con proteínas clasificadas como DN o GOF. El análisis funcional reveló que las proteínas con características DN a menudo comparten funciones relacionadas con su capacidad para interrumpir interacciones normales de proteínas, mejorando la comprensión de cómo estas mutaciones impactan la función de las proteínas.
En comparación, las proteínas con características GOF tienden a estar vinculadas con funciones que son más sensibles a eventos de activación. Estas funciones a menudo involucran roles de señalización y regulación en procesos celulares.
Al identificar las funciones enriquecidas asociadas con cada categoría, los investigadores pudieron entender mejor las implicaciones más amplias de estas mutaciones en el comportamiento de las proteínas y el desarrollo de enfermedades.
Conclusión
El proyecto creó y validó con éxito modelos de predicción para entender cómo mutaciones específicas en los genes pueden llevar a diferentes mecanismos moleculares de enfermedades. Al centrarse en interacciones LOF, GOF y DN, los científicos pueden anticipar mejor los efectos de los cambios genéticos.
Los hallazgos enfatizan la necesidad de mejorar las predicciones para mecanismos no LOF, especialmente dado su importancia en la investigación genética. Estos modelos proporcionan un marco para que los investigadores prioricen variantes genéticas para un mayor estudio y obtengan una comprensión más profunda de los fundamentos moleculares de las enfermedades.
A medida que el conocimiento sobre las enfermedades genéticas continúa creciendo, las ideas obtenidas de esta investigación allanarán el camino para diagnósticos más precisos y estrategias terapéuticas mejoradas, beneficiando en última instancia a quienes se ven afectados por trastornos genéticos.
Título: Proteome-scale prediction of molecular mechanisms underlying dominant genetic diseases
Resumen: Many dominant genetic disorders result from protein-altering mutations, acting primarily through dominant-negative (DN), gain-of-function (GOF), and loss-of-function (LOF) mechanisms. Deciphering the mechanisms by which dominant diseases exert their effects is often experimentally challenging and resource intensive, but is essential for developing appropriate therapeutic approaches. Diseases that arise via a LOF mechanism are more amenable to be treated by conventional gene therapy, whereas DN and GOF mechanisms may require gene editing or targeting by small molecules. Moreover, pathogenic missense mutations that act via DN and GOF mechanisms are more difficult to identify than those that act via LOF using nearly all currently available variant effect predictors. Here, we introduce a tripartite statistical model made up of support vector machine binary classifiers trained to predict whether human protein-coding genes are likely to be associated with DN, GOF, or LOF molecular disease mechanisms. We test the utility of the predictions by examining biologically and clinically meaningful properties known to be associated with the mechanisms. Our results strongly support that the models are able to generalise on unseen data and offer insight into the functional attributes of proteins associated with different mechanisms. We hope that our predictions will serve as a springboard for researchers studying novel variants and those of uncertain clinical significance, guiding variant interpretation strategies and experimental characterisation. Predictions for the human UniProt reference proteome are available at https://osf.io/z4dcp/.
Autores: Mihaly Badonyi, J. A. Marsh
Última actualización: 2024-01-30 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2023.09.08.556798
Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.09.08.556798.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.