Presentamos DrivR-Base: Un nuevo recurso para la predicción genómica
DrivR-Base ofrece herramientas esenciales para identificar cambios genéticos dañinos.
― 7 minilectura
Tabla de contenidos
Las tecnologías de secuenciación de próxima generación han facilitado encontrar cambios en el genoma humano. Muchos de estos cambios se consideran inciertos, lo que significa que no sabemos si causan enfermedades o no. Entre estos cambios, algunos pueden llevar a problemas de salud, por eso necesitamos identificar cuáles realmente causan problemas y cuáles no.
Para enfrentar este desafío, se han desarrollado varios métodos de aprendizaje automático. Estos métodos utilizan datos sobre genes para ayudar a identificar cambios dañinos. Hay varias herramientas disponibles para este propósito, incluyendo AlphaMissense, FATHMM-MKL, CScape, CADD, DANN, PolyPhen-2 y EVE. Cada una de estas herramientas usa diferentes enfoques para predecir el impacto de los cambios genéticos, pero todas dependen de los datos disponibles para ser efectivas.
Importancia de las Características en la Predicción Genómica
Las herramientas mencionadas dependen mucho de los datos que utilizan, conocidos como características. Muchas características ya han demostrado ser efectivas para predecir si un cambio en el genoma puede contribuir a la enfermedad. Por ejemplo, características basadas en la conservación como PhyloP y PhastCons miden cuánto una secuencia se mantiene sin cambios entre diferentes especies. Generalmente, las regiones menos conservadas se consideran menos importantes para la función.
Otras características también son vitales para predecir cambios dañinos. El Variant Effect Predictor (VEP) organiza sus datos en tres categorías principales. Primero, predice las consecuencias de los cambios en los transcritos de genes. Segundo, proporciona información sobre las secuencias de proteínas normales y alteradas. Por último, calcula qué tan lejos están los diferentes cambios de los transcritos de genes.
Además, entender las secuencias de ADN también puede ayudar. Comparando secuencias normales y cambiadas, podemos obtener información sobre posibles interrupciones. Las características regulatorias de conjuntos de datos, como ENCODE, también brindan información valiosa sobre las funciones de los genes.
Características Adicionales para la Predicción
Aunque muchas características están en uso actualmente, hay posibilidad de que características adicionales puedan mejorar nuestra capacidad para identificar cambios dañinos. Por ejemplo, analizar cómo las variaciones de nucleótidos únicos (SNVs) influyen en las características de la forma del ADN puede ser beneficioso. Ciertas formas de ADN pueden afectar cómo interactúan las proteínas con el ADN, alterando potencialmente la función del gen.
Además, la información estructural de bases de datos puede contribuir a nuestra comprensión de los cambios genéticos. Las características relacionadas con las propiedades de los aminoácidos y las características de dinucleótidos también podrían ofrecer más información relevante sobre cómo los cambios pueden llevar a enfermedades.
Presentando DrivR-Base
Para ayudar a construir mejores predictores para el estado de variantes, presentamos DrivR-Base. Este es un nuevo repositorio diseñado para facilitar a los investigadores reunir datos necesarios para crear modelos precisos. Los conjuntos de datos de DrivR-Base también se pueden usar para otras aplicaciones, como predecir funciones de genes y ayudar en el desarrollo de fármacos.
DrivR-Base se enfoca en datos del genoma humano y proporciona una colección de herramientas, documentación y enlaces a fuentes originales, ayudando a los investigadores a compilar las características necesarias para sus estudios.
Resumen de Grupos de Características en DrivR-Base
DrivR-Base extrae datos de diez grupos de características diferentes de variantes de nucleótidos únicos humanos en un formato estándar. Estos grupos de características provienen de bases de datos públicas e incluyen lo siguiente:
1. Características Basadas en Conservación
Este grupo incluye métricas importantes, como las puntuaciones de PhyloP y PhastCons, que miden los cambios en las secuencias de nucleótidos a lo largo del tiempo. Estas puntuaciones indican cuánto puede diferir una secuencia de lo que se esperaría por casualidad. El análisis también considera datos de mapeo que muestran cuán precisamente se pueden secuenciar las regiones genómicas. Si una región es difícil de leer, puede tener más errores.
2. Variant Effect Predictor
El VEP organiza sus datos en tres partes. Primero, enumera los efectos predichos de los cambios en los transcritos de genes. Segundo, proporciona información sobre los aminoácidos normales y alterados. Por último, mide las distancias a los transcritos cercanos cuando múltiples transcritos son afectados por un cambio.
3. Propiedades de Dinucleótidos
Este grupo de características proviene de una base de datos que proporciona detalles sobre 125 propiedades diferentes relacionadas con pares de nucleótidos. Cada propiedad se mide para cuatro configuraciones distintas, que incluyen combinaciones de alelos tipo salvaje y mutantes.
4. Propiedades de Forma de ADN
Este grupo se enfoca en cómo la forma del ADN se ve influenciada por cambios de nucleótidos únicos. Se miden cinco propiedades principales, incluyendo el ancho de la hendidura menor y el potencial electrostático. Los datos se recopilan alrededor de la variante de interés, proporcionando información sobre cómo la forma puede afectar la función.
5. Contenido de GC y Sitios CpG
Este grupo de características mide el contenido de GC y el recuento de sitios CpG, junto con la razón de sitios CpG observados en comparación con los esperados a través de varios tamaños de ventana.
6. Similitud de Secuencias Basada en Kernel
Esta característica observa la secuencia que rodea un cambio de nucleótido, evaluando cómo están dispuestos diferentes k-mers (secuencias cortas). Se exploran varios tamaños de ventana y tamaños de k-mer para entender su frecuencia en secuencias normales y alteradas.
7. Matrices de Sustitución de Aminoácidos
Este grupo recopila datos sobre con qué frecuencia ocurren ciertas sustituciones de aminoácidos, basándose en diferentes matrices que proporcionan información sobre los efectos de estos cambios.
8. Propiedades de Aminoácidos
Se recopilan un total de 532 propiedades relacionadas con aminoácidos, abarcando aspectos como la polaridad, hidrofobicidad y flexibilidad. Estos datos son cruciales para entender cómo los cambios pueden impactar las funciones de proteínas.
9. Características de la Base de Datos ENCODE
Esta base de datos presenta varios tipos de información funcional. DrivR-Base extrae características que podrían ayudar a predecir si una variante puede llevar a enfermedad, incluyendo datos sobre factores de transcripción y modificaciones de histonas.
10. Características Estructurales de AlphaFold
Este aspecto de DrivR-Base incluye información estructural de la base de datos AlphaFold y del Banco de Datos de Proteínas. Identifica posiciones de genes y proteínas afectadas por cambios y recupera datos estructurales relevantes.
Conclusión y Direcciones Futuras
En conclusión, DrivR-Base sirve como un conjunto de herramientas completo para extraer diversas características de variantes de nucleótidos únicos humanos. Esta herramienta ayuda a los investigadores a construir modelos predictivos para identificar cambios genéticos dañinos. También tiene aplicaciones potenciales en la predicción de funciones de genes y desarrollo de fármacos.
De cara al futuro, el objetivo es expandir DrivR-Base para incluir más tipos de mutaciones y una mayor variedad de grupos de características. Se alienta a los investigadores a ponerse en contacto y sugerir nuevas características o mejoras. Al mejorar continuamente este repositorio, buscamos apoyar una mejor investigación en genética y su aplicación en la atención médica.
Título: DrivR-Base: A Feature Extraction Toolkit For Variant Effect Prediction Model Construction
Resumen: MotivationRecent advancements in sequencing technologies have led to the discovery of numerous variants in the human genome. However, understanding their precise roles in diseases remains challenging due to their complex functional mechanisms. Various methodologies have emerged to predict the pathogenic significance of these genetic variants. Typically, these methods employ an integrative approach, leveraging diverse data sources that provide critical insights into genomic function. Despite the abundance of publicly available data sources and databases, the process of navigating, extracting, and pre-processing features for machine learning models can be daunting. Furthermore, researchers often invest substantial effort in feature extraction, only to later discover that these features lack informativeness. ResultsIn this paper, we present DrivR-Base, an innovative resource that efficiently extracts and integrates molecular information (features) for single nucleotide variants from a wide range of databases and tools, including AlphaFold, ENCODE, and Variant Effect Predictor. The resulting features can be used as input for machine learning models designed to predict the pathogenic impact of human genome variants in disease. Moreover, these feature sets have applications beyond this, including haploinsufficiency prediction and the development of drug repurposing tools. We describe the resources development, practical applications, and potential for future expansion and enhancement. Availability and ImplementationDrivR-Base source code is available at https://github.com/amyfrancis97/DrivR-Base.
Autores: Amy Francis, C. Campbell, T. R. Gaunt
Última actualización: 2024-01-17 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.01.16.575859
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.01.16.575859.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.