Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Genómica

Avances en las Anotaciones Regulatorias del Genoma de Insectos

Nuevo método predice secuencias regulatorias en genomas de insectos de manera efectiva.

― 9 minilectura


Predicción de MejoradoresPredicción de Mejoradoresdel Genoma de Insectosinsectos.regulatorias en diversos genomas deNueva herramienta predice secuencias
Tabla de contenidos

En los últimos veinte años, los científicos han aumentado significativamente el número de genomas animales estudiados. Al principio, solo se secuenciaron unos pocos genomas, pero ahora hay más de 8,000. Sin embargo, muchos de estos genomas no están completamente completos. Menos del 30% de estos genomas están organizados a nivel cromosómico, y solo el 28% de esos tienen anotaciones detalladas. Una de las principales carencias en estas anotaciones es la falta de secuencias regulatorias importantes, que juegan un papel enorme en la función génica. Estas secuencias regulatorias, también conocidas como módulos cis-regulatorios (CRMs), incluyen potenciadores y silenciadores. Entender estas secuencias es vital para captar cómo se controlan los genes y cómo funcionan las redes génicas. Además, los cambios en estas secuencias regulatorias pueden influir significativamente en la evolución y contribuir a enfermedades.

El Reto de Entender las Secuencias Regulatorias

Una razón por la que faltan anotaciones regulatorias es que descubrir los CRMs ha sido un desafío y requiere mucho tiempo. Durante muchos años, los científicos solo pudieron encontrar CRMs a través de experimentos de laboratorio detallados. Incluso con el desarrollo de nuevos métodos que permiten una identificación más amplia y rápida de CRMs, diferentes técnicas a menudo dan resultados inconsistentes. Esta inconsistencia dificulta la creación de un mapa completo de CRMs en varios tipos de células y etapas de vida, especialmente para los insectos, que son increíblemente diversos y representan una gran parte de las especies animales. La mayoría de los insectos comparten poca similitud genética entre ellos o con especies bien estudiadas como Drosophila Melanogaster (la mosca de la fruta). Esto complica el proceso de transferir conocimientos de una especie a otra. Además, como muchos insectos tienen ciclos de vida complejos, estudiar los CRMs se vuelve aún más exigente.

Desarrollo de un Nuevo Método: SCRMshaw

Para abordar estos desafíos, creamos un método computacional innovador llamado SCRMshaw, que significa "Predicción Supervisada de Módulos Cis-Regulatorios". Este método tiene como objetivo predecir CRMs, en particular potenciadores, con mayor precisión. SCRMshaw solo necesita un genoma secuenciado y un conjunto de entrenamiento que consiste en 15-30 potenciadores conocidos que muestran un patrón común de actividad génica. El método se basa en el principio de que los potenciadores con funciones similares también tienen características de secuencia similares. Estas características son diferentes de lo que los investigadores pueden ver fácilmente o a través de métodos de alineación tradicionales, pero se pueden detectar utilizando aprendizaje automático. Esto significa que SCRMshaw puede encontrar potenciadores de manera efectiva sin necesidad de conocer los sitios de unión exactos para los factores de transcripción o los patrones de expresión de los genes regulados.

Es importante destacar que SCRMshaw puede utilizar datos existentes de Drosophila melanogaster para entrenar modelos para descubrir potenciadores en diferentes especies de insectos, incluso en aquellas que divergieron hace millones de años. Esta aplicación entre especies es crucial dado la falta de secuencias de ADN no codificante conservadas entre muchos insectos.

Anotación Regulatoria de Múltiples Genomas de Insectos

En este estudio, usamos SCRMshaw para anotar 33 genomas de insectos, utilizando conjuntos de entrenamiento formados por potenciadores validados de Drosophila. Estas especies seleccionadas representan una amplia gama de órdenes de insectos y proporcionan una instantánea de alrededor del 10% de las especies de insectos conocidas con ensamblajes genómicos completos. Los potenciadores predichos están disponibles en una base de datos buscable, lo que permite a los usuarios buscar especies específicas, tipos de tejidos o posibles genes objetivo.

Realizamos varias simulaciones y experimentos de validación para determinar cuán efectiva es SCRMshaw. Los resultados son el primer recurso detallado para anotaciones regulatorias de insectos, que crecerá a medida que se secuencien más genomas de insectos.

Eficiencia de SCRMshaw en la Predicción de Potenciadores

SCRMshaw ha demostrado ser particularmente efectivo para localizar potenciadores en todo el rango de insectos holometábolos. Este método utiliza conjuntos de entrenamiento de potenciadores conocidos definidos por funciones comunes para crear un modelo estadístico que refleja la distribución de la cantidad de subsecuencias cortas de ADN. El modelo evalúa ventanas de secuencia superpuestas dentro del genoma objetivo, prediciendo regiones con puntajes altos como posibles potenciadores. Cuando aplicamos SCRMshaw a genomas de varios insectos, incluidos mosquitos, escarabajos y abejas, encontramos una tasa de éxito en las predicciones de aproximadamente el 75% basada en pruebas de laboratorio adicionales.

Estos resultados implican la existencia de similitudes no descubiertas entre las secuencias de potenciadores de insectos, especialmente aquellas vinculadas a múltiples redes regulatorias de genes. Este hallazgo nos alentó a aplicar SCRMshaw a un conjunto más amplio de genomas secuenciados de insectos.

Flujo de Trabajo para Usar SCRMshaw

Para facilitar la aplicación de SCRMshaw a numerosos genomas secuenciados, desarrollamos un flujo de trabajo sistemático. Este flujo de trabajo garantiza una correcta preparación de los genomas para predicciones rápidas de secuencias de potenciadores específicas de tejidos. Incluye la evaluación de resultados y la anotación de partes del genoma en función de regiones relacionadas en el genoma bien estudiado de Drosophila. Los pasos incluyen:

  1. Requisitos de Entrada: SCRMshaw necesita dos archivos para cualquier genoma dado: un archivo de secuencia del genoma y un archivo de anotación del genoma. El archivo del genoma se verifica en busca de elementos específicos antes de ejecutar SCRMshaw.

  2. Ejecución de SCRMshaw: El programa se ejecuta utilizando la configuración preferida.

  3. Post-Procesamiento: La salida cruda de SCRMshaw se refina para determinar el conjunto final de potenciadores predichos. Se realizan ajustes para mejorar el tamaño y la calidad de las predicciones.

  4. Mapeo de Ortología: Vinculamos los genes predichos con contrapartes de genes conocidos en Drosophila, lo que nos permite evaluar los potenciadores predichos de manera más efectiva.

Anotación de 33 Genomas de Insectos

Ejecutamos nuestro análisis en una colección inicial de 33 genomas de insectos, elegidos según su disponibilidad y diversidad entre órdenes de insectos. Los resultados mostraron que predijimos un total de casi 2.9 millones de potenciadores, con un promedio de alrededor de 87,000 predicciones por especie. Aunque algunas predicciones pueden superponerse, identificamos más de 1.1 millones de secuencias únicas. El tamaño promedio de estos potenciadores predichos fue típicamente de alrededor de 750 pares de bases.

Múltiples Predicciones de Potenciadores para Loci Únicos

A menudo encontramos que SCRMshaw predice múltiples potenciadores dentro de un solo locus génico. Este fenómeno está alineado con el concepto de "potenciadores sombra", donde conjuntos de potenciadores similares trabajan juntos para regular el mismo gen. Para verificar si SCRMshaw predice potenciadores de manera confiable o al azar, realizamos simulaciones utilizando diferentes genomas. Los resultados mostraron que, en ciertos loci, SCRMshaw predijo frecuentemente más potenciadores de lo que se esperaría meramente por casualidad. Este hallazgo respalda la idea de que SCRMshaw está identificando potenciadores sombra relacionados en lugar de hacer predicciones aleatorias.

Hallazgos sobre Loci Ortólogos Entre Especies

Una de las ideas clave detrás de SCRMshaw es que las estrategias regulatorias pueden estar conservadas entre especies. Examinamos con qué frecuencia SCRMshaw podía predecir potenciadores en las mismas ubicaciones génicas en diferentes especies. Aunque observamos una disminución en el número de potenciadores comunes predichos a medida que aumentábamos el número de especies consideradas, los resultados de SCRMshaw mostraron consistentemente más potenciadores predichos en loci compartidos de lo que las predicciones aleatorias sugerirían.

Correlación con Regiones de Cromatina Abierta

Los potenciadores activos suelen encontrarse en áreas de cromatina accesible. Para determinar si las predicciones de SCRMshaw estaban realmente ubicadas dentro de regiones de cromatina abierta, comparamos varios conjuntos de datos de diferentes especies. En la mayoría de los casos, vimos una superposición sustancial entre las predicciones de SCRMshaw y las regiones de cromatina abierta, reforzando nuestra confianza en las predicciones realizadas por SCRMshaw.

Validación a través del Análisis de Genes Reporteros

Implementamos análisis de genes reporteros para probar si los potenciadores predichos eran realmente funcionales. Al realizar pruebas sobre predicciones seleccionadas en Drosophila, encontramos una alta tasa de éxito, con el 77% de las secuencias probadas mostrando actividad de potenciador. Una parte significativa de estas secuencias también mostró la actividad específica del tejido correcta, validando aún más las predicciones de SCRMshaw.

El Recurso de Anotación Regulatoria de Insectos

Los resultados de nuestras diversas pruebas demuestran que SCRMshaw predice efectivamente secuencias regulatorias en diferentes especies de insectos. Para hacer esta información accesible, creamos una base de datos que contiene todas las anotaciones regulatorias derivadas de nuestras predicciones. Esta base de datos es parte de un proyecto en curso para proporcionar anotaciones regulatorias iniciales para todos los insectos secuenciados.

Esfuerzos en Curso y Direcciones Futuras

Si bien SCRMshaw es una herramienta poderosa, todavía tiene limitaciones y áreas de mejora. Problemas como errores en el ensamblaje del genoma y una identificación insuficiente de secuencias repetidas pueden afectar los resultados. Las predicciones realizadas por SCRMshaw deben verse como puntos de partida, y los experimentos de validación son esenciales para cualquier predicción de interés.

Las anotaciones regulatorias presentadas en nuestro trabajo son versiones iniciales que seguirán evolucionando. A medida que se dispongan más conjuntos de datos de entrenamiento y se secuencien especies adicionales, actualizaremos estas anotaciones. Nuestros hallazgos indican un buen equilibrio entre predicciones verdaderas positivas y falsas positivas, lo que sugiere que SCRMshaw puede ayudar en futuros estudios de genomas regulatorios de insectos.

Conclusión

En resumen, el trabajo demuestra un avance significativo en la comprensión de los mecanismos regulatorios detrás de la expresión génica en insectos. El método desarrollado para predecir potenciadores-SCRMshaw-ha mostrado resultados robustos en una variedad de especies, y la base de datos completa creada servirá como un recurso valioso para investigadores que buscan estudiar más a fondo el genoma de los insectos. A medida que continuamos refinando nuestros métodos y recopilando más datos, nuestra comprensión de la regulación génica se profundizará, proporcionando información que podría tener amplias implicaciones en campos como la genética, la evolución y la agricultura.

Fuente original

Título: Regulatory genome annotation of 33 insect species

Resumen: Annotation of newly-sequenced genomes frequently includes genes, but rarely covers important non-coding genomic features such as the cis-regulatory modules--e.g., enhancers and silencers--that regulate gene expression. Here, we begin to remedy this situation by developing a workflow for rapid initial annotation of insect regulatory sequences, and provide a searchable database resource with enhancer predictions for 33 genomes. Using our previously-developed SCRMshaw computational enhancer prediction method, we predict over 2.8 million regulatory sequences along with the tissues where they are expected to be active, in a set of insect species ranging over 360 million years of evolution. Extensive analysis and validation of the data provides several lines of evidence suggesting that we achieve a high true-positive rate for enhancer prediction. One, we show that our predictions target specific loci, rather than random genomic locations. Two, we predict enhancers in orthologous loci across a diverged set of species to a significantly higher degree than random expectation would allow. Three, we demonstrate that our predictions are highly enriched for regions of accessible chromatin. Four, we achieve a validation rate in excess of 70% using in vivo reporter gene assays. As we continue to annotate both new tissues and new species, our regulatory annotation resource will provide a rich source of data for the research community and will have utility for both small-scale (single gene, single species) and large-scale (many genes, many species) studies of gene regulation. In particular, the ability to search for functionally-related regulatory elements in orthologous loci should greatly facilitate studies of enhancer evolution even among distantly related species.

Autores: Marc S. Halfon, H. Asma, E. Tieke, K. D. Deem, J. Rahmat, T. Dong, X. Huang, Y. Tomoyasu

Última actualización: 2024-07-10 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.01.23.576926

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.01.23.576926.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares