Analizando factores de transcripción en el pangenoma de E. coli
Este estudio revela información sobre factores de transcripción usando datos genómicos y estructurales.
― 8 minilectura
Tabla de contenidos
- Recopilación de Datos de Genoma y Proteínas
- Identificación de Factores de Transcripción
- Comparación de Estructuras y Análisis de Proteínas
- El Papel de Alphafold en la Predicción de Estructuras de Proteínas
- Agrupación de Factores de Transcripción en Familias Estructurales
- Potencial para Mejorar Asignaciones de Función
- Conclusión
- Fuente original
El estudio de las secuencias de Genomas, que contienen el conjunto completo de genes en un organismo, está creciendo rápidamente. A medida que recopilamos más secuencias de genomas, también descubrimos muchas proteínas que necesitan ser estudiadas. Identificar estas proteínas en genomas recién secuenciados se hace principalmente buscando similitudes con proteínas conocidas. Esto se puede lograr a través de dos métodos principales: comparando las Secuencias de proteínas directamente o consultando bases de datos que contienen perfiles de familias de proteínas. Sin embargo, estos métodos tienen limitaciones debido a los desafíos de trabajar con secuencias que consisten en cadenas largas de caracteres.
Una de las formas más informativas de aprender sobre proteínas es examinando sus estructuras tridimensionales (3D). Estas estructuras pueden darnos información sobre cómo funcionan las proteínas y cómo se relacionan entre sí. Desafortunadamente, el número de Estructuras 3D disponibles está muy por detrás del número de secuencias que tenemos. Esta brecha llevó al desarrollo de la genómica estructural, un proyecto que tiene como objetivo crear estructuras 3D representativas para proteínas específicas, lo que puede ayudarnos a predecir las estructuras de proteínas relacionadas en función de sus similitudes.
Los avances recientes en inteligencia artificial han cambiado drásticamente el campo de la predicción de estructuras de proteínas. Ahora, nuevos métodos pueden sugerir estructuras 3D que son altamente competitivas con las obtenidas a través de procedimientos experimentales. Un proyecto notable, Alphafold, ha producido una gran colección de estructuras de proteínas predichas, lo que facilita a los investigadores estudiar e inferir relaciones entre diferentes proteínas.
En este trabajo, estamos particularmente interesados en los Factores de Transcripción (TFs), proteínas que ayudan a controlar la expresión de los genes. Vamos a ver cómo podemos usar comparaciones de estructuras 3D para identificar factores de transcripción en el pangenoma de E. Coli, que incluye todos los genes de diferentes cepas de E. coli.
Recopilación de Datos de Genoma y Proteínas
Para analizar el pangenoma de E. coli, primero recopilamos datos genómicos de una base de datos determinada. Para finales de agosto de 2023, recopilamos datos de todos los genomas de E. coli, así como de aquellos estrechamente relacionados. Usando un método llamado mash, estimamos las distancias genéticas entre estos genomas y los agrupamos según cuán similares son. Esto resultó en una colección que incluye 2,878 genomas clasificados como E. coli.
Luego, nos enfocamos en las secuencias de proteínas asociadas con estos genomas. El pangenoma de E. coli contenía más de 13 millones de secuencias de proteínas, pero después de filtrar las secuencias idénticas, encontramos 718,581 proteínas únicas. Este filtrado nos ayudó a identificar diferentes proteínas que podrían tener funciones similares.
Para encontrar factores de transcripción, comparamos estas proteínas únicas con familias de factores de transcripción conocidos. Aprendimos que había 31,282 factores de transcripción únicos dentro del pangenoma de E. coli, muchos de los cuales coincidían con perfiles establecidos de varias bases de datos. Además, encontramos que muchos de estos factores de transcripción tenían similitudes significativas con los ya registrados.
Identificación de Factores de Transcripción
Para identificar las secuencias de proteínas de factores de transcripción conocidos, recopilamos una lista de la base de datos relevante y verificamos los nombres e identificadores contra el genoma de E. coli. Haciendo esto, confirmamos la existencia de 86 factores de transcripción que tenían evidencia sólida que los respaldaba.
Ampliamos nuestra búsqueda comparando todas las proteínas únicas del pangenoma de E. coli y las estructuras disponibles en bases de datos. Esto nos ayudó a identificar más posibles factores de transcripción. Analizamos los resultados utilizando perfiles que representan características de factores de transcripción encontrados en bacterias y arqueas, lo que aumentó aún más nuestro conocimiento sobre la diversidad de factores de transcripción.
En total, nuestros análisis nos llevaron a identificar un número significativo de factores de transcripción, así como conexiones con bases de datos que proporcionaron información valiosa sobre sus funciones. Este proceso no solo confirmó factores de transcripción conocidos, sino que también destacó candidatos adicionales que podrían ser explorados.
Comparación de Estructuras y Análisis de Proteínas
Nos enfocamos en comparar las estructuras 3D de las proteínas para comprender mejor sus funciones. Al recuperar estructuras de varias bases de datos, pudimos alinear y evaluar tanto estructuras de proteínas experimentales como predichas. Nuestros hallazgos mostraron que la calidad general de las estructuras predichas era alta, lo que apoyaba la fiabilidad de usarlas para análisis posteriores.
Específicamente, analizamos las similitudes estructurales entre factores de transcripción alineando las estructuras de proteínas predichas con las experimentales. Al comparar los resultados, logramos obtener algunas ideas clave sobre cómo podrían comportarse e interactuar estas proteínas en procesos biológicos.
A lo largo de nuestra investigación, descubrimos que la similitud estructural a menudo disminuía a medida que la similitud en la secuencia entre las proteínas disminuía. A pesar de esta tendencia, la mayoría de los alineamientos estructurales aún cayó por encima de un umbral importante, indicando que existían similitudes significativas incluso entre proteínas con secuencias menos similares.
El Papel de Alphafold en la Predicción de Estructuras de Proteínas
Alphafold se convirtió en una herramienta crucial en nuestro análisis, permitiéndonos emparejar una gran mayoría de las proteínas únicas en el pangenoma de E. coli con estructuras predichas. Esto significó que el proyecto Alphafold tenía una amplia cobertura, confirmando que era poco probable que hubiera pasado por alto alguna proteína relevante para la comunidad científica que estudia E. coli.
En cuanto a nuestra lista de factores de transcripción, casi todas las proteínas únicas identificadas coincidían con las estructuras predichas por Alphafold. Esta conexión significativa subrayó el potencial de Alphafold para proporcionar material adicional para estudios posteriores y la inferencia de factores de transcripción.
Agrupación de Factores de Transcripción en Familias Estructurales
Para organizar nuestros hallazgos, agrupamos los factores de transcripción identificados en familias estructurales según las estructuras 3D predichas por Alphafold. Esta agrupación reveló un total de 710 familias estructurales, lo que nos permitió ver cómo varios factores de transcripción estaban relacionados entre sí según sus estructuras.
Cabe destacar que algunos factores de transcripción que previamente no habían sido reconocidos como parte de familias conocidas fueron identificados a través de este enfoque estructural. Este nivel adicional de análisis demostró que las comparaciones estructurales podían mejorar nuestra comprensión de las funciones y relaciones de las proteínas más allá de lo que era posible anteriormente.
Potencial para Mejorar Asignaciones de Función
Con nuestras familias estructurales establecidas, también buscamos asignar funciones a los factores de transcripción y proteínas que identificamos. Al examinar las anotaciones disponibles en varias bases de datos, pudimos estimar la calidad y los posibles roles de estas proteínas. Entre los factores de transcripción recién identificados, muchos mostraron coincidencias prometedoras con funciones relevantes para la regulación génica.
Nuestros hallazgos indicaron que podrían descubrirse factores de transcripción adicionales a través de comparaciones estructurales, mejorando así la calidad y cantidad de asignaciones de funciones de proteínas.
Conclusión
En resumen, nuestro estudio destacó la importancia de integrar predicciones de estructuras 3D con datos genómicos para comprender mejor las funciones de las proteínas. Al usar técnicas que combinaban perspectivas genómicas con comparaciones estructurales, expandimos significativamente nuestro conocimiento de factores de transcripción dentro del pangenoma de E. coli.
A medida que avanzamos, será esencial realizar más investigaciones para confirmar estos hallazgos y explorar las implicaciones de nuestros descubrimientos en un contexto biológico más amplio. El trabajo realizado aquí sienta las bases para análisis más profundos de las funciones de las proteínas y sus roles en la regulación de la expresión génica, allanando el camino para futuros avances en la comprensión de la biología microbiana.
Título: Transcription factors across the Escherichia coli pangenome: a 3D perspective
Resumen: MotivationIdentification of complete sets of transcription factors (TFs) is a foundational step in the inference of genetic regulatory networks. With the availability of high-quality predictions of protein three-dimensional structures (3D), it has become possible to use structural comparisons for the inference of homology beyond what is possible from sequence analyses alone. This work explores the potential to use predicted 3D structures for the identification of TFs in the Escherichia coli pangenome. ResultsComparisons between predicted structures and their experimentally confirmed counterparts confirmed the high-quality of predicted structures, with most 3D structural alignments showing TM-scores well above established structural similarity thresholds, though the quality seemed slightly lower for TFs than for other proteins. As expected, structural similarity decreased with sequence similarity, though most TM-scores still remained above the structural similarity threshold. This was true regardless of the aligned structures being experimental or predicted. Results at the lowest sequence identity levels revealed potential for 3D structural comparisons to extend homology inferences below the "twilight zone" of sequence-based methods. The body of predicted 3D structures covered 99.7% of available proteins from the E. coli pangenome, missing only two of those matching TF domain sequence profiles. Structural analyses increased the inferred TFs in the E. coli pangenome by 18% above the amount obtained with sequence profiles alone.
Autores: Gabriel Moreno-Hagelsieb
Última actualización: 2024-02-09 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.02.08.579464
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.02.08.579464.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.