Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología # Bioinformática

Nuevos Métodos en Biología Evolutiva: Estructuras de Proteínas vs. Secuencias de ADN

Los investigadores exploran las estructuras de las proteínas para entender mejor las relaciones evolutivas.

Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón

― 5 minilectura


Estructuras de proteínas Estructuras de proteínas en el estudio evolutivo información evolutiva. secuencias de ADN para obtener Comparando formas de proteínas y
Tabla de contenidos

En el mundo de la biología, los científicos siempre están tratando de descubrir cómo están relacionados diferentes seres vivos entre sí. Es como resolver un árbol genealógico gigante, pero en vez de tu tío y tía, estamos hablando de todo tipo de criaturas, desde bacterias diminutas hasta enormes ballenas azules. A medida que los investigadores reúnen más información sobre los genomas de diferentes especies, pueden hacer preguntas más complicadas sobre cómo la vida evolucionó a lo largo del tiempo. Sin embargo, hay algunos desafíos cuando se trata de usar métodos tradicionales para mapear estas relaciones, especialmente cuando los organismos son muy diferentes entre sí.

Los Desafíos de los Métodos Tradicionales

Los métodos tradicionales para estudiar las relaciones entre especies a menudo dependen de observar su ADN o secuencias de proteínas. Estas secuencias pueden mostrar qué tan cercanamente están relacionadas diferentes especies. Pero aquí está el problema: cuando las secuencias son demasiado diferentes, se vuelve difícil ver una conexión clara. Es como intentar decir si dos pinturas son del mismo artista cuando una es una pieza moderna y la otra es una obra maestra antigua – complicado, ¿verdad?

Para sortear este problema, los científicos empezaron a pensar fuera de la caja y consideraron usar las formas de las proteínas en lugar de solo sus secuencias. La idea aquí es que las estructuras de las proteínas podrían cambiar más lentamente que las secuencias, haciéndolas indicadores potencialmente mejores de cómo están relacionadas diferentes especies. Sin embargo, no hay tantas Estructuras de proteínas disponibles para estudios a gran escala, lo que ha sido un poco un obstáculo.

Un Cambio de Juego: AlphaFold2

Luego llegó un cambio de juego: AlphaFold2. Esta nueva herramienta ha hecho que sea mucho más fácil predecir las estructuras de las proteínas, y ha abierto nuevas puertas en el estudio de la biología. Ahora, los investigadores pueden mirar las estructuras de las proteínas a través de muchas especies diferentes a una escala que antes se pensaba imposible. Con este avance, han surgido nuevas herramientas de software, como Foldseek, que ayuda a los científicos a alinear estructuras de proteínas de manera rápida y eficiente.

El Poder de las Estructuras de Proteínas

Con la llegada de Foldseek y herramientas similares, los investigadores están buscando ver qué tan bien pueden usar estas estructuras de proteínas para determinar las relaciones entre los genes humanos y los genes de otras especies. Haciendo esto, buscan crear un ‘filoma humano’, que es como un árbol genealógico que muestra todas las diferentes versiones de los genes en los humanos y cómo se relacionan con los genes en otros seres vivos.

El proceso comienza seleccionando un montón de diferentes especies eucariotas, que son organismos con células complejas. Los investigadores reúnen estructuras de proteínas de una base de datos especial y aseguran que las estructuras sean confiables deshaciéndose de las que no cumplen con un cierto estándar de calidad. Después de eso, comparan las proteínas humanas con las de las especies seleccionadas usando tanto métodos basados en secuencias tradicionales como los nuevos métodos basados en estructuras.

Entendiendo los Resultados

Al buscar coincidencias, los investigadores usaron dos métodos principales: BLASTP, que es la herramienta de comparación de secuencias tradicional, y Foldseek, que compara estructuras de proteínas. Sorprendentemente, encontraron que no todas las coincidencias eran iguales. Solo una pequeña porción de los pares encontrados por ambos métodos era la misma, indicando una gran diferencia entre cómo funcionan los dos enfoques. Mientras que BlastP encontró muchas coincidencias únicas, Foldseek también descubrió algunas conexiones interesantes en la llamada ‘zona crepuscular’ de similitud genética, donde las secuencias son demasiado diferentes para comparar fácilmente.

Esta investigación mostró que, aunque Foldseek podría ser genial para identificar parientes lejanos que las secuencias pasan por alto, también parece pasar por alto algunas relaciones establecidas que BlastP encuentra fácilmente. Es como encontrar un primo perdido en una parte lejana del mundo mientras te das cuenta de que te perdiste la reunión familiar a la vuelta de la esquina.

¿Cuál Método Funciona Mejor?

Ahora que los investigadores tenían ambos métodos en juego, necesitaban ver cuál proporcionaba mejores resultados al construir árboles genealógicos, conocidos como filogenias. Usaron varias formas para evaluar cuán precisos eran sus árboles, observando cosas como qué tan bien se alineaban con los agrupamientos de especies conocidos.

Resulta que los métodos basados en secuencias funcionaron consistentemente mejor que los basados en estructuras en casi todos los escenarios probados. Esto sugiere que, aunque las estructuras de proteínas tienen sus usos, las secuencias de ADN todavía tienen la clave para rastrear con precisión las relaciones evolutivas.

La Conclusión

Entonces, ¿cuál es la conclusión? Aunque usar estructuras de proteínas ofrece nuevas ideas sobre la evolución, aún no supera a los métodos tradicionales. La exploración de las estructuras de las proteínas es emocionante y ha abierto nuevas avenidas para la investigación, pero parece que todavía hay espacio para mejorar en los métodos basados en estructuras.

Un Último Pensamiento Divertido

Si las proteínas fueran personas en una fiesta, algunas serían geniales para socializar y hacer conexiones (como BlastP). Otras podrían ser un poco peculiares y solo conectar con parientes lejanos (hola, Foldseek). ¡Pero juntas, podrían organizar una fantástica reunión evolutiva si juegan bien sus cartas!

Fuente original

Título: Newly developed structure-based methods do not outperform standard sequence-based methods for large-scale phylogenomics

Resumen: Recent developments in protein structure prediction have allowed the use of this previously limited source of information at genome-wide scales. It has been proposed that the use of structural information may offer advantages over sequences in phylogenetic reconstruction, due to their slower rate of evolution and direct correlation to function. Here, we examined how recently developed methods for structure-based homology search and tree reconstruction compare to current state-of-the-art sequence-based methods in reconstructing genome-wide collections of gene phylogenies (i.e. phylomes). While structure-based methods can be useful in specific scenarios, we found that their current performance does not justify using the newly developed structured-based methods as a default choice in large-scale phylogenetic studies. On the one hand, the best performing sequence-based tree reconstruction methods still outperform structure-based methods for this task. On the other hand, structure-based homology detection methods provide larger lists of candidate homologs, as previously reported. However, this comes at the expense of missing hits identified by sequence-based methods, as well as providing homolog candidate sets with higher fractions of false positives. These insights help guide the use of structural data in comparative genomics and highlight the need to continue improving structure-based approaches. Our pipeline is fully reproducible and has been implemented in a snakemake workflow. This will facilitate a continuous assessment of future improvements of structure-based tools in the Alphafold era.

Autores: Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón

Última actualización: Dec 20, 2024

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.08.02.606352

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.08.02.606352.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares