Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología # Genómica

El Genoma Humano: Descubriendo Genes Codificantes

Una inmersión profunda en la búsqueda y clasificación de los genes de codificación humanos.

Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress

― 10 minilectura


Desenredando los Genes de Desenredando los Genes de la Programación genes que codifican en humanos. Descubriendo la verdad detrás de los
Tabla de contenidos

El genoma humano es como un enorme manual de instrucciones que le da a nuestras células la info que necesitan para producir proteínas, que son los bloques de construcción de la vida. Cuando los científicos secuenciaron por primera vez el genoma humano, estimaron que teníamos entre 25,000 y 40,000 genes responsables de codificar proteínas. Sin embargo, a medida que avanzó la investigación, ese número se revisó a entre 19,000 y 22,000 genes. Entonces, ¿qué pasó con los genes extra? ¿Eran solo un capricho de sueños científicos?

A lo largo de los años, muchos equipos de investigación han trabajado duro para analizar nuestro genoma e identificar los verdaderos genes codificadores. Sus hallazgos han llevado a una mejor comprensión de cuáles genes son reales y cuáles podrían ser impostores. Como un juego de "Adivina quién", los investigadores han intentado discernir entre genes que realmente producen proteínas y aquellos que solo fingen.

La Búsqueda de Genes Codificadores

Identificar genes codificadores no solo se trata de encontrar un nombre en una lista. Los científicos utilizan varias fuentes de evidencia para determinar si un gen puede realmente producir una proteína. Miran cosas como datos experimentales y cuán bien se conserva un gen en diferentes especies. Si un gen se conserva, significa que probablemente cumple una función fundamental y, por lo tanto, es más probable que sea un gen codificador.

Se añaden nuevos genes codificadores a la lista cuando hay suficiente prueba para sugerir que son reales. Sin embargo, algunos genes pueden cambiar de estatus a medida que hay más datos disponibles. De alguna manera, es como ver una telenovela donde los personajes cambian de bando con frecuencia, ¡lo que lleva a todo tipo de giros dramáticos!

El Papel de los Equipos de Investigación

Tres grupos de investigación principales se han encargado de analizar los genes codificadores en nuestro genoma: Ensembl/GENCODE, RefSeq y UniProtKB. Cada grupo tiene su propia perspectiva sobre qué constituye un gen codificador. Usan coordenadas genómicas y datos de proteínas para compilar sus listas. Sin embargo, los criterios diferentes han resultado en discrepancias, mucho como diferentes interpretaciones del mismo guion de película.

Por ejemplo, el pseudogén WASH6P ha sido un personaje en este drama, cambiando su estatus varias veces en función de nueva evidencia. Es la diva definitiva del mundo genético: siempre en el centro de atención pero nunca encajando del todo en el molde de un gen codificador.

El Juego de Números

En el pasado, las estimaciones sobre el número total de genes codificadores eran bastante altas. Pero a medida que los investigadores profundizaban en los datos, los números comenzaron a bajar. Un análisis más riguroso reveló que la cuenta real podría ser más cercana a 20,000. Es como cuando vas a un buffet, llenas tu plato hasta el tope y te das cuenta de que solo puedes comer la mitad. ¡El buffet de genes nos dio una lección de realidad!

Curiosamente, los informes muestran que el número de genes codificadores está aumentando de nuevo. Este aumento se debe a que los investigadores buscan activamente pequeños marcos de lectura abiertos (ORFs) que podrían haber pasado desapercibidos antes. Estos pequeños genes podrían ser las joyas ocultas del mundo codificador, y los científicos están en una misión para encontrarlos.

El Desafío de la Clasificación Errónea

La búsqueda de genes codificadores puede ser complicada. Muchos investigadores se enfocan en descubrir nuevos genes codificadores porque a menudo es más fácil encontrarlos que probar que un gen predicho no produce proteínas. Es como buscar un tesoro: la gente está más motivada para desenterrar oro que para tamizar tierra.

Algunos grupos han intentado identificar genes que podrían haber sido clasificados erróneamente. En un análisis innovador, los investigadores descubrieron que muchos genes recién anotados se parecían a ARN no codificante en lugar de genes codificadores. Un grupo incluso estimó que había alrededor de 20,500 genes codificadores, mientras que otro predijo que había menos de 20,000. ¡Habla de una disputa familiar—no hay un claro ganador!

A lo largo de los años, los investigadores han señalado miles de genes como potencialmente no codificadores, lo que ha llevado a una locura de reclasificación. Algunos genes han sido reclasificados múltiples veces a medida que llegaba nueva evidencia. Es como un juego interminable de sillas musicales: cada vez que la música para, ¡alguien se queda sin asiento!

Fusionando las Listas

Para enfrentar esta situación complicada, los investigadores han fusionado los tres conjuntos de referencia principales (Ensembl/GENCODE, RefSeq y UniProtKB) para crear una lista de genes más unificada. Al hacerlo, encontraron que habían anotado alrededor de 22,210 genes codificadores. Pero, curiosamente, uno de cada ocho genes anotados no recibió un sello de aprobación de los tres grupos. Es como recibir tres opiniones diferentes sobre tu atuendo: uno lo ama, otro lo odia y el tercero simplemente está confundido.

Después de más refinamiento y análisis, se descubrió que el número de genes listados entre los tres conjuntos era en realidad más bajo que en la fusión anterior. De hecho, los investigadores identificaron 2,606 genes donde no había consenso sobre el estatus de codificación. Estos genes todavía están discutiendo sobre si pertenecen o no al club de codificación.

Estatus de Codificación: El Veredicto

Entre los genes que fueron anotados como codificadores, alrededor de 19,267 fueron considerados codificadores por los tres equipos de investigación. Pero para los genes restantes, el proceso de clasificación reveló varios estatus como genes read-through, Pseudogenes y otros, mostrando que la imagen del estatus de codificación puede ser bastante compleja. Es un poco como clasificar la ropa sucia: piensas que tienes una carga clara de blancos, pero pronto encuentras un calcetín rojo rebelde en la mezcla.

Para determinar el estatus de estos genes sin intersección, los investigadores examinaron las anotaciones de genes de los conjuntos de referencia y encontraron estatus comunes. Algunos genes fueron clasificados como genes read-through, lo que significa que todos sus transcritos eran transcritos read-through, mientras que otros fueron considerados pseudogenes, esencialmente genes que han perdido su funcionalidad con el tiempo.

¿Cuáles Son las Características No Codificadoras Potenciales?

En la búsqueda continua de claridad, los investigadores definieron características no codificadoras potenciales para los genes codificadores. Recopilaron datos de varias fuentes y diseñaron criterios para ayudar a identificar genes que podrían no encajar en el perfil codificador. Estas características actúan como señales de alerta, señalando genes que podrían no ser candidatos para la producción de proteínas.

Usando medidas estadísticas como las proporciones no sinónimas a sinónimas, los investigadores evaluaron qué genes cumplían con los criterios para ser considerados potencialmente no codificadores. Reducieron su lista de sospechosos, llevando a la identificación de 1,118 genes en el análisis más reciente.

¿Por Qué Algunos Genes Se Pueden Escapar?

Te preguntarás: ¿por qué los genes se clasifican erróneamente como codificadores cuando deberían marcarse como no codificadores? Esto ocurre porque algunos genes podrían haber mostrado previamente algunos signos de codificación pero carecen de evidencia que los respalde.

Por ejemplo, los genes que son señalados como pseudogenes podrían tener marcos de lectura abiertos intactos, pero su falta de evidencia de proteínas funcionales es una pista crucial sobre su verdadera naturaleza. Es como una estrella de cine que todavía tiene seguidores, aunque no haya aparecido en nada recientemente. ¡Su antigua gloria no significa necesariamente que siga activa!

El Misterio de los Genes Read-Through

Los genes read-through merecen una mención especial. Estos genes son una categoría única donde todos sus transcritos se clasifican como read-through. Estos genes a menudo causan revuelo, ya que a veces pueden ser confundidos con verdaderos genes codificadores. Sin embargo, en realidad, pueden no producir proteínas funcionales en absoluto.

Los investigadores continúan examinando el estatus de codificación de los genes read-through, y muchos creen que estos genes deberían ser reclasificados. A medida que surgen más evidencias, el panorama de los genes codificadores sigue cambiando, y los científicos están ansiosos por refinar sus listas para asegurar precisión.

La Búsqueda de un Consenso

Los investigadores son conscientes de que tener un entendimiento consensuado sobre el número de genes codificadores es crucial para la comunidad científica. Esto es importante no solo para la investigación básica, sino también para aplicaciones clínicas. Si hay demasiados genes mal clasificados en el conjunto de referencia, puede hacer que los experimentos biomédicos a gran escala sean confusos, lo que lleva a resultados erróneos.

A medida que los científicos trabajan juntos para armonizar sus listas, esperan llegar a un conjunto final acordado de verdaderos genes codificadores. Este proyecto requiere colaboración y comunicación abierta entre varios grupos de investigación para asegurar que todos estén en la misma página. Después de todo, ¡intentar jugar un juego donde todos tienen diferentes reglas no es divertido!

El Paisaje Cambiante de los Genes Codificadores

Con los avances en tecnología y más datos disponibles, el paisaje de los genes codificadores está en constante evolución. Los investigadores ahora se están enfocando en algunos de los genes más pequeños y menos estudiados, ya que podrían tener potencial para codificación de nuevas proteínas. Muchos investigadores creen que el enfoque en los pequeños ORFs apenas está comenzando, y puede haber más descubrimientos a la vuelta de la esquina.

La reciente finalización del ensamblaje CHM13, que identificó una gran cantidad de nuevos genes, también ha causado emoción en la comunidad investigadora. Si bien muchos de estos nuevos genes provienen de grandes familias duplicadas, su introducción en el campo podría cambiar nuestra comprensión de los genes codificadores.

Conclusión: El Futuro de la Anotación Genética

El proceso de detección y validación de genes codificadores es un esfuerzo complejo y continuo que requiere colaboración, mentalidad abierta y, lo más importante, paciencia. Con cada nuevo análisis, los investigadores están armando el rompecabezas y refinando su comprensión del genoma humano.

A medida que continúan trabajando a través de las discrepancias entre bases de datos y refinando sus listas de genes codificadores, los investigadores siguen esperanzados de que eventualmente lograrán una imagen clara y precisa de lo que constituye un gen codificador en nuestro genoma. Así que, aunque la búsqueda puede parecer desalentadora, es una que los científicos están más que listos para enfrentar—armados con evidencia, colaboración y tal vez unas cuantas pausas para el café en el camino.

Fuente original

Título: More than 2,500 coding genes in the human reference gene set still have unsettled status

Resumen: In 2018 we analysed the three main repositories for the human proteome, Ensembl/GENCODE, RefSeq and UniProtKB. They disagreed on the coding status of one of every eight annotated coding genes. The analysis inspired bilateral collaborations between annotation groups. Here we have repeated our analysis with updated versions of the three reference coding gene sets. Superficially, little appears to have changed. Although there are slightly fewer genes predicted as coding overall, the three groups still disagree on the status of 2,606 annotated genes. However, a comparison without read-through genes and immunoglobulin fragments shows that the three reference sets have merged or reclassified more than 700 genes since the last analysis and that just 0.6% of Ensembl/GENCODE coding genes are not also annotated by the other two reference sets. We used eight features indicative of non-coding genes to examine the 21,873 coding genes annotated across the three reference sets. We found that more than 2,000 had one or more potential non-coding features. While some of these genes will be protein coding, we believe that most are likely to be non-coding genes or pseudogenes. Our results suggest that annotators still vastly overestimate the number of true coding genes.

Autores: Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress

Última actualización: 2024-12-09 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.12.05.626965

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.12.05.626965.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares