Simple Science

Ciência de ponta explicada de forma simples

# Biologia # Genómica

O Genoma Humano: Desvendando Genes Codificadores

Uma imersão na busca e classificação dos genes de codificação humana.

Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress

― 9 min ler


Desvendando Genes de Desvendando Genes de Codificação genes de codificação humana. Descobrindo a verdade por trás dos
Índice

O genoma humano é tipo um manual de instruções gigante que dá pros nossos células as infos que elas precisam pra produzir proteínas, que são os tijolos da vida. Quando os cientistas sequenciaram o genoma humano pela primeira vez, eles achavam que a gente tinha entre 25.000 e 40.000 genes responsáveis pela codificação de proteínas. Mas, com o tempo, esse número foi diminuído pra entre 19.000 e 22.000 genes. E aí, o que aconteceu com os genes a mais? Eram só um devaneio de ciência maluca?

Ao longo dos anos, várias equipes de pesquisa se dedicaram a analisar nosso genoma e identificar os verdadeiros Genes codificadores. As descobertas deles levaram a uma melhor compreensão de quais genes são reais e quais podem ser impostores. Como num jogo de "Quem é?", os pesquisadores tentaram separar os genes que realmente produzem proteínas daqueles que só fazem de conta.

A Busca por Genes Codificadores

Identificar genes codificadores não é só encontrar um nome numa lista. Os cientistas usam várias fontes de evidência pra ver se um gene realmente pode produzir uma proteína. Eles olham coisas como dados experimentais e quão bem um gene é conservado entre diferentes espécies. Se um gene é conservado, quer dizer que provavelmente ele tem uma função fundamental e, portanto, é mais provável que seja um gene codificador.

Novos genes codificadores são adicionados à lista sempre que tem prova suficiente pra sugerir que eles são reais. No entanto, alguns genes podem mudar de status conforme mais dados aparecem. É como assistir a uma novela onde os personagens mudam de lado o tempo todo, levando a reviravoltas dramáticas!

O Papel das Equipes de Pesquisa

Três principais grupos de pesquisa estão encarregados de analisar os genes codificadores no nosso genoma: Ensembl/GENCODE, RefSeq e UniProtKB. Cada grupo tem sua própria visão do que é um gene codificador. Eles usam coordenadas genômicas e dados de proteínas pra compilar suas listas. Mas, os critérios diferentes resultaram em discrepâncias, muito parecido com interpretações diferentes do mesmo roteiro de filme.

Por exemplo, o pseudogene WASH6P tem sido um personagem nesse drama, mudando de status várias vezes com base em novas evidências. É a diva suprema do mundo gênico—sempre no centro das atenções, mas nunca se encaixando bem no molde de um gene codificador.

O Jogo dos Números

No passado, as estimativas do total de genes codificadores eram bem altas. Mas, conforme os pesquisadores foram mais a fundo nos dados, os números começaram a cair. Análises mais rigorosas revelaram que a contagem real pode estar mais perto de 20.000. É como quando você vai a um buffet, enche o prato, e percebe que só consegue comer metade. O buffet gênico deu pra gente um puxão de orelha na realidade!

Curiosamente, relatórios mostram que o número de genes codificadores tá subindo novamente. Esse aumento se deve ao fato de pesquisadores estarem ativamente em busca de pequenos Quadros de Leitura Abertos (ORFs) que podem ter passado despercebidos. Esses pequenos genes podem ser as joias escondidas do mundo gênico, e os cientistas estão em uma missão pra encontrá-los.

O Desafio da Classificação Errada

A busca por genes codificadores pode ser complicada. Muitos pesquisadores se concentram em descobrir novos genes codificadores porque geralmente é mais fácil encontrá-los do que provar que um gene previsto não produz proteínas. É como caçar tesouro—as pessoas se motivam mais a desenterrar ouro do que a peneirar sujeira.

Alguns grupos tentaram identificar genes que podem ter sido malclassificados. Numa análise inovadora, pesquisadores descobriram que muitos genes recém-annotados se pareciam mais com RNA não codificante do que com genes codificadores. Um grupo até estimou que havia cerca de 20.500 genes codificadores, enquanto outro previu que eram menos de 20.000. É como uma briga de família—não tem um vencedor claro!

Ao longo dos anos, pesquisadores sinalizaram milhares de genes como potenciais não codificadores, levando a uma frenesi de reclassificação. Alguns genes foram reclassificados várias vezes à medida que novas evidências surgiram. É como um jogo de cadeira musical sem fim—toda vez que a música para, alguém perde o lugar!

Unindo as Listas

Pra resolver essa situação complicada, os pesquisadores uniram os três principais conjuntos de referência (Ensembl/GENCODE, RefSeq e UniProtKB) pra criar uma lista de genes mais unificada. Ao fazer isso, descobriram que haviam anotado cerca de 22.210 genes codificadores. Mas, curiosamente, um em cada oito genes codificadores anotados não recebeu um carimbinho de aprovação de todos os três grupos. É como receber três opiniões diferentes sobre sua roupa—um ama, outro odeia, e o terceiro simplesmente fica confuso.

Após mais refinamento e análise, descobriram que o número de genes listados nos três conjuntos era na verdade menor do que na fusão anterior. De fato, os pesquisadores identificaram 2.606 genes onde não houve consenso sobre o status de codificação. Esses genes ainda estão discutindo se pertencem ou não ao clube dos codificadores.

Status de Codificação: O Veredito

Entre os genes que foram anotados como codificadores, cerca de 19.267 foram considerados codificadores por todos os três grupos de pesquisa. Mas, pros genes restantes, o processo de classificação revelou vários status como genes read-through, Pseudogenes e outros, mostrando que a situação de codificação pode ser bem complexa. É como separar roupa suja—você acha que tem uma carga clara de brancos, mas logo encontra uma meia vermelha perdida no meio!

Pra determinar o status desses genes que não se cruzaram, os pesquisadores examinaram as anotações dos genes dos conjuntos de referência e encontraram status comuns. Alguns genes foram classificados como genes read-through, o que significa que todos os seus transcritos eram transcritos read-through, enquanto outros foram considerados pseudogenes—praticamente, genes que perderam sua funcionalidade ao longo do tempo.

O Que São Características Potenciais Não Codificantes?

Na busca contínua por clareza, os pesquisadores definiram características potenciais não codificantes para genes codificadores. Eles reuniram dados de várias fontes e estabeleceram critérios pra ajudar a identificar genes que podem não se encaixar no perfil de codificação. Essas características agem como sinalizadores, apontando genes que podem não ser candidatos à produção de proteínas.

Usando medidas estatísticas como razões entre não sinônimos e sinônimos, os pesquisadores avaliaram quais genes atendiam aos critérios de serem potenciais não codificantes. Eles diminuíram sua lista suspeita, levando à identificação de 1.118 genes na análise mais recente.

Por Que Alguns Genes Escapam?

Você pode se perguntar—por que os genes são malclassificados como codificadores quando deveriam ser marcados como não codificantes? Isso acontece porque alguns genes podem ter mostrado anteriormente alguns sinais de codificação, mas faltam evidências que sustentem isso.

Por exemplo, genes que são sinalizados como pseudogenes podem ainda ter quadros de leitura abertos intactos, mas a falta de evidências de proteínas funcionais é uma pista crucial sobre sua verdadeira natureza. É como uma estrela de cinema que ainda tem fãs, mesmo sem aparecer em nada recentemente. A glória do passado não significa que ainda estão em ação!

O Mistério dos Genes Read-Through

Genes read-through merecem uma menção especial. Esses genes são uma categoria única onde todos os seus transcritos são classificados como read-through. Esses genes frequentemente causam alvoroço, pois às vezes podem ser confundidos com genes codificadores verdadeiros. Mas, na real, eles podem não produzir proteínas funcionais de jeito nenhum.

Os pesquisadores continuam examinando o status de codificação dos genes read-through, e muitos acreditam que esses genes deveriam ser reclassificados. À medida que mais evidências surgem, o cenário dos genes codificadores continua a mudar, e os cientistas estão animados pra refinar suas listas e garantir precisão.

A Busca pelo Consenso

Os pesquisadores estão cientes de que ter um entendimento consensual do número de genes codificadores é crucial pra comunidade científica. Isso é importante não só para pesquisas básicas, mas também pra aplicações clínicas. Se houver muitos genes malclassificados no conjunto de referência, isso pode tornar experimentos biomédicos em larga escala confusos, levando a resultados errôneos.

Conforme os cientistas trabalham juntos pra harmonizar suas listas, eles esperam chegar a um conjunto final de genes codificadores autênticos aprovado. Esse projeto requer colaboração e comunicação aberta entre vários grupos de pesquisa pra garantir que todos estejam na mesma página. Afinal, tentar jogar um jogo onde todo mundo tem regras diferentes não é nada divertido!

O Cenário em Mudança dos Genes Codificadores

Com os avanços na tecnologia e mais dados se tornando disponíveis, o cenário dos genes codificadores tá em constante evolução. Os pesquisadores agora estão focando em alguns dos genes menores, que não foram muito estudados, pois podem ter potencial pra novas codificações de proteínas. Muitos pesquisadores acreditam que o foco em pequenos ORFs está apenas começando e pode haver mais descobertas logo ali.

A recente conclusão da montagem do CHM13, que identificou uma porção de novos genes, também gerou empolgação na comunidade de pesquisa. Embora muitos desses novos genes venham de famílias grandes e duplicadas, a introdução deles no campo poderia mudar nossa compreensão dos genes codificadores.

Conclusão: O Futuro da Anotação Gênica

O processo de detectar e validar genes codificadores é um esforço complexo e contínuo que requer colaboração, mente aberta e, mais importante, paciência. A cada nova análise, os pesquisadores estão montando o quebra-cabeça e refinando sua compreensão do genoma humano.

Enquanto eles continuam a trabalhar nas discrepâncias entre os bancos de dados e a refinar suas listas de genes codificadores, os pesquisadores permanecem esperançosos de que eventualmente conseguirão alcançar uma imagem clara e precisa do que constitui um gene codificador no nosso genoma. Então, enquanto a busca pode parecer assustadora, é uma que os cientistas estão mais do que prontos pra enfrentar—armados com evidências, colaboração e, quem sabe, até algumas pausas pra café no caminho.

Fonte original

Título: More than 2,500 coding genes in the human reference gene set still have unsettled status

Resumo: In 2018 we analysed the three main repositories for the human proteome, Ensembl/GENCODE, RefSeq and UniProtKB. They disagreed on the coding status of one of every eight annotated coding genes. The analysis inspired bilateral collaborations between annotation groups. Here we have repeated our analysis with updated versions of the three reference coding gene sets. Superficially, little appears to have changed. Although there are slightly fewer genes predicted as coding overall, the three groups still disagree on the status of 2,606 annotated genes. However, a comparison without read-through genes and immunoglobulin fragments shows that the three reference sets have merged or reclassified more than 700 genes since the last analysis and that just 0.6% of Ensembl/GENCODE coding genes are not also annotated by the other two reference sets. We used eight features indicative of non-coding genes to examine the 21,873 coding genes annotated across the three reference sets. We found that more than 2,000 had one or more potential non-coding features. While some of these genes will be protein coding, we believe that most are likely to be non-coding genes or pseudogenes. Our results suggest that annotators still vastly overestimate the number of true coding genes.

Autores: Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress

Última atualização: 2024-12-09 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.12.05.626965

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.12.05.626965.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes