Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genómica

A Busca Contínua por Genes Humanos Faltando

Os cientistas continuam a procurar por territórios desconhecidos no genoma humano.

Jose Manuel Rodriguez, Miguel Maquedano, Daniel Cerdan-Velez, Enrique Calvo, Jesús Vazquez, Michael L. Tress

― 7 min ler


Caçando Genes HumanosCaçando Genes HumanosFaltandoreconhecidos.Uma imersão no mistério dos genes não
Índice

O Genoma humano, que é tipo um projeto pra toda a nossa biologia, avançou bastante em mapear nossos Genes. Algumas partes importantes do genoma foram preenchidas direitinho, principalmente as seções complicadas conhecidas como regiões heterocromáticas e o cromossomo Y, tudo por causa de um grupo chamado consórcio T2T. Mas ainda tem muita lacuna no catálogo dos genes humanos - pense nisso como um quebra-cabeça que ainda tá faltando algumas peças.

Por que ainda faltam peças?

O motivo da lista de genes incompleta é meio parecido com uma briga de família entre bancos de dados de referência. Esses bancos deveriam nos dizer quais genes realmente produzem Proteínas, mas nem sempre eles concordam. Algumas estimativas dizem que a gente poderia ter entre 19.000 e 35.000 genes que codificam proteínas, mas as contagens mais recentes indicam pouco mais de 19.000. É como contar ovelhas e descobrir que algumas pularam a cerca e sumiram.

Curiosamente, tem uma nova evidência vindo do perfilamento de ribossomos, que é uma maneira chique de estudar como as proteínas são feitas. Essa pesquisa sugere que pode haver um número impressionante de regiões de produção de proteínas não reconhecidas no nosso genoma, com alguns relatos indicando que podem existir até 7.000 novos concorrentes que poderiam aumentar o número de genes conhecidos que codificam proteínas em cerca de 30%. É como encontrar um nível bônus em um vídeo game que você não sabia que existia!

Novos atores no show das proteínas

Nesse reino desses potenciais novos genes, temos alguns personagens notáveis como APELA, MIURF e MYMX. Esses nomes podem soar como a formação de uma banda, mas representam novos tipos de genes que os pesquisadores estão de olho. O ponto chave que conecta esses genes não é o tamanho deles - alguns são surpreendentemente longos - mas a capacidade de serem rastreados pela evolução. No entanto, também é verdade que a maioria dos novos genes descobertos não tem esse histórico evolutivo, o que significa que eles podem ser um pouco misteriosos.

Olhando para o desconhecido

Uma observação notável é que muitos dos genes que os pesquisadores estão tentando identificar podem não ser tão importantes quanto pareciam a princípio. Muitos podem ser apenas mudanças ao longo do tempo que não realmente contribuem com nada essencial pra nossa biologia. Essa situação leva a uns pensamentos engraçados sobre quantas vezes os cientistas podem estar indo na direção errada ao tentar reconhecer proteínas novas.

O problema com a detecção de proteínas

Quando tentam fazer sentido desse quebra-cabeça complexo de proteínas, os pesquisadores mergulharam em algo chamado proteômica, que estuda proteínas em grande escala. Infelizmente, muitas proteínas recém-identificadas não estão aparecendo nos achados de proteômica, o que levanta sobrancelhas. Se a gente acha que essas proteínas são reais, deveríamos ver alguma evidência sólida delas. Mas um estudo recente encontrou apenas alguns poucos matches.

Uma razão possível pra essas proteínas não estarem sendo capturadas pode ser problemas no processo de detecção científica. Proteínas menores ou até aquelas com aminoácidos incomuns podem escapar. Ou talvez as proteínas estejam sendo produzidas, mas desaparecendo rapidamente devido à degradação, meio como aquela meia que sempre some na secadora.

Uma caça ao tesouro no PeptideAtlas

Pra descobrir mais sobre essas proteínas elusivas, os cientistas usaram um recurso chamado PeptideAtlas, que funciona como um mapa do tesouro para proteínas que estavam escondidas. Ao vasculhar esse banco de dados, os pesquisadores esperavam detectar proteínas que de algum jeito tinham perdido a catalogação principal.

Depois de filtrar uma tonelada de dados, eles encontraram um tesouro de mais de 13.000 novos Peptídeos, ou fragmentos de proteínas, que não estavam mapeados pra nenhum gene conhecido. Porém, a realidade é que muitas dessas peptonas acabaram se mostrando variações de proteínas que já são conhecidas. Então, enquanto parecia que tinham encontrado uma nova ilha no mapa, foi mais como descobrir uma versão ligeiramente alterada de uma ilha que você já conhecia.

O caso das proteínas não humanas

Em uma reviravolta engraçada, os pesquisadores também se depararam com proteínas que não deveriam estar lá de jeito nenhum - proteínas de moscas da fruta, camundongos e até de bactérias! Essa confusão acidental pode ser comparada a encontrar um mamute lanoso encolhido na sua geladeira - completamente fora de lugar. Como isso aconteceu? Parece que houve alguma contaminação cruzada durante os experimentos, provavelmente por causa dos pesquisadores misturando amostras sem querer.

A busca por genes novos

Depois de desviar das distrações de caminhos errados e desvios, os pesquisadores se concentraram em cerca de 34 potenciais novos genes que codificam proteínas que estavam completamente faltando do catálogo principal. Alguns desses genes parecem ter evidências credíveis que apoiam sua existência, enquanto outros parecem ser resultados de erros passados ou eventos aleatórios.

Um candidato em particular, GBA3, chamou atenção porque tem as características de uma proteína, mas também carrega uma mudança de quadro que sugere que não deve ser funcional. É meio como tentar ler um livro onde algumas páginas estão faltando!

A luta pela validade

A jornada através do banco de dados PeptideAtlas não é só sobre coletar dados, mas também sobre validação. Os pesquisadores vasculham essas entradas pra determinar se elas representam proteínas genuínas, variantes mal classificadas ou até mesmo vestígios de antigos caminhos biológicos. Esse processo é como uma história de detetive, com os pesquisadores juntando pistas pra descobrir a verdade por trás de cada entrada.

Depois de uma análise cuidadosa, parece que muitas entradas provavelmente são proteínas mal identificadas ou vestígios de proteínas que não desempenham mais um papel na fisiologia humana. Algumas são realmente descobertas intrigantes, enquanto outras parecem ser produto de erros na anotação de genes que duraram demais.

As peculiaridades das proteínas aberrantes

Ainda mais curioso são as proteínas que parecem aparecer só em células cancerígenas. É como encontrar um clube secreto de proteínas que só se reúnem em circunstâncias anormais. Muitas dessas entradas sugerem que elas poderiam ser produtos de tradução aberrante, ou simplesmente variações anormais que surgem devido à natureza caótica das células cancerígenas.

Conclusão: O mapa genético em constante expansão

No fim das contas, a busca pelos genes humanos é uma estrada sinuosa cheia de paradas, recomeços e muitos desvios peculiares. Algumas descobertas têm um real potencial, enquanto outras podem ser só um caso de identidade equivocada. À medida que continuamos a cavar mais fundo na nossa composição genética, cada nova descoberta pode mudar nossa compreensão do que significa ser humano. É um momento emocionante na genética, parecido com estar à beira de descobrir um novo continente - só que em vez de terra, estamos desenterrando a intrincada teia da vida que nos torna quem somos.

E quem sabe? A próxima reviravolta nessa história genômica pode revelar uma nova camada de complexidade - ou um novo elenco de personagens que compõem nossa história biológica. A aventura continua!

Fonte original

Título: A deep audit of the PeptideAtlas database uncovers evidence for unannotated coding genes and aberrant translation

Resumo: The human genome has been the subject of intense scrutiny by experimental and manual curation projects for more than two decades. Novel coding genes have been proposed from large-scale RNASeq, ribosome profiling and proteomics experiments. Here we carry out an in-depth analysis of an entire proteomics database. We analysed the proteins, peptides and spectra housed in the human build of the PeptideAtlas proteomics database to identify coding regions that are not yet annotated in the GENCODE reference gene set. We find support for hundreds of missing alternative protein isoforms and unannotated upstream translations, and evidence of cross-contamination from other species. There was reliable peptide evidence for 34 novel unannotated open reading frames (ORFs) in PeptideAtlas. We find that almost half belong to coding genes that are missing from GENCODE and other reference sets. Most of the remaining ORFs were not conserved beyond human, however, and their peptide confirmation was restricted to cancer cell lines. We show that this is strong evidence for aberrant translation, raising important questions about the extent of aberrant translation and how these ORFs should be annotated in reference genomes.

Autores: Jose Manuel Rodriguez, Miguel Maquedano, Daniel Cerdan-Velez, Enrique Calvo, Jesús Vazquez, Michael L. Tress

Última atualização: 2024-11-15 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.11.14.623419

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.11.14.623419.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes