Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genómica

Novas Descobertas Sobre Elementos Genéticos Ocultos

Estudo revela possíveis papéis dos uORFs na expressão gênica e na função das proteínas.

― 5 min ler


uORFs: As Extensões deuORFs: As Extensões deGene Escondidasfunções das proteínas.ampliar genes existentes, melhorando asPesquisas mostram que uORFs podem
Índice

Estudos recentes mostraram que os humanos têm cerca de 20.000 Genes que codificam Proteínas. Mas pode ter milhares de genes menores que ainda não conseguimos identificar totalmente. Esses genes menores, chamados de upstream open reading frames (UORFs), costumam estar perto de genes já existentes e podem estar ligados a eles de alguma maneira. Até agora, só alguns desses novos genes potenciais foram reconhecidos oficialmente em grandes bancos de dados genéticos humanos.

Um grande ponto de confusão é o que exatamente são esses uORFs. A ideia de que eles representam proteínas completamente novas sugere que eles criariam Transcrições incomuns no nosso DNA, o que não é muito comum. Até agora, só dez casos desse tipo foram documentados oficialmente. Para investigar isso, os pesquisadores se perguntaram se os uORFs não são proteínas separadas, mas sim extensões de genes conhecidos. Isso significaria que eles poderiam estar conectados a genes existentes sem precisar adicionar muitos novos à nossa lista.

Para testar essa ideia, os pesquisadores buscaram sinais específicos no DNA que mostrassem como esses uORFs estão ligados aos genes relacionados. Eles verificaram padrões que indicam splicing, que é como pedaços de RNA são juntados para criar um gene funcional. Trabalhos anteriores mostraram algumas evidências de que certos uORFs poderiam, de fato, codificar proteínas, mas ainda não é uma prova definitiva.

Para encontrar mais evidências de sequências de proteínas existentes, os pesquisadores começaram compilando uma lista de possíveis novas regiões codificadoras de proteínas de vários estudos. Uma grande parte desses dados veio de experimentos que acompanhavam ribossomos, que são responsáveis por construir proteínas. Muitos desses uORFs estavam localizados em áreas que antes eram consideradas apenas espaço vazio nos genes, geralmente no início das transcrições codificadoras.

Os pesquisadores se concentraram naqueles uORFs que foram confirmados em pelo menos dois estudos, o que os levou a um conjunto menor e mais confiável de 2.199 uORFs potenciais.

Checando a Conservação dos uORFs

Como os humanos são geneticamente muito parecidos, se um uORF é uma parte real dos nossos genes, ele deve ser encontrado de forma consistente em diferentes genomas humanos. Os pesquisadores verificaram isso alinhando as sequências de um genoma humano de referência com vários outros. Eles precisavam garantir que os uORFs estivessem presentes no mesmo lugar do DNA e que correspondessem no RNA que expressava aqueles genes.

Depois de alinhar os uORFs a vários genomas, descobriram que uma grande maioria, 87,8%, foi preservada em todos os genomas analisados. Essa consistência sugere que esses uORFs podem realmente representar partes válidas do nosso código genético.

Construindo Novas Transcrições

O próximo passo foi procurar junções de splice-conexões entre diferentes partes do RNA. Usando uma mistura de dados experimentais e previsões de programas de computador, os pesquisadores montaram novas sequências codificadoras de proteínas que poderiam estar ligadas aos uORFs. Eles garantiram que qualquer nova sequência que construíssem correspondesse de perto em comprimento e estrutura aos genes existentes.

Os pesquisadores identificaram milhares de possíveis novas junções entre esses uORFs e genes codificadores de proteínas existentes. Eles construíram quase 5.000 novas transcrições com base nessas conexões.

Avaliando Estruturas de Proteínas

Usando ferramentas avançadas para prever como as proteínas se dobram, os pesquisadores examinaram as novas proteínas feitas a partir dessas transcrições conectadas aos uORFs. Eles usaram um sistema de pontuação para avaliar a qualidade das estruturas de proteínas previstas. Se uma nova proteína tinha uma pontuação alta semelhante à de sua referência, era provável que fosse funcional. Eles se concentraram especialmente em casos onde as novas proteínas mostraram estruturas melhoradas em comparação com seus correspondentes de referência.

Entre as novas proteínas, muitas mostraram melhorias estruturais, como alongamento ou aperto de certas partes da proteína. Isso sugere que as novas proteínas podem ser variantes funcionais melhores do que entendíamos antes.

Mudanças Comuns na Estrutura da Proteína

A mudança comum que os pesquisadores notaram foi a "truncagem das extremidades", onde regiões específicas não estruturadas das proteínas foram removidas. Isso frequentemente resultou em melhor estabilidade e função, como visto em diferentes exemplos. Às vezes, adicionar novos componentes estruturais como hélices alfa ou folhas beta também levou a resultados melhores na dobra da proteína.

Os pesquisadores acompanharam quantas dessas mudanças ocorreram e encontraram uma variedade de melhorias. Essas melhorias sugerem que essas novas variantes de proteínas poderiam funcionar efetivamente dentro do corpo.

Conclusão sobre os uORFs e Seu Potencial

A principal conclusão dessa pesquisa é que muitos desses uORFs, em vez de serem genes totalmente novos, podem servir como extensões de genes existentes. Ao conectar uORFs com genes conhecidos, os pesquisadores podem adicionar novas camadas de variação proteica ao nosso entendimento da genética humana sem necessariamente introduzir vastas novas categorias de genes.

Com uma abordagem estruturada usando várias linhas de evidência, os pesquisadores esperam esclarecer o papel desses uORFs na biologia humana. Estudos futuros são necessários para continuar examinando essas regiões para entender melhor sua importância e relação com genes existentes. As descobertas são promissoras e podem levar a novas avenidas na pesquisa genética, especialmente na compreensão de como variações podem impactar a função da proteína e, em última análise, a saúde humana.

Fonte original

Título: Upstream open reading frames may contain hundreds of novel human exons

Resumo: Several recent studies have presented evidence that the human gene catalogue should be expanded to include thousands of short open reading frames (ORFs) appearing upstream or downstream of existing protein-coding genes, each of which would comprise an additional bicistronic transcript in humans. Here we explore an alternative hypothesis that would explain the translational and evolutionary evidence for these upstream ORFs without the need to create novel genes or bicistronic transcripts. We examined 2,199 upstream ORFs that have been proposed as high-quality candidates for novel genes, to determine if they could instead represent protein-coding exons that can be added to existing genes. We checked for the conservation of these ORFs in four recently sequenced, high-quality human genomes, and found a large majority (87.8%) to be conserved in all four as expected. We then looked for splicing evidence that would connect each upstream ORF to the downstream protein-coding gene at the same locus, thus creating a novel splicing variant using the upstream ORF as its first exon. These protein coding exon candidates were further evaluated using protein structure predictions of the protein sequences that included the proposed new exons. We determined that 582 out of 2,199 upstream ORFs have strong evidence that they can form protein coding exons that are part of an existing gene, and that the resulting protein is predicted to have similar or better structural quality than the currently annotated isoform. Author SummaryWe analyzed over 2000 human sequences that have been proposed to represent novel protein-coding genes, and that reside just upstream of known genes. These "upstream ORFs" (uORFs) would represent a surprisingly large addition to the human gene catalogue, which after decades of refinement now contains just under 20,000 protein-coding genes. They would also create over 2000 new bicistronic genes, which number only 10 in current human annotation databases. We hypothesized that rather than novel genes, these sequences might instead represent novel exons that can be spliced into existing protein-coding genes, creating new isoforms of those genes. Using a combination of transcriptional evidence and computational predictions, we show that at least 582 of the previously-described uORFs can be used to create novel protein-coding exons, generating new transcripts and new protein isoforms, but not requiring the addition of entirely new genes to the human gene catalogue. We also demonstrate that the predicted three-dimensional structure of some of the new protein isoforms hints at new or improved functions for existing proteins.

Autores: Hyun Joo Ji, S. L. Salzberg

Última atualização: 2024-04-01 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.22.586333

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.22.586333.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes