Entendendo a Expansão do Genoma Humano
Avanços recentes na catalogação dos genomas humanos e de camundongos revelam novas informações.
Gazaldeep Kaur, Tamara Perteghella, Sílvia Carbonell-Sala, Jose Gonzalez-Martinez, Toby Hunt, Tomasz Mądry, Irwin Jungreis, Carme Arnan, Julien Lagarde, Beatrice Borsari, Cristina Sisu, Yunzhe Jiang, Ruth Bennett, Andrew Berry, Daniel Cerdán-Vélez, Kelly Cochran, Covadonga Vara, Claire Davidson, Sarah Donaldson, Cagatay Dursun, Silvia González-López, Sasti Gopal Das, Matthew Hardy, Zoe Hollis, Mike Kay, José Carlos Montañés, Pengyu Ni, Ramil Nurtdinov, Emilio Palumbo, Carlos Pulido-Quetglas, Marie-Marthe Suner, Xuezhu Yu, Dingyao Zhang, Jane E. Loveland, M. Mar Albà, Mark Diekhans, Andrea Tanzer, Jonathan M. Mudge, Paul Flicek, Fergal J Martin, Mark Gerstein, Manolis Kellis, Anshul Kundaje, Benedict Paten, Michael L. Tress, Rory Johnson, Barbara Uszczynska-Ratajczak, Adam Frankish, Roderic Guigó
― 11 min ler
Índice
- Os Primeiros Dias do Sequenciamento do Genoma
- O Chute dos Números de Genes
- O Projeto ENCODE: Mapeando o Mapa do DNA
- A Estabilidade dos Genes Codificadores de Proteínas
- A Busca por Dados Melhores de lncRNA
- A Importância de Anotações Completas de lncRNA
- A Grande Revelação: Novos Genes e Transcritos
- A Importância das Anotações de Genes
- Focando o Transcritoma Não Codificador Longo
- O Processo de Criação de Modelos de Transcrito
- Como os lncRNAs São Diferentes?
- A Busca por um Catálogo Unificado de lncRNA
- Expandindo o Conhecimento Através da Ortologia
- Aumentando Nossa Compreensão do Genoma
- O Papel da Transcrição
- Compreendendo as Modificações de Histona
- Ligação de Fatores de Transcrição
- O Potencial para Tradução Não Canônica
- Conectando Variantes Genômicas a Características
- Conservação de Sequências Através das Espécies
- Encontrando Precursores de RNA Pequeno
- Finalizando: A Importância da Pesquisa Contínua
- Fonte original
O genoma humano é como um manual de instruções gigante que diz aos nossos corpos como crescer, se desenvolver e funcionar. Imagina que seu corpo é um carro; o genoma seria o manual do proprietário detalhando como cada parte funciona e o que fazer quando algo dá errado. Esse manual é cheio de informações guardadas no nosso DNA, que é o material genético que nos torna quem somos.
Os Primeiros Dias do Sequenciamento do Genoma
Em 2001, os cientistas publicaram rascunhos iniciais do genoma humano, como os primeiros capítulos de um livro longo. Avançando vinte anos, eles criaram uma versão completa desse manual, incluindo milhões de genomas individuais. Pense nisso como finalmente terminando sua série favorita de livros!
As informações guardadas nesses genomas são extremamente valiosas. Elas ajudam os cientistas a aprender mais sobre a biologia humana e a desenvolver novas maneiras de tratar doenças. Contudo, para entender essas informações, os pesquisadores precisavam de um mapa confiável de genes - uma ferramenta para ajudá-los a descobrir como variações no DNA podem afetar nossas características, como um GPS ajuda você a se localizar na cidade.
O Chute dos Números de Genes
Quando os pesquisadores começaram a chutar quantos genes os humanos têm, suas estimativas variavam muito. Alguns diziam entre 30.000 e 40.000 genes, enquanto outros achavam que era entre 27.000 e 39.000. Era como tentar contar todas as balas de goma em um pote - cada um tinha um palpite diferente!
O Projeto ENCODE: Mapeando o Mapa do DNA
Para ajudar a entender todas essas informações genéticas, um projeto conhecido como Projeto ENCODE foi iniciado. Pense no ENCODE como um grupo de exploradores aventureiros tentando mapear todas as seções importantes do nosso DNA que têm funções específicas. Não muito depois, um esforço companheiro chamado GENCODE foi criado para catalogar todos os genes e suas várias versões, como uma enciclopédia para o DNA.
Com o passar dos anos, o GENCODE se tornou uma referência chave junto com outro projeto chamado RefSeq. Essas coleções são como a biblioteca definitiva que os cientistas consultam quando falam sobre genes.
A Estabilidade dos Genes Codificadores de Proteínas
Por um bom tempo, o número de genes codificadores de proteínas listados no GENCODE se manteve estável. Esses são os genes responsáveis por produzir proteínas que ajudam nossos corpos a funcionar. Por outro lado, os genes de RNA longo não codificadores (lncRNA) têm surgido em números crescentes desde 2007. Embora pareça que esse crescimento esteja desacelerando, os LncRNAs estão provando ser jogadores importantes em vários processos biológicos e até doenças.
A Busca por Dados Melhores de lncRNA
Apesar dos avanços na catalogação de genes codificadores de proteínas, os lncRNAs ainda estão um pouco bagunçados. Muitos catálogos diferentes foram criados ao longo dos anos, mas muitas vezes usam métodos inconsistentes e diferentes fontes de dados. É como tentar criar uma playlist com músicas de vários serviços, onde algumas músicas estão faltando ou rotuladas incorretamente.
Alguns projetos, como FANTOM CAT e CHESS, reuniram mais dados sobre lncRNAs, mas o GENCODE não utilizou totalmente essas informações devido a preocupações com a precisão. Isso resultou em um cenário confuso de anotações de lncRNA, o que pode atrasar a pesquisa nessa área.
A Importância de Anotações Completas de lncRNA
Para resolver o problema das anotações incompletas de lncRNA, o GENCODE fez disso uma prioridade criar um catálogo de lncRNAs de comprimento total. Eles implementaram uma estratégia chamada Sequenciamento de Longo Alcance (CLS) para melhorar sua coleta. Eles até projetaram uma matriz especial para capturar diferentes versões de lncRNA e identificar genes desconhecidos nos genomas humano e de camundongo.
Usando tecnologias de sequenciamento avançadas e coletas de amostras bem planejadas, os pesquisadores fizeram avanços significativos nessa área. Eles analisaram vários tecidos de humanos e camundongos, como cérebro, fígado e coração, o que lhes permitiu gerar uma riqueza de novos dados.
A Grande Revelação: Novos Genes e Transcritos
Graças a esses esforços, o GENCODE adicionou impressionantes 17.931 novos genes humanos e 22.784 novos genes de camundongo ao seu catálogo. Essa é a maior expansão nas anotações de genes desde que os genomas humano e de camundongo foram inicialmente esboçados. Esses novos genes têm características que sugerem que eles realmente desempenham um papel no corpo humano. Os pesquisadores descobriram que estão ligados a certas características também, dando ainda mais credibilidade aos novos dados.
A Importância das Anotações de Genes
Ter um catálogo completo e preciso de genes é crucial para entender como nossos corpos funcionam. Ao adicionar novos genes ao catálogo do GENCODE, os cientistas podem fornecer contexto para milhões de peças de dados genéticos que antes estavam sem explicação. É como encontrar as peças que faltavam em um quebra-cabeça que de repente traz toda a imagem em foco.
Focando o Transcritoma Não Codificador Longo
O objetivo da pesquisa mais recente tem sido criar um recurso abrangente para lncRNAs. A equipe do GENCODE projetou uma matriz de direcionamento que captura uma ampla gama de regiões não codificadoras, incluindo vários tipos de lncRNA. Eles se concentraram em um grande número de genes, tentando garantir que todas as partes importantes fossem incluídas em seus esforços.
Para alcançar isso, eles prepararam bibliotecas de vários tecidos, combinaram-nas com várias tecnologias de sequenciamento e geraram impressionantes 104 conjuntos de dados diferentes. Esses dados coletados levaram a um forte suporte para as regiões direcionadas, o que significou que conseguiram extrair informações significativas sobre os genes.
O Processo de Criação de Modelos de Transcrito
Para criar modelos a partir dos dados de RNA coletados, os pesquisadores desenvolveram uma pipeline chamada LyRic. Esse sistema ajudou a construir um conjunto abrangente de modelos de transcritos que cobriu uma enorme variedade de amostras. O que descobriram foi que geraram mais de 526.000 modelos de transcritos para humanos e 483.000 para camundongos - uma verdadeira mina de informação!
Dentre eles, um número significativo era novo, ou seja, nunca havia sido identificado antes. A equipe de pesquisa notou que muitos desses novos modelos mostraram fortes sinais de serem sequências de transcritos genuínas. Eles também foram encontrados como específicos de tecido, o que significa que podem ter funções únicas em diferentes partes do corpo.
Como os lncRNAs São Diferentes?
Embora este estudo tenha se concentrado principalmente em lncRNAs, eles também descobriram cerca de 100.000 modelos novos que se conectavam a genes codificadores de proteínas conhecidos. Essas descobertas sugerem que pode haver ainda mais proteínas não descobertas escondidas em nosso DNA! Alguns dos novos genes codificadores de proteínas identificados foram detectados em tecidos como o testículo, o que indica seu possível envolvimento em funções biológicas específicas.
A Busca por um Catálogo Unificado de lncRNA
O principal objetivo desta pesquisa era criar um catálogo completo de lncRNAs de humanos e camundongos. Através de suas estratégias inovadoras, os pesquisadores conseguiram aumentar significativamente o número de anotações de lncRNA no catálogo do GENCODE. É como transformar o que antes era uma pequena biblioteca em uma coleção enorme de livros!
Apesar do aumento na contagem de lncRNAs, muitos ainda estão ausentes do catálogo atualizado. Esse esforço contínuo representa um avanço significativo, mas ainda há mais trabalho a ser feito para criar uma imagem ainda mais abrangente.
Expandindo o Conhecimento Através da Ortologia
Para entender melhor as relações entre espécies, os pesquisadores também trabalharam no mapeamento da ortologia de lncRNA entre humanos e camundongos. Esse processo revelou um grande número de possíveis contrapartes genéticas entre essas duas espécies. Ao identificar essas relações, os cientistas podem explorar melhor como os lncRNAs podem influenciar a biologia humana através de estudos em camundongos.
Aumentando Nossa Compreensão do Genoma
Anotações precisas de genes não apenas ajudam a compreender como os genes funcionam, mas também as muitas maneiras como eles podem variar entre indivíduos. Com suas descobertas mais recentes, os pesquisadores demonstraram como expandir o catálogo do GENCODE melhora nossa compreensão do que acontece em nossos genomas quando eles mudam.
Transcrição
O Papel daNo total, os pesquisadores descobriram mais de 80.000 novos locais de início de transcrição (TSSs) dentro do nosso genoma. Esses TSSs indicam onde a transcrição dos genes começa e podem revelar novas informações sobre como os genes são ativados em diferentes tecidos. O estudo mostrou que muitos desses novos TSSs estavam ligados a genes ativos, demonstrando que o catálogo expandido fornece insights valiosos sobre como os genes são controlados.
Compreendendo as Modificações de Histona
As modificações de histona desempenham um papel crucial na regulação da expressão gênica. Os pesquisadores descobriram que a maioria dos TSSs recém-identificados foi apoiada por elementos regulatórios candidatos (cCREs), que ajudam a determinar quando os genes são ligados ou desligados. Esse apoio adicional melhora a compreensão da regulação gênica tanto em humanos quanto em camundongos.
Ligação de Fatores de Transcrição
Fatores de transcrição são proteínas que ajudam a iniciar a transcrição de genes. O estudo encontrou que muitos dos novos TSSs foram cobertos por picos de dados de ligação de fatores de transcrição. Isso indica que esses TSSs são provavelmente ativos e importantes para a expressão gênica.
O Potencial para Tradução Não Canônica
Curiosamente, os pesquisadores descobriram que alguns lncRNAs também podem conter pequenas estruturas de leitura abertas não canônicas (ncORFs) que podem ser traduzidas em proteínas. Eles identificaram muitos novos ncORFs com assinaturas de tradução em seus lncRNAs. Isso sugere que os lncRNAs podem ter mais funções do que se pensava anteriormente, abrindo portas para áreas inteiras de novas pesquisas.
Conectando Variantes Genômicas a Características
Os pesquisadores examinaram os dados para ver quão bem as variantes genéticas associadas (de estudos GWAS) se alinhavam com os lncRNAs recém-descobertos. Eles encontraram uma densidade sólida de hits de GWAS dentro das fronteiras dos novos lncRNAs, indicando uma ligação entre variações genéticas e características observáveis.
Conservação de Sequências Através das Espécies
De modo geral, os lncRNAs tendem a ser menos conservados do que os genes codificadores de proteínas, significando que suas sequências podem variar amplamente entre diferentes espécies. No entanto, os lncRNAs recém-identificados mostraram níveis mais altos de conservação em comparação com anotações mais antigas. Isso sugere que alguns lncRNAs podem desempenhar papéis vitais que foram mantidos ao longo da evolução.
Encontrando Precursores de RNA Pequeno
RNAs pequenos, como microRNAs, podem se originar de longas sequências de RNA. Os pesquisadores identificaram precursores adicionais de RNA pequeno dentro de seus lncRNAs recém-anotados, aumentando o número de hospedeiros de microRNA conhecidos. Essa área de pesquisa mostra como diferentes tipos de RNA podem estar profundamente interconectados.
Finalizando: A Importância da Pesquisa Contínua
A história do genoma humano está longe de acabar. À medida que os pesquisadores continuam a descobrir novos genes e refinar suas anotações, eles ampliam nossa compreensão da genética, biologia humana e doenças. Cada nova informação adiciona à grande tapeçaria da vida e ajuda a abrir caminho para futuras descobertas em medicina e biologia. Então, vamos brindar ao nosso DNA - aqui está para a busca contínua pelo conhecimento sobre o que nos torna humanos!
Título: GENCODE: massively expanding the lncRNA catalog through capture long-read RNA sequencing
Resumo: Accurate and complete gene annotations are indispensable for understanding how genome sequences encode biological functions. For twenty years, the GENCODE consortium has developed reference annotations for the human and mouse genomes, becoming a foundation for biomedical and genomics communities worldwide. Nevertheless, collections of important yet poorly-understood gene classes like long non-coding RNAs (lncRNAs) remain incomplete and scattered across multiple, uncoordinated catalogs, slowing down progress in the field. To address these issues, GENCODE has undertaken the most comprehensive lncRNAs annotation effort to date. This is founded on the manual annotation of full-length targeted long-read sequencing, on matched embryonic and adult tissues, of orthologous regions in human and mouse. Altogether 17,931 novel human genes (140,268 novel transcripts) and 22,784 novel mouse genes (136,169 novel transcripts) have been added to the GENCODE catalog representing a 2-fold and 6-fold increase in transcripts, respectively - the greatest increase since the sequencing of the human genome. Novel gene annotations display evolutionary constraints, have well-formed promoter regions, and link to phenotype-associated genetic variants. They greatly enhance the functional interpretability of the human genome, as they help explain millions of previously-mapped "orphan" omics measurements corresponding to transcription start sites, chromatin modifications and transcription factor binding sites. Crucially, our targeted design assigned human-mouse orthologs at a rate beyond previous studies, tripling the number of human disease-associated lncRNAs with mouse orthologs. The expanded and enhanced GENCODE lncRNA annotations mark a critical step towards deciphering the human and mouse genomes.
Autores: Gazaldeep Kaur, Tamara Perteghella, Sílvia Carbonell-Sala, Jose Gonzalez-Martinez, Toby Hunt, Tomasz Mądry, Irwin Jungreis, Carme Arnan, Julien Lagarde, Beatrice Borsari, Cristina Sisu, Yunzhe Jiang, Ruth Bennett, Andrew Berry, Daniel Cerdán-Vélez, Kelly Cochran, Covadonga Vara, Claire Davidson, Sarah Donaldson, Cagatay Dursun, Silvia González-López, Sasti Gopal Das, Matthew Hardy, Zoe Hollis, Mike Kay, José Carlos Montañés, Pengyu Ni, Ramil Nurtdinov, Emilio Palumbo, Carlos Pulido-Quetglas, Marie-Marthe Suner, Xuezhu Yu, Dingyao Zhang, Jane E. Loveland, M. Mar Albà, Mark Diekhans, Andrea Tanzer, Jonathan M. Mudge, Paul Flicek, Fergal J Martin, Mark Gerstein, Manolis Kellis, Anshul Kundaje, Benedict Paten, Michael L. Tress, Rory Johnson, Barbara Uszczynska-Ratajczak, Adam Frankish, Roderic Guigó
Última atualização: 2024-10-31 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.29.620654
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.29.620654.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.