Sequenciamento de RNA: Uma Chave para Expressão Gênica
Aprenda como o sequenciamento de RNA revela a atividade genética pra pesquisa e medicina.
― 6 min ler
Índice
O sequenciamento de RNA, ou RNA-seq, é uma técnica poderosa usada pelos cientistas para estudar a expressão gênica. Esse método permite que os pesquisadores analisem todo o conjunto de moléculas de RNA em uma amostra, o que dá uma ideia de como os genes estão ativos em determinado momento. Entender a atividade gênica é crucial em várias áreas da biologia e medicina, incluindo pesquisa sobre câncer, doenças genéticas e biologia do desenvolvimento.
O que é RNA-seq?
RNA-seq envolve converter RNA em DNA complementar (CDNA), que é sequenciado usando tecnologia de sequenciamento em alta capacidade. As sequências resultantes são analisadas para determinar quais genes estão expressos e em qual extensão. Esse processo gera uma grande quantidade de dados, que devem ser cuidadosamente processados e analisados.
Passos no RNA-seq
- Preparação da Amostra: O RNA é extraído das células ou tecidos de interesse.
- Síntese de cDNA: O RNA é convertido em cDNA.
- Sequenciamento: O cDNA é sequenciado para gerar dados brutos.
- Processamento de Dados: Os dados brutos são processados para mapear as sequências em um genoma de referência e quantificar a expressão gênica.
Processamento de Dados no RNA-seq
A etapa de processamento de dados é crucial. Ela pega os dados brutos de sequenciamento e os compara a um genoma ou transcriptoma de referência. Isso é feito para identificar quais genes estão expressos na amostra e quanto de cada gene está presente. Existem várias ferramentas de software disponíveis para ajudar nesse processamento de dados.
Ferramentas de Software para RNA-seq
- Kallisto: Esse software faz um mapeamento rápido das sequências de RNA para um transcriptoma de referência usando um método chamado pseudoalinhamento. Isso permite a quantificação eficiente da expressão gênica.
- Bustools: Essa ferramenta processa a saída do Kallisto e corrige erros nos códigos de barras, lidando com identificadores moleculares únicos (UMIs) para RNA-seq de célula única.
- Kb-python: Essa é uma ferramenta auxiliar que ajuda os usuários a rodar Kallisto e Bustools facilmente. Ela simplifica os processos em linha de comando envolvidos e combina vários dados em formatos que são fáceis de analisar.
O Papel do Kallisto
Ao usar o Kallisto, um índice deve ser construído a partir de um conjunto de sequências de RNA de referência. Esse índice é usado para mapear as sequências de RNA obtidas na etapa de sequenciamento. O processo de mapeamento identifica quais sequências correspondem a quais genes. O Kallisto usa um método baseado em grafo para garantir que esse mapeamento seja eficiente e rápido.
O Papel do Bustools
Depois que o Kallisto mapeia as sequências de RNA, o Bustools assume. Ele organiza os resultados e corrige erros nos códigos de barras ou UMIs. O Bustools também pode transformar os resultados do mapeamento em arquivos de quantificação, que fornecem uma visão clara de quais genes estão expressos e seus níveis.
Usando Kb-python
O Kb-python facilita a execução do Kallisto e do Bustools, requerendo apenas alguns comandos para gerar os índices e mapas necessários. Ele cria automaticamente os arquivos exigidos para o usuário, permitindo que usuários menos experientes façam análises de RNA-seq sem precisar de muito conhecimento em ciência da computação.
Tipos de RNA-seq
Existem diferentes tipos de RNA-seq, cada um adequado para aplicações específicas:
- Bulk RNA-seq: Esse método analisa uma mistura de RNA de muitas células, fornecendo uma visão média da expressão gênica.
- Single-cell RNA-seq: Essa técnica examina RNA de células individuais, oferecendo uma visão detalhada das diferenças entre as células.
- Single-nucleus RNA-seq: Semelhante ao single-cell RNA-seq, mas foca nos núcleos das células, permitindo a análise da expressão gênica em amostras onde a célula inteira não pode ser analisada.
Visão Geral do Fluxo de Trabalho
Construindo um Índice
Para analisar dados de RNA-seq, o primeiro passo é construir um índice usando o Kb-python. Isso envolve fornecer arquivos específicos:
- Um arquivo FASTA do genoma, que contém as sequências de todo o genoma.
- Um arquivo GTF, que fornece informações sobre a estrutura dos genes.
O comando kb ref no Kb-python é usado para construir o índice. Dependendo do tipo de análise, os usuários podem especificar diferentes fluxos de trabalho que ditam como o índice é criado.
Mapeamento de Reads
Uma vez que o índice está construído, os reads do experimento de RNA-seq podem ser mapeados usando o comando kb count. Esse processo inclui especificar o tipo de tecnologia usada durante o sequenciamento, a orientação da fita e se os reads são pareados ou de fita simples.
Os usuários também podem fornecer uma lista de códigos de barras usados para identificar células individuais ao realizar RNA-seq de célula única. O Bustools é então usado para gerenciar esses reads, corrigir códigos de barras e gerar matrizes de contagem que resumem os níveis de expressão gênica.
Arquivos de Saída
Após processar os dados de RNA-seq usando o Kb-python, vários arquivos de saída são gerados:
- Matrizes de Contagem: Estas resumem quantas vezes cada gene foi detectado na amostra.
- Códigos de Barras: Listas de códigos de barras associados às células ou amostras analisadas.
- Nomes e IDs de Genes: Informações sobre os genes representados nas matrizes de contagem.
Analisando Dados de RNA-seq
A análise dos dados pode ser realizada usando várias ferramentas de software, dependendo da questão de pesquisa. Análises comuns incluem:
- Análise de Expressão Diferencial: Identificar quais genes são expressos de forma diferente em condições (por exemplo, saudável vs. doente).
- Análise de Agrupamento: Agrupar células com perfis de expressão semelhantes para identificar tipos ou estados celulares distintos.
- Análise de Caminhos: Explorar caminhos biológicos que podem estar afetando a expressão gênica.
Conclusão
RNA-seq é uma ferramenta poderosa que fornece insights sobre a expressão gênica em um nível de detalhe que não é possível com técnicas mais antigas. Com a ajuda de ferramentas de software modernas como Kallisto, Bustools e Kb-python, os pesquisadores conseguem processar grandes conjuntos de dados de maneira eficiente e obter valiosos insights biológicos. À medida que a tecnologia RNA-seq continua a evoluir, é provável que encontre novas aplicações em muitas áreas da biologia e medicina.
Título: kallisto, bustools, and kb-python for quantifying bulk, single-cell, and single-nucleus RNA-seq
Resumo: The term "RNA-seq" refers to a collection of assays based on sequencing experiments that involve quantifying RNA species from bulk tissue, from single cells, or from single nuclei. The kallisto, bustools, and kb-python programs are free, open-source software tools for performing this analysis that together can produce gene expression quantification from raw sequencing reads. The quantifications can be individualized for multiple cells, multiple samples, or both. Additionally, these tools allow gene expression values to be classified as originating from nascent RNA species or mature RNA species, making this workflow amenable to both cell-based and nucleus-based assays. This protocol describes in detail how to use kallisto and bustools in conjunction with a wrapper, kb-python, to preprocess RNA-seq data.
Autores: Lior Pachter, D. K. Sullivan, K. H. Min, K. E. Hjörleifsson, L. Luebbert, G. Holley, L. Moses, J. Gustafsson, N. L. Bray, H. Pimentel, A. S. Booeshaghi, P. Melsted
Última atualização: 2024-01-23 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.11.21.568164
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.11.21.568164.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.