Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Transformando o SRA: O Conjunto de Dados Logan

O projeto Logan torna os dados SRA mais acessíveis e usáveis pra pesquisa.

― 7 min ler


Transformações de DadosTransformações de DadosLogan Acesso SRAacesso a uma vasta informação genômica.Novo conjunto de dados facilita o
Índice

O Sequence Read Archive (SRA) é a maior coleção de sequências de DNA e RNA. Até dezembro de 2023, ele tem cerca de 50 petabits de informações brutas de sequenciamento, que é cerca de 20 petabytes quando comprimido. Isso é muito maior que o GenBank, outro banco de dados importante para dados biológicos. Por causa do seu tamanho gigante, baixar todos os dados do SRA com uma internet rápida levaria cerca de seis meses. A maioria das instituições não consegue lidar com esse volume de dados localmente, limitando o acesso a apenas pequenas partes do SRA.

O SRA contém uma grande variedade de informações genômicas, incluindo amostras de projetos humanos, linhagens celulares, amostras ambientais e sequências virais. Alguns estudos examinaram grupos específicos dentro do SRA para aprender mais sobre certos organismos. Por exemplo, um estudo encontrou muitas mais espécies virais de RNA do que se conhecia antes, analisando dados de antes de 2020. Outras ferramentas oferecem sobreviews taxonômicos e conseguem buscar organismos específicos dentro de subconjuntos do SRA.

Desafios de Acesso ao SRA

Devido ao seu tamanho, encontrar informações específicas no SRA pode ser complicado. Alguns grupos têm trabalhado em criar métodos para pesquisar no SRA de forma mais eficiente. Um método envolveu o uso de recursos de computação em nuvem poderosos para processar dados de RNA, mas levava vários dias para cada busca. Outros métodos foram desenvolvidos para filtrar partes do SRA para amostras específicas.

Vários bancos de dados também oferecem acesso a sequências genômicas montadas com base em dados do SRA. Embora alguns tenham um número menor de amostras, o SRA contém mais de 27 milhões de acessos, fazendo com que essas outras coleções pareçam pequenas.

A Necessidade de Transformação

Dado que o SRA é grande demais para ser explorado completamente em seu estado atual, uma mudança significativa é necessária para tornar os dados mais utilizáveis. Um novo projeto assumiu a meta de montar dados de todo o SRA usando recursos eficazes em nuvem. Processando os dados brutos, eles criaram sequências montadas que são mais curtas e reduziram o tamanho total dos dados. Esse projeto resultou em um novo conjunto de dados, Logan, que torna as buscas por sequências no SRA mais acessíveis e gerenciáveis.

Como Funciona o Processo de Montagem

A equipe criou uma infraestrutura em nuvem para realizar a montagem em larga escala dos dados do SRA. Cada sequência foi processada individualmente em um fluxo de trabalho sistemático. Primeiro, as leituras foram baixadas do SRA, depois montadas em sequências mais curtas chamadas Unitigs e sequências mais longas conhecidas como Contigs. Essas sequências foram então comprimidas e armazenadas em um lugar público para acesso de outras pessoas.

Com essa configuração, eles conseguiram completar a montagem do genoma para milhões de acessos. O tempo total de processamento foi de cerca de 30 milhões de horas de CPU.

Resultados da Montagem

A montagem produziu dois tipos de resultados: unitigs e contigs. Contigs são sequências mais longas que representam o consenso das informações genômicas encontradas nas leituras. Unitigs são sequências mais curtas derivadas dos contigs e incluem algumas sequências adicionais que foram vistas nas leituras várias vezes.

Até dezembro de 2023, eles montaram mais de 27 milhões de acessos em unitigs, que representam cerca de 96% do tamanho total do SRA. Além disso, cerca de 26,8 milhões de acessos foram montados em contigs, contabilizando cerca de 88% do tamanho total do SRA.

Comparando o Conjunto de Dados Logan com Outros

O conjunto de dados montados, Logan, é o maior conjunto de sequências montadas do SRA até hoje. Ele é significativamente maior do que outros bancos de dados de sequências montadas. Enquanto esforços anteriores para indexar o SRA trouxeram resultados úteis, o conjunto de dados Logan é de uma magnitude maior, tornando-se um recurso substancial para pesquisadores.

Alinhamento de Sequências Através do SRA

O conjunto de dados Logan também foi usado para alinhamento de sequências contra vários alvos. Um banco de dados foi criado a partir de sequências virais conhecidas e marcadores genéticos específicos. Alinhando os contigs de Logan contra esse banco de dados de referência, os pesquisadores conseguiram reunir uma tonelada de informações sobre a presença de sequências específicas dentro dos acessos do SRA.

Esse alinhamento revelou novos dados sobre a diversidade viral. Por exemplo, o projeto detectou muito mais casos de certos vírus nos acessos do que esforços anteriores haviam encontrado. Esse conhecimento ampliado pode levar a uma melhor compreensão de como esses organismos estão distribuídos em diferentes ambientes.

Seleção de Dados de Entrada

Para criar o conjunto de dados Logan, a equipe selecionou amostras do SRA que foram tornadas públicas em 10 de dezembro de 2023. Eles se concentraram em amostras com comprimentos de leitura superiores a 31 pares de bases para garantir a usabilidade no processo de montagem.

Ferramentas de Montagem Usadas

Para construir os unitigs e contigs, foram usadas ferramentas específicas conhecidas por serem eficientes e amigáveis à memória. Essas ferramentas ajudaram a construir as sequências e a reduzir erros na montagem.

Os pesquisadores utilizaram uma versão modificada de uma ferramenta de montagem existente que permitiu estimar quantidades de certas sequências dentro dos dados. Eles também usaram uma segunda ferramenta para criar os contigs a partir dos unitigs e filtraram sequências mais curtas que provavelmente eram erros.

Infraestrutura em Nuvem para Montagem

A montagem foi realizada usando uma infraestrutura baseada em nuvem. Essa configuração permitiu o processamento simultâneo de muitos acessos do SRA, tornando o processo de montagem geral rápido e eficiente. A arquitetura em nuvem era composta por várias partes que trabalhavam juntas para gerenciar grandes quantidades de dados.

Usando o Amazon Web Services, a equipe executou containers em vários computadores em nuvem. Painéis especializados foram configurados para monitorar o progresso e garantir que a execução ocorresse sem problemas.

Qualidade de Dados e Avaliação

Após a montagem, várias métricas padrão foram usadas para avaliar a qualidade dos resultados. Isso incluiu contar o número de unitigs e contigs, medir seus comprimentos e checar o tamanho dos arquivos comprimidos. As informações coletadas foram armazenadas em um banco de dados e tornadas acessíveis para futuras pesquisas.

Embora a maioria das sequências estivesse corretamente montada, um pequeno problema foi notado com certas sequências que foram marcadas incorretamente como circulares. Apesar desse erro, as informações contidas no conjunto de dados Logan continuam sendo biologicamente valiosas.

Direções Futuras

O conjunto de dados Logan guarda uma riqueza de informações que podem ser exploradas mais a fundo. Pesquisadores podem usar esses dados para realizar estudos mais detalhados sobre uma variedade de organismos. Ao continuar analisando as sequências montadas, os cientistas podem expandir seu entendimento sobre a diversidade genética e as relações entre diferentes espécies.

Conclusão

O projeto Logan representa um avanço significativo na capacidade de acessar e analisar dados do SRA. Embora o conjunto de dados original seja grande demais para ser totalmente manipulado, transformá-lo em um formato mais gerenciável permite que os pesquisadores busquem novas oportunidades de exploração. Este conjunto de dados não só facilita a busca em grandes volumes de dados, mas também abre a porta para estudos mais abrangentes sobre a diversidade biológica.

Fonte original

Título: Logan: Planetary-Scale Genome Assembly Surveys Life's Diversity

Resumo: The NCBI Sequence Read Archive (SRA) is the largest public repository of DNA sequencing data, containing the most comprehensive snapshot of Earths genetic diversity to date. As its size exceeds 50.0 petabases across >27 million sequencing datasets, the entirety of these data cannot be searched for genetic sequences of interest in a reasonable time. To drastically increase the accessibility of this data we perform genome assembly over each SRA dataset using massively parallel cloud computing. The resulting Logan assemblage is the largest dataset of assembled sequencing data to date, and we believe will enable a new-era of accessible petabase-scale computational biology inquiry. We provide free and unrestricted access to the Logan assemblage and disseminate these datasets to foster early adoption. To illustrate the usefulness of Logan we align a diverse set of sequence queries across all of the SRA, completing queries in as little as 11 hours.

Autores: Rayan Chikhi, B. Raffestin, A. Korobeynikov, R. C. Edgar, A. Babaian

Última atualização: 2024-07-31 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.07.30.605881

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.30.605881.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes