Melhorando a pesquisa de eDNA com o Navegador de Sequências de Referência
Uma nova ferramenta simplifica a busca por sequências de referência de DNA ambiental, ajudando os pesquisadores.
― 7 min ler
Índice
O DNA ambiental (EDNA) refere-se ao material genético obtido de amostras ambientais, ao invés de diretamente de organismos. Essa técnica tá ganhando espaço em várias áreas, incluindo ecologia, biologia da conservação e até o estudo da vida antiga. O eDNA permite que os cientistas coletem informações sobre diferentes espécies de forma não invasiva. Oferece vantagens significativas em relação aos métodos tradicionais, especialmente para estudar ambientes aquáticos, onde observar animais pode ser complicado.
Como Funciona o eDNA
O processo de usar eDNA começa coletando amostras do ambiente, como água ou solo. Depois, os cientistas extraem o DNA dessas amostras, que pode revelar a presença de vários organismos. O DNA extraído é analisado por meio de um procedimento chamado Reação em Cadeia da Polimerase (PCR), que ajuda a identificar diferentes espécies. Existem diferentes tipos de técnicas de PCR. Uma mira espécies específicas, enquanto outra, conhecida como Metabarcoding de DNA, avalia um número maior de espécies em uma amostra.
Um fator chave para usar eDNA de forma eficaz é a disponibilidade de sequências de DNA de referência. Essas sequências, armazenadas em bancos de dados públicos, ajudam os cientistas a relacionar as amostras ambientais com espécies conhecidas. Entretanto, muitos organismos ainda não têm essas sequências de referência, limitando a eficácia dos métodos de eDNA.
Desafios na Pesquisa de eDNA
Os cientistas costumam enfrentar desafios ao tentar encontrar as sequências de referência que precisam. Baixar sequências de bancos de dados públicos pode ser cansativo e demorado. Os pesquisadores podem passar dias procurando os dados certos, o que pode atrasar seus projetos. Alguns cientistas criam programas de computador para ajudar com isso, mas nem todo mundo tem habilidades em programação.
Além disso, os ecologistas geralmente recebem pouca formação em análise de dados e programação de computadores. Essa lacuna de habilidades pode dificultar o manejo eficiente de grandes quantidades de dados sequenciais. Muitos estudantes de graduação em áreas relacionadas podem não ter nenhuma formação formal em programação, que é crucial para analisar informações de eDNA.
Apresentando o Navegador de Sequências de Referência (RSB)
Para lidar com esses problemas, foi desenvolvido uma nova ferramenta chamada Navegador de Sequências de Referência (RSB). Esse aplicativo amigável permite que os cientistas busquem e baixem sequências de referência de bancos de dados importantes como NCBI e BOLD.
O RSB fornece uma interface gráfica que simplifica o processo de busca, tornando mais fácil para os pesquisadores encontrarem as informações de que precisam sem gastar muito tempo. Os usuários podem enviar seus próprios dados e ajustar os parâmetros de busca pela interface. Após completar uma busca, eles recebem um resumo dos resultados, junto com opções para baixar as sequências ou outras informações necessárias.
Como Usar o RSB
O RSB é dividido em várias seções. Cada seção corresponde a um banco de dados de referência diferente, permitindo que os usuários naveguem por eles facilmente. Os usuários podem enviar um arquivo contendo seus parâmetros de busca. Embora enviar um arquivo não seja obrigatório, é recomendado para buscas mais extensas.
Assim que uma busca é realizada, o RSB exibe uma tabela de resumo dos resultados. Essa tabela mostra quantas sequências foram encontradas para cada organismo e destaca quaisquer lacunas nos dados.
Além disso, o RSB inclui recursos que corrigem automaticamente erros nos nomes dos organismos, reduzindo a probabilidade de perder dados importantes. Os usuários podem baixar a tabela de resumo para analisar seus resultados de busca mais a fundo.
Características do RSB
O RSB fornece uma Matriz de Cobertura, que ajuda os usuários a visualizar quão bem os dados disponíveis atendem às suas necessidades. Cada linha representa um organismo diferente, enquanto cada coluna corresponde a um código de barras de DNA específico. Os números dentro da tabela mostram quantas sequências estão disponíveis para cada par organismo-código de barras. Esse layout permite que os usuários identifiquem rapidamente onde há dados insuficientes, para que possam ajustar suas buscas de acordo.
Recursos do Banco de Dados CRUX
A seção do banco de dados CRUX do RSB analisa especificamente as sequências de referência disponíveis para certos organismos. Ela pode mostrar aos cientistas quantas sequências estão presentes e em que nível taxonômico eles podem encontrar dados. Se não houver correspondências diretas disponíveis, o RSB buscará em níveis taxonômicos mais amplos até encontrar sequências relevantes ou confirmar que não existem sequências. Esse recurso ajuda os pesquisadores a avaliar se podem confiar nos bancos de dados públicos para seus estudos.
Recursos do Banco de Dados NCBI
Na parte do NCBI do RSB, os usuários podem examinar dados de sequências existentes para organismos e códigos de barras específicos. Essa seção permite que os usuários insiram os nomes dos organismos e especifiquem quais códigos de barras buscar. Após completar a busca, o RSB mostra quantas sequências foram encontradas e oferece opções para baixar os dados. Essa parte também permite que os usuários especifiquem requisitos de comprimento para as sequências, ajudando a filtrar resultados irrelevantes.
Recursos do Banco de Dados BOLD
A seção BOLD do RSB foca na cobertura de códigos de barras genéticos, permitindo que os usuários busquem as espécies que interessam. Os usuários podem inserir sua lista de espécies enviando um arquivo ou digitando no aplicativo. Após realizar a busca, o RSB mostrará quais espécies têm sequências de referência e permitirá que os usuários filtrem os resultados com base em fatores como o país de origem. Esse filtro ajuda a obter sequências únicas sem duplicar dados já encontrados no NCBI.
Casos de Uso para o RSB
O RSB tem várias aplicações práticas para cientistas que estudam eDNA. Aqui estão dois exemplos significativos:
1. Verificando a Disponibilidade de Sequências de Referência
Antes de iniciar qualquer estudo de eDNA, os pesquisadores precisam checar a disponibilidade de sequências de referência para as espécies que estão estudando. Com o RSB, os cientistas podem rapidamente ver quantas sequências estão disponíveis para cada espécie. Essa informação é crucial tanto para estudos de metabarcoding quanto para projetar novos primers específicos para certas espécies. Analisando as tabelas de resumo e a Matriz de Cobertura, os pesquisadores conseguem determinar quais códigos de barras cobrem bem seus organismos-alvo ou se precisam buscar em outros lugares por sequências.
2. Criando um Banco de Dados de Referência Local
Depois de avaliar referências online, os cientistas podem querer criar um banco de dados local de sequências relevantes para suas pesquisas. O RSB torna esse processo mais simples, permitindo downloads diretos de sequências do NCBI e BOLD. As sequências podem ser salvas em um formato compatível com várias ferramentas de alinhamento, facilitando a análise e o trabalho com os dados mais tarde.
Conclusão
O Navegador de Sequências de Referência (RSB) é uma ferramenta inovadora que aborda muitos desafios enfrentados pelos pesquisadores na área de DNA ambiental. Ao simplificar o processo de busca e download de sequências de referência, o RSB ajuda os cientistas a economizar tempo e focar em suas pesquisas principais. Embora o RSB não esteja isento de limitações, ele oferece recursos valiosos que podem aprimorar a pesquisa de eDNA, facilitando para os cientistas se conectarem com os dados de que precisam. Essa ferramenta representa um passo importante para fechar a lacuna entre estudos ecológicos e o crescente campo da bioinformática.
Título: Reference Sequence Browser: An R application with a User-Friendly GUI to rapidly query sequence databases
Resumo: Land managers, researchers, and regulators increasingly utilize environmental DNA (eDNA) techniques to monitor species richness, presence, and absence. In order to properly develop a biological assay for eDNA metabarcoding or quantitative PCR, scientists must be able to find not only reference sequences (previously identified sequences in a genomics database) that match their target taxa but also reference sequences that match non-target taxa. Determining which taxa have publicly available sequences in a time-efficient and accurate manner currently requires computational skills to search, manipulate, and parse multiple unconnected DNA sequence databases. Our team iteratively designed a Graphic User Interface (GUI) Shiny application called the Reference Sequence Browser (RSB) that provides users efficient and intuitive access to multiple genetic databases regardless of computer programming expertise. The application returns the number of publicly accessible barcode markers per organism in the NCBI Nucleotide, BOLD, or CALeDNA CRUX Metabarcoding Reference Databases. Depending on the database, we offer various search filters such as min and max sequence length or country of origin. Users can then download the FASTA/GenBank files from the RSB web tool, view statistics about the data, and explore results to determine details about the availability or absence of reference sequences.
Autores: Samuel L Rapp, S. Ramesh, J. Tapias Gomez, B. Levine, D. Tapias-Gomez, D. Chung, Z. Truong
Última atualização: 2024-07-29 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.09.20.558722
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.09.20.558722.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.