Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Um Novo Método para Comparar Sequências de DNA e Proteínas

Esse artigo fala sobre uma nova abordagem pra alinhamento de sequências na pesquisa biológica.

― 7 min ler


Novo Método deNovo Método deAlinhamento de DNAnas comparações de sequências.Abordagem inovadora melhora a precisão
Índice

Na biologia, os cientistas geralmente querem encontrar conexões entre diferentes cadeias de DNA ou proteínas. Isso é importante porque pode ajudar a entender como os seres vivos estão relacionados ou como certas características são transmitidas. Pra isso, eles usam métodos que comparam sequências de nucleotídeos (os blocos de construção do DNA) ou proteínas.

Como Funciona a Comparação

A comparação geralmente começa definindo alguns escores básicos. Por exemplo, quando dois nucleotídeos combinam, eles podem receber um escore positivo. Se não combinam, recebem um escore negativo. Buracos na sequência, onde faltam nucleotídeos, também afetam o escore. O objetivo é encontrar Alinhamentos que tenham altos escores, significando que as sequências comparadas provavelmente estão relacionadas.

A razão pela qual esse método funciona é que ele é baseado em Probabilidades. Os cientistas analisam com que frequência certas sequências combinam, não combinam ou têm buracos. Usando essas probabilidades, eles podem avaliar quais alinhamentos são mais prováveis de serem significativos.

O Problema com Métodos Tradicionais

Métodos tradicionais de alinhamento focam em encontrar o melhor alinhamento, mas olham apenas para um caso específico. Isso pode deixar passar outras possíveis relações, já que algumas conexões podem não ter o maior escore, mas ainda assim podem ser significativas. Basicamente, confiar apenas em um alinhamento limita as informações que os cientistas podem reunir.

Um método mais abrangente consideraria todos os possíveis alinhamentos e calcularia um escore total. Isso significa que cada potencial alinhamento contribui para uma compreensão mais ampla de como as sequências podem estar relacionadas. No entanto, muitas ferramentas existentes não usam esse método porque pode ser complicado de implementar em softwares típicos.

Vantagens de Somar Probabilidades

Quando os pesquisadores somam as probabilidades de muitos alinhamentos diferentes, eles conseguem ter uma visão mais completa da relação entre duas sequências. Esse método leva em conta todas as diferentes maneiras que as sequências poderiam estar relacionadas, ao invés de apenas a melhor combinação.

Além disso, saber o escore de similaridade ajuda a determinar se duas sequências estão realmente relacionadas ou se qualquer combinação pode ser apenas uma questão de sorte. Isso é importante porque similaridades podem surgir de sequências não relacionadas que têm composições similares, ao invés de uma ancestralidade compartilhada.

Limitações das Ferramentas Existentes

Embora alguns programas, como HMMER, usem técnicas mais avançadas baseadas em probabilidades, eles podem ser muito complexos para uso geral. O HMMER é projetado para comparar uma sequência curta com um banco de dados muito maior, o que é diferente de comparar duas sequências longas com muitas potenciais similaridades.

Portanto, encontrar uma abordagem equilibrada que possa ser facilmente usada em uma variedade de contextos é crucial. Muitos métodos existentes não comparam efetivamente as probabilidades de vários alinhamentos, o que prejudica sua capacidade de reconhecer relações mais sutis.

Uma Nova Abordagem

Uma nova abordagem pode substituir algumas das complexidades dos métodos tradicionais somando as probabilidades de vários alinhamentos. Esse método simplifica o processo e pode ser facilmente adicionado a softwares existentes sem um aumento significativo na dificuldade ou no tempo de execução.

Isso significa que os pesquisadores podem avaliar quão provável é que duas regiões de sequência estejam relacionadas sem precisar calcular cada possível alinhamento explicitamente. Em vez disso, eles podem olhar para o panorama geral, o que oferece uma compreensão mais clara das relações envolvidas.

A Importância dos Parâmetros de Alinhamento

Escolher os parâmetros certos para pontuar os alinhamentos é vital. A eficácia da pontuação depende da definição precisa das probabilidades para combinações, discrepâncias e buracos. Se essas probabilidades estiverem bem ajustadas às sequências que estão sendo examinadas, então os resultados serão mais confiáveis.

Na prática, os parâmetros são frequentemente estimados a partir de sequências conhecidas que estão relacionadas. Dessa forma, os pesquisadores podem gerar escores que refletem a verdadeira probabilidade de similaridade com base em dados biológicos reais.

Entendendo os Escores de Similaridade

Usar um método de pontuação eficaz ajuda a julgar se um escore de similaridade é provável de ocorrer por acaso. Por exemplo, se duas sequências são comparadas e geram um certo escore, é importante saber se esse escore seria esperado entre duas sequências completamente não relacionadas.

Isso é feito por meio de cálculos complexos, mas o princípio é simples: um escore de similaridade alto sugere uma relação potencial, enquanto um escore baixo pode indicar que qualquer aparente similaridade é apenas uma coincidência.

Testando o Novo Método

A eficácia do novo método foi testada contra sequências biológicas reais. Ao comparar genomas de diferentes organismos ou pedaços de proteínas, os pesquisadores descobriram que o método podia prever exatamente escores que combinavam com os valores esperados de sequências aleatórias. Essa validação mostra que a abordagem pode ser aplicada efetivamente na prática.

Considerações Adicionais

Em algumas situações, um escore de similaridade alto poderia indicar uma conexão ancestral genuína ou apenas similaridades em viés de composição. Para eliminar confusões desses viés, os pesquisadores podem inverter uma das sequências e comparar as duas. Se encontrarem escores altos mesmo depois de inverter, isso indica que as similaridades provavelmente são devido ao viés, e não a verdadeiras relações biológicas.

Por outro lado, técnicas eficazes de mascaramento podem remover áreas tendenciosas antes das comparações para deixar os achados mais claros. Isso garante que as verdadeiras relações sejam destacadas sem interferência de similaridades não relacionadas.

Sensibilidade e Especificidade

Um dos grandes avanços do novo método é a capacidade de manter a sensibilidade enquanto também calcula valores E de forma eficaz. Valores E indicam a probabilidade de encontrar um escore de similaridade puramente por acaso. A nova abordagem tende a atribuir valores E menores para os mesmos alinhamentos em comparação com métodos tradicionais, significando que pode encontrar verdadeiras relações com mais confiança.

No entanto, o novo método pode ser menos eficaz em cenários específicos onde as sequências têm similaridades significativas. Se as sequências comparadas forem altamente similares, isso pode mascarar a evidência de parentesco, levando a valores E mais altos.

Conclusão

Entender como encontrar partes relacionadas de sequências de DNA e proteínas é vital para muitas áreas da pesquisa biológica. Embora os métodos tradicionais tenham fornecido uma base para essas comparações, técnicas mais novas que somam as probabilidades de múltiplos alinhamentos podem oferecer uma visão mais clara e abrangente das relações entre sequências.

Ao melhorar os métodos de alinhamento e garantir que os parâmetros usados sejam devidamente definidos, os pesquisadores podem revelar insights mais profundos sobre as conexões entre diferentes organismos e genes. Isso, por sua vez, avança nossa compreensão geral da biologia e da evolução.

Fonte original

Título: A simple theory for finding related sequences by adding probabilities of alternative alignments

Resumo: The main way of analyzing genetic sequences is by finding sequence regions that are related to each other. There are many methods to do that, usually based on this idea: find an alignment of two sequence regions, which would be unlikely to exist between unrelated sequences. Unfortunately, it is hard to tell if an alignment is likely to exist by chance. Also, the precise alignment of related regions is uncertain. One alignment does not hold all evidence that they are related. We should consider alternative alignments too. This is rarely done, because we lack a simple and fast method that fits easily into practical sequence-search software. Here is described a simplest-possible change to standard sequence alignment, which sums probabilities of alternative alignments. Remarkably, this makes it easier to tell if a similarity is likely to occur by chance. This approach is better than standard alignment at finding distant relationships, at least in a few tests. It can be used in practical sequence-search software, with minimal increase in implementation difficulty or run time. It generalizes to different kinds of alignment, e.g. DNA-versus-protein with frameshifts. Thus, it can widely contribute to finding subtle relationships between sequences.

Autores: Martin C Frith

Última atualização: 2024-04-14 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2023.09.26.559458

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.09.26.559458.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes