Analisando Indels: Perspectivas sobre Padrões Evolutivos
Um estudo investiga o papel dos indels na evolução dos mamíferos e no alinhamento de sequências de proteínas.
― 8 min ler
Índice
Os genomas dos seres vivos podem mudar com o tempo. Uma das formas dessas mudanças acontecerem é através de eventos de Inserção e Deleção, muitas vezes chamados de Indels. Essas alterações podem influenciar bastante a evolução das espécies. Hoje em dia, graças a formas melhores de ler o DNA, os cientistas conseguem estudar esses indels em detalhes.
Em espécies que são bem próximas, há muito mais indels do que eventos de substituição, que são mudanças mais comuns nas sequências. Na verdade, uma parte significativa do genoma humano - cerca de um quarto - é composta por indels, a maior parte deles sendo bem curtos. Os indels podem acontecer tanto em regiões codificantes (as partes do DNA que instruem as células a produzir proteínas) quanto em regiões não codificantes (as partes que não codificam proteínas). No entanto, eles aparecem muito mais nas partes não codificantes. O efeito que os indels têm sobre a função das proteínas geralmente é maior do que o das substituições, que é por isso que eles são menos comuns nas regiões codificantes. Mesmo assim, alguns indels codificantes prejudiciais permanecem na população humana e podem causar doenças.
Quando os cientistas comparam a evolução das sequências entre diferentes espécies, eles marcam os indels como lacunas nas sequências alinhadas. À medida que as espécies se afastam, alguns indels podem se combinar e sobrepor, dificultando o rastreamento de sua história. Ainda assim, essas lacunas guardam informações cruciais para o estudo da evolução, desde que sejam analisadas corretamente. O desafio está em criar modelos adequados para representar como as inserções e deleções ocorrem, e ainda não existe um padrão amplamente aceito na área. Muitos estudos ou ignoram completamente os indels ou cortam partes das sequências que estão cheias deles. Para entender os eventos individuais de inserção e deleção com base nas lacunas em um conjunto de sequências, os cientistas precisam de modelos complexos de evolução que incorporem esses processos ao longo do tempo.
Modelos Evolutivos de Indels
Modelos tradicionais descrevem substituições (outro tipo de mudança) usando ferramentas que presumem que cada local opera de forma independente. No entanto, isso não se aplica aos indels, já que cada inserção ou deleção pode afetar múltiplos caracteres ao mesmo tempo. Modelos que incluem indels tendem a ser computacionalmente exigentes.
O modelo TKF91 foi um dos primeiros a olhar para os indels de uma forma diferente ao não presumir que os locais são independentes. Ele representa indels de um único caractere usando um tipo de processo de nascimento-morte. No entanto, o TKF91 tem dificuldades com a complexidade de calcular probabilidades à medida que o número de espécies aumenta. O modelo PIP foi introduzido como um método mais simples e prático. Ele trata as inserções como vindo de um processo aleatório, enquanto as deleções se encaixam em um modelo de Markov. Isso torna os cálculos mais gerenciáveis, permitindo que os pesquisadores o utilizem para estudar relações evolutivas. Contudo, assim como o modelo TKF91, o PIP foca apenas em indels de um único caractere, o que significa que pode perder a visão geral quando indels mais longos ocorrem.
Existem alguns modelos mais avançados que permitem indels mais longos, mas eles tendem a ser mais lentos e menos práticos para grandes conjuntos de dados. Mesmo assim, o modelo PIP continua sendo útil para estudos práticos, pois se mostrou eficaz em manter a precisão na análise de padrões de indels, mesmo que simplifique eventos mais longos.
Objetivos do Estudo
Usar um modelo explícito de como os indels evoluem é útil. No entanto, modelos muito simples também podem levar a problemas, como estimativas incorretas de quão frequentemente os indels ocorrem. Nosso estudo tem como objetivo verificar se usar a suposição de um único caractere no modelo PIP impacta negativamente a forma como reconstruímos sequências ancestrais.
Para resultados precisos, é crucial começar com dados de boa qualidade. Como a qualidade dos alinhamentos de sequências pode variar, decidimos usar o PRANK, um software que alinha sequências considerando suas relações evolutivas.
Neste estudo, analisamos várias sequências de proteínas de seis espécies diferentes de mamíferos para conferir se há viés no modelo PIP. Escolhemos essas espécies específicas porque suas relações são bem conhecidas, mesmo que a história exata dos indels não seja.
Analisando Dados de Mamíferos
Analisamos mais de 12.000 grupos de proteínas, cada um contendo uma sequência de cada uma das seis espécies de mamíferos. As sequências foram alinhadas e reconstruímos sequências ancestrais com base nos alinhamentos inferidos. Nosso método examina lacunas nessas sequências, permitindo que vejamos como o número de inserções e deleções varia entre diferentes linhagens.
Dentre os grupos de proteínas analisados, alguns não tinham lacunas nenhuma, enquanto outros mostraram lacunas significativas devido a indels. Descobrimos que a linhagem humana tinha a menor quantidade de lacunas, enquanto a linhagem de gorila tinha a maior, refletindo variações em suas histórias evolutivas.
Nós também investigamos o desequilíbrio entre inserções e deleções. Descobrimos que as deleções eram geralmente mais comuns entre todas as espécies, indicando um viés em como esses eventos ocorrem. Curiosamente, enquanto linhagens individuais tinham taxas diferentes de lacunas, o padrão geral mostrava que muitas linhagens ancestrais tinham um viés em favor das inserções.
Dinâmica do Comprimento das Sequências
Em seguida, examinamos como os comprimentos das sequências mudaram ao longo do tempo entre as espécies. Para vários grupos de proteínas, avaliamos a correlação entre os comprimentos das sequências e suas idades evolutivas. A maioria dos grupos não mostrou tendências significativas, mas alguns revelaram padrões de sequências encolhendo ou crescendo.
Além disso, queríamos ver se os comprimentos das lacunas mudaram em nossas sequências reconstruídas em comparação com as sequências originais. O objetivo era garantir que nosso método não biasse muito os comprimentos das lacunas.
Quando comparamos as distribuições de comprimento das lacunas nas sequências ancestrais em relação às sequências modernas, descobrimos que eram relativamente semelhantes. Essa análise sugeriu que nosso método preservou as características das sequências originais, o que é um resultado positivo.
Análise de Dados Simulados
Para verificar ainda mais nossas descobertas, usamos um programa de simulação para criar dados em condições controladas. Isso nos permitiu medir quão precisamente nossa reconstrução funcionou. Estabelecemos parâmetros realistas e examinamos quão bem o ARPIP poderia prever lacunas e a precisão geral das sequências.
Os resultados confirmaram que nosso método não só identificou a sequência histórica correta com precisão, mas também manteve uma precisão razoável na estimativa de lacunas.
Comparando com Outros Métodos
No passado, muitos métodos focavam principalmente em extrair caracteres ignorando os indels. Alguns tratavam lacunas como dados não confiáveis, o que poderia levar a resultados enganosos. Diferente desses métodos, o ARPIP trabalha para reconstruir tanto inserções quanto deleções usando um modelo apropriado que leva em consideração os indels.
Os métodos de alinhamento atualmente disponíveis são mais sofisticados quando se trata de indels longos. O software PRANK, por exemplo, faz um bom trabalho em distinguir inserções de deleções, o que beneficia a análise depois.
Conclusão
Nosso estudo demonstra que com as ferramentas e modelos certos, podemos analisar com precisão a evolução das sequências com indels. O método baseado em PIP mostra potencial para manter a estrutura das sequências com indels longos. Além disso, confirmamos que as deleções são mais frequentes que as inserções, alinhando-se a observações de várias pesquisas em biologia evolutiva.
Pesquisas futuras devem focar em refinar ainda mais os modelos para entender melhor como os comprimentos de indel diferem e melhorar a precisão das reconstruções de sequências ancestrais. Ao continuar a desenvolver métodos que capturem as complexidades da história evolutiva, podemos melhorar nossa compreensão da diversidade genética que vemos hoje.
Título: Single-character insertion-deletion model preserves long indels in ancestral sequence reconstruction
Resumo: Insertions and deletions (indels) play a significant role in genome evolution across species. Realistic modelling of indel evolution is challenging and is still an open research question. Several attempts have been made to explicitly model multi-character (long) indels, such as TKF92, by relaxing the site independence assumption and introducing fragments. However, these methods are computationally expensive On the other hand, the Poisson Indel Process (PIP) assumes site independence but allows one to infer single-character indels on the phylogenetic tree, distinguishing insertions from deletions. PIPs marginal likelihood computation has linear time complexity, enabling ancestral sequence reconstruction (ASR) with indels in linear time. Recently, we developed ARPIP, an ASR method using PIP, capable of inferring indel events with explicit evolutionary interpretations Here, we investigate the effect of the single-character indel assumption on reconstructed ancestral sequences on mammalian protein orthologs and on simulated data. We show that ARPIPs ancestral estimates preserve the gap length distribution observed in the input alignment. In mammalian proteins the lengths of inserted segments appear to be substantially longer compared to deleted segments. Further, we confirm the well-established deletion bias observed in real data To date, ARPIP is the only ancestral reconstruction method that explicitly models insertion and deletion events over time. Given a good quality input alignment, it can capture ancestral long indel events on the phylogeny
Autores: Gholamhossein Jowkar, J. Pecerska, M. Gil, M. Anisimova
Última atualização: 2024-03-27 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.09.584071
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.09.584071.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.