Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avanços na Previsão da Estrutura do RNA

Novas ferramentas melhoram as previsões de estrutura do RNA e ajudam a identificar homólogos falsos.

― 7 min ler


Inovações na Previsão daInovações na Previsão daEstrutura do RNARNA e detectam homologias falsas.Novas ferramentas melhoram previsões de
Índice

RNA, ou ácido ribonucleico, é super importante pra todos os seres vivos. Por um tempo, os cientistas achavam que o RNA só ajudava a fazer proteínas. Mas agora a gente sabe que o RNA tem várias outras funções, incluindo ajudar reações químicas e regular como os genes funcionam.

Os RNAs que não codificam proteínas são chamados de RNA não codificante, ou ncRNA. A estrutura de muitos tipos de ncRNA é fundamental pra suas funções na célula.

Como o RNA se Dobra

As moléculas de RNA tendem a se dobrar de um jeito específico. Primeiro, elas formam pares entre suas bases, que são os blocos de construção do RNA, e depois se moldam ainda mais formando conexões adicionais. O processo de dobra cria uma estrutura secundária, definida por pares como A-U, C-G e G-U. Na estrutura dobrada, as bases formam hélices, e as bases que não estão emparelhadas aparecem em laços.

Essa estrutura dobrada é parecida em diferentes espécies que têm um ancestral comum. Por isso, olhar pra estrutura pode ajudar a gente a entender o que o RNA faz.

Avanços no Estudo do RNA

Com métodos de sequenciamento mais avançados, os pesquisadores agora conseguem obter genomas completos e todo o RNA presente em um organismo. Essas técnicas facilitam a descoberta de novos tipos de RNA. Existem bancos de dados que coletam sequências de RNA e as categorizam em famílias baseadas em suas estruturas.

Pra aqueles NcRNAs que não pertencem a famílias conhecidas, a gente pode prever suas estruturas através de um processo chamado minimização de energia livre. Geralmente, as previsões funcionam bem pra sequências de RNA mais curtas.

No entanto, mesmo que as sequências de RNA possam mudar com o tempo, suas estruturas tendem a se manter. Prever a estrutura usando sequências de RNA relacionadas pode levar a previsões melhores.

Introduzindo o TurboFold

Pra facilitar as previsões de estrutura do RNA, foi desenvolvido uma ferramenta chamada TurboFold. O TurboFold analisa várias sequências de RNA semelhantes de uma vez, estimando como elas se alinham e prevendo as probabilidades de emparelhamento das bases. Ele melhora suas previsões através de uma série de etapas, refinando o alinhamento e a estrutura de forma iterativa.

TurboFold é mais sensível do que métodos tradicionais, ou seja, consegue identificar melhor a estrutura correta. Outras ferramentas também existem pra prever estruturas de RNA, e várias revisões cobrem esses métodos.

O Desafio de Identificar Sequências Homólogas

Pra prever a estrutura do RNA com precisão, é necessário um conjunto de sequências relacionadas. Porém, só usar a sequência muitas vezes não é suficiente. Diferente das proteínas, onde blocos de construção específicos têm propriedades distintas, as bases do RNA podem desempenhar papéis semelhantes, dificultando encontrar verdadeiros parentes, ou Homólogos.

Os pesquisadores desenvolveram ferramentas computacionais pra encontrar sequências semelhantes, mas às vezes têm que contar com conhecimento biológico pra identificar relacionamentos manualmente. Cada método tem o risco de identificar sequências de maneira errada.

O Problema com Homólogos Falsos

Uma preocupação em identificar famílias de RNA é a presença de homólogos falsos, conhecidos como iscas. Essas sequências não pertencem à família pretendida. Quando iscas se misturam com homólogos verdadeiros, isso afeta as previsões de estrutura. Se as iscas compõem uma parte significativa de um conjunto de sequências, pode reduzir a precisão das previsões.

Curiosamente, as saídas do TurboFold podem ajudar a detectar essas sequências de isca. Uma ferramenta chamada DecoyFinder foi criada pra usar os dados do TurboFold e uma abordagem de aprendizado de máquina pra detectar iscas. O DecoyFinder permite que os pesquisadores ajustem sua sensibilidade e especificidade, identificando iscas de forma eficaz enquanto garante que poucas homologias verdadeiras sejam mal classificadas.

Como o DecoyFinder Funciona

Pra encontrar iscas, o DecoyFinder usa características calculadas a partir da saída do TurboFold. Ele avalia cada sequência de RNA uma a uma e dá uma probabilidade de se a sequência é uma isca. Esse processo permite que os pesquisadores limpem seus dados antes de solidificar uma família de RNA.

Características do TurboFold

TurboFold, a ferramenta usada pra prever estruturas de RNA, analisa pares de sequências inicialmente usando um Modelo de Markov Oculto. Ele estima quão prováveis os nucleotídeos são de se emparelhar, refinando essas estimativas através de cálculos. Ao combinar vários fatores, ele gera um alinhamento múltiplo de sequências mais preciso e prevê estruturas de RNA.

O Papel das Pontuações de Correspondência

As pontuações de correspondência são usadas dentro do TurboFold pra avaliar quão semelhantes duas sequências alinhadas são. Geralmente, sequências homólogas mostram um padrão de emparelhamento específico, enquanto sequências de isca costumam ter padrões diferentes. Analisando as pontuações de correspondência, os pesquisadores podem separar verdadeiros homólogos de iscas.

O Aspecto de Aprendizado de Máquina

O DecoyFinder depende de aprendizado de máquina pra melhorar sua capacidade de identificar iscas. Ele foi treinado usando milhares de exemplos, incluindo tanto homólogos verdadeiros quanto iscas. Testando vários modelos de aprendizado de máquina, os pesquisadores descobriram que o Adaptive Boosting funcionou melhor pra suas necessidades.

O DecoyFinder combina várias características - como mudança de energia, entropia de sequência e variabilidade estrutural - pra fornecer uma avaliação precisa de se uma sequência pertence a uma família ou se é uma isca.

Aplicação Prática do DecoyFinder

O DecoyFinder é fácil de usar em conjunto com o TurboFold. Ele pode rodar ao lado do TurboFold ou analisar arquivos de saída do TurboFold de cálculos anteriores. Uma vez que ele identifica possíveis iscas, os pesquisadores podem remover essas sequências, resultando em dados mais limpos pra análises futuras.

A Dificuldade com Paralogos

Enquanto o foco costuma estar em homólogos, pode haver confusão com paralogos. Paralogos surgem de eventos de duplicação e podem não compartilhar a mesma função. Identificar essas sequências separadas pode ser complicado. Quando paralogos estão presentes em conjuntos de dados, o DecoyFinder tem mais dificuldade, especialmente quando suas estruturas são semelhantes.

No entanto, a ferramenta ainda se destaca em identificar iscas de outras famílias e sequências embaralhadas.

O Efeito das Iscas na Previsão de Estruturas

A presença de sequências de isca não tem um impacto enorme na precisão da previsão de estrutura do TurboFold. Na verdade, o TurboFold geralmente encontra uma maneira de moldar sequências de isca de forma semelhante a homólogos verdadeiros. Contudo, identificar e remover iscas ainda pode levar a uma precisão melhorada.

A Singularidade do DecoyFinder

Atualmente, não existe outro software que desempenhe a mesma função que o DecoyFinder. Outras ferramentas, como o Infernal, são úteis depois que uma família foi estabelecida, enquanto o DecoyFinder funciona no início do processo. Essa identificação precoce ajuda a evitar a contaminação de bancos de dados e pode, em última análise, melhorar o treinamento de ferramentas como o Infernal.

Aprimorando a Análise de RNA

O DecoyFinder não só ajuda na identificação de iscas, mas também pode contribuir pra aprimorar outros métodos de análise de RNA. Ao fornecer características valiosas pra identificar sequências, pode ser útil pra desenvolver ferramentas de software ainda mais avançadas no futuro.

Conclusão

O mundo da pesquisa em RNA tá crescendo, e com ferramentas como o TurboFold e o DecoyFinder, os cientistas estão mais bem equipados pra entender o papel e a estrutura do RNA. Focando em previsões precisas e identificando homólogos falsos, eles podem continuar fazendo avanços no campo da biologia molecular, levando a mais descobertas que podem ter implicações amplas pra saúde e doenças.

Fonte original

Título: DecoyFinder: Identification of Contaminants in Sets of Homologous RNA Sequences

Resumo: MotivationRNA structure is essential for the function of many non-coding RNAs. Using multiple homologous sequences, which share structure and function, secondary structure can be predicted with much higher accuracy than with a single sequence. It can be difficult, however, to establish a set of homologous sequences when their structure is not yet known. We developed a method to identify sequences in a set of putative homologs that are in fact non-homologs. ResultsPreviously, we developed TurboFold to estimate conserved structure using multiple, unaligned RNA homologs. Here, we report that the positive predictive value of TurboFold is significantly reduced by the presence of contamination by non-homologous sequences, although the reduction is less than 1%. We developed a method called DecoyFinder, which applies machine learning trained with features determined by TurboFold, to detect sequences that are not homologous with the other sequences in the set. This method can identify approximately 45% of non-homologous sequences, at a rate of 5% misidentification of true homologous sequences. AvailabilityDecoyFinder and TurboFold are incorporated in RNAstructure, which is provided for free and open source under the GPL V2 license. It can be downloaded at http://rna.urmc.rochester.edu/RNAstructure.html

Autores: David H. Mathews, M. Zhu, J. Zuber, Z. Tan, G. Sharma

Última atualização: 2024-10-15 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.12.618037

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.12.618037.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes