Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Novo Banco de Dados Destaca a Importância de Pequenas Proteínas

sORFdb ilumina proteínas pequenas negligenciadas em bactérias.

― 8 min ler


sORFdb: PequenassORFdb: PequenasProteínas Importamessenciais de proteínas pequenas.Novo banco de dados revela papéis
Índice

Muitas proteínas encontradas em bactérias já foram estudadas e documentadas ao longo dos anos. Elas estão listadas em Bancos de dados públicos e costumam ser incluídas quando novas sequências genômicas são publicadas. No entanto, um grupo específico de proteínas, conhecidas como pequenas proteínas, que têm 100 aminoácidos ou menos, não recebeu tanta atenção. Os pesquisadores muitas vezes ignoram essas pequenas proteínas, achando que não são significativas ou que podem ser só ruído aleatório nos dados genéticos.

As pequenas proteínas são feitas de segmentos curtos de código genético chamados quadros de leitura abertos, ou SORFs. A falta de métodos consistentes para definir pequenas proteínas complicou o estudo delas. Métodos e ferramentas de pesquisa mais antigos não eram feitos para detectar essas proteínas tão pequenas com precisão. Como resultado, muitas pequenas proteínas que podem ser importantes passaram despercebidas. No passado, limites rigorosos de comprimento sobre o que contava como uma proteína levaram à remoção de muitas pequenas proteínas dos bancos de dados porque inicialmente eram consideradas falsos positivos.

Recentemente, novas técnicas de laboratório ajudaram os cientistas a encontrar mais dessas pequenas proteínas. Isso inclui métodos como o perfilamento de ribossomos, que permite aos pesquisadores ver quais proteínas estão sendo feitas nas células. Com essas técnicas, descobriu-se que pequenas proteínas desempenham papéis cruciais em várias Funções celulares, como regulação e respostas ao estresse.

Pequenas Proteínas e Sua Importância

As pequenas proteínas são funcionais, ou seja, fazem trabalhos específicos nas células bacterianas, mesmo sendo pequenas. Apesar do tamanho, essas proteínas podem servir a funções essenciais, como regular outras proteínas, ajudar as bactérias a responder ao estresse e até atuar em como as bactérias se tornam nocivas aos hospedeiros.

Espécies como Escherichia coli e Salmonella têm sido especialmente úteis no estudo de pequenas proteínas, e muitas descobertas novas vieram da análise desses organismos. No entanto, ainda tem muito a aprender sobre como essas pequenas proteínas são criadas e evoluem com o tempo.

Os pesquisadores notaram que pequenas proteínas diferem de várias maneiras das proteínas maiores. Por exemplo, os pontos de partida para a tradução (onde a síntese de proteínas começa) costumam ser diferentes. Os locais de ligação onde o ribossomo se conecta ao mRNA também podem variar. Esses fatores sugerem que as pequenas proteínas podem ter se desenvolvido através de caminhos evolutivos diferentes em comparação com suas contrapartes maiores.

Como as pequenas proteínas têm sido ignoradas, elas estão sub-representadas em bancos de dados públicos, dificultando para os pesquisadores estudarem suas funções e evolução.

Novo Banco de Dados para Pequenas Proteínas

Para suprir a falta de conhecimento e recursos, foi criado um novo banco de dados chamado sORFdb, especificamente para pequenas proteínas e seus sORFs codificadores. Esse banco oferece uma coleção de alta qualidade de sequências de pequenas proteínas de várias bactérias. Ele também inclui características importantes, como propriedades fisiológicas, que podem ajudar pesquisadores a encontrar grupos interessantes de pequenas proteínas.

O sORFdb inclui informações sobre famílias de pequenas proteínas e usa métodos computacionais avançados para ajudar a identificar e classificar essas proteínas, facilitando o acesso dos pesquisadores às informações que eles precisam para seus estudos.

Construindo o Banco de Dados

Criar o sORFdb exigiu reunir grandes quantidades de dados de várias fontes. Os pesquisadores coletaram sequências de Genomas e proteínas de bancos de dados como GenBank, UniProt, Swiss-Prot e SmProt. Eles se concentraram especificamente em genomas completos para garantir dados de alta qualidade.

A equipe extraiu pequenas proteínas com 100 aminoácidos ou menos e procurou aquelas que eram bem suportadas por pesquisas existentes. Para garantir a precisão, eles filtraram esses dados para excluir entradas duvidosas e coletaram apenas sequências confiáveis.

Para encontrar pequenas proteínas que podem ter sido ignoradas em anotações genômicas anteriores, métodos adicionais foram usados. Os pesquisadores usaram uma combinação de ferramentas para detectar pequenas proteínas que potencialmente passaram despercebidas. Esses esforços permitiram a inclusão de mais de cinco milhões de sequências únicas de pequenas proteínas no banco de dados.

Identificação de Famílias de Pequenas Proteínas

O banco de dados sORFdb apresenta possíveis famílias de pequenas proteínas, que são grupos de proteínas semelhantes com base em suas sequências. Para identificar essas famílias, um método de agrupamento único foi desenvolvido. Esse método considera a natureza específica das pequenas proteínas e busca minimizar os preconceitos introduzidos por proteínas maiores.

Os pesquisadores primeiro realizaram uma busca abrangente para encontrar todas as pequenas proteínas no banco de dados. Usando técnicas avançadas de agrupamento, conseguiram identificar famílias de pequenas proteínas que compartilham semelhanças. No geral, o banco de dados separou milhares de famílias de pequenas proteínas, permitindo uma identificação e estudo mais fáceis dessas proteínas.

Recursos do sORFdb

O sORFdb foi projetado para ser fácil de usar, proporcionando acesso fácil aos dados que contém. Os pesquisadores podem buscar sequências de proteínas específicas, procurar famílias associadas e até explorar várias características, como descrições funcionais e propriedades das proteínas.

O banco de dados oferece opções de busca por taxonomia, ajudando os pesquisadores a encontrar pequenas proteínas de grupos bacterianos específicos. Essa organização permite que os usuários naveguem pelas informações com base em sua área de interesse.

Além disso, o banco inclui links para recursos originais, ajudando os pesquisadores a encontrarem de onde os dados vieram. O site facilita uma abordagem focada na comunidade, com o objetivo de apoiar pesquisas sobre pequenas proteínas e suas funções.

Descobertas Atuais e Pesquisas Futuras

O estudo contínuo das pequenas proteínas revelou que elas podem desempenhar muitos papéis vitais nas bactérias. No entanto, muitas pequenas proteínas ainda não têm homologias ou descrições funcionais claras, o que torna difícil entender sua importância. Por essa razão, os pesquisadores priorizaram filtrar e re-anotar pequenas proteínas para garantir atribuições funcionais precisas sempre que possível.

O banco de dados destaca que pequenas proteínas estão frequentemente ligadas a processos importantes nas bactérias, como funções regulatórias, respostas ao estresse e fatores de virulência. Essas descobertas estão alinhadas com a literatura atual e fornecem uma base sólida para estudos futuros.

Os pesquisadores também notaram diferenças distintas na composição genética de pequenas proteínas em comparação com proteínas maiores. Por exemplo, pequenas proteínas têm mais chances de usar códons iniciais alternativos, o que pode afetar sua síntese. O banco de dados visa fornecer uma visão sobre essas diferenças e fomentar mais estudos sobre a genética das pequenas proteínas.

A introdução do sORFdb deve levar a ainda mais descobertas no campo da microbiologia. Ao tornar informações sobre pequenas proteínas facilmente acessíveis, os pesquisadores podem concentrar seus esforços em explorar ainda mais seus papéis e funcionalidades.

Conclusão

O sORFdb representa um grande avanço no estudo de pequenas proteínas em organismos bacterianos. O banco reúne uma riqueza de informações de alta qualidade, tornando-se um recurso essencial para pesquisadores interessados nas funções e aspectos evolutivos das pequenas proteínas.

Ao abordar as lacunas anteriores de conhecimento e dados sobre pequenas proteínas, este banco abre novas avenidas para pesquisa. As informações contidas no sORFdb irão promover um entendimento mais profundo sobre essas proteínas frequentemente ignoradas e suas contribuições para a vida bacteriana.

Com pesquisas e explorações contínuas, os cientistas podem esperar descobrir ainda mais insights sobre a importância das pequenas proteínas nas bactérias, contribuindo assim para nossa compreensão mais ampla de genética, evolução e microbiologia.

Fonte original

Título: sORFdb - A database for sORFs, small proteins, and small protein families in bacteria

Resumo: Small proteins with fewer than 100, particularly fewer than 50, amino acids are still largely unexplored. Nonetheless, they represent an essential part of bacterias often neglected genetic repertoire. In recent years, the development of ribosome profiling protocols has led to the detection of an increasing number of previously unknown small proteins. Despite this, they are overlooked in many cases by automated genome annotation pipelines, and often, no functional descriptions can be assigned due to a lack of known homologs. To understand and overcome these limitations, the current abundance of small proteins in existing databases was evaluated, and a new dedicated database for small proteins and their potential functions, called sORFdb, was created. To this end, small proteins were extracted from annotated bacterial genomes in the GenBank database. Subsequently, they were quality-filtered, compared, and complemented with proteins from Swiss-Prot, UniProt, and SmProt to ensure reliable identification and characterization of small proteins. Families of similar small proteins were created using bidirectional best BLAST hits followed by Markov clustering. Analysis of small proteins in public databases revealed that their number is still limited due to historical and technical constraints. Additionally, functional descriptions were often missing despite the presence of potential homologs. As expected, a taxonomic bias was evident in over-represented clinically relevant bacteria. This new and comprehensive database is accessible via a feature-rich website providing specialized search features for sORFs and small proteins of high quality. Additionally, small protein families with Hidden Markov Models and information on taxonomic distribution and other physicochemical properties are available. In conclusion, the novel small protein database sORFdb is a specialized, taxonomy-independent database that improves the findability and classification of sORFs, small proteins, and their functions in bacteria, thereby supporting their future detection and consistent annotation. All sORFdb data is freely accessible via https://sorfdb.computational.bio.

Autores: Julian M Hahnfeld, O. Schwengers, L. Jelonek, S. Diedrich, F. Cemic, A. Goesmann

Última atualização: 2024-06-22 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.06.19.599710

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.19.599710.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes