Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Apresentando o DrivR-Base: Um Novo Recurso para Previsão Genômica

A DrivR-Base oferece ferramentas essenciais pra identificar mudanças genéticas prejudiciais.

― 7 min ler


DrivR-Base MelhoraDrivR-Base MelhoraAnálise Genéticaprejudiciais.identificação de mudanças genéticasNovo repositório melhora a
Índice

As tecnologias de sequenciamento de próxima geração tornaram mais fácil encontrar mudanças no genoma humano. Muitas dessas mudanças são rotuladas como incertas, o que significa que não sabemos se causam doenças ou não. Entre essas mudanças, algumas podem levar a problemas de saúde, por isso precisamos identificar quais mudanças realmente causam problemas e quais não.

Pra lidar com esse desafio, vários métodos de aprendizado de máquina foram desenvolvidos. Esses métodos utilizam dados sobre genes pra ajudar a identificar mudanças prejudiciais. Existem várias ferramentas disponíveis pra isso, incluindo AlphaMissense, FATHMM-MKL, CScape, CADD, DANN, PolyPhen-2 e EVE. Cada uma dessas ferramentas usa abordagens diferentes pra prever o impacto das mudanças genéticas, mas todas dependem dos dados disponíveis pra serem eficazes.

Importância das Características na Previsão Genômica

As ferramentas mencionadas anteriormente dependem muito dos dados que usam, conhecidos como características. Muitas características já mostraram eficácia em prever se uma mudança no genoma pode contribuir pra doença. Por exemplo, características baseadas em conservação, como PhyloP e PhastCons, medem quanto uma sequência permanece inalterada entre diferentes espécies. Geralmente, regiões menos conservadas são vistas como menos importantes pra função.

Outras características também são vitais pra prever mudanças prejudiciais. O Variant Effect Predictor (VEP) organiza seus dados em três categorias principais. Primeiro, ele prevê as consequências das mudanças nos transcritos gênicos. Segundo, fornece informações sobre as sequências de proteínas normais e alteradas. Por último, calcula quão distantes estão as diferentes mudanças dos transcritos gênicos.

Além disso, entender sequências de DNA também pode ajudar. Comparando sequências normais e alteradas, podemos obter insights sobre possíveis interrupções. Características regulatórias de conjuntos de dados, como o ENCODE, também fornecem informações valiosas sobre funções gênicas.

Características Adicionais para Previsão

Enquanto muitas características estão em uso atualmente, existe a possibilidade de que características adicionais possam aumentar nossa capacidade de identificar mudanças prejudiciais. Por exemplo, analisar como variações de nucleotídeos únicos (SNVs) influenciam as características da forma do DNA pode ser benéfico. Certas formas de DNA podem afetar como as proteínas interagem com o DNA, potencialmente alterando a função gênica.

Além disso, informações estruturais de bancos de dados podem contribuir pra nossa compreensão das mudanças genéticas. Características relacionadas a propriedades de aminoácidos e características de dinucleotídeos também poderiam fornecer mais insights relevantes sobre como mudanças podem levar a doenças.

Apresentando o DrivR-Base

Pra ajudar a construir melhores preditores para o status de variantes, apresentamos o DrivR-Base. Esse é um novo repositório projetado pra facilitar a coleta de dados necessários pra criar modelos precisos. Os conjuntos de dados do DrivR-Base também podem ser usados pra outras aplicações, como prever funções gênicas e ajudar no desenvolvimento de medicamentos.

O DrivR-Base foca em dados do genoma humano e fornece uma coleção de ferramentas, documentação e links para fontes originais, ajudando pesquisadores a compilar as características necessárias pra seus estudos.

Visão Geral dos Grupos de Características no DrivR-Base

O DrivR-Base extrai dados de dez grupos diferentes de características de variantes de nucleotídeos únicos humanos em um formato padrão. Esses grupos de características são oriundos de bancos de dados públicos e incluem o seguinte:

1. Características Baseadas em Conservação

Esse grupo inclui métricas importantes, como os escores PhyloP e PhastCons, que medem mudanças em sequências de nucleotídeos ao longo do tempo. Esses escores indicam quanto uma sequência pode diferir do que é esperado ao acaso. A análise também considera dados de mapeamento que mostram quão precisamente regiões genômicas podem ser sequenciadas. Se uma região é difícil de ler, pode ter mais erros.

2. Variant Effect Predictor

O VEP organiza seus dados em três partes. Primeiro, lista os efeitos previstos das mudanças nos transcritos gênicos. Segundo, fornece informações sobre os aminoácidos normais e alterados. Por último, mede distâncias até transcritos próximos quando múltiplos transcritos são afetados por uma mudança.

3. Propriedades de Dinucleotídeos

Esse grupo de características vem de um banco de dados que fornece detalhes sobre 125 propriedades diferentes relacionadas a pares de nucleotídeos. Cada propriedade é medida para quatro configurações diferentes, que incluem combinações de alelos do tipo selvagem e mutante.

4. Propriedades da Forma do DNA

Esse grupo foca em como a forma do DNA é influenciada por mudanças de nucleotídeos únicos. Existem cinco propriedades principais medidas, incluindo largura do sulco menor e potencial eletrostático. Os dados são coletados em torno da variante de interesse, fornecendo insights sobre como a forma pode afetar a função.

5. Conteúdo de GC e Locais de CpG

Esse grupo de características mede o conteúdo de GC e as contagens de locais de CpG, junto com a razão entre CpG observados e esperados em várias janelas de tamanhos.

6. Similaridade de Sequência Baseada em Kernel

Essa característica analisa a sequência ao redor de uma mudança de nucleotídeo, avaliando como diferentes k-mers (sequências curtas) estão dispostos. Vários tamanhos de janela e tamanhos de k-mer são explorados pra entender sua frequência em sequências normais e alteradas.

7. Matrizes de Substituição de Aminoácidos

Esse grupo coleta dados sobre com que frequência certas substituições de aminoácidos ocorrem, com base em diferentes matrizes que fornecem insights sobre os efeitos dessas mudanças.

8. Propriedades de Aminoácidos

Um total de 532 propriedades relacionadas a aminoácidos é coletado, cobrindo aspectos como polaridade, hidrofobicidade e flexibilidade. Esses dados são cruciais pra entender como mudanças podem impactar as funções das proteínas.

9. Características do Banco de Dados ENCODE

Esse banco de dados apresenta vários tipos de informações funcionais. O DrivR-Base extrai características que podem ajudar a prever se uma variante pode levar a doenças, incluindo dados sobre fatores de transcrição e modificações de histonas.

10. Características Estruturais do AlphaFold

Esse aspecto do DrivR-Base inclui informações estruturais do banco de dados AlphaFold e do Protein Data Bank. Ele identifica posições de genes e proteínas afetadas por mudanças e recupera dados estruturais relevantes.

Conclusão e Direções Futuras

Em conclusão, o DrivR-Base serve como uma caixa de ferramentas abrangente pra extrair características diversas de variantes de nucleotídeos únicos humanos. Essa ferramenta ajuda pesquisadores a construir modelos preditivos pra identificar mudanças genéticas prejudiciais. Também tem aplicações potenciais na previsão de funções gênicas e no desenvolvimento de drogas.

O objetivo agora é expandir o DrivR-Base pra incluir mais tipos de mutações e uma variedade maior de grupos de características. Pesquisadores são encorajados a entrar em contato e sugerir novas características ou melhorias. Ao continuar aprimorando esse repositório, buscamos apoiar uma pesquisa melhor em genética e suas aplicações na saúde.

Fonte original

Título: DrivR-Base: A Feature Extraction Toolkit For Variant Effect Prediction Model Construction

Resumo: MotivationRecent advancements in sequencing technologies have led to the discovery of numerous variants in the human genome. However, understanding their precise roles in diseases remains challenging due to their complex functional mechanisms. Various methodologies have emerged to predict the pathogenic significance of these genetic variants. Typically, these methods employ an integrative approach, leveraging diverse data sources that provide critical insights into genomic function. Despite the abundance of publicly available data sources and databases, the process of navigating, extracting, and pre-processing features for machine learning models can be daunting. Furthermore, researchers often invest substantial effort in feature extraction, only to later discover that these features lack informativeness. ResultsIn this paper, we present DrivR-Base, an innovative resource that efficiently extracts and integrates molecular information (features) for single nucleotide variants from a wide range of databases and tools, including AlphaFold, ENCODE, and Variant Effect Predictor. The resulting features can be used as input for machine learning models designed to predict the pathogenic impact of human genome variants in disease. Moreover, these feature sets have applications beyond this, including haploinsufficiency prediction and the development of drug repurposing tools. We describe the resources development, practical applications, and potential for future expansion and enhancement. Availability and ImplementationDrivR-Base source code is available at https://github.com/amyfrancis97/DrivR-Base.

Autores: Amy Francis, C. Campbell, T. R. Gaunt

Última atualização: 2024-01-17 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.01.16.575859

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.01.16.575859.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes