Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Medicina genetica e genomica

Novo Método Melhora a Previsão de Risco de Doenças Usando Dados de DNA

Uma nova abordagem melhora a escolha de locais de DNA para prever riscos à saúde.

― 7 min ler


Aumentando Previsões deAumentando Previsões deRisco de Doençasde DNA mostra resultados promissores.Um novo método para selecionar locais
Índice

Pesquisas mostram que mudanças na Metilação do DNA (DNAm) em lugares específicos podem estar ligadas a diferentes Características de Saúde, como índice de massa corporal (IMC), hábitos de fumar e o desenvolvimento de certas doenças. DNAm é uma forma de o corpo modificar como os genes são expressos ao longo do tempo. Esse processo envolve adicionar ou remover pequenos grupos químicos chamados grupos metila ao DNA. Como os testes de sangue conseguem medir facilmente a DNAm, isso se tornou um foco para estudos que buscam prever riscos à saúde, incluindo o risco de desenvolver doenças.

Uma das principais dificuldades em criar modelos para prever o risco de doenças usando DNAm é descobrir quais locais específicos do DNA focar. Estudos em grande escala podem medir a metilação em centenas de milhares de locais, mas geralmente incluem apenas um número limitado de participantes, o que leva a uma situação onde o número de variáveis é muito maior do que o número de pessoas estudadas.

Para lidar com esse tipo de dado, os pesquisadores costumam usar técnicas estatísticas especiais que ajudam a escolher as características mais importantes e fazer previsões. Porém, em situações onde há muito mais características do que observações, esses métodos podem não funcionar tão bem. Uma abordagem comum é primeiro reduzir as características em um processo de duas etapas antes de aplicar modelos mais complexos. Essa etapa inicial filtra as características menos relevantes, idealmente deixando um número gerenciável que pode ser usado para previsões.

Métodos de Seleção de Características

Uma maneira comum de filtrar locais de DNA é conhecida como filtragem baseada em variância, onde os pesquisadores mantêm um certo número de locais com a maior variabilidade. Embora esse processo seja simples e eficaz para remover locais que não mostram muita variação, ele pode ter dificuldades quando os efeitos são pequenos ou quando o tamanho da amostra é pequeno. Existem outros métodos que analisam como cada característica se relaciona com o resultado de interesse, que pode ser um resultado contínuo ou um que acompanha o tempo até que um evento aconteça, como desenvolver uma doença.

Outra estratégia é usar conhecimento existente, como descobertas de estudos anteriores, para guiar a seleção de características. Por exemplo, os pesquisadores podem focar em locais de DNA que já foram relacionados a certos resultados em estudos chamados Estudos de Associação em Larga Escala do Epigenoma (EWAS). No entanto, isso depende de ter dados disponíveis desses estudos, que podem não existir para todas as condições.

Uma técnica adicional é usar análise de componentes principais (PCA) ou outros métodos que simplificam os dados reduzindo suas dimensões. Isso resulta em menos características, mas pode manter as informações essenciais necessárias para previsões. Em alguns casos, aplicar PCA mostrou promessas em melhorar os resultados preditivos.

Método Proposto: Triagem de Características Baseada em Traços Relacionados

Proponho um novo método de seleção de características chamado Triagem de Características Baseada em Traços Relacionados (RTFS). Essa abordagem usa dados sobre vários traços de saúde para guiar a seleção de locais de DNA para análise posterior. Por exemplo, se os pesquisadores estão tentando prever o surgimento de uma doença, eles podem olhar medições como IMC, status de fumar e consumo de álcool, que estão todos interligados com resultados de saúde.

A etapa de pré-seleção pode ser realizada usando modelos de regressão penalizados, que conseguem trabalhar com tamanhos de amostra menores em comparação com métodos que analisam o tempo até que um evento ocorra. Isso permite que os pesquisadores filtrem características desnecessárias enquanto mantêm aquelas que podem contribuir para previsões sobre o risco de desenvolver doenças.

Design do Estudo e Dados

No nosso estudo, aplicamos o método RTFS junto com outras técnicas de pré-seleção comuns a uma grande coorte conhecida como Generation Scotland, que inclui dados detalhados de metilação de DNA relacionados a registros de saúde. A coorte é composta por mais de 18.000 indivíduos. Comparamos o quão bem diferentes métodos de pré-seleção se saíram na criação de modelos que preveem o risco de desenvolver diabetes tipo 2 (T2D).

A análise focou na criação de escores epigenéticos (EpiScores), que são somas de valores de metilação em locais de DNA selecionados. Esses escores têm como objetivo prever o tempo até que alguém seja diagnosticado com T2D. Nossos resultados indicam que o RTFS pode ter um desempenho quase tão bom quanto os melhores métodos de filtragem existentes baseados em estudos anteriores, levando a um Desempenho Preditivo melhor em comparação com fatores de risco padrão.

Resultados: EpiScores e Desempenho Preditivo

Nossos resultados mostram que o método RTFS pode selecionar efetivamente locais de DNA relevantes para prever o risco de doenças. Quando comparamos a precisão preditiva de diferentes métodos, descobrimos que usar o RTFS gerou resultados comparáveis ao melhor método de filtragem baseado nos achados do EWAS. Isso sugere que o RTFS é uma ferramenta valiosa para identificar locais significativos de DNA sem precisar de estudos anteriores em larga escala para cada doença.

Além disso, os EpiScores criados usando o método RTFS tiveram um desempenho melhor do que apenas confiar em fatores de risco genéticos sozinhos. Isso significa que incluir dados de DNAm pode aprimorar as informações que usamos para prever o risco de doenças.

Validação dos Resultados

Para confirmar a eficácia do método RTFS e dos EpiScores gerados, validamos os resultados usando outra coorte conhecida como KORA S4. Embora só pudéssemos avaliar resultados binários nessa validação, os modelos que incluíram RTFS e EpiScores EPIC-450k ainda mostraram um desempenho preditivo melhor em relação a modelos de linha de base que usavam apenas fatores de risco.

Características Sobrepostas e Generalização

Quando analisamos como diferentes traços se sobrepunham em termos de locais de DNA selecionados, observamos que muitos dos locais selecionados eram específicos para traços individuais. No entanto, alguma sobreposição foi encontrada entre medições como IMC, razão cintura-quadril e gordura corporal. Isso pode indicar que certos locais de DNA são relevantes em múltiplos traços de saúde, sugerindo o potencial para aplicações mais amplas além do T2D.

Embora nosso estudo tenha mostrado resultados e validações fortes, é essencial considerar que a coorte Generation Scotland consiste principalmente de indivíduos de demografias específicas, o que pode limitar a generalização de nossas descobertas para outras populações. Estudos futuros poderiam explorar como o RTFS se aplica a diferentes grupos e tipos de doenças.

Conclusão

Nosso trabalho destaca a importância da pré-seleção de características no desenvolvimento de modelos preditivos baseados em dados de metilação do DNA. O método RTFS, que utiliza traços de saúde relacionados, oferece uma abordagem prática para selecionar características relevantes para modelar o risco de doenças. Com resultados promissores na previsão de T2D, o RTFS mostra potencial para aplicações mais amplas na previsão de riscos para vários resultados de saúde.

Resumindo, o método RTFS permite que os pesquisadores aproveitem efetivamente a riqueza de informações disponíveis nos dados de metilação do DNA para melhorar a previsão de riscos de doenças. Ele oferece uma base para estudos futuros que podem investigar sua eficácia em outros resultados de saúde e populações diversas.

Fonte original

Título: Feature pre-selection for the development of epigenetic biomarkers

Resumo: Over the last decade, a plethora of blood-based DNA methylation biomarkers have been developed to track differences in ageing, lifestyle, health, and biological outcomes. Typically, penalised regression models are used to generate these predictors, with hundreds or thousands of CpGs included as potential features. However, in such ultra high-dimensional settings, the effectiveness of these methods may be reduced. Here, we introduce Related Trait-based Feature Screening (RTFS), a method for performing CpG pre-selection for incident disease prediction models by utilising associations between CpGs and health-related continuous traits. In a comparison with commonly used CpG pre-selection methods, we evaluate resulting downstream Cox proportional-hazards prediction models for 10-year type 2 diabetes (T2D) onset risk in Generation Scotland (n=18,414). The top performing models utilised incident T2D EWAS (AUC=0.881, PRAUC=0.279) and RTFS (AUC=0.877, PRAUC=0.277). The resulting models also improve prediction over a model using standard risk factors only (AUC=0.841, PRAUC=0.194) and replication was observed in the German-based KORA study (n=4,261) RTFS is a flexible and generalisable framework that can help to refine biomarker development for incident disease outcomes.

Autores: Catalina A Vallejos, Y. Cheng, C. Gieger, A. Campbell, A. M. McIntosh, M. Waldenberger, D. L. McCartney, R. E. Marioni

Última atualização: 2024-02-15 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2024.02.14.24302694

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.02.14.24302694.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes