Prevendo Riscos de Doenças Crônicas Usando Dados Diversos
Estudo analisa modelos que preveem riscos de doenças crônicas a partir de dados pessoais, genéticos e clínicos.
― 9 min ler
Índice
As doenças crônicas são uma grande causa de morte e doença nos Estados Unidos. Muitos estudos têm investigado como prever os riscos dessas doenças, focando em fatores como genes, escolhas de estilo de vida, nutrição e detalhes pessoais. O objetivo é encontrar maneiras de detectar, prevenir e tratar essas condições mais cedo. No entanto, não está claro quão eficazes esses diferentes tipos de dados são na avaliação do risco de doença.
Neste estudo, treinamos modelos para prever o risco de doenças crônicas usando quatro tipos de dados: detalhes pessoais, informações genéticas, dados metabolômicos e marcadores clínicos. Detalhes pessoais incluem fatores como idade e gênero, enquanto marcadores clínicos são medições como níveis de açúcar no sangue ou colesterol. Esses dois tipos de dados são frequentemente usados nos consultórios médicos para diagnosticar doenças. Contudo, os dados mais complexos podem fornecer insights adicionais sobre quando as doenças podem começar nos pacientes.
Os dados genéticos fornecem informações sobre aspectos herdados das doenças desde o nascimento. Esses dados podem ser cruciais para entender os riscos de doenças. Por outro lado, os dados metabolômicos analisam os metabolitos no corpo e podem acrescentar informações úteis que melhoram as previsões dos dados clínicos e pessoais.
Modelos de Previsão Tradicionais
A maioria dos modelos tradicionais para prever doenças tem se baseado apenas em um tipo de dado. Essa abordagem muitas vezes perde as relações complexas entre diferentes fatores biológicos e pessoais. Pesquisas recentes mostraram que usar metabolômica, detalhes pessoais e dados genéticos separadamente pode prever efetivamente doenças relacionadas ao envelhecimento e mortalidade. Essas descobertas destacam o potencial de usar modelos de aprendizado de máquina para analisar grandes conjuntos de dados e entender melhor as conexões complicadas entre diferentes tipos de preditores.
Os métodos de aprendizado de máquina oferecem uma nova maneira de juntar diversos tipos de dados. Neste estudo, desenvolvemos uma Pontuação de Risco Multi-ômica (MRS) para 22 doenças usando vários modelos de classificação. Também treinamos modelos de sobrevida para algumas doenças para ver como os riscos mudam ao longo do tempo. Os resultados foram disponibilizados através de uma plataforma pública para acesso mais amplo.
Modelos de Classificação Binária
Para prever o desenvolvimento e diagnóstico de doenças ao longo de um período de 13 anos, treinamos modelos usando os dados combinados de detalhes pessoais, informações genéticas, metabolômica e marcadores clínicos. Focamos em quatro classificadores: ADA Boost e XG Boost, que são modelos baseados em árvores, regressão Lasso e Perceptron de Múltiplas Camadas, que é um tipo de rede neural. Depois de ajustar os parâmetros de cada modelo, descobrimos que seus desempenhos eram geralmente similares entre as várias doenças.
Nos nossos achados, o XG Boost foi o mais rápido para treinar, enquanto o ADA Boost forneceu o modelo menos complexo com o menor número de características selecionadas. A regressão Lasso teve o melhor desempenho, mostrando a mais alta performance de classificação no geral. Especificamente, a Lasso alcançou uma pontuação média de desempenho de 0.739, comparado a 0.727 para XG Boost, 0.726 para ADA Boost e 0.675 para Perceptron de Múltiplas Camadas.
Depois, examinamos como diferentes métodos de regressão logística afetaram nossos modelos. As diferenças no número de características não nulas indicaram a complexidade e a importância da interpretação do modelo. Por exemplo, ao prever diabetes, ambos os modelos identificaram muitos dos mesmos preditores-chave, embora houvesse algumas diferenças na classificação das características.
Investigando Contribuições de Diferentes Tipos de Dados
Para ver quanto cada tipo de dado ajuda nossos modelos, treinamos os modelos com melhor desempenho usando diferentes combinações dos tipos de dados. Ao comparar seus desempenhos, notamos tendências interessantes. Por exemplo, ao prever infarto do miocárdio, os modelos não mostraram nenhuma melhora de desempenho ao adicionar dados genéticos. No entanto, incorporar marcadores clínicos aumentou significativamente a eficácia do modelo. Quando adicionamos o conjunto completo de características metabolômicas, observamos pequenas melhorias.
De maneira geral, tanto os dados genômicos quanto os de marcadores clínicos se mostraram benéficos para melhorar o desempenho do modelo para várias doenças. Para algumas condições, adicionar dados genéticos levou a melhorias marcantes, enquanto para outras, os benefícios vieram principalmente de marcadores clínicos.
Modelos de Análise de Sobrevida
Além dos modelos de classificação, também treinamos modelos de risco proporcional de Cox para doenças de interesse para observar como os riscos dos pacientes mudam ao longo do tempo. Assim como em nossos modelos anteriores, avaliamos as contribuições de vários tipos de dados usando o índice de concordância (C-index). O C-index mede quão bem um modelo prevê os resultados.
Adicionar características genéticas melhorou o desempenho do modelo para algumas doenças, mas para a maioria, apenas pequenos ganhos foram observados. No entanto, quando combinamos dados demográficos e de marcadores clínicos, notamos aumentos mais substanciais no desempenho do modelo em várias doenças. Os resultados foram consistentes com nossas descobertas dos modelos de classificação.
Quando incluímos dados genômicos e metabolômicos junto com características demográficas e de marcadores clínicos, apenas alguns modelos de doenças mostraram alguma melhora perceptível. A maioria permaneceu estável, enquanto alguns até apresentaram uma diminuição no desempenho.
Em seguida, treinamos modelos de Cox com regularização L1 usando o conjunto de dados completo para avaliar a eficácia do modelo. Para algumas doenças, como diabetes e falência renal, os modelos alcançaram um alto C-index acima de 0.8, indicando fortes capacidades preditivas.
Usando nosso modelo treinado, podemos prever as trajetórias de risco para cada doença para indivíduos no conjunto de dados. Isso significa que podemos mostrar quão provável alguém é de desenvolver uma doença ao longo do tempo com base em seus dados.
Análise dos Modelos de Previsão
Nossa análise revela os pontos fortes e fracos de diferentes classificadores. O XG Boost foi o mais rápido, levando em média 20 segundos para ajustar cada modelo, enquanto o ADA Boost levou 156 segundos. O ADA Boost resultou em modelos com menos características selecionadas, tornando-os mais fáceis de interpretar. A regressão Lasso, apesar de levar mais tempo para treinar, entregou os melhores resultados gerais. Notavelmente, a Lasso mostrou a melhor performance de classificação para a maioria das doenças.
Curiosamente, o Perceptron de Múltiplas Camadas teve um bom desempenho para algumas condições, melhorando sua pontuação de teste para infarto do miocárdio. Este estudo adiciona à pesquisa anterior que mostra que modelos lineares frequentemente superam outros métodos para prever doenças.
Além dos modelos de classificação binária, também realizamos análise de sobrevida usando o modelo de risco proporcional de Cox. Isso nos permitiu comparar contribuições de diferentes tipos de dados e identificar características relevantes para cada doença. Os resultados da análise de sobrevida confirmaram descobertas anteriores dos modelos de classificação.
Ao avaliar diferentes tipos de dados em ambos os tipos de modelo, pudemos identificar doenças com fortes fatores genéticos ou metabolômicos. Também notamos pequenas melhorias no desempenho ao combinar dados genômicos e metabolômicos. No entanto, para muitas doenças, não encontramos ganhos significativos ao adicionar muitos metabolitos para previsão.
Limitações e Trabalhos Futuros
Uma limitação do nosso estudo é o baixo número de casos de doenças no conjunto de dados. Os resultados para doenças com menos casos podem ser menos confiáveis. À medida que o conjunto de dados do Biobank continua crescendo, podemos ter mais insights sobre essas doenças, mas isso também significa que teremos diferentes instantâneas de saúde ao longo do tempo. Avaliações contínuas da saúde dos pacientes no conjunto de dados podem ajudar a abordar o problema das imbalanças.
Nossos modelos usam principalmente dados de uma população específica dentro do UK Biobank. Portanto, os achados podem não se aplicar a pessoas de diferentes origens ou etnias. Estudos anteriores indicam que modelos desenvolvidos para um grupo étnico podem não funcionar da mesma forma para outros. Pesquisas futuras poderiam investigar como nossos modelos se comportam em outras populações.
Além disso, fornecer medidas de incerteza para as Pontuações de Risco Multi-ômicas poderia ajudar na implementação desses modelos. Há também a necessidade de mais investigações sobre doenças que mostraram benefícios modestos da abordagem multi-ômica. Um método a considerar é o "aprendizado cooperativo", que incentiva previsões de diferentes tipos de dados a se alinharem melhor. Isso permitiria a integração de conjuntos de dados adicionais, como dados proteômicos ou outros dados multimodais.
Conclusão
Utilizamos quatro conjuntos de dados principais do UK Biobank que cobrem detalhes pessoais, informações genéticas, análise metabolômica e marcadores clínicos. O conjunto de dados completo representa informações de centenas de milhares de indivíduos. As descobertas apresentam uma compreensão valiosa de como diferentes tipos de dados podem ajudar a prever doenças crônicas.
Nossos modelos de previsão de doenças dependeram de um subconjunto específico de indivíduos para fins de treinamento e teste. A análise incluiu uma variedade de doenças crônicas, permitindo que avaliássemos vários fatores que influenciam o risco de doença.
Através deste trabalho, destacamos a importância de usar uma variedade de tipos de dados para melhorar a previsão do risco de doenças. Ao analisar continuamente esses conjuntos de dados e refinar nossos modelos, podemos desenvolver estratégias mais eficazes para identificar e gerenciar doenças crônicas.
Título: Integrative machine learning approaches for predicting disease risk using multi-omics data from the UK Biobank
Resumo: We train prediction and survival models using multi-omics data for disease risk identification and stratification. Existing work on disease prediction focuses on risk analysis using datasets of individual data types (metabolomic, genomics, demographic), while our study creates an integrated model for disease risk assessment. We compare machine learning models such as Lasso Regression, Multi-Layer Perceptron, XG Boost, and ADA Boost to analyze multi-omics data, incorporating ROC-AUC score comparisons for various diseases and feature combinations. Additionally, we train Cox proportional hazard models for each disease to perform survival analysis. Although the integration of multi-omics data significantly improves risk prediction for 8 diseases, we find that the contribution of metabolomic data is marginal when compared to standard demographic, genetic, and biomarker features. Nonetheless, we see that metabolomics is a useful replacement for the standard biomarker panel when it is not readily available.
Autores: Manuel A Rivas, O. T. Aguilar, C. Chang, E. Bismuth
Última atualização: 2024-04-20 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.16.589819
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.16.589819.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.