Avaliando o Risco de Câncer de Fígado em Pacientes com NAFLD
Esse estudo usa aprendizado de máquina pra prever o risco de câncer de fígado em pacientes com NAFLD.
― 7 min ler
Índice
O câncer de fígado é um problema sério de saúde, sendo o carcinoma hepatocelular (CHC) o tipo mais comum de câncer de fígado em adultos. É uma das principais causas de morte relacionada ao câncer ao redor do mundo. Os fatores de risco conhecidos para CHC incluem infecções por hepatite B e C e doença hepática alcoólica, mas a preocupação com a doença hepática gordurosa não alcoólica (DEGNA) como fator de risco para CHC está aumentando, especialmente nos Estados Unidos. Estudos anteriores olharam para essa conexão, mas geralmente envolveram grupos pequenos de pacientes, o que dificulta tirar conclusões amplas.
Com mais dados de saúde sendo coletados eletronicamente, os pesquisadores agora conseguem usar essas informações para entender melhor os riscos de doenças. O aprendizado de máquina, especialmente técnicas de aprendizado profundo, mostra potencial em identificar quais pacientes estão em risco de desenvolver CHC. Alguns estudos já aplicaram essas técnicas em pacientes com doença hepática relacionada à hepatite, mas nenhum focou especificamente em quem tem DEGNA.
Objetivo do Estudo
O objetivo deste estudo é usar métodos avançados de aprendizado profundo para analisar dados de saúde de um grande número de pacientes com DEGNA para determinar o risco deles de desenvolver CHC. Diferente dos métodos anteriores, queremos garantir que consideramos várias complexidades nos dados, como registros incompletos de pacientes e a progressão lenta da doença.
Fonte de Dados
Os dados para este estudo vêm de um grande banco de dados de registros de saúde, que inclui informações de mais de 68 milhões de pacientes nos EUA. Os registros contêm uma variedade de informações de saúde, incluindo demografia dos pacientes, diagnósticos, medicamentos, exames laboratoriais e mais. Focamos especificamente em pacientes com DEGNA e criamos um grupo de comparação com pacientes saudáveis.
Grupo de Pacientes com DEGNA
Para fazer parte do grupo de DEGNA neste estudo, os pacientes precisavam apresentar sinais de problemas no fígado por meio de níveis anormais de enzimas ao longo de um certo período. Excluímos pacientes com menos de 18 anos, assim como aqueles com infecções por hepatite ou histórico de uso de álcool, já que esses são fatores de risco conhecidos para CHC. Nosso objetivo era criar um conjunto de dados limpo para analisar o risco de desenvolvimento de CHC entre pacientes com DEGNA.
Grupo Caso-Controle
Para tornar nosso estudo robusto, também incluímos um grupo caso-controle. Esse grupo consistiu em pacientes que foram diagnosticados com CHC, juntamente com um grupo de pacientes saudáveis que não tinham DEGNA. Ao combinar pacientes saudáveis com pacientes de CHC com base em idade, gênero e histórico de saúde, buscamos entender melhor as diferenças nos resultados de saúde.
Desenho do Estudo
Na nossa pesquisa, usamos modelos modernos de aprendizado profundo para prever se pacientes com DEGNA desenvolveriam CHC dentro de um período específico. Projetamos nosso estudo para considerar o fato de que muitos pacientes podem não ter dados completos de acompanhamento por várias razões, como mudanças de endereço ou de médicos.
Começamos observando casos de CHC dentro de dez anos a partir de um ponto de partida escolhido. Pacientes que foram perdidos para acompanhamento foram marcados como não tendo desenvolvido o câncer. Aqueles que desenvolveram CHC foram acompanhados de perto para ver se certos padrões de saúde surgiam entre eles.
Modelos de Aprendizado Profundo
Focamos em dois modelos principais de aprendizado profundo para nossa análise: RETAIN e DeepHit. O modelo RETAIN usa dados médicos históricos para prever a progressão da doença, enquanto o DeepHit é voltado para análise de sobrevivência. Ambos os modelos têm suas forças, mas nossa hipótese era que o RETAIN teria um desempenho melhor nesse contexto porque utiliza dados de saúde que mudam ao longo do tempo.
Técnica de Máscara Reversa
Um desafio único em nossa pesquisa foi o diagnóstico tardio de CHC. Muitas vezes, os sintomas estão presentes muito antes que um diagnóstico oficial seja feito. Para lidar com esse problema, usamos uma técnica chamada máscara reversa, onde intencionalmente ocultamos certos registros médicos passados antes da data do diagnóstico de CHC. Isso nos permitiu identificar fatores de risco em vez de depender apenas de sinais de alerta óbvios.
Aprendizado Transferido
Dado o número relativamente pequeno de pacientes com DEGNA que desenvolvem CHC, usamos um método chamado aprendizado transferido. Essa abordagem nos permitiu utilizar nossos modelos, que foram inicialmente treinados em um grupo maior de pacientes, e depois ajustá-los nos dados de DEGNA. Essa estratégia ajudou a melhorar as previsões que pudemos fazer sobre o risco de CHC em pacientes com DEGNA.
Descobertas
Nossos resultados mostraram que ao usar o modelo RETAIN, que considerou a evolução dos dados dos pacientes ao longo do tempo, as previsões de risco de CHC foram mais precisas. Constatamos que a capacidade de analisar dados de saúde em mudança foi crucial para previsões eficazes. Em contraste, o DeepHit, que usa apenas dados iniciais, não teve um desempenho tão bom.
Além disso, descobrimos que o aprendizado transferido teve um efeito positivo em nossos resultados. Ao começar com um modelo que já havia aprendido de um conjunto de dados maior, nossas previsões para o grupo menor de DEGNA melhoraram significativamente.
Viés de Gênero nas Previsões
Uma parte importante da nossa análise incluiu examinar como o gênero pode influenciar o risco de doença para CHC. Descobertas anteriores sugeriram que homens e mulheres podem ter riscos e resultados diferentes relacionados ao CHC. Ao analisar nossos dados, confirmamos que os modelos tiveram desempenho diferente com base no gênero dos pacientes nos quais foram treinados. Modelos apenas masculinos não previram bem os resultados femininos, destacando a necessidade de abordagens específicas de gênero em análises futuras.
Importância dos Fatores de Risco
Por fim, identificamos vários fatores de risco que pareceram significativos na predição de CHC. Características como índice de massa corporal elevado, testes hepáticos anormais e presença de outras condições de saúde foram encontrados como fortes preditores. Curiosamente, alguns problemas de saúde específicos foram destacados para mulheres, como artrite reumatoide, que pode desempenhar um papel no perfil de risco delas para desenvolver CHC.
Conclusão
Em conclusão, nosso estudo destaca a eficácia das técnicas modernas de aprendizado profundo na previsão do risco de CHC em pacientes com DEGNA. Ao combinar métodos avançados de análise de dados com foco em manuseio preciso de dados e identificação de fatores de risco, buscamos fornecer insights que possam ajudar a melhorar o atendimento ao paciente. Abordar questões como diagnósticos atrasados e viés de gênero será crucial para fazer mais progressos na compreensão e previsão dos riscos do câncer de fígado. Assim, podemos construir melhores estratégias para monitorar e tratar pacientes com doenças hepáticas.
Título: Developing deep learning-based strategies to predict the risk of hepatocellular carcinoma among patients with nonalcoholic fatty liver disease from electronic health records
Resumo: BackgroundDeep learning models showed great success and potential when applied to many biomedical problems. However, the accuracy of deep learning models for many disease prediction problems is affected by time-varying covariates, rare incidence, and covariate imbalance when using structured electronic health records data. The situation is further exasperated when predicting the risk of one disease on condition of another disease, such as the hepatocellular carcinoma risk among patients with nonalcoholic fatty liver disease due to slow, chronic progression, the scarce of data with both disease conditions and the sex bias of the diseases. ObjectiveThe goal of this study is to investigate the extent to which time-varying covariates, rare incidence, and covariate imbalance influence deep learning performance, and then devised strategies to tackle these challenges. These strategies were applied to improve hepatocellular carcinoma risk prediction among patients with nonalcoholic fatty liver disease. MethodsWe evaluated two representative deep learning models in the task of predicting the occurrence of hepatocellular carcinoma in a cohort of patients with nonalcoholic fatty liver disease (n = 220,838) from a national EHR database. The disease prediction task was carefully formulated as a classification problem while taking censorship and the length of follow-up into consideration. ResultsWe developed a novel backward masking scheme to evaluate how the length of longitudinal information after the index date affects disease prediction. We observed that modeling time-varying covariates improved the performance of the algorithms and transfer learning mitigated reduced performance caused by the lack of data. In addition, covariate imbalance, such as sex bias in data impaired performance. Deep learning models trained on one sex and evaluated in the other sex showed reduced performance, indicating the importance of assessing covariate imbalance while preparing data for model training. ConclusionsDevising proper strategies to address challenges from time-varying covariates, lack of data, and covariate imbalance can be key to counteracting data bias and accurately predicting disease occurrence using deep learning models. The novel strategies developed in this work can significantly improve the performance of hepatocellular carcinoma risk prediction among patients with nonalcoholic fatty liver disease. Furthermore, our novel strategies can be generalized to apply to other disease risk predictions using structured electronic health records, especially for disease risks on condition of another disease.
Autores: Zhao Li, L. Lan, Y. Zhou, K. D. Chavin, H. Xu, D. J. Shih, W. J. Zheng
Última atualização: 2023-11-17 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.11.17.23298691
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.17.23298691.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.