Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Informática sanitaria

Evaluando el riesgo de cáncer de hígado en pacientes con NAFLD

Este estudio usa aprendizaje profundo para predecir el riesgo de cáncer de hígado en pacientes con NAFLD.

― 7 minilectura


Aprendizaje profundo yAprendizaje profundo yriesgo de cáncer dehígadoen pacientes con NAFLD.Usar IA para evaluar el riesgo de HCC
Tabla de contenidos

El cáncer de hígado es un problema de salud serio, siendo el carcinoma hepatocelular (HCC) el tipo más común de cáncer de hígado en adultos. Es una de las principales causas de muertes relacionadas con el cáncer en todo el mundo. Aunque los factores de riesgo conocidos para el HCC incluyen infecciones por hepatitis B y C y enfermedad hepática alcohólica, hay una creciente preocupación por la enfermedad del hígado graso no alcohólico (NAFLD) como un factor de riesgo para el HCC, especialmente en Estados Unidos. Estudios anteriores analizaron esta conexión, pero a menudo involucraron grupos pequeños de pacientes, lo que dificulta sacar conclusiones amplias.

Con más datos de salud recopilados electrónicamente, los investigadores ahora pueden usar esta información para entender mejor los riesgos de enfermedad. El aprendizaje automático, especialmente las técnicas de aprendizaje profundo, muestra promesa para identificar qué pacientes tienen riesgo de desarrollar HCC. Algunos estudios ya han aplicado estas técnicas a pacientes con enfermedades hepáticas relacionadas con la hepatitis, pero ninguno se ha centrado específicamente en aquellos con NAFLD.

Propósito del Estudio

Este estudio tiene como objetivo usar métodos avanzados de aprendizaje profundo para analizar datos de salud de un gran número de pacientes con NAFLD para determinar su riesgo de desarrollar HCC. A diferencia de los métodos anteriores, queremos asegurarnos de considerar varias complejidades en los datos, como registros incompletos de pacientes y la lenta progresión de la enfermedad.

Fuente de Datos

Los datos para este estudio provienen de una gran base de datos de registros de salud, que incluye información sobre más de 68 millones de pacientes en EE. UU. Los registros contienen una variedad de información de salud, incluyendo demografía de pacientes, diagnósticos, medicamentos, pruebas de laboratorio y más. Nos centramos específicamente en pacientes con NAFLD y creamos un grupo de comparación de pacientes saludables.

Grupo de Pacientes con NAFLD

Para formar parte del grupo de NAFLD en este estudio, los pacientes debían mostrar signos de problemas hepáticos a través de niveles anormales de enzimas durante un cierto período. Excluimos a pacientes menores de 18 años, así como a aquellos con infecciones por hepatitis o antecedentes de consumo de alcohol, ya que son factores de riesgo conocidos para el HCC. Nuestro objetivo era crear un conjunto de datos limpio para analizar el riesgo de desarrollo de HCC entre los pacientes con NAFLD.

Grupo de Caso-Control

Para hacer nuestro estudio más robusto, también incluimos un grupo de caso-control. Este grupo consistía en pacientes diagnosticados con HCC, junto con un grupo de pacientes saludables que no tenían NAFLD. Al emparejar pacientes saludables con pacientes de HCC según la edad, género e historia de salud, buscamos entender mejor las diferencias en los resultados de salud.

Diseño del Estudio

En nuestra investigación, usamos modelos modernos de aprendizaje profundo para predecir si los pacientes con NAFLD desarrollarían HCC dentro de un periodo de tiempo específico. Diseñamos nuestro estudio considerando que muchos pacientes podrían no tener datos completos de seguimiento por varias razones, como mudanzas o cambios de médicos.

Comenzamos observando casos de HCC dentro de diez años a partir de un punto de partida elegido. Los pacientes que se perdieron de seguimiento se marcaron como no habiendo desarrollado el cáncer. Aquellos que desarrollaron HCC fueron monitoreados de cerca para ver si surgían ciertos patrones de salud entre ellos.

Modelos de Aprendizaje Profundo

Nos centramos en dos modelos principales de aprendizaje profundo para nuestro análisis: RETAIN y DeepHit. El modelo RETAIN usa datos médicos históricos para predecir la progresión de la enfermedad, mientras que DeepHit está diseñado para análisis de supervivencia. Ambos modelos tienen sus fortalezas, pero nuestra hipótesis era que RETAIN funcionaría mejor en este contexto porque utiliza datos de salud cambiantes a lo largo del tiempo.

Técnica de Enmascaramiento Reversible

Un desafío único en nuestra investigación fue el diagnóstico tardío de HCC. A menudo, los síntomas están presentes mucho antes de que se haga un diagnóstico oficial. Para abordar este problema, utilizamos una técnica llamada enmascaramiento reversible, donde ocultamos intencionalmente ciertos registros médicos pasados antes de la fecha del diagnóstico de HCC. Esto nos permitió identificar factores de riesgo en lugar de depender simplemente de señales de advertencia obvias.

Aprendizaje por Transferencia

Dado el número relativamente pequeño de pacientes con NAFLD que desarrollan HCC, empleamos un método llamado aprendizaje por transferencia. Este enfoque nos permitió usar nuestros modelos, que inicialmente se entrenaron en un grupo más grande de pacientes, y luego ajustarlos a los datos de NAFLD. Esta estrategia ayudó a mejorar las predicciones que podíamos hacer sobre el riesgo de HCC en pacientes con NAFLD.

Hallazgos

Nuestros resultados mostraron que usar el modelo RETAIN, que consideraba la evolución de los datos de los pacientes a lo largo del tiempo, resultó en predicciones más precisas del riesgo de HCC. Encontramos que la capacidad de analizar datos de salud cambiantes era crucial para realizar predicciones efectivas. En contraste, DeepHit, que usa solo datos iniciales, no tuvo el mismo rendimiento.

Además, descubrimos que el aprendizaje por transferencia tuvo un efecto positivo en nuestros resultados. Al comenzar con un modelo que ya había aprendido de un conjunto de datos más grande, nuestras predicciones para el grupo más pequeño de NAFLD mejoraron significativamente.

Sesgo de Género en las Predicciones

Una parte importante de nuestro análisis incluyó examinar cómo el género podría influir en el riesgo de enfermedad de HCC. Hallazgos anteriores sugirieron que hombres y mujeres podrían experimentar riesgos y resultados diferentes relacionados con el HCC. Al analizar nuestros datos, confirmamos que los modelos funcionaron de manera diferente según el género de los pacientes sobre los que fueron entrenados. Los modelos solo para hombres no predecían bien los resultados para mujeres, lo que subraya la necesidad de enfoques específicos de género en análisis futuros.

Importancia de los Factores de Riesgo

Por último, identificamos varios factores de riesgo clave que parecían significativos para predecir el HCC. Características como un índice de masa corporal alto, pruebas hepáticas anormales y la presencia de otras condiciones de salud resultaron ser fuertes predictores. Curiosamente, algunas cuestiones de salud específicas se destacaron para las mujeres, como la artritis reumatoide, que podría influir en su perfil de riesgo para desarrollar HCC.

Conclusión

En conclusión, nuestro estudio destaca la efectividad de las técnicas modernas de aprendizaje profundo en la predicción del riesgo de HCC en pacientes con NAFLD. Al combinar métodos avanzados de análisis de datos con un enfoque en un manejo preciso de datos e identificación de factores de riesgo, buscamos proporcionar información que ayude a mejorar la atención al paciente. Abordar problemas como los diagnósticos tardíos y el sesgo de género será crucial para avanzar en la comprensión y predicción de los riesgos de cáncer de hígado. Como resultado, podemos construir mejores estrategias para monitorear y tratar a los pacientes con enfermedades hepáticas.

Fuente original

Título: Developing deep learning-based strategies to predict the risk of hepatocellular carcinoma among patients with nonalcoholic fatty liver disease from electronic health records

Resumen: BackgroundDeep learning models showed great success and potential when applied to many biomedical problems. However, the accuracy of deep learning models for many disease prediction problems is affected by time-varying covariates, rare incidence, and covariate imbalance when using structured electronic health records data. The situation is further exasperated when predicting the risk of one disease on condition of another disease, such as the hepatocellular carcinoma risk among patients with nonalcoholic fatty liver disease due to slow, chronic progression, the scarce of data with both disease conditions and the sex bias of the diseases. ObjectiveThe goal of this study is to investigate the extent to which time-varying covariates, rare incidence, and covariate imbalance influence deep learning performance, and then devised strategies to tackle these challenges. These strategies were applied to improve hepatocellular carcinoma risk prediction among patients with nonalcoholic fatty liver disease. MethodsWe evaluated two representative deep learning models in the task of predicting the occurrence of hepatocellular carcinoma in a cohort of patients with nonalcoholic fatty liver disease (n = 220,838) from a national EHR database. The disease prediction task was carefully formulated as a classification problem while taking censorship and the length of follow-up into consideration. ResultsWe developed a novel backward masking scheme to evaluate how the length of longitudinal information after the index date affects disease prediction. We observed that modeling time-varying covariates improved the performance of the algorithms and transfer learning mitigated reduced performance caused by the lack of data. In addition, covariate imbalance, such as sex bias in data impaired performance. Deep learning models trained on one sex and evaluated in the other sex showed reduced performance, indicating the importance of assessing covariate imbalance while preparing data for model training. ConclusionsDevising proper strategies to address challenges from time-varying covariates, lack of data, and covariate imbalance can be key to counteracting data bias and accurately predicting disease occurrence using deep learning models. The novel strategies developed in this work can significantly improve the performance of hepatocellular carcinoma risk prediction among patients with nonalcoholic fatty liver disease. Furthermore, our novel strategies can be generalized to apply to other disease risk predictions using structured electronic health records, especially for disease risks on condition of another disease.

Autores: Zhao Li, L. Lan, Y. Zhou, K. D. Chavin, H. Xu, D. J. Shih, W. J. Zheng

Última actualización: 2023-11-17 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.11.17.23298691

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.11.17.23298691.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares