Comparando Modelos de Predicción de Riesgo para Tumores de Ovario
Un estudio examina diferentes modelos que predicen los riesgos de tumores ováricos y su precisión.
― 9 minilectura
Tabla de contenidos
Las pacientes con tumores ováricos necesitan un buen cuidado. Estudios muestran que recibir tratamiento en centros especializados de cáncer lleva a mejores resultados para las pacientes con cáncer de ovario. Aunque algunos quistes ováricos son benignos y se pueden tratar sin cirugía, los tumores deben ser evaluados con cuidado. Los Modelos de Predicción de Riesgo ayudan a los médicos a decidir cómo tratar a las pacientes al estimar la probabilidad de que un tumor sea maligno según varios factores.
Un modelo como ADNEX utiliza una mezcla de información clínica y de ultrasonido para clasificar un tumor como benigno, en frontera, o en diferentes etapas de cáncer invasivo o metastásico. Esta clasificación es importante porque cada tipo requiere un enfoque diferente.
Hay un interés creciente en usar métodos avanzados de aprendizaje automático para mejorar los modelos de predicción. A diferencia de los modelos estadísticos tradicionales, los métodos de aprendizaje automático pueden descubrir patrones complejos en los datos sin necesidad de que el usuario los defina. Aunque estos modelos avanzados pueden tener mejor rendimiento, un mal diseño puede llevar a resultados poco fiables. Una revisión reciente encontró resultados mixtos, con métodos de aprendizaje automático funcionando mejor en algunos casos pero no en otros. Pocos estudios han investigado cuán precisas son estas predicciones y si son útiles en entornos clínicos reales.
Además, se reconoce que las predicciones pueden ser inciertas. Diferentes conjuntos de datos pueden llevar a diferentes estimaciones de riesgo para la misma paciente, y aunque tamaños de muestra más grandes pueden ayudar a estabilizar estas estimaciones, la incertidumbre aún puede ser significativa. La incertidumbre del modelo puede surgir de varias elecciones durante el desarrollo del modelo, como qué predictores usar o cómo manejar los datos faltantes. La elección del algoritmo también puede influir en las predicciones.
Este estudio tiene como objetivo comparar diferentes modelos de predicción de riesgo para el cáncer de ovario usando tanto técnicas estadísticas tradicionales como métodos modernos de aprendizaje automático. La atención se centrará en qué tan bien estos modelos distinguen entre tipos de tumores, su precisión y su utilidad práctica para el uso clínico. También veremos cómo diferentes algoritmos pueden llevar a diferentes estimaciones de riesgo para pacientes individuales.
Diseño del Estudio, Configuración y Participantes
Esta investigación es un análisis secundario de datos recogidos de múltiples hospitales por el grupo de Análisis de Tumores Ováricos Internacional (IOTA). Para entrenar los modelos, se usaron datos de más de 5,900 pacientes de 24 centros entre 1999 y 2012. Todas las pacientes tenían al menos un tumor que no era un quiste simple y se sometieron a cirugía dentro de los 120 días tras su examen de ultrasonido.
Para la validación externa de los modelos, se utilizó datos de casi 3,200 pacientes recogidos de 25 centros entre 2012 y 2015. Estas pacientes también tenían tumores considerados no quistes simples y tenían el mismo cronograma quirúrgico que el conjunto de datos de entrenamiento. Es importante notar que, aunque este estudio miró a pacientes que se sometieron a cirugía, muchas pacientes pueden haber sido tratadas de manera conservadora en otros estudios.
Los centros participantes incluían tanto instalaciones de tratamiento de cáncer como centros de imagenología general. Todos los estudios recibieron aprobación ética, y las participantes dieron su consentimiento informado. Este análisis se adhiere a las guías para reportar modelos de predicción.
Recolección de Datos
Se tomó una historia clínica detallada de cada paciente durante su visita inicial para recolectar información clínica, y todas se sometieron a un examen de ultrasonido estándar. Se utilizaron técnicas transabdominales si era necesario. Se recolectaron varios datos de ultrasonido predefinidos como parte del protocolo de investigación. Si había más de un tumor presente, se seleccionó el más complejo para análisis.
El resultado principal fue la clasificación de los tumores en cinco categorías basadas en hallazgos quirúrgicos: benigno, en frontera, invasivo primario etapa I, invasivo primario etapa II-IV, o tumores metastásicos secundarios. La evaluación se realizó sin conocimiento de los resultados del ultrasonido, aunque alguna información relevante podría haber estado disponible para los patólogos.
Análisis Estadístico
Predictores y Tamaño de Muestra
El análisis se centró en nueve predictores: tipo de centro, edad de la paciente, nivel de CA125 en suero, tamaño del tejido sólido en relación al tamaño del tumor, diámetro máximo del tumor, presencia de sombras en ultrasonido, presencia de acumulación de líquido en el abdomen, número de loculaciones quísticas, y número de proyecciones papilares. Estos predictores fueron elegidos basado en el conocimiento experto de su probable importancia.
Se crearon modelos usando varios métodos: regresión estándar, regresión ridge, bosques aleatorios, gradiente extremo de impulso, redes neuronales, y máquinas de soporte vectorial. Los predictores continuos fueron modelados para permitir relaciones no lineales. Los modelos fueron afinados usando técnicas de validación cruzada.
Rendimiento del Modelo en Datos de Validación Externa
Para evaluar qué tan bien los modelos podían diferenciar entre tipos de tumores, se utilizó el Índice de Discriminación Polytomous (PDI). Este índice compara la capacidad del modelo para distinguir entre los cinco tipos de tumores. Un PDI de 0.2 indica ninguna discriminación, mientras que un puntaje de 1 muestra una discriminación perfecta. El estudio también calculó estadísticas pareadas para evaluar el rendimiento entre pares de resultados específicos.
La calibración de los modelos se evaluó a través de curvas de calibración flexibles. Las curvas de calibración mostraron qué tan bien las probabilidades predichas coincidían con los resultados reales. La efectividad de los modelos en entornos clínicos se evaluó calculando el Beneficio Neto, que determina cuán útil es un modelo para seleccionar pacientes para referencia a centros especializados.
Manejo de Valores Faltantes
Muchas pacientes tenían valores de CA125 faltantes, por lo que se usó un método estadístico llamado imputación múltiple para estimar estos valores faltantes tanto para los conjuntos de datos de entrenamiento como de validación.
Procedimiento de Modelado y Software
El análisis se realizó utilizando el software de programación R con paquetes específicos para cada técnica de modelado. Los resultados para los conjuntos de datos de desarrollo y validación se presentaron en tablas resumen, con estadísticas clave como la edad mediana y los tipos de tumores delineados.
Rendimiento de Discriminación
Para los modelos que incluyeron CA125, los puntajes de PDI variaron entre los algoritmos, con resultados que iban de puntajes más bajos a más altos. Los mejores modelos alcanzaron altas c-estadísticas pareadas, indicando buena discriminación entre ciertos tipos de tumores. Para los modelos sin CA125, los puntajes de rendimiento fueron igualmente variados pero generalmente más bajos.
Rendimiento de Calibración
Los resultados de calibración mostraron discrepancias en qué tan bien las probabilidades predijeron los resultados reales. Para los modelos con CA125, la probabilidad de tumores benignos a menudo fue sobreestimada. El rendimiento de calibración varió según el algoritmo, con algunos modelos funcionando mejor que otros en términos de hacer coincidir probabilidades predichas con riesgos reales.
Utilidad Clínica
Todos los modelos que incluyeron CA125 superaron las estrategias básicas para la referencia de pacientes. En un umbral de riesgo notable, todos los modelos proporcionaron una utilidad similar, con algunos algoritmos funcionando mejor en umbrales más altos. Los resultados fueron consistentes para los modelos sin CA125, mostrando una utilidad clínica similar.
Comparando Probabilidades Estimadas Entre Algoritmos
El estudio encontró que diferentes algoritmos podían producir estimaciones de probabilidad significativamente diferentes para pacientes individuales. Un porcentaje considerable de pacientes tuvo diferencias en las probabilidades estimadas de tumores benignos según el enfoque de modelado utilizado. Al aplicar un umbral de riesgo específico, algunas pacientes fueron categorizadas de manera diferente según qué modelo se usó.
Resumen de Hallazgos
La investigación comparó seis algoritmos para crear modelos de predicción de riesgo para tumores ováricos. No hubo un claro ganador; varios algoritmos mostraron un rendimiento similar. Incluir CA125 mejoró ciertos aspectos del rendimiento del modelo. Sin embargo, la elección del algoritmo afectó significativamente las estimaciones de riesgo individuales, potencialmente llevando a decisiones clínicas diferentes para la misma paciente.
Este estudio tuvo varias fortalezas, como la utilización de grandes conjuntos de datos y técnicas de recolección estandarizadas. Sin embargo, también tuvo limitaciones, incluyendo solo pacientes que se sometieron a cirugía y el uso de un conjunto fijo de predictores.
Investigaciones anteriores han explorado temas similares pero a menudo en escalas más pequeñas y enfocándose principalmente en resultados binarios. Este estudio contribuye a la comprensión de cómo diferentes modelos de predicción pueden afectar las estimaciones de riesgo individuales para tumores ováricos.
Los hallazgos resaltan la necesidad de conjuntos de datos más grandes al desarrollar modelos de predicción y sugieren que los algoritmos de aprendizaje automático pueden requerir más datos que los métodos tradicionales. Enfoques que transmiten incertidumbre alrededor de las estimaciones de riesgo también pueden ser beneficiosos en entornos clínicos.
En conclusión, aunque múltiples algoritmos pueden estimar efectivamente la probabilidad de diferentes tipos de tumores, la elección del algoritmo puede llevar a diferentes evaluaciones de riesgo para pacientes individuales. Esta observación es vital para los médicos que toman decisiones de tratamiento basadas en estos modelos.
Título: Multiclass risk models for ovarian malignancy: an illustration of prediction uncertainty due to the choice of algorithm.
Resumen: OBJECTIVETo compare performance and probability estimates of six algorithms to estimate the probabilities that an ovarian tumor is benign, borderline malignant, stage I primary invasive, stage II-IV primary invasive, or secondary metastatic. MATERIALS AND METHODSModels were developed on 5909 patients (recruited 1999-2012) and validated on 3199 patients (2012-2015). Nine clinical and ultrasound predictors were used. Outcome was based on histology following surgery within 120 days after the ultrasound examination. We developed models using multinomial logistic regression (MLR), Ridge MLR, random forest (RF), XGBoost, neural networks (NN), and support vector machines (SVM). RESULTSBenign tumors were most common (62%), secondary metastatic tumors least common (5%). XGBoost, RF, NN and MLR had similar performance: c-statistics for benign versus any type of malignant tumors were 0.92, multiclass c-statistics 0.54-0.55, average Estimated Calibration Indexes 0.03-0.07, and Net Benefits at the 10% malignancy risk threshold 0.33-0.34. Despite poorer discrimination and calibration performance for Ridge MLR and in particular SVM, Net Benefits were similar for all models. The estimated probabilities often differed strongly between models. For example, the probability of a benign tumor differed by more than 20 percentage points in 29% of the patients, and by more than 30 percentage points in 16% of the patients. DISCUSSIONSeveral regression and machine learning models had very good and similar performance in terms of discrimination, calibration and clinical utility. Nevertheless, individual probabilities often varied substantially. CONCLUSIONMachine learning did not outperform MLR. The choice of algorithm can strongly affect probabilities given to a patient.
Autores: Ben Van Calster, A. Ledger, J. Ceusters, L. Valentin, A. Testa, C. Van Holsbeke, D. Franchi, T. Bourne, W. Froyman, D. Timmerman
Última actualización: 2023-07-27 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.07.25.23293141
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.07.25.23293141.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.