Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Radiología e Imagen

Desafíos en Predecir la Progresión del Cáncer de Mama

La investigación destaca problemas en predecir la progresión de DCIS a IDC usando aprendizaje automático.

― 7 minilectura


Prediciendo el cáncer: unPrediciendo el cáncer: unreto de datosmama a partir de DCIS.problemas para predecir el cáncer deEl aprendizaje automático tiene
Tabla de contenidos

El carcinoma ductal in situ (DCIS) es una condición relacionada con el cáncer de seno que a menudo se describe como etapa 0. Representa aproximadamente el 16% de los nuevos casos de cáncer de mama. Aunque el DCIS en sí no es mortal, puede llevar a un tipo más serio de cáncer de seno, conocido como Carcinoma Ductal Invasivo (IDC). De hecho, entre el 10% y el 25% de los casos de DCIS pueden progresar a IDC durante la cirugía. Por esta razón, mejorar el diagnóstico temprano del DCIS es importante para planificar un tratamiento efectivo.

Importancia de un Diagnóstico Preciso

Estudios recientes han demostrado que ciertos indicadores clínicos y características de las mamografías pueden ayudar a predecir si un caso de DCIS se convertirá en IDC. Los modelos de Aprendizaje automático que utilizan estas características han tenido cierto éxito en hacer tales predicciones. A pesar de los resultados prometedores, ha habido preocupaciones sobre posibles sesgos en algunos de estos estudios, lo que ha llevado a cuestionar la precisión de sus hallazgos.

Desafíos en la Imagenología Médica

Las técnicas de aprendizaje automático, especialmente el aprendizaje profundo, se ven como herramientas valiosas en la imagenología médica. Sin embargo, estos sistemas suelen necesitar grandes cantidades de datos para funcionar bien. Por ejemplo, los estudios exitosos en otras áreas de la medicina a menudo han incluido decenas de miles de casos. En la imagenología mamaria, se han hecho mejoras hasta el punto en que algunos modelos pueden desempeñarse tan bien como radiólogos experimentados.

Pero muchas preguntas importantes en el diagnóstico del cáncer de seno, como predecir si el DCIS progresará a cáncer invasivo, enfrentan limitaciones. Estas surgen debido a tamaños de muestra pequeños, bajas tasas de las condiciones estudiadas y varios factores que pueden complicar el análisis. Encontrar la mejor manera de asegurar que los modelos de aprendizaje automático se puedan confiar y aplicar a nuevos datos sigue siendo una tarea compleja.

Resumen del Estudio

Este estudio examinó qué tan bien diferentes métodos pueden predecir si los casos de DCIS se convertirán en cáncer invasivo. El enfoque estuvo en entender las diferencias de rendimiento entre los Datos de Entrenamiento y los datos utilizados para probar los modelos. Específicamente, el estudio se propuso averiguar cómo diferentes formas de dividir los datos en conjuntos de entrenamiento y prueba podrían impactar el rendimiento del modelo.

Selección de Pacientes

La investigación incluyó a pacientes que se sometieron a un tipo específico de biopsia para DCIS en un sistema de salud durante varios años. Solo se incluyeron mujeres de 40 años o más con ciertas características detectadas en mamografías. El proceso de recopilación de datos implicó obtener información detallada sobre cada caso, realizada por un radiólogo especializado en senos.

Recopilación de Características y Creación del Modelo

En este estudio, los investigadores recopilaron un total de 113 características: 109 relacionadas con las mamografías y 4 características clínicas sobre los pacientes. Crearon cuatro tipos de modelos: uno que usa solo características clínicas, otro que usa solo características de imagen, un tercero que combina ambos tipos, y un cuarto que se centra en características de imagen seleccionando las más relevantes. Las características capturaron varios aspectos de las mamografías y la información clínica de los pacientes.

Manejo de Datos y Evaluación

Para evaluar cómo diferentes formas de manejar los datos podrían afectar el rendimiento del modelo, las muestras se mezclaron aleatoriamente y se dividieron en grupos de entrenamiento y prueba, asegurando una representación equilibrada de los casos. Cada vez, se usaron 400 casos para entrenamiento, y 300 casos se reservaron para pruebas.

El proceso de entrenamiento implicó ensayos repetidos para promediar el rendimiento de los modelos, mientras que la efectividad de los modelos se evaluó según lo que lograron con los datos de prueba. El estudio repitió estos procedimientos muchas veces para obtener una comprensión más precisa de cómo se desempeñaron los modelos.

Evaluando el Rendimiento del Modelo

El estudio analizó qué tan bien se desempeñaron los diferentes modelos que usan características clínicas y de imagen en función de varias divisiones aleatorias de los datos. Se notó que surgieron resultados diferentes cada vez debido a la mezcla, reflejando las posibles inconsistencias causadas por tamaños de muestra pequeños. Se notaron patrones de rendimiento entre el entrenamiento y la prueba: un rendimiento más alto en el entrenamiento a menudo se correlacionaba con un rendimiento más bajo en la prueba y viceversa.

Comparación de Clasificadores

Los investigadores también querían ver cómo se desempeñarían diferentes clasificadores bajo las mismas circunstancias. Aunque se examinaron principalmente los modelos de regresión logística debido a su fiabilidad, también se probaron máquinas de soporte vectorial (SVM) para ver cómo variaban sus rendimientos. Los hallazgos mostraron que, aunque algunos resultados se superponían, seguían existiendo diferencias significativas en el rendimiento según cómo se dividieron los datos.

Rendimiento de Validación cruzada con Varios Tamaños de Muestra

Como parte de la investigación, también se evaluó el rendimiento a medida que aumentaba el número de casos de entrenamiento. La idea era establecer si usar más casos llevaría a métricas de rendimiento más fiables. Los resultados indicaron que las evaluaciones iniciales de rendimiento basadas en muy pocos casos de entrenamiento podrían subestimar la verdadera efectividad de los modelos.

Problemas Clave Identificados

El estudio reveló algunos problemas principales relacionados con el uso de aprendizaje automático en escenarios médicos con datos limitados.

  1. Divisiones de Datos Únicas: Muchos estudios de investigación dividen sus muestras en conjuntos de entrenamiento y prueba solo una vez por simplicidad. Esta práctica puede afectar el rendimiento de la prueba ya que se basa en un grupo específico de casos.

  2. Rendimiento Inconsistente de los Clasificadores: Diferentes modelos reaccionaron de manera variable a las divisiones de datos, lo que llevó a clasificaciones impredecibles de la efectividad del modelo según las características elegidas. Esto dificultó la comparación directa entre modelos.

  3. Limitaciones de la Validación Cruzada: Aunque la validación cruzada puede ayudar a abordar la variabilidad promediando a través de múltiples divisiones de datos, no elimina los riesgos de depender demasiado de muestras pequeñas. Es crucial confirmar que los datos sean representativos, lo cual es difícil de determinar sin datos suficientes.

Limitaciones del Estudio

El estudio enfrentó ciertas limitaciones. Se llevó a cabo dentro de una única instalación de salud y se centró en una tarea médica específica. Las implicaciones de esto son significativas, ya que muchos investigadores enfrentan desafíos similares al tratar con conjuntos de datos pequeños. También se centró en la regresión logística, una técnica común y confiable, mientras que dejó algo limitado la exploración de modelos más complejos como las SVM.

Conclusión y Direcciones Futuras

Los hallazgos del estudio resaltan que el aprendizaje automático puede enfrentar sesgos importantes cuando se aplica a preguntas médicas con datos limitados. En muchos estudios iniciales que tratan con radiomica o biomarcadores, el número de casos puede ser pequeño en comparación con el número de características, lo que hace que la división de datos sea complicada. Aunque la validación cruzada puede ayudar a reducir los sesgos en teoría, la aplicación práctica a menudo requiere más datos para confirmar los resultados de manera efectiva.

Los investigadores deben ser conscientes de estas incertidumbres ocultas al trabajar con conjuntos de datos limitados. Para abordar estos desafíos, son vitales los esfuerzos continuos para reunir conjuntos de datos más grandes y diversos. Solo con una colección robusta y variada de datos pueden los investigadores esperar asegurar que sus hallazgos sean fiables y puedan traducirse en prácticas médicas del mundo real.

Fuente original

Título: Classification performance bias between training and test sets in a limited mammography dataset

Resumen: ObjectivesTo assess the performance bias caused by sampling data into training and test sets in a mammography radiomics study. MethodsMammograms from 700 women were used to study upstaging of ductal carcinoma in situ. The dataset was repeatedly shuffled and split into training (n=400) and test cases (n=300) forty times. For each split, cross-validation was used for training, followed by an assessment of the test set. Logistic regression with regularization and support vector machine were used as the machine learning classifiers. For each split and classifier type, multiple models were created based on radiomics and/or clinical features. ResultsArea under the curve (AUC) performances varied considerably across the different data splits (e.g., radiomics regression model: train 0.58-0.70, test 0.59-0.73). Performances for regression models showed a tradeoff where better training led to worse testing and vice versa. Cross-validation over all cases reduced this variability, but required samples of 500+ cases to yield representative estimates of performance. ConclusionsIn medical imaging, clinical datasets are often limited to relatively small size. Models built from different training sets may not be representative of the whole dataset. Depending on the selected data split and model, performance bias could lead to inappropriate conclusions that might influence the clinical significance of the findings. Optimal strategies for test set selection should be developed to ensure study conclusions are appropriate.

Autores: Rui Hou, J. Y. Lo, J. R. Marks, S. Hwang, L. J. Grimm

Última actualización: 2023-02-23 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.02.15.23285985

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.02.15.23285985.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares