A-Eval: Evaluación de Modelos de Segmentación de Órganos Abdominales
A-Eval evalúa modelos para segmentar órganos abdominales en diferentes conjuntos de datos.
― 15 minilectura
Tabla de contenidos
- Trabajos Relacionados
- Benchmarks de Segmentación Multi-Órgano Abdominal
- Generalización del Modelo
- Benchmark A-Eval
- Conjuntos de Datos para A-Eval
- Protocolos Inter-Conjuntos
- Arquitectura del Modelo y Procedimiento de Entrenamiento
- Métricas de Evaluación y Procedimiento de Inferencia
- Experimentos y Resultados
- Detalles de Implementación
- Evaluación Inter-Conjuntos para Modelos Entrenados en Conjuntos de Datos Individuales
- Impacto del Pseudoetiquetado en la Generalización del Modelo
- Impacto de los Datos Multimodales en la Generalización del Modelo
- Mejorando la Generalización a Través del Entrenamiento Conjunto en Múltiples Conjuntos de Datos
- Impacto del Tamaño del Modelo en la Generalización
- Conclusión
- Fuente original
- Enlaces de referencia
El aprendizaje profundo ha mejorado cómo segmentamos los órganos abdominales, lo cual es clave para diagnosticar y tratar varios tipos de cáncer. Sin embargo, los Modelos entrenados con Conjuntos de datos pequeños suelen rendir mal cuando se aplican a diferentes conjuntos de datos. Esto plantea dos preguntas principales: ¿Pueden los modelos entrenados con grandes conjuntos de datos funcionar bien en otros conjuntos? Si no, ¿cómo podemos mejorarlos?
Para responder a estas preguntas, presentamos A-Eval, un benchmark diseñado para evaluar cuán bien generalizan los modelos en diferentes conjuntos de datos para la Segmentación de órganos abdominales. Usamos conjuntos de entrenamiento de cuatro grandes conjuntos de datos públicos: FLARE22, AMOS, WORD y TotalSegmentator. Cada uno de estos conjuntos ofrece etiquetas amplias para segmentar órganos abdominales. Para la evaluación, agregamos los conjuntos de validación de estos conjuntos e incluimos el conjunto de entrenamiento del conjunto de datos BTCV, formando un benchmark compuesto por cinco conjuntos de datos únicos.
En A-Eval, evaluamos cómo se desempeñan varios modelos en diferentes escenarios. Esto incluye entrenar en un conjunto de datos a la vez, usar datos no etiquetados con pseudoetiquetado, combinar diferentes tipos de imágenes y entrenar conjuntamente en todos los conjuntos de datos disponibles. También analizamos cómo el tamaño de los modelos afecta su capacidad para generalizar entre conjuntos de datos. Estas investigaciones destacan lo importante que es hacer un uso efectivo de los datos para mejorar el rendimiento del modelo y proporcionan ideas para futuros desarrollos.
El método original para evaluar modelos implicaba entrenarlos y probarlos en el mismo conjunto de datos. Aunque este método daba buenos resultados, generaba incertidumbres sobre cómo se desempeñarían los modelos en otros conjuntos de datos. A-Eval, en contraste, entrena y prueba modelos en diferentes conjuntos de datos, ofreciendo una visión más completa de cómo se desempeñan y su capacidad de Generalización.
La segmentación precisa de los órganos abdominales es fundamental para el trabajo clínico. Históricamente, este trabajo lo hacían especialistas de forma manual, pero este enfoque a menudo conducía a errores, especialmente cuando los métodos de imagen y las características anatómicas variaban. El aprendizaje profundo ha introducido formas más eficientes para abordar este desafío y ha mostrado gran promesa para mejorar la precisión de la segmentación.
El éxito del aprendizaje profundo en la segmentación de órganos abdominales depende en gran medida de la calidad y cantidad de datos de entrenamiento disponibles. Trabajos anteriores se centraron principalmente en la segmentación de órganos individuales, impulsados por las limitaciones de conjuntos de datos tempranos como MSD, LiTS y KiTS. La introducción de conjuntos de datos multiórgano como BTCV ha abierto estudios más complejos del abdomen, pero sus tamaños pequeños limitaron su utilidad.
En los últimos años, han surgido varios grandes conjuntos de datos para la segmentación de órganos abdominales, como FLARE22, AMOS, WORD y TotalSegmentator. Estos conjuntos son notables por su escala y variedad de órganos. Aunque los modelos entrenados en estos conjuntos muestran resultados impresionantes, su capacidad para generalizar entre diferentes conjuntos de datos sigue siendo incierta.
Los factores que contribuyen a los desafíos en la generalización de modelos a menudo se deben a lo que llamamos "brechas de dominio" o "cambios de dominio". Por ejemplo, los diferentes protocolos de imagen entre centros médicos conducen a inconsistencias. Además, una amplia variedad de enfermedades en los grupos de entrenamiento puede complicar la generalización. Otras variables, como la calidad de las imágenes inconsistentes y las diferencias en las prácticas de anotación entre varios especialistas, pueden afectar aún más el rendimiento del modelo.
A pesar de los esfuerzos continuos para incluir datos diversos en grandes conjuntos de datos abdominales, la validación ha seguido siendo limitada a conjuntos individuales. Algunos estudios han intentado evaluar modelos en conjuntos de datos externos, pero estos esfuerzos carecieron de escala y estandarización, haciéndolos más complementarios que completos. Esta limitación subraya la necesidad de mejores benchmarks para evaluar el rendimiento de modelos en conjuntos de datos variados.
Para llenar este vacío, presentamos A-Eval como un benchmark diseñado para evaluar modelos de segmentación de órganos abdominales en diferentes conjuntos de datos. A-Eval integra conjuntos de entrenamiento de grandes conjuntos de datos públicos como FLARE22, AMOS, WORD y TotalSegmentator, que presentan una cobertura integral de órganos. Aunque algunas etiquetas de conjuntos de validación de estos conjuntos no están disponibles públicamente, usamos los conjuntos de validación junto con el conjunto de entrenamiento de BTCV para aumentar la diversidad y robustez.
El benchmark A-Eval comprende cinco conjuntos de datos, lo que nos permite evaluar la capacidad de generalización de los modelos directamente a través de diferentes conjuntos de datos. Esto supone una mejora significativa respecto a enfoques anteriores que se centraban solo en conjuntos individuales.
Utilizando A-Eval, profundizamos en los factores que afectan cuán bien pueden generalizar los modelos de aprendizaje profundo en la segmentación de órganos abdominales. Primero, entrenamos modelos individualmente en cada uno de los cuatro conjuntos de datos principales y los probamos en los cinco conjuntos. Esto estableció una línea base para el rendimiento y la generalización del modelo.
Exploramos más factores relacionados con los datos que podrían mejorar la generalización. Esto incluye usar datos no etiquetados del conjunto de datos FLARE22, examinar cómo las imágenes multimodales de AMOS afectan el rendimiento y evaluar cómo el entrenamiento conjunto en varios conjuntos de datos afecta los resultados. También estudiamos el papel del tamaño del modelo para ver cómo influye en la generalización entre conjuntos de datos.
Nuestras principales contribuciones se pueden resumir de la siguiente manera:
Introdujimos A-Eval, un benchmark integral diseñado para evaluar la generalización en la segmentación de órganos abdominales. Este benchmark combina conjuntos de entrenamiento de FLARE22, AMOS, WORD y TotalSegmentator, y evalúa usando sus conjuntos de validación y el conjunto de entrenamiento de BTCV.
A-Eval nos permite estudiar la generalización del modelo en varios escenarios, incluyendo el entrenamiento en conjuntos de datos individuales, el uso de datos no etiquetados, el entrenamiento multimodal y el entrenamiento conjunto en múltiples conjuntos de datos. También investigamos el impacto del tamaño del modelo, ofreciendo ideas para mejorar la generalización en situaciones reales.
Trabajos Relacionados
Benchmarks de Segmentación Multi-Órgano Abdominal
Los primeros benchmarks se centraron en órganos individuales y tumores asociados, con conjuntos de datos como los del Medical Segmentation Decathlon (MSD) que incluyen hígado, pulmón, páncreas, bazo y colon, junto con otros como LiTS y KiTS. El conjunto de datos BTCV marcó un paso hacia la segmentación multi-organo pero también estuvo restringido por datos limitados.
Los avances recientes en el campo han llevado a muchos conjuntos de datos a gran escala para la segmentación de órganos abdominales. Estos conjuntos presentan volúmenes sustanciales y variedad, permitiendo instancias y tipos de órganos diversos. AMOS es notable por incluir datos multimodales, mientras que FLARE22 ofrece numerosos casos no etiquetados junto a algunos etiquetados. El conjunto TotalSegmentator amplía aún más el alcance al proporcionar segmentación de órganos de cuerpo completo.
A pesar de la creciente diversidad y tamaño de estos conjuntos de datos, la mayoría de los benchmarks siguen centrados en la evaluación intra-conjunto, lo que limita la exploración de la generalización entre conjuntos. A-Eval busca abordar esta brecha al proporcionar un enfoque estructurado para evaluar modelos en términos de generalización entre conjuntos de datos.
Generalización del Modelo
La generalización es clave para los modelos de aprendizaje automático, especialmente en imágenes médicas, donde necesitan funcionar en diversas situaciones clínicas. Para aumentar la generalización del modelo, los investigadores suelen explorar dos estrategias principales: enfocarse en los datos y ajustar la arquitectura del modelo.
La augmentación de datos es una estrategia común que ayuda. Por ejemplo, se han utilizado Redes Generativas Antagónicas, como CycleGAN, para mejorar los datos de CT, logrando un mejor rendimiento en escaneos sin contraste. Otras técnicas, como combinar diferentes protocolos de imagen, también han sido efectivas para mejorar la precisión de la segmentación de órganos.
Un método importante para mejorar la generalización no es solo aumentar el volumen del conjunto de datos, sino también diversificar y hacer que los datos de entrenamiento sean multicéntricos. Desafortunadamente, incluso cuando los conjuntos de datos se vuelven más grandes, los modelos a menudo se evalúan solo dentro del mismo conjunto de datos.
En el lado de la arquitectura, los investigadores han desarrollado marcos de adaptación de dominio no supervisados para mejorar la segmentación de imágenes biomédicas de diferentes modalidades. Técnicas como redes ponderadas por contornos han aumentado la sensibilidad del modelo a los límites de los objetos en imágenes de MR de próstata.
A diferencia de investigaciones pasadas que se centraron principalmente en la augmentación de datos o en ajustes del modelo, nuestro estudio con A-Eval examina cómo la variedad de datos y el tamaño del modelo pueden afectar el rendimiento a través de múltiples conjuntos de datos abdominales a gran escala.
Benchmark A-Eval
A-Eval es un benchmark diseñado para estandarizar las evaluaciones de los modelos de segmentación de órganos abdominales en varios conjuntos de datos. Esta sección discute cómo abordamos el entrenamiento, las pruebas, el procesamiento de datos, la arquitectura del modelo y las métricas de evaluación.
Conjuntos de Datos para A-Eval
A-Eval incluye cinco conjuntos de datos representativos, elegidos por su amplia escala, anotaciones de órganos integrales, diversas fuentes y características de imagen. Los conjuntos incluidos son FLARE22, AMOS, WORD, TotalSegmentator y BTCV. Usamos los conjuntos de entrenamiento oficiales de los primeros cuatro conjuntos para entrenar el modelo y sus conjuntos de validación correspondientes junto con el conjunto de entrenamiento de BTCV para la evaluación.
Para hacer que las comparaciones sean significativas, nos centramos en un conjunto compartido de ocho clases de órganos que existen en los cinco conjuntos. Estas clases de órganos son hígado, riñón derecho, riñón izquierdo, bazo, páncreas, vesícula biliar, esófago y estómago. Esta selección permite una comparación directa entre todos los conjuntos.
Protocolos Inter-Conjuntos
Para evaluar la generalización, definimos un conjunto de protocolos inter-conjuntos que reflejan varios escenarios de datos que a menudo se ven en aplicaciones del mundo real:
Entrenamiento en Conjunto de Datos Individual: Comenzamos entrenando modelos por separado en cada conjunto de datos, usando los datos de CT etiquetados. Esto crea una línea base para evaluar la generalización cuando se entrena en conjuntos de datos individuales.
Uso de Datos No Etiquetados: Con el conjunto de datos FLARE22, que incluye escaneos no etiquetados, probamos los efectos de generar pseudoetiquetas para estas imágenes no etiquetadas para ver cómo mejora esto la generalización del modelo.
Uso de Datos Multimodales: Utilizamos el conjunto de datos AMOS, que contiene escaneos de CT y MR, para estudiar cómo el entrenamiento con diferentes modalidades afecta el rendimiento del modelo. Exploramos el entrenamiento solo con escaneos de CT, solo con escaneos de MR y una mezcla de ambos.
Entrenamiento Conjunto a Través de Conjuntos de Datos: Este enfoque integral implica entrenar un solo modelo en todos los conjuntos de datos disponibles, lo que nos permite ver cuán bien puede generalizar el modelo a través de una variedad de fuentes de datos.
Estos protocolos están diseñados para darnos una visión sobre la generalización entre conjuntos de datos para la segmentación de órganos abdominales, enfatizando los beneficios de usar conjuntos de datos diversos.
Arquitectura del Modelo y Procedimiento de Entrenamiento
Aseguramos la equidad en la comparación de diferentes estrategias de uso de datos utilizando una arquitectura de modelo consistente: STU-Net. Este modelo emplea una estructura simétrica de codificador-decodificador, incorporando bloques residuales. Cada bloque consta de capas convolucionales con normalización.
En nuestros experimentos, utilizamos principalmente el modelo STU-Net-L, elegido por su gran capacidad, que tiene aproximadamente 440MB de parámetros. Para analizar cómo diferentes tamaños de modelo afectan la generalización, evaluamos cuatro variantes de STU-Net, que van desde un compacto de 14M hasta un grande de 1.4B.
Para el proceso de entrenamiento, cada imagen se estandarizó para el espaciado, y se utilizaron diferentes métodos de normalización según el tipo de imagen (CT o MR). El entrenamiento siguió el enfoque estándar de nnU-Net, implementando técnicas de augmentación de datos como rotación, escalado y espejado. La función de pérdida utilizada fue una combinación de pérdidas de Dice y entropía cruzada, y ajustamos el número de épocas de entrenamiento dependiendo de los protocolos de uso de datos, mejorando la equidad de la evaluación.
Métricas de Evaluación y Procedimiento de Inferencia
Utilizamos dos métricas de evaluación para evaluar el rendimiento del modelo: el Coeficiente de Similitud de Dice (DSC) y el Dice Superficial Normalizado (NSD). Ambas métricas brindan información sobre qué tan bien coinciden las predicciones del modelo con las segmentaciones reales.
Durante la inferencia, seguimos las prácticas estándar del marco nnU-Net para asegurar una evaluación exhaustiva. Usamos un método de ventana deslizante para la cobertura de entrada y aplicamos augmentación en el tiempo de prueba para mejorar el proceso de evaluación.
Experimentos y Resultados
Detalles de Implementación
Todos los experimentos se llevaron a cabo en un entorno específico utilizando prácticas y marcos de codificación estándar. Los ajustes óptimos para el procesamiento de datos y el entrenamiento se determinaron automáticamente según las características del conjunto de datos, haciendo que el proceso de entrenamiento sea eficiente.
Evaluación Inter-Conjuntos para Modelos Entrenados en Conjuntos de Datos Individuales
En esta sección, exploramos cuán bien se desempeñan los modelos entrenados en conjuntos de datos como FLARE22, AMOS, WORD y TotalSegmentator cuando se prueban en varios otros conjuntos de datos. Encontramos variaciones significativas en el rendimiento entre modelos entrenados en diferentes conjuntos de datos.
Los modelos entrenados en el conjunto de datos TotalSegmentator mostraron el rendimiento promedio más alto en comparación con aquellos entrenados en otros. Este patrón sugiere que los conjuntos de datos de entrenamiento más grandes tienden a llevar a mejores capacidades de generalización.
Las pruebas revelaron que el conjunto de datos BTCV resultó en evaluaciones consistentes pero menos variables, mientras que conjuntos de datos como TotalSegmentator y AMOS CT mostraron mayor variabilidad en el rendimiento debido a muestras de validación desafiantes.
Impacto del Pseudoetiquetado en la Generalización del Modelo
En esta parte, nos enfocamos en cómo el pseudoetiquetado ayuda a mejorar la generalización. Utilizamos el conjunto de datos FLARE22, que incluía una mezcla de imágenes etiquetadas y no etiquetadas. Después de entrenar un modelo con las imágenes etiquetadas, generamos pseudoetiquetas para las no etiquetadas y volvimos a entrenar el modelo.
Los resultados mostraron una mejora notable en la capacidad de generalización gracias a la inclusión de datos no etiquetados, demostrada por un aumento en las métricas de rendimiento en todos los conjuntos de datos.
Impacto de los Datos Multimodales en la Generalización del Modelo
Aquí, observamos cómo el entrenamiento con diferentes modalidades de imagen afecta la generalización. Al usar solo imágenes de CT, solo imágenes de MR y ambas, pudimos ver cómo los modelos entrenados en una combinación se desempeñaban mejor que aquellos que confiaban en un solo tipo de imagen. Esto indica los beneficios de incorporar múltiples modalidades de imagen en los procesos de entrenamiento.
Mejorando la Generalización a Través del Entrenamiento Conjunto en Múltiples Conjuntos de Datos
Examinamos cómo el entrenamiento conjunto en múltiples conjuntos de datos mejoró la generalización. Al entrenar un modelo con datos etiquetados de varios conjuntos de datos, encontramos que este enfoque superó constantemente a los modelos entrenados en conjuntos de datos individuales, incluso cuando se evaluaron en un conjunto de datos no visto.
Impacto del Tamaño del Modelo en la Generalización
Investigamos el efecto de variar los tamaños del modelo en el rendimiento. Las pruebas con diferentes variantes del modelo mostraron que a medida que el tamaño aumentaba, el rendimiento generalmente mejoraba. Sin embargo, modelos excesivamente grandes no siempre daban mejores resultados, lo que sugiere que los modelos más grandes requieren una cantidad correspondiente de datos de entrenamiento diversos para evitar el sobreajuste.
Conclusión
En resumen, presentamos A-Eval, un benchmark para evaluar la generalización entre conjuntos de datos de modelos de segmentación de órganos abdominales. Nuestros hallazgos enfatizan la importancia de estrategias efectivas de uso de datos, como aprovechar conjuntos de datos más grandes, incorporar datos no etiquetados y utilizar enfoques de entrenamiento multimodal. Nuestro trabajo contribuye con ideas valiosas sobre cómo mejorar el rendimiento del modelo y la generalización para aplicaciones del mundo real en la segmentación multi-órgano abdominal.
Estas ideas pueden guiar futuros esfuerzos para ensamblar y entrenar modelos más robustos, contribuyendo a avances en la tecnología de imágenes y segmentación abdominal.
Título: A-Eval: A Benchmark for Cross-Dataset Evaluation of Abdominal Multi-Organ Segmentation
Resumen: Although deep learning have revolutionized abdominal multi-organ segmentation, models often struggle with generalization due to training on small, specific datasets. With the recent emergence of large-scale datasets, some important questions arise: \textbf{Can models trained on these datasets generalize well on different ones? If yes/no, how to further improve their generalizability?} To address these questions, we introduce A-Eval, a benchmark for the cross-dataset Evaluation ('Eval') of Abdominal ('A') multi-organ segmentation. We employ training sets from four large-scale public datasets: FLARE22, AMOS, WORD, and TotalSegmentator, each providing extensive labels for abdominal multi-organ segmentation. For evaluation, we incorporate the validation sets from these datasets along with the training set from the BTCV dataset, forming a robust benchmark comprising five distinct datasets. We evaluate the generalizability of various models using the A-Eval benchmark, with a focus on diverse data usage scenarios: training on individual datasets independently, utilizing unlabeled data via pseudo-labeling, mixing different modalities, and joint training across all available datasets. Additionally, we explore the impact of model sizes on cross-dataset generalizability. Through these analyses, we underline the importance of effective data usage in enhancing models' generalization capabilities, offering valuable insights for assembling large-scale datasets and improving training strategies. The code and pre-trained models are available at \href{https://github.com/uni-medical/A-Eval}{https://github.com/uni-medical/A-Eval}.
Autores: Ziyan Huang, Zhongying Deng, Jin Ye, Haoyu Wang, Yanzhou Su, Tianbin Li, Hui Sun, Junlong Cheng, Jianpin Chen, Junjun He, Yun Gu, Shaoting Zhang, Lixu Gu, Yu Qiao
Última actualización: 2023-09-07 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.03906
Fuente PDF: https://arxiv.org/pdf/2309.03906
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.