Mejorando las anotaciones de IA en imágenes médicas
Nuevos métodos mejoran la calidad de las anotaciones generadas por IA en imágenes médicas.
― 10 minilectura
Tabla de contenidos
- La Necesidad de Anotaciones
- IA en Anotación
- Métodos Propuestos de Control de Calidad
- Visualización Interactiva de Resultados
- Evaluando los Volúmenes de las Costillas Izquierda vs Derecha
- Consistencia de Volumen Dentro del Paciente
- Comparación con Estudios de Población
- Limitaciones de las Heurísticas
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
La imagenología médica es clave para diagnosticar y tratar enfermedades. Sin embargo, un reto importante es crear anotaciones detalladas para grandes conjuntos de datos de imágenes médicas, que son necesarias para un mejor análisis de los pacientes. Hacer estas anotaciones manualmente toma mucho tiempo y esfuerzo, y hay inconsistencias en cómo diferentes doctores pueden etiquetar las imágenes. Para aliviar esta carga, se está usando inteligencia artificial (IA) para ayudar a generar estas anotaciones automáticamente. A pesar de esto, muchas anotaciones generadas por IA carecen de validación por expertos, lo que lleva a incertidumbres sobre su precisión.
En respuesta, se lanzó un nuevo conjunto de datos, que incluye anotaciones y características para varios órganos estudiados en un importante ensayo de detección de cáncer de pulmón. Aunque el conjunto de datos es valioso, le faltan anotaciones verificadas por expertos y evaluaciones de la precisión de las segmentaciones de IA. Esto limita su uso práctico. Para abordar este problema, sugerimos métodos para evaluar la calidad de las segmentaciones generadas por IA, ofreciendo herramientas para medir cuán consistentes son las anotaciones y comparar los resultados con la literatura existente.
La Necesidad de Anotaciones
Los conjuntos de datos de imágenes médicas son vitales para la investigación y el cuidado de pacientes. Cuando estos conjuntos de datos carecen de anotaciones claras, se vuelve difícil utilizarlos de manera efectiva. Los conjuntos de datos grandes, como los de detecciones de pulmón, tienen miles de escaneos, lo que hace que la Anotación manual sea impráctica. Los modelos de IA han mostrado potencial para etiquetar automáticamente diferentes estructuras anatómicas y patológicas en imágenes médicas, incluyendo técnicas avanzadas que pueden manejar múltiples tipos de imágenes como CT y MRI.
A pesar del progreso en los métodos de etiquetado de IA, muchos conjuntos de datos disponibles públicamente siguen careciendo de anotaciones adecuadas. Una fuente prominente de datos de imagen proviene de un importante ensayo de detección de cáncer de pulmón, que contiene extensos escaneos de CT de miles de pacientes. Hasta hace poco, estos escaneos no tenían etiquetas, lo que hacía complicado aprovechar esta riqueza de datos de manera efectiva.
IA en Anotación
Para mejorar la utilidad de estos grandes conjuntos de datos, se han desarrollado modelos de IA como TotalSegmentator. Este modelo puede anotar una amplia gama de estructuras anatómicas en escaneos de CT, haciendo que el proceso de generar anotaciones sea más rápido y fácil. Sin embargo, incluso con estos avances, porciones significativas de conjuntos de datos disponibles públicamente aún carecen de anotaciones completas. Estas brechas significan que los investigadores todavía dependen de revisiones manuales para asegurar la precisión.
El enorme volumen de segmentaciones generadas por IA crea desafíos prácticos para confirmar su corrección. La mayoría de las metodologías existentes para analizar estos resultados se enfocan en comparar las segmentaciones generadas con anotaciones de expertos o verdades fundamentales, que a menudo están ausentes. Esta situación resalta la necesidad de formas más simples para evaluar la calidad de las segmentaciones sin depender estrictamente de la validación por expertos.
Métodos Propuestos de Control de Calidad
En respuesta a la necesidad de mejor supervisión de las anotaciones generadas por IA, proponemos usar Heurísticas simples para verificar su calidad. El objetivo es ayudar a identificar fallos y evaluar el rendimiento de las segmentaciones. Estas heurísticas no dependen de técnicas avanzadas de aprendizaje automático, por lo que podrían ser aplicables a varios conjuntos de datos más allá de las instancias específicas evaluadas.
Las heurísticas se enfocan en criterios específicos:
- Completitud de Segmentación: Asegurarse de que la segmentación cubra toda la anatomía relevante y no esté cortada debido a los límites del escaneo.
- Componentes Conectados: Cada estructura anatómica debería ser representada como una pieza continua en la segmentación.
- Correcta Lateralidad: El modelo debería identificar con precisión a qué lado (izquierdo o derecho) del cuerpo pertenece una estructura particular.
- Volumen Mínimo: El volumen del área segmentada debería cumplir un umbral para evitar etiquetar artefactos más pequeños como estructuras anatómicas genuinas.
Estas heurísticas ayudan a filtrar segmentos que podrían ser poco fiables o incorrectos, mejorando la calidad general del conjunto de datos.
Visualización Interactiva de Resultados
Para hacer que el análisis de los resultados de segmentación generados por IA sea más accesible, desarrollamos un panel de control fácil de usar. Este panel proporciona herramientas para que los investigadores exploren los datos y evalúen los resultados de las heurísticas de manera efectiva. El panel tiene dos secciones principales: una página de resumen y una página de gráficos.
Página de Resumen
La página de resumen del panel ofrece una visión general de cuántos segmentos pasaron cada una de las heurísticas. Los usuarios pueden identificar fácilmente qué segmentaciones podrían ser problemáticas. Al ordenar la tabla, los investigadores pueden enfocarse en áreas específicas de interés.
Página de Gráficos
La página de gráficos presenta visualizaciones dinámicas que permiten a los usuarios filtrar resultados basados en varios parámetros. Se presentan dos tipos de gráficos: gráficos de violín, que muestran cuán consistentes son las mediciones de volumen antes y después de aplicar las heurísticas, y gráficos de upset, que ilustran cuántos segmentos pasan o fallan las verificaciones de heurísticas. Estas herramientas visuales proporcionan información sobre la efectividad de las heurísticas aplicadas.
Evaluando los Volúmenes de las Costillas Izquierda vs Derecha
Las costillas son una de las áreas que pueden experimentar imprecisiones en la segmentación debido a su tamaño y la complejidad de su posición. En este estudio, nos enfocamos en las segmentaciones de costillas izquierdas y derechas, comparando sus volúmenes para evaluar la consistencia. Al calcular una diferencia normalizada entre los volúmenes de las costillas izquierda y derecha, pudimos detectar cualquier discrepancia significativa.
Al aplicar las heurísticas, notamos que filtrar segmentos mejoró la consistencia de las mediciones de volumen de las costillas. Cada heurística sirvió para refinar los datos, llevando a una reducción en la variabilidad de las mediciones. Esto ilustra cómo implementar medidas de control de calidad puede mejorar la fiabilidad de las anotaciones generadas por IA.
Consistencia de Volumen Dentro del Paciente
Para analizar más a fondo la efectividad de las heurísticas, evaluamos la consistencia de las mediciones de volumen dentro de pacientes individuales. Cada paciente se sometió a múltiples escaneos durante varios años, y esperábamos algo de variabilidad en los volúmenes extraídos. Al calcular la desviación estándar de los volúmenes para cada paciente, comparamos la consistencia antes y después de aplicar las heurísticas.
Después de la aplicación de las heurísticas, hubo una reducción notable en la variabilidad de los volúmenes, lo que sugiere que los filtros ayudaron a eliminar series problemáticas. Mientras que las heurísticas mejoraron la consistencia, algunos valores atípicos permanecieron, indicando que las medidas no son perfectas pero aún valiosas.
Comparación con Estudios de Población
Las mediciones de volumen de las vértebras se compararon con la literatura existente para verificar la precisión y fiabilidad de las segmentaciones generadas por IA. Al centrarnos en las vértebras torácicas, observamos distribuciones de volúmenes que se ajustaban bien a los hallazgos establecidos. Esta comparación fue crucial para evaluar si el modelo de IA capturó con precisión las características anatómicas de interés.
Al analizar los resultados, notamos que nuestras mediciones diferían de las de estudios anteriores debido a las especificidades de cómo se definieron los volúmenes. Mientras que nuestro enfoque consideraba el volumen de toda la vértebra, estudios anteriores a menudo se centraron solo en el cuerpo vertebral, creando discrepancias en los hallazgos. Esta comprensión destaca la importancia de definir claramente los parámetros de medición al interpretar los resultados.
Limitaciones de las Heurísticas
Si bien las heurísticas propuestas ofrecen un medio valioso para evaluar la calidad de la segmentación, tienen limitaciones. Por ejemplo, la heurística de completitud de segmentación puede clasificar erróneamente segmentaciones de un solo voxel como completas. Además, las medidas pueden no ser adecuadas para todas las estructuras anatómicas, particularmente aquellas que abarcan grandes áreas.
El chequeo de componentes conectados puede producir falsos positivos si una segmentación tiene algunos voxeles aislados mientras sigue siendo precisa en general. Asimismo, la heurística de lateralidad muestra un alto rendimiento pero puede no siempre detectar errores en algoritmos de IA menos robustos. Además, ninguna de las heurísticas evalúa qué tan bien la segmentación se alinea con los límites reales de las estructuras anatómicas, lo que indica la necesidad de métodos de validación más exhaustivos.
Direcciones Futuras
A pesar de las limitaciones, las heurísticas propuestas representan un avance significativo en el control de calidad para segmentaciones generadas por IA. Hay numerosas oportunidades para mejorar tanto los métodos como las herramientas interactivas. Por ejemplo, integrar umbrales definidos por el usuario en base a especificidades anatómicas podría mejorar los chequeos de completitud. Incluir características de radiomics más avanzadas podría ampliar el alcance del análisis.
Además, el panel podría beneficiarse de un sistema de filtrado más flexible para permitir un análisis comparativo a través de múltiples estructuras y características a la vez. Al mejorar la experiencia del usuario y expandir las funcionalidades, el panel puede servir como una plataforma robusta para investigadores que exploran conjuntos de datos complejos.
Conclusión
El desarrollo de heurísticas simples ofrece un enfoque práctico para evaluar la calidad de las segmentaciones generadas por IA en la imagenología médica. Al centrarse en completitud, conectividad, lateralidad y umbrales de volumen, los investigadores pueden identificar y abordar inexactitudes en grandes conjuntos de datos. Esto no solo apoya el análisis automatizado, sino que también reduce la carga en los procesos de revisión manual.
A través del panel interactivo, los usuarios pueden visualizar y evaluar fácilmente el impacto de las heurísticas en los resultados de segmentación. Aunque quedan desafíos, estos métodos abren el camino para mejorar la calidad de los datos en la imagenología médica, promoviendo análisis más fiables y mejores resultados para los pacientes. El desarrollo continuo de estas herramientas puede llevar a avances significativos en el campo, fomentando más investigación y exploración en aplicaciones de aprendizaje profundo dentro de contextos médicos.
Título: Rule-based outlier detection of AI-generated anatomy segmentations
Resumen: There is a dire need for medical imaging datasets with accompanying annotations to perform downstream patient analysis. However, it is difficult to manually generate these annotations, due to the time-consuming nature, and the variability in clinical conventions. Artificial intelligence has been adopted in the field as a potential method to annotate these large datasets, however, a lack of expert annotations or ground truth can inhibit the adoption of these annotations. We recently made a dataset publicly available including annotations and extracted features of up to 104 organs for the National Lung Screening Trial using the TotalSegmentator method. However, the released dataset does not include expert-derived annotations or an assessment of the accuracy of the segmentations, limiting its usefulness. We propose the development of heuristics to assess the quality of the segmentations, providing methods to measure the consistency of the annotations and a comparison of results to the literature. We make our code and related materials publicly available at https://github.com/ImagingDataCommons/CloudSegmentatorResults and interactive tools at https://huggingface.co/spaces/ImagingDataCommons/CloudSegmentatorResults.
Autores: Deepa Krishnaswamy, Vamsi Krishna Thiriveedhi, Cosmin Ciausu, David Clunie, Steve Pieper, Ron Kikinis, Andrey Fedorov
Última actualización: 2024-06-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.14486
Fuente PDF: https://arxiv.org/pdf/2406.14486
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/ImagingDataCommons/CloudSegmentatorResults
- https://huggingface.co/spaces/ImagingDataCommons/CloudSegmentatorResults
- https://github.com/streamlit/streamlit
- https://ribfrac.grand-challenge.org/dataset
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/blob/main/part2_exploratoryAnalysis.ipynb
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/blob/main/part1_derivedDataGenerator.ipynb
- https://console.cloud.google.com/marketplace/product/bigquery-public-data/nci-idc-data
- https://cloud.google.com/healthcare-api/docs/how-tos/dicom-bigquery-streaming
- https://dockstore.org/myworkflows/github.com/ImagingDataCommons/CloudSegmentator/perFrameFunctionalGroupSequenceExtractionOnTerra
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/nlst_totalseg_perframe.parquet
- https://pyradiomics.readthedocs.io/en/latest/radiomics.html#module-radiomics.generalinfo
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/json_radiomics.parquet.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/bodyPartAndLaterality.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/segmentation_completeness_table.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/laterality_check_table.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/qual_checks_table.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/flat_quantitative_measurements.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/qual_checks_and_quantitative_measurements.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/tag/0.0.1