Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en técnicas de recuperación de imágenes médicas

Un estudio compara CNNs preentrenadas y modelos base para la recuperación de imágenes médicas.

― 8 minilectura


Técnicas de recuperaciónTécnicas de recuperaciónde imágenes médicasrecuperación efectiva.Examinando CNNs y modelos base para una
Tabla de contenidos

La recuperación de Imágenes Médicas se trata de encontrar imágenes similares a una dada en una gran colección. Esto es importante para tareas como ayudar a los doctores a diagnosticar enfermedades, planificar tratamientos y capacitar a nuevos profesionales médicos. Los métodos tradicionales para recuperar estas imágenes dependían de detalles clínicos sobre las imágenes. Sin embargo, un enfoque más nuevo, conocido como recuperación de imágenes médicas basada en contenido (CBMIR), se fija en las características reales de las imágenes, como color, textura y forma, en lugar de depender de descripciones.

Se han creado muchos métodos para CBMIR, y el uso de redes neuronales convolucionales (CNN) preentrenadas es común. Los avances recientes en modelos base, que son un tipo de modelo de aprendizaje profundo, también muestran promesas para mejorar el CBMIR. Este estudio examina qué tan bien funcionan las CNN preentrenadas y los modelos base como extractores de características para recuperar imágenes médicas.

Métodos

En esta investigación, analizamos varios modelos preentrenados, incluidos CNN populares como VGG19, ResNet-50, DenseNet121 y EfficientNetV2M, así como modelos base como MedCLIP, BioMedCLIP, OpenCLIP, CONCH y UNI. Probamos su rendimiento usando una selección de imágenes médicas del conjunto de datos MedMNIST V2, que contiene tanto imágenes en 2D como en 3D, como radiografías y ecografías.

También consideramos cómo el tamaño de las imágenes afectaba el rendimiento de recuperación. Los tamaños de imagen variaban de pequeños a tamaños estándar, permitiéndonos ver cómo diferentes dimensiones impactaban los resultados.

Resultados

Nuestros hallazgos revelan que para imágenes en 2D, los modelos base generalmente superaron a las CNN. Entre ellos, el modelo UNI mostró el mejor rendimiento en general sin importar el tamaño de la imagen. Para imágenes en 3D, las CNN y los modelos base tuvieron un rendimiento similar, pero el modelo CONCH logró los mejores resultados.

Curiosamente, mientras que las imágenes más grandes tendían a producir un mejor rendimiento, los tamaños de imagen más pequeños aún generaban resultados competitivos. Este hallazgo sugiere que incluso imágenes menos detalladas pueden contribuir eficazmente a la recuperación de imágenes médicas.

Entendiendo los Modelos

CNN Preentrenadas

Las CNN son ampliamente utilizadas en tareas de visión por computadora porque pueden extraer automáticamente características importantes de las imágenes. En nuestra investigación, nos enfocamos en varios modelos CNN bien conocidos para la comparación. Cada modelo tiene su propia estructura y método para procesar imágenes.

  • VGG19: Conocido por su simplicidad y profundidad, VGG19 se usa a menudo por su efectividad en capturar características de imágenes.
  • ResNet50: Este modelo introduce conexiones de salto para ayudar a prevenir problemas en redes muy profundas.
  • DenseNet121: DenseNet mejora la idea de las conexiones de salto al conectar cada capa con todas las demás, mejorando el flujo de información.
  • EfficientNetV2M: Este modelo se centra en optimizar tanto el rendimiento como la eficiencia escalando el modelo de manera equilibrada.

Modelos Base

Los modelos base han ganado atención ya que se pueden aplicar a numerosas tareas más allá de las CNN tradicionales. Por lo general, se entrenan en conjuntos de datos a gran escala y pueden aprender relaciones en los datos de manera eficiente.

  • MedCLIP: Diseñado específicamente para imágenes médicas, MedCLIP utiliza pares de imagen y texto para crear un modelo que entiende tanto los visuales como el contenido textual relevante.
  • BioMedCLIP: Similar a MedCLIP, pero entrenado en una gama más amplia de conjuntos de datos médicos, permitiéndole capturar relaciones más complejas.
  • OpenCLIP: Este modelo está diseñado para aplicaciones generales, entrenado en una amplia variedad de imágenes y texto asociado.
  • CONCH: Enfocado en imágenes de histopatología, este modelo aprovecha tanto las características de imagen como las descripciones textuales para mejorar la recuperación.
  • UNI: Entrenado en un gran conjunto de datos de imágenes histológicas, UNI muestra un gran potencial para una variedad de tareas de recuperación de imágenes médicas.

Medición de Distancia y Evaluación

Para medir qué tan similares son las imágenes, usamos la similaridad coseno, un método común que calcula cuán cercanamente coinciden las características entre imágenes. Después de extraer características de nuestras imágenes de consulta y las imágenes almacenadas en nuestra base de datos, las clasificamos según la similaridad. Luego seleccionamos las imágenes más similares para la recuperación.

Para evaluar qué tan bien funcionaron nuestros sistemas de recuperación, utilizamos métricas estándar como la precisión media promedio y la exactitud, enfocándonos en los mejores resultados. Destacamos particularmente aquellos resultados que representaron la mejor coincidencia para las imágenes dadas.

Resumen del Rendimiento

Recuperación de Imágenes en 2D

Los resultados para imágenes en 2D mostraron una tendencia notable: los modelos base consistentemente tuvieron un mejor rendimiento que las CNN. Para la mayoría de los conjuntos de datos, modelos como UNI sobresalieron significativamente. Incluso MedCLIP, que no tuvo un rendimiento tan bueno en general, destacó en casos específicos, como con imágenes de radiografías.

El efecto del tamaño de la imagen también fue evidente. Las imágenes más grandes generalmente resultaron en puntajes de exactitud más altos, pero incluso las imágenes más pequeñas mostraron un rendimiento sólido. Específicamente, diferentes modelos produjeron resultados variados según los conjuntos de datos, destacando los desafíos únicos que presenta cada conjunto.

Recuperación de Imágenes en 3D

Al tratar con imágenes en 3D, la diferencia de rendimiento entre los modelos base y las CNN fue menos marcada. El modelo CONCH lideró en rendimiento, pero las diferencias fueron mínimas en comparación con las mejores CNN. Por ejemplo, DenseNet121 tuvo un rendimiento casi igual al de CONCH.

Similar a las imágenes en 2D, el impacto del tamaño de la imagen en la recuperación en 3D fue menos claro debido a las opciones limitadas de tamaño. Sin embargo, los mejores modelos de CNN tendieron a ver una mayor exactitud con imágenes más grandes.

Resultados Combinados

Evaluando el rendimiento en ambos conjuntos de datos en 2D y 3D, encontramos que ciertos conjuntos de datos, como PneumoniaMNIST, demostraron un éxito constante en la recuperación, mientras que otros, como RetinaMNIST, mostraron un rango más amplio de resultados de rendimiento.

Técnicas de Visualización

Para explorar visualmente las características extraídas por nuestros modelos, utilizamos una técnica llamada t-SNE. Esto nos ayudó a ver qué tan bien diferentes modelos distinguieron las clases dentro de los conjuntos de datos. Algunos modelos mostraron una clara separación de diferentes clases, mientras que otros tuvieron dificultades, enfatizando la relación entre la calidad de extracción de características y la efectividad de la recuperación.

Velocidad de los Modelos

Además de la exactitud, también medimos qué tan rápido podían procesar datos diferentes modelos. Para conjuntos de datos en 2D, algunos modelos CNN eran más rápidos que otros, pero los modelos base también demostraron ser eficientes. Para conjuntos de datos en 3D, hubo una diferencia notable en velocidad, con ciertos modelos base funcionando significativamente más rápido que sus contrapartes de CNN.

Limitaciones y Direcciones Futuras

Este estudio tiene sus limitaciones. Si bien utilizamos una variedad de modelos populares, reconocemos que hay otros modelos que también pueden ser efectivos. La investigación futura debería explorar modelos adicionales y su rendimiento en tareas de recuperación.

También creemos que se podrían hacer más mejoras al fusionar características de cortes en 2D al tratar con conjuntos de datos en 3D. Además, examinar tamaños de imágenes más grandes podría revelar más información sobre el rendimiento de recuperación.

Además, estos hallazgos abren la puerta a estudios futuros en la aplicación de modelos base a otras áreas dentro de la imagen médica y la visión por computadora, expandiendo su utilidad más allá del ámbito de recuperación.

Conclusión

Este análisis exhaustivo de la recuperación de imágenes médicas utilizando CNN preentrenadas y modelos base ha revelado que los modelos base, particularmente UNI y CONCH, muestran un rendimiento excepcional. El estudio también destacó la importancia del tamaño de la imagen en la exactitud, pero confirmó que las imágenes más pequeñas aún pueden funcionar bien. Estas ideas allanan el camino para mejorar los métodos de recuperación de imágenes médicas y una mayor investigación sobre las capacidades de los modelos base.

Fuente original

Título: Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval

Resumen: Medical image retrieval refers to the task of finding similar images for given query images in a database, with applications such as diagnosis support, treatment planning, and educational tools for inexperienced medical practitioners. While traditional medical image retrieval was performed using clinical metadata, content-based medical image retrieval (CBMIR) relies on the characteristic features of the images, such as color, texture, shape, and spatial features. Many approaches have been proposed for CBMIR, and among them, using pre-trained convolutional neural networks (CNNs) is a widely utilized approach. However, considering the recent advances in the development of foundation models for various computer vision tasks, their application for CBMIR can be also investigated for its potentially superior performance. In this study, we used several pre-trained feature extractors from well-known pre-trained CNNs (VGG19, ResNet-50, DenseNet121, and EfficientNetV2M) and pre-trained foundation models (MedCLIP, BioMedCLIP, OpenCLIP, CONCH and UNI) and investigated the CBMIR performance on a subset of the MedMNIST V2 dataset, including eight types of 2D and 3D medical images. Furthermore, we also investigated the effect of image size on the CBMIR performance. Our results show that, overall, for the 2D datasets, foundation models deliver superior performance by a large margin compared to CNNs, with UNI providing the best overall performance across all datasets and image sizes. For 3D datasets, CNNs and foundation models deliver more competitive performance, with CONCH achieving the best overall performance. Moreover, our findings confirm that while using larger image sizes (especially for 2D datasets) yields slightly better performance, competitive CBMIR performance can still be achieved even with smaller image sizes. Our codes to generate and reproduce the results are available on GitHub.

Autores: Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia, Ramona Woitek

Última actualización: 2024-09-14 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.09430

Fuente PDF: https://arxiv.org/pdf/2409.09430

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares