Avanzando la IA biomédica con un nuevo conjunto de datos
Un nuevo conjunto de datos cierra la brecha en la investigación de IA biomédica.
― 6 minilectura
Tabla de contenidos
Los avances recientes en inteligencia artificial han llevado al desarrollo de modelos grandes que analizan texto e imágenes. Sin embargo, este progreso no ha sido igual en el campo biomédico. Una de las grandes razones de esta brecha es la cantidad limitada de datos disponibles para entrenar estos modelos. Para solucionar este problema, creamos un nuevo conjunto de datos que contiene un gran número de pares de imagen y pie de foto de documentos biomédicos. Este conjunto de datos es ocho veces más grande que cualquiera de los anteriores utilizados en este campo.
Antecedentes
En inteligencia artificial, los modelos fundamentales son esenciales. Estos modelos aprenden de una amplia gama de datos para ayudar con diversas tareas. La mayor parte del crecimiento significativo se ha visto en áreas generales como la visión por computadora y el procesamiento de lenguaje natural. Sin embargo, cuando se trata de medicina y biología, crear Conjuntos de datos es más complicado debido a la necesidad de conocimientos especializados y preocupaciones sobre la privacidad del paciente.
Para mejorar esta situación, nos enfocamos en construir un conjunto de datos biomédico de alta calidad. Recopilamos datos de artículos científicos disponibles públicamente, extrayendo específicamente imágenes y sus pies de foto. Al utilizar recursos como PubMed Central, nos aseguramos de que el contenido sea confiable y bien revisado.
Creación del Conjunto de Datos
Nuestro conjunto de datos incluye 1.6 millones de pares de imagen y pie de foto. Estos pares se recopilaron de la literatura científica donde las figuras y los pies de foto están disponibles. El proceso involucró tres pasos principales: reunir figuras médicas, separar subfiguras, y alinear los pies de foto con esas figuras.
Reunir Figuras Médicas
El primer paso fue extraer figuras y pies de foto de artículos científicos. Para septiembre de 2022, habíamos procesado más de 2.4 millones de artículos, resultando en más de 12 millones de pares de figura y pie de foto. Para identificar figuras médicas relevantes, utilizamos un método de filtrado por palabras clave para seleccionar aquellas relacionadas con varios temas médicos. Después de la filtración, clasificamos estas figuras en diferentes categorías, identificando finalmente 381,096 figuras médicas.
Separar Sub-Figuras
Un número significativo de figuras contiene múltiples paneles o partes, conocidas como figuras compuestas. Nuestro siguiente paso fue separar estas figuras compuestas en subfiguras individuales. Entrenamos un modelo para detectar estas subfiguras, logrando una alta precisión en la clasificación. Después de procesar, terminamos con alrededor de 1.6 millones de subfiguras, cada una vinculada a los pies de foto originales.
Alinear Pies de Foto
Para crear conexiones significativas entre las subfiguras y sus respectivos pies de foto, necesitábamos separar estos pies de foto en partes más pequeñas. Usamos una herramienta diseñada para este propósito y alineamos las subfiguras con sus respectivas subleyendas. Al final de este proceso, logramos formar un conjunto de datos con más de 1 millón de pares alineados.
Entrenamiento del Modelo
Con el conjunto de datos preparado, pasamos a entrenar un modelo diseñado para vincular imágenes y texto. Este modelo, basado en arquitecturas existentes, fue entrenado usando un método que anima al modelo a aprender relaciones entre imágenes y su texto correspondiente.
Objetivos de Entrenamiento
Empleamos dos objetivos principales de entrenamiento: aprendizaje contrastivo de imagen-texto y modelado de lenguaje enmascarado. El primer objetivo ayuda a asegurar que las imágenes y sus representaciones de texto emparejadas estén estrechamente vinculadas en la comprensión del modelo. La segunda tarea implica predecir palabras faltantes en los pies de foto, dando contexto adicional al modelo sobre el texto.
Experimentos
Después de entrenar nuestro modelo, evaluamos su rendimiento en varias tareas. Estas tareas incluían recuperar imágenes basadas en texto, clasificar imágenes médicas y responder preguntas sobre imágenes médicas.
Recuperación de Imagen-Texto
En esta tarea, el modelo trabaja recuperando el texto correcto basado en una imagen de entrada y viceversa. Nuestro modelo mostró resultados impresionantes, superando a varios modelos existentes en la recuperación de la información correcta.
Clasificación de Imágenes
También probamos la capacidad de nuestro modelo para clasificar diferentes tipos de imágenes médicas. Mostró una gran habilidad para proporcionar clasificaciones precisas, demostrando su potencial para aplicaciones en el mundo real.
Respuesta a Preguntas Visuales
En esta tarea, se probó al modelo en su capacidad para responder preguntas relacionadas con imágenes médicas. Logró una alta precisión, demostrando su capacidad para entender información visual y textual compleja simultáneamente.
Comparación con Conjuntos de Datos Existentes
Comparamos nuestro conjunto de datos y el rendimiento de nuestro modelo con los existentes. Los resultados ilustraron que nuestro conjunto de datos es más grande y diverso, proporcionando una mejor base para entrenar modelos en el dominio biomédico.
Resumen del Conjunto de Datos
Hemos creado un conjunto de datos integral con diversos procedimientos diagnósticos, cubriendo una amplia gama de enfermedades y hallazgos. Este conjunto de datos no solo es más grande, sino también más equilibrado en términos de representación de género y edad, lo cual es crucial para resultados justos en la investigación.
Procedimientos Diagnósticos
Nuestro conjunto de datos incluye varios procedimientos diagnósticos, desde los comunes como escáneres CT y MRI hasta condiciones raras, convirtiéndolo en un recurso bien equilibrado para entrenar modelos.
Enfermedades y Hallazgos
También incluimos una variedad de enfermedades, lo que permite una identificación y análisis precisos. Este rico surtido apoya el entrenamiento de modelos que pueden aprender patrones compartidos, ayudando en un diagnóstico preciso.
Equidad Poblacional
Nuestro conjunto de datos mantiene una distribución equilibrada entre diferentes poblaciones, reduciendo el sesgo en aplicaciones de aprendizaje automático. Esto ayuda a construir modelos que generalizan bien entre diferentes grupos.
Conclusión
En este estudio, presentamos un conjunto de datos biomédico sustancial que facilita el entrenamiento de modelos avanzados de imagen-texto. Al recopilar pares de imagen y pie de foto de documentos científicos extensos, hemos abordado el desafío de la escasez de datos en el campo biomédico. Nuestro modelo mostró un rendimiento de vanguardia en varias tareas, subrayando la efectividad de nuestro conjunto de datos. Este nuevo recurso beneficiará a investigadores y profesionales en medicina, allanando el camino para futuros desarrollos en aplicaciones biomédicas de inteligencia artificial.
Título: PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
Resumen: Foundation models trained on large-scale dataset gain a recent surge in CV and NLP. In contrast, development in biomedical domain lags far behind due to data scarcity. To address this issue, we build and release PMC-OA, a biomedical dataset with 1.6M image-caption pairs collected from PubMedCentral's OpenAccess subset, which is 8 times larger than before. PMC-OA covers diverse modalities or diseases, with majority of the image-caption samples aligned at finer-grained level, i.e., subfigure and subcaption. While pretraining a CLIP-style model on PMC-OA, our model named PMC-CLIP achieves state-of-the-art results on various downstream tasks, including image-text retrieval on ROCO, MedMNIST image classification, Medical VQA, i.e. +8.1% R@10 on image-text retrieval, +3.9% accuracy on image classification.
Autores: Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
Última actualización: 2023-03-13 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.07240
Fuente PDF: https://arxiv.org/pdf/2303.07240
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.