WeCLIP: Nuevo Método para Segmentación Semántica
WeCLIP mejora la segmentación débilmente supervisada usando CLIP con un esfuerzo de etiquetado mínimo.
― 9 minilectura
Tabla de contenidos
- Antecedentes sobre la Segmentación Semántica Débilmente Supervisada
- Resumen de WeCLIP
- La Estructura de Nuestro Enfoque
- Componentes del Marco
- Generación Inicial de CAM
- Función del Decodificador
- Operación del Módulo de Refinamiento
- Configuración Experimental
- Detalles del Conjunto de Datos
- Métrica de Evaluación
- Resultados y Comparaciones
- Rendimiento en PASCAL VOC 2012
- Comparaciones con Métodos de Última Generación
- Rendimiento en MS COCO-2014
- Análisis del Costo de Entrenamiento
- Estudios de Ablación
- Impacto del Decodificador y RFM
- Evaluación de Capas de Transformer
- Rendimiento en Segmentación Semántica Totalmente Supervisada
- Resultados para el Caso Totalmente Supervisado
- Conclusión
- Fuente original
- Enlaces de referencia
La Segmentación Semántica Débilmente Supervisada es un método que se usa en visión por computadora para identificar y segmentar objetos en imágenes con mínima etiquetado manual. Normalmente, esto implica usar etiquetas a nivel de imagen, que son más fáciles de obtener que las anotaciones a nivel de píxel. Esta tecnología reduce el esfuerzo necesario para etiquetar cada píxel en una imagen para entrenar modelos de aprendizaje automático.
En los últimos años, modelos como CLIP han ganado popularidad por su capacidad para asociar imágenes con texto. Estudios recientes han mostrado resultados prometedores usando CLIP para generar etiquetas pseudo para entrenar modelos de segmentación. Sin embargo, no ha habido un enfoque directo para usar CLIP como el marco principal para segmentar objetos basándose únicamente en etiquetas a nivel de imagen.
En este trabajo, introducimos un nuevo enfoque llamado WeCLIP. Este método aprovecha el modelo CLIP congelado como columna vertebral para extraer características para segmentar imágenes en un proceso de un solo paso. También introducimos un Decodificador que interpreta estas características para producir predicciones finales para tareas de segmentación. Además, creamos un Módulo de Refinamiento para mejorar la calidad de las etiquetas generadas durante el entrenamiento.
Antecedentes sobre la Segmentación Semántica Débilmente Supervisada
La segmentación semántica débilmente supervisada tiene como objetivo entrenar un modelo para entender imágenes a nivel de píxel mientras usa supervisión limitada. Los tipos principales de supervisión débil incluyen garabatos, cuadros delimitadores, puntos y etiquetas a nivel de imagen. Entre estos, usar etiquetas a nivel de imagen es el más común debido a su simplicidad y facilidad de recolección de varias fuentes en línea.
Generalmente hay dos enfoques para la segmentación semántica débilmente supervisada con etiquetas a nivel de imagen: entrenamiento en múltiples etapas y entrenamiento en una sola etapa. El entrenamiento en múltiples etapas típicamente implica generar etiquetas pseudo de alta calidad usando varios modelos, seguido por entrenar un modelo de segmentación separado. Por otro lado, el entrenamiento en una sola etapa intenta segmentar imágenes directamente usando un solo modelo.
Los modelos de una sola etapa anteriores han dependido en gran medida de modelos preentrenados, generalmente de ImageNet, y ajustados durante el entrenamiento. Estos modelos a menudo intentan refinar sus salidas usando diferentes técnicas, pero generalmente tienen un rendimiento inferior comparado con los modelos de múltiples etapas.
En contraste, los modelos de múltiples etapas pueden involucrar pipelines complejos donde se crean etiquetas pseudo a nivel de píxel a partir de etiquetas débiles antes de entrenar un modelo de segmentación. Los esfuerzos recientes han intentado incorporar CLIP para producir etiquetas pseudo de alta calidad utilizando su capacidad para entender la relación entre imágenes y texto.
Resumen de WeCLIP
Nuestro método propuesto WeCLIP representa un avance en la segmentación semántica débilmente supervisada al usar el modelo CLIP directamente como columna vertebral para la extracción de características. A diferencia de métodos anteriores, que solo usaron CLIP para mejorar otros modelos, WeCLIP utiliza el modelo CLIP congelado para generar características que pueden ser ingresadas directamente en un decodificador de segmentación.
Al usar el modelo CLIP congelado, evitamos la necesidad de un entrenamiento extenso en la columna vertebral, reduciendo el costo computacional total y los requisitos de memoria. El decodificador diseñado recientemente interpreta las características congeladas, permitiendo el proceso de predicción de segmentación con parámetros aprendibles mínimos.
La Estructura de Nuestro Enfoque
Componentes del Marco
WeCLIP consta de cuatro componentes principales:
Columna Vertebral CLIP Congelada: Esta parte extrae características de imagen y texto de los datos de entrada. No requiere ningún entrenamiento o ajuste, simplificando el proceso general.
Proceso de Clasificación: Este paso genera mapas de activación de clase iniciales (CAMs) en función de las características extraídas por la columna vertebral CLIP. Los CAMs ayudan a identificar áreas de interés en las imágenes.
Decodificador: Este es responsable de convertir las características de la columna vertebral congelada en predicciones de segmentación semántica. El decodificador interpreta las características extraídas de manera efectiva, manteniendo bajo el número de parámetros.
Módulo de Refinamiento (RFM): Este módulo actualiza dinámicamente los CAMs iniciales para crear mejores etiquetas pseudo para entrenar el decodificador. Al utilizar relaciones derivadas del decodificador, el RFM mejora la calidad de las etiquetas generadas.
Generación Inicial de CAM
El proceso comienza al ingresar una imagen en el modelo CLIP congelado. El modelo extrae características de imagen que reflejan el contenido de la imagen. Al mismo tiempo, se utilizan etiquetas de clase para crear prompts de texto que producen características de texto correspondientes. Al comparar las características de imagen agrupadas con las características de texto, se generan puntuaciones de clasificación, que informan sobre la generación del CAM inicial a través de GradCAM.
Función del Decodificador
Una vez que se crean los CAMs iniciales, el decodificador interviene para interpretar las características. El decodificador toma las características de imagen y produce predicciones de segmentación, enfocándose en identificar objetos dentro de la imagen. Un mapa de afinidad generado a partir de los mapas de características intermedios del decodificador también se utiliza para ayudar en la refinación de los CAMs.
Operación del Módulo de Refinamiento
El módulo de refinamiento aborda la limitación de que la columna vertebral congelada proporciona solo CAMs estáticos. Al aprovechar las características del decodificador, el RFM ajusta dinámicamente los CAMs durante el entrenamiento. Este proceso mejora la precisión de las etiquetas pseudo al utilizar relaciones de características más confiables.
Configuración Experimental
Realizamos experimentos exhaustivos para evaluar nuestro enfoque en dos conjuntos de datos populares: PASCAL VOC 2012 y MS COCO-2014. Estos conjuntos de datos son ampliamente utilizados en tareas de segmentación semántica y contienen varios tipos de imágenes con objetos etiquetados.
Detalles del Conjunto de Datos
PASCAL VOC 2012: Este conjunto de datos contiene 10,582 imágenes de entrenamiento, 1,446 imágenes de validación y 1,456 imágenes de prueba en 20 clases de primer plano. El conjunto de datos se complementa con etiquetas adicionales para mejorar los resultados del entrenamiento.
MS COCO-2014: Este conjunto de datos más grande incluye aproximadamente 82,000 imágenes de entrenamiento y 40,504 imágenes de validación con 80 clases de primer plano. Representa un gran desafío debido a su rango diverso de objetos y contextos.
Métrica de Evaluación
Usamos la métrica de Media de Intersección sobre Unión (mIoU) para evaluar el rendimiento. Esta métrica calcula la superposición entre la segmentación predicha y la verdad de terreno, proporcionando una medida clara de la efectividad del modelo.
Resultados y Comparaciones
Rendimiento en PASCAL VOC 2012
Nuestro enfoque logró resultados notables en el conjunto de datos PASCAL VOC 2012. WeCLIP alcanzó un 76.4% de mIoU en el conjunto de validación y un 77.2% en el conjunto de prueba. Estos puntajes superan a los de enfoques de una sola etapa y de múltiples etapas anteriores, demostrando la efectividad de usar el modelo CLIP congelado para tareas de segmentación.
Comparaciones con Métodos de Última Generación
Cuando se compara con otros métodos líderes, WeCLIP mostró mejoras significativas. Por ejemplo, nuestro enfoque superó el anterior estado del arte de un solo etapa en más de un 5% de mIoU en ambos conjuntos de validación y prueba. Además, WeCLIP consistentemente superó las métricas de rendimiento de enfoques de múltiples etapas, mostrando las ventajas de nuestro método.
Rendimiento en MS COCO-2014
WeCLIP también mostró un fuerte rendimiento en el conjunto de validación de MS COCO-2014, logrando un 47.1% de mIoU. Este resultado refleja una mejora notable sobre técnicas de una sola etapa existentes y posiciona a WeCLIP como una opción competitiva entre métodos de múltiples etapas también.
Análisis del Costo de Entrenamiento
Uno de los principales beneficios de WeCLIP es su costo de entrenamiento reducido. Con solo 6.2GB de memoria GPU requerida, nuestro enfoque demanda significativamente menos recursos computacionales en comparación con otros métodos, que a menudo requieren 12GB o más. Esta eficiencia es particularmente ventajosa para investigadores y profesionales con acceso limitado a recursos computacionales de alta gama.
Estudios de Ablación
Para validar aún más nuestra técnica propuesta, realizamos estudios de ablación enfocados en varios componentes de WeCLIP.
Impacto del Decodificador y RFM
La presencia del decodificador es crucial, ya que es necesario para generar predicciones. La introducción del módulo de refinamiento (RFM) llevó a una clara mejora del 6.2% de mIoU. Esta mejora refleja el papel del RFM en mejorar la calidad de las etiquetas pseudo.
Evaluación de Capas de Transformer
Examinamos cómo alterar el número de capas de transformer en el decodificador afectaba el rendimiento. Aumentar el número de capas ayudó a capturar más información de características, llevando a un mejor rendimiento. Sin embargo, el rendimiento cayó cuando el número de capas superó un cierto umbral, sugiriendo que es necesario encontrar un equilibrio para evitar el sobreajuste.
Rendimiento en Segmentación Semántica Totalmente Supervisada
Además de la supervisión débil, evaluamos la capacidad de WeCLIP en configuraciones totalmente supervisadas. Sin la necesidad del codificador de texto congelado o RFM, nuestro decodificador fue entrenado con etiquetas precisas a nivel de píxel del conjunto de datos.
Resultados para el Caso Totalmente Supervisado
Al evaluarse en el conjunto de datos PASCAL VOC 2012, WeCLIP mantuvo un alto rendimiento en segmentación mientras utilizaba menos parámetros entrenables. Este hallazgo destaca su utilidad potencial en escenarios donde están disponibles anotaciones precisas, al tiempo que sigue proporcionando una ventaja competitiva en términos de consumo de recursos.
Conclusión
En resumen, introducimos WeCLIP, un nuevo pipeline de una sola etapa diseñado para la segmentación semántica débilmente supervisada. Al aprovechar el modelo CLIP congelado, logramos reducir los costos de entrenamiento y mejorar el rendimiento en comparación con métodos tradicionales. Nuestro decodificador interpreta eficazmente las características congeladas, mientras que el módulo de refinamiento mejora la calidad de las etiquetas producidas. En general, WeCLIP ofrece una valiosa alternativa a las técnicas existentes, avanzando en la investigación sobre la segmentación semántica débilmente supervisada.
Título: Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation
Resumen: Weakly supervised semantic segmentation has witnessed great achievements with image-level labels. Several recent approaches use the CLIP model to generate pseudo labels for training an individual segmentation model, while there is no attempt to apply the CLIP model as the backbone to directly segment objects with image-level labels. In this paper, we propose WeCLIP, a CLIP-based single-stage pipeline, for weakly supervised semantic segmentation. Specifically, the frozen CLIP model is applied as the backbone for semantic feature extraction, and a new decoder is designed to interpret extracted semantic features for final prediction. Meanwhile, we utilize the above frozen backbone to generate pseudo labels for training the decoder. Such labels cannot be optimized during training. We then propose a refinement module (RFM) to rectify them dynamically. Our architecture enforces the proposed decoder and RFM to benefit from each other to boost the final performance. Extensive experiments show that our approach significantly outperforms other approaches with less training cost. Additionally, our WeCLIP also obtains promising results for fully supervised settings. The code is available at https://github.com/zbf1991/WeCLIP.
Autores: Bingfeng Zhang, Siyue Yu, Yunchao Wei, Yao Zhao, Jimin Xiao
Última actualización: 2024-06-16 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.11189
Fuente PDF: https://arxiv.org/pdf/2406.11189
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.