Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avanzando en la Segmentación Semántica con Supervisión Débil

Un nuevo método mejora la segmentación con anotaciones mínimas para clases no vistas.

― 6 minilectura


Avance en SegmentaciónAvance en SegmentaciónSemánticasegmentación débilmente supervisadas.El nuevo modelo se destaca en tareas de
Tabla de contenidos

La segmentación semántica es un área de la visión por computadora que busca clasificar cada píxel en una imagen en clases específicas. Con los avances en el aprendizaje profundo, se han desarrollado muchos métodos para mejorar el rendimiento en este campo. Tradicionalmente, estos métodos requieren grandes cantidades de anotaciones detalladas a nivel de píxel, lo que puede ser costoso y llevar mucho tiempo. En cambio, los humanos pueden reconocer e identificar nuevos objetos sin haberlos visto antes, lo que plantea un reto para los modelos artificiales.

El nuevo enfoque se centra en la Segmentación Semántica de Vocabulário Abierto (OVSS), donde el objetivo es segmentar objetos que el modelo no ha aprendido, usando menos anotaciones. Esto es similar a los métodos de Segmentación de cero disparo y pocos disparos, que buscan que el modelo funcione con pocos o ningún dato de entrenamiento para nuevas clases. Este documento presenta un marco unificado que permite la segmentación semántica usando Supervisión débil, que solo requiere etiquetas básicas a nivel de imagen en vez de anotaciones detalladas a nivel de píxel.

El Reto de la Segmentación Tradicional

Los métodos de segmentación semántica tradicionales dependen en gran medida de etiquetas detalladas a nivel de píxel. Recoger estas etiquetas para cada categoría a menudo es impráctico. Como resultado, hay un creciente interés en encontrar formas para que los modelos generalicen el conocimiento de clases vistas a clases no vistas. Los modelos necesitan poder desempeñarse bien en nuevas clases basándose en datos de entrenamiento limitados o inexistentes.

Segmentación Semántica de Vocabulário Abierto

La Segmentación Semántica de Vocabulário Abierto (OVSS) busca abordar la necesidad de métodos de anotación más eficientes. Este concepto se centra en segmentar objetos arbitrarios que no necesariamente están presentes en los datos de entrenamiento. Incluye tareas como la Segmentación de Cero Disparo (ZSS) y la Segmentación de Pocos Disparos (FSS). ZSS espera que el modelo reconozca nuevas clases después de ser entrenado en un conjunto de clases conocidas, mientras que FSS permite algunos ejemplos de las nuevas clases durante el entrenamiento.

Supervisión Débil en la Segmentación

Los métodos de segmentación débilmente supervisados intentan aliviar la carga de obtener anotaciones detalladas. En lugar de etiquetas a nivel de píxel, estos métodos utilizan etiquetas débiles más simples como etiquetas de imagen, cajas delimitadoras o garabatos. El objetivo es proporcionar al modelo suficiente información para aprender características útiles sin requerir una anotación extensa.

Este documento propone un nuevo método de segmentación semántica débilmente supervisada que es más eficiente y práctico. Al usar etiquetas a nivel de imagen para clases tanto vistas como no vistas, el modelo puede generalizar mejor y actuar de manera efectiva en nuevas clases.

El Método Propuesto

El enfoque propuesto se llama Red de Segmentación Guiada por Lenguaje Débilmente Supervisada (WLSegNet). Esta red tiene varios componentes clave:

  1. Aprendizaje de Contexto: WLSegNet aprende vectores de contexto que ayudan a mapear los prompts de clase a características de la imagen. Estos vectores de contexto están diseñados para evitar el sobreajuste a las clases vistas y mejorar el rendimiento en clases no vistas.

  2. Desacoplamiento de Tareas: El método separa las tareas de segmentación débilmente supervisada y segmentación de cero disparo. Esto permite que el modelo aprenda de las clases vistas mientras puede generalizar a las clases no vistas.

  3. Aprendizaje Eficiente de Prompts: El método incorpora una estrategia de aprendizaje de prompts consciente de la media de instancias, que genera prompts que pueden adaptarse a nuevas clases y reducir el tiempo de computación.

  4. Sin Necesidad de Ajustes Fino: WLSegNet puede operar sin ajustes finos ni necesidad de conjuntos de datos externos, lo que lo hace escalable y más accesible para su uso práctico.

Configuración Experimental

El método fue probado en conjuntos de datos comúnmente utilizados como PASCAL VOC y MS COCO. Los experimentos incluyeron evaluar el rendimiento del modelo usando varias métricas comúnmente usadas en el campo.

Conjuntos de Datos

  • PASCAL VOC: Este conjunto de datos consiste en imágenes etiquetadas que contienen una variedad de clases. Para los experimentos, algunas clases se utilizaron para entrenamiento mientras que otras se reservaron para pruebas.

  • MS COCO: Similar a PASCAL VOC, este conjunto incluye un gran número de imágenes con anotaciones a través de múltiples clases.

Métricas de Evaluación

El rendimiento de WLSegNet se comparó con métodos existentes a través de varias métricas de evaluación. Estas métricas ayudan a cuantificar qué tan bien se desempeña el modelo en identificar y segmentar las nuevas clases.

Resultados de los Experimentos

Los resultados demostraron que WLSegNet superó significativamente a los métodos débilesmente supervisados existentes. Logró una alta precisión tanto en configuraciones de Cero Disparo como en Pocos Disparos.

Segmentación de Cero Disparo

En configuraciones de Cero Disparo, el modelo pudo segmentar imágenes en clases tanto vistas como no vistas. La evaluación mostró que WLSegNet pudo identificar efectivamente nuevas clases sin haber sido entrenado explícitamente en ellas.

Segmentación de Pocos Disparos

Para las tareas de segmentación de Pocos Disparos, WLSegNet se desempeñó excepcionalmente bien, incluso con solo unos pocos ejemplos de las nuevas clases. También demostró mejoras significativas respecto a otros métodos de referencia.

Rendimiento entre Conjuntos de Datos

WLSegNet también fue probado en diferentes conjuntos de datos y mantuvo un rendimiento competitivo. Esto muestra la capacidad del modelo para adaptarse a diferentes conjuntos de datos, haciéndolo versátil.

Análisis Cualitativo

La inspección visual de las máscaras segmentadas proporcionó información sobre qué tan bien funciona el método en la práctica. Las salidas de WLSegNet mostraron una segmentación clara y precisa de varios objetos, incluso en situaciones desafiantes donde otros métodos tuvieron dificultades.

Conclusión

En conclusión, la Red de Segmentación Guiada por Lenguaje Débilmente Supervisada (WLSegNet) propuesta presenta un método valioso para la segmentación semántica, especialmente en entornos donde los datos etiquetados son escasos. La capacidad de generalizar a clases no vistas mientras se depende de supervisión débil abre nuevas oportunidades para aplicar la segmentación semántica en escenarios del mundo real.

Este trabajo no solo contribuye al conocimiento en el campo, sino que también sirve como base para futuras investigaciones. Al enfocarse en enfoques eficientes en datos, el objetivo es crear modelos inteligentes que puedan desempeñarse bien sin el alto costo de anotaciones extensas.

Fuente original

Título: A Language-Guided Benchmark for Weakly Supervised Open Vocabulary Semantic Segmentation

Resumen: Increasing attention is being diverted to data-efficient problem settings like Open Vocabulary Semantic Segmentation (OVSS) which deals with segmenting an arbitrary object that may or may not be seen during training. The closest standard problems related to OVSS are Zero-Shot and Few-Shot Segmentation (ZSS, FSS) and their Cross-dataset variants where zero to few annotations are needed to segment novel classes. The existing FSS and ZSS methods utilize fully supervised pixel-labelled seen classes to segment unseen classes. Pixel-level labels are hard to obtain, and using weak supervision in the form of inexpensive image-level labels is often more practical. To this end, we propose a novel unified weakly supervised OVSS pipeline that can perform ZSS, FSS and Cross-dataset segmentation on novel classes without using pixel-level labels for either the base (seen) or the novel (unseen) classes in an inductive setting. We propose Weakly-Supervised Language-Guided Segmentation Network (WLSegNet), a novel language-guided segmentation pipeline that i) learns generalizable context vectors with batch aggregates (mean) to map class prompts to image features using frozen CLIP (a vision-language model) and ii) decouples weak ZSS/FSS into weak semantic segmentation and Zero-Shot segmentation. The learned context vectors avoid overfitting on seen classes during training and transfer better to novel classes during testing. WLSegNet avoids fine-tuning and the use of external datasets during training. The proposed pipeline beats existing methods for weak generalized Zero-Shot and weak Few-Shot semantic segmentation by 39 and 3 mIOU points respectively on PASCAL VOC and weak Few-Shot semantic segmentation by 5 mIOU points on MS COCO. On a harder setting of 2-way 1-shot weak FSS, WLSegNet beats the baselines by 13 and 22 mIOU points on PASCAL VOC and MS COCO, respectively.

Autores: Prashant Pandey, Mustafa Chasmai, Monish Natarajan, Brejesh Lall

Última actualización: 2023-02-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2302.14163

Fuente PDF: https://arxiv.org/pdf/2302.14163

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares