Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la Segmentación Semántica Débilmente Supervisada

Un nuevo método mejora la localización de objetos usando transformadores visuales en WSSS.

― 8 minilectura


Avanzando WSSS conAvanzando WSSS conTransformadores de Visióndébilmente supervisada.localización en la segmentaciónUn método mejora la precisión de
Tabla de contenidos

La Segmentación Semántica Débilmente Supervisada (WSSS) es un campo de la visión por computadora que busca identificar y etiquetar diferentes objetos en imágenes sin necesitar anotaciones detalladas de cada pixel. En vez de requerir etiquetas completas para cada pixel, WSSS puede trabajar con etiquetas más simples como etiquetas de nivel de imagen, lo que hace el proceso más fácil y eficiente.

Los Mapas de Activación de Clase (CAMs) son una herramienta común en WSSS. Ayudan a generar mapas de localización de objetos aproximados a partir de imágenes, pero a menudo enfrentan problemas con activaciones incompletas o inexactas. Esto significa que, aunque algunas partes de un objeto pueden ser reconocidas, otras áreas importantes pueden pasarse por alto, lo que lleva a resultados pobres.

Desafíos en WSSS a Nivel de Imagen

Uno de los principales desafíos en WSSS a nivel de imagen es obtener mapas de localización precisos. Estos mapas, a menudo llamados semillas, sirven como el primer paso para crear las etiquetas de segmentación finales. Los CAMs, que se usan tradicionalmente en WSSS, sufren de una brecha de supervisión; dependen de fuertes correlaciones entre las etiquetas de nivel de imagen y las etiquetas a nivel de pixel, lo cual no siempre es cierto.

Métodos recientes han intentado mejorar los CAMs aplicando diferentes tipos de técnicas de regularización. Sin embargo, estos enfoques a menudo pasan por alto las relaciones entre diferentes regiones dentro de una imagen. El contexto es esencial para entender cómo diferentes partes de una imagen se relacionan entre sí y puede mejorar la precisión de localización.

El Concepto de Consistencia Pareada

Para abordar las deficiencias de los CAMs, se ha propuesto un nuevo enfoque llamado regularización de consistencia de todas las parejas. Este método mira pares de vistas aumentadas de la misma imagen y asegura que las relaciones entre las regiones se mantengan constantes a través de estas vistas. El objetivo es equilibrar la intensidad de activación de las regiones de objetos en ambas imágenes aumentadas mientras se mantienen las relaciones entre estas regiones.

Regularizar las distancias entre las matrices de atención derivadas de Transformadores de Visión permite una mejor preservación del contexto. Los transformadores de visión se han vuelto populares debido a su capacidad para capturar relaciones entre diferentes secciones de las imágenes a través de la auto-atención, lo que da lugar a afinidades por pares.

Entendiendo los Transformadores de Visión

Los transformadores de visión son modelos que utilizan mecanismos de auto-atención para procesar imágenes de manera más efectiva. A diferencia de los modelos tradicionales que pueden enfocarse en los píxeles individualmente, los transformadores codifican las relaciones entre varias partes de las imágenes. Esta capacidad les permite sobresalir en diversas tareas, incluida la segmentación semántica.

Los componentes de auto-atención de los transformadores de visión pueden permitirnos naturalmente hacer cumplir nuestras consistencias de activación de región y afinidad de región. Al aplicar estos conceptos durante el entrenamiento, el modelo puede aprender a reconocer y representar la estructura de los objetos de manera más precisa.

Resumen de la Metodología

En este trabajo, describimos un método que integra estos avances en un marco simple para WSSS. Nuestro enfoque está diseñado para mejorar la localización de objetos a través de dos ideas principales: consistencia de activación de región y consistencia de afinidad de región.

  1. Consistencia de Activación de Región: Involucra asegurar que los mapas de activación de diferentes vistas aumentadas de la misma imagen sean consistentes. El objetivo es mantener un nivel similar de activación entre las vistas.

  2. Consistencia de Afinidad de Región: Este aspecto se centra en mantener las relaciones entre regiones iguales en diferentes vistas. Asegura que si una región está activa (indicando la presencia de un objeto) en una vista, la región correspondiente en otra vista también mostrará una activación consistente.

Implementación del Método Propuesto

Nuestro método emplea transformadores de visión como la arquitectura subyacente, ya que estos modelos pueden manejar la auto-atención de manera eficiente. Al utilizar las matrices generadas durante la atención, podemos regularizar efectivamente las activaciones y afinidades a través de diferentes vistas.

El proceso de entrenamiento implica aumentar imágenes y alimentar estas vistas aumentadas en un transformador de visión Siamés. Este modelo comparte pesos entre dos ramas, lo que permite la comparación directa de las matrices de atención derivadas de las dos vistas. Nuestro método también introduce técnicas para restaurar el orden original de las regiones dentro de las matrices de atención después de las transformaciones.

Generando Mapas de Localización de Clase

En la fase de prueba, las matrices de atención producidas por el transformador de visión necesitan convertirse en mapas de localización de clase. Tradicionalmente, este proceso se ha basado en mecanismos de agrupamiento, pero estos métodos pueden no ofrecer resultados precisos debido al ruido.

Nuestro enfoque aprovecha los gradientes de los tokens de clase para derivar localizaciones de clase más precisas. Al enfocarnos en las contribuciones de diferentes regiones y aplicar afinidades aprendidas, podemos crear mapas de localización de clase detallados que faciliten una mejor segmentación.

Validación Experimental

Para validar nuestro método, se realizaron experimentos extensos en conjuntos de datos estándar como PASCAL VOC y MS COCO. Los resultados demostraron mejoras significativas sobre métodos anteriores.

Resultados de PASCAL VOC

En el conjunto de datos PASCAL VOC, nuestro método logró un puntaje de Intersección sobre Unión (mIoU) del 67.3%, indicando un fuerte rendimiento en la generación de mapas de localización de clase precisos. Los experimentos mostraron que la incorporación de afinidad de región mejoró significativamente la calidad de nuestros mapas de localización, llevando a un mejor reconocimiento de objetos.

Resultados de MS COCO

El conjunto de datos MS COCO ofrece un desafío más complejo debido a su diversa gama de objetos y escenas. Nuestro método logró un mIoU del 45%, superando muchos métodos existentes, incluso aquellos que aprovechan información adicional de saliencia. Esto indica que nuestro enfoque es capaz de manejar escenas complicadas mientras sigue generando mapas de localización de clase confiables.

Beneficios de la Afinidad por Pares

Las ganancias observadas en rendimiento pueden atribuirse a la cuidadosa consideración de las relaciones por pares a través de la afinidad de región. Al asegurarnos de que las regiones activadas sean reconocidas de manera consistente a través de vistas aumentadas de una imagen, se anima al modelo a capturar contexto y mantener coherencia espacial.

Esto es particularmente importante cuando los objetos en las imágenes están cercanos o se superponen, ya que los métodos estándar de activación pueden tener dificultades para distinguir entre ellos. Nuestro enfoque ayuda a mitigar estos problemas refinando los bordes de los objetos y mejorando la calidad general de la segmentación.

Conclusión

La segmentación semántica débilmente supervisada tiene el potencial de simplificar significativamente las tareas de etiquetado de imágenes. Al centrarse en etiquetas de clase de alto nivel en lugar de anotaciones a nivel de pixel, los investigadores pueden ahorrar tiempo y recursos.

A través de nuestro método propuesto, mostramos que al mantener consistencia tanto en la activación como en las relaciones de región a través de vistas aumentadas, podemos lograr mejoras sustanciales en el rendimiento de localización y segmentación. Los resultados de los conjuntos de datos PASCAL VOC y MS COCO ilustran la efectividad de nuestro enfoque y su capacidad para adaptarse sin problemas a las arquitecturas existentes de transformadores de visión.

En trabajos futuros, se pueden esperar más refinamientos, incluyendo abordar los desafíos presentados por la sobreactivación y mejorar la comprensión semántica de las relaciones entre clases con el fin de generar mapas de localización aún más precisos. A medida que el campo de WSSS continúa evolucionando, nuestro método representa un paso significativo hacia adelante para lograr un reconocimiento de objetos más preciso y eficiente en imágenes.

Fuente original

Título: All-pairs Consistency Learning for Weakly Supervised Semantic Segmentation

Resumen: In this work, we propose a new transformer-based regularization to better localize objects for Weakly supervised semantic segmentation (WSSS). In image-level WSSS, Class Activation Map (CAM) is adopted to generate object localization as pseudo segmentation labels. To address the partial activation issue of the CAMs, consistency regularization is employed to maintain activation intensity invariance across various image augmentations. However, such methods ignore pair-wise relations among regions within each CAM, which capture context and should also be invariant across image views. To this end, we propose a new all-pairs consistency regularization (ACR). Given a pair of augmented views, our approach regularizes the activation intensities between a pair of augmented views, while also ensuring that the affinity across regions within each view remains consistent. We adopt vision transformers as the self-attention mechanism naturally embeds pair-wise affinity. This enables us to simply regularize the distance between the attention matrices of augmented image pairs. Additionally, we introduce a novel class-wise localization method that leverages the gradients of the class token. Our method can be seamlessly integrated into existing WSSS methods using transformers without modifying the architectures. We evaluate our method on PASCAL VOC and MS COCO datasets. Our method produces noticeably better class localization maps (67.3% mIoU on PASCAL VOC train), resulting in superior WSSS performances.

Autores: Weixuan Sun, Yanhao Zhang, Zhen Qin, Zheyuan Liu, Lin Cheng, Fanyi Wang, Yiran Zhong, Nick Barnes

Última actualización: 2023-09-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.04321

Fuente PDF: https://arxiv.org/pdf/2308.04321

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares