Avaliando a Robustez dos Modelos de Fundação Visuais em Tarefas de Segmentação
Um estudo sobre o desempenho de Modelos de Fundação Visuais sob distorções do mundo real em tarefas de segmentação.
― 10 min ler
Índice
- Desafios na Segmentação Visual
- A Importância da Robustez
- Nossa Abordagem
- Compreendendo os Desvios de Distribuição
- Níveis de Severidade
- Os Modelos Selecionados para Avaliação
- Conjuntos de Dados Usados na Avaliação
- Métricas de Avaliação de Desempenho
- Avaliando a Robustez
- Descobertas sobre o Desempenho dos Modelos
- Análise Detalhada das Categorias de Objetos
- Comparação de Modelos Transformer e CNN
- Recomendações para Pesquisas Futuras
- Conclusão
- Fonte original
- Ligações de referência
Com o crescimento do poder computacional e o acesso mais fácil a dados, a gente tem visto um aumento nos grandes modelos de deep learning. Esses modelos, muitas vezes chamados de modelos fundamentais, são treinados com uma quantidade enorme de dados usando métodos que exigem pouca ou nenhuma supervisão direta. Eles são adaptados para várias tarefas como classificação e detecção de objetos sem precisar de um retrabalho extenso em conjuntos de dados específicos.
Nesta análise, a gente examina a Robustez dos Modelos Fundamentais Visuais (VFMs) em tarefas de Segmentação. Comparamos esses modelos a modelos supervisionados menores e mais tradicionais em relação à sua capacidade de lidar com mudanças e distorções que podem acontecer em situações do mundo real.
Analisamos quatro modelos de segmentação líderes e os testamos em dois conjuntos de dados populares: COCO e ADE20K. Aplicamos 17 tipos diferentes de Perturbações, ou distorções, nas imagens com cinco níveis de severidade para cada tipo. Nossas descobertas revelam algumas percepções importantes:
- VFMs têm dificuldade com distorções causadas pela Compressão.
- Embora os VFMs não superem significativamente os modelos menores, eles mostram uma resiliência competitiva em avaliações zero-shot, especialmente quando os modelos menores são treinados sob supervisão.
- VFMs se mostram mais robustos em reconhecer certos tipos de objetos, provavelmente por causa dos seus métodos de treinamento únicos, que são projetados para trabalhar com uma ampla gama de categorias de objetos.
Acreditamos que nossa avaliação de robustez estabelece novos padrões para modelos fundamentais, encorajando mais pesquisas para melhorar seu desempenho geral.
Desafios na Segmentação Visual
A segmentação visual é uma questão antiga na visão computacional. Envolve diferentes tarefas que requerem níveis variados de detalhe. Essas tarefas incluem segmentação semântica, onde o objetivo é identificar e rotular cada pixel em uma imagem, e segmentação de instância, que vai um passo além ao distinguir entre objetos separados.
Tradicionalmente, cada uma dessas tarefas e conjuntos de dados foi abordada com modelos especializados que funcionavam de forma independente. Isso limitou o potencial de aprendizado em tarefas relacionadas. No entanto, com o surgimento de modelos versáteis baseados em transformers e treinamento em larga escala que combina dados visuais e de linguagem, há uma mudança em direção ao desenvolvimento de modelos que podem lidar com múltiplas tarefas simultaneamente.
Inspirados pelo sucesso dos Modelos de Linguagem Grandes (LLMs) como o ChatGPT, os VFMs adaptaram essas ideias para tarefas de segmentação. Por exemplo, modelos como Segment Anything (SAM) e ODISE podem segmentar qualquer objeto em uma imagem sem precisar de mais treinamento em conjuntos de dados específicos. Esses avanços abrem muitas possibilidades, especialmente em aplicações críticas do mundo real como veículos autônomos e saúde.
A Importância da Robustez
Quando os modelos são usados no mundo real, eles enfrentam muitas mudanças imprevisíveis, conhecidas como desvios de distribuição. Esses desvios podem fazer com que os modelos se comportem de maneira inesperada. Para resolver esse problema, é crucial estudar quão bem os modelos de deep learning atuais gerenciam distorções potenciais do mundo real.
Os tipos de perturbações que focamos não são criados artificialmente através de ataques, mas ocorrem naturalmente devido a vários fatores, incluindo mudanças na iluminação, diferentes configurações de câmera e compressão de imagem. Pesquisadores já introduziram vários métodos para avaliar a robustez do modelo em classificação de imagens, e essas abordagens estão agora sendo aplicadas para avaliar modelos de segmentação também.
Embora estudos anteriores tenham examinado modelos em ambientes supervisionados, existe uma lacuna na compreensão de como os VFMs se saem em tarefas de segmentação nessas condições do mundo real.
Nossa Abordagem
Neste trabalho, fazemos uma análise detalhada da robustez dos VFMs, que contêm bilhões de parâmetros, especificamente em tarefas de segmentação. Além disso, comparamos seu desempenho com modelos menores que foram treinados em ambientes supervisionados.
Utilizamos dois métodos recentes de VFM, ODISE e Segment Anything (SAM), para avaliar seu desempenho. Introduzimos 17 perturbações comuns e submetemos as imagens nos conjuntos de dados COCO e ADE20K a essas distorções em vários níveis de severidade.
Os resultados mostram que:
- VFMs não lidam tão bem com distorções relacionadas à compressão como outros modelos baseados em transformers.
- Eles não superam consistentemente os modelos supervisionados tradicionais; no entanto, permanecem competitivamente robustos em cenários do mundo real.
- VFMs tendem a mostrar maior resiliência em categorias de objetos específicas, como objetos de ambientes externos ou eletrodomésticos, devido ao seu treinamento em uma gama mais ampla de categorias.
Compreendendo os Desvios de Distribuição
Identificamos cinco categorias de distorções do mundo real que normalmente são usadas na avaliação de robustez:
Ruído
Essa categoria inclui quatro tipos:
- Ruído Gaussiano resulta de problemas relacionados ao sensor, como iluminação e interferência eletrônica.
- Ruído de disparo aparece devido a variações na contagem de fótons durante a exposição da imagem.
- Ruído impulso é uma versão colorida do ruído sal e pimenta, muitas vezes causado por erros de bit.
- Ruído de speckle é uma forma de ruído multiplicativo onde os níveis de intensidade correspondem ao brilho do pixel.
Desfoque
Essa categoria consiste em três tipos:
- Desfoque de desfocagem ocorre quando nem todas as camadas de uma cena estão focadas, fazendo com que algumas áreas apareçam borradas.
- Desfoque de movimento é produzido quando a câmera se move enquanto captura uma imagem.
- Desfoque de zoom acontece quando a câmera faz um zoom rápido para dentro ou para fora.
Compressão
No mundo digital, temos:
- Compressão JPEG, que perde um pouco da qualidade da imagem.
- Pixelar, que ocorre quando imagens de baixa resolução são ampliadas, resultando em perda de detalhe.
Clima
Isso cobre distorções que imitam condições climáticas da vida real, como neblina e neve.
Câmera
Isso inclui mudanças na posição da imagem, como translação (movendo a imagem) e rotação (girando a imagem).
Iluminação
Perturbações na luminosidade da imagem podem ocorrer devido a condições de iluminação excessivamente brilhantes ou sombrias.
Níveis de Severidade
No mundo real, esses desvios de distribuição podem ocorrer em níveis variados de severidade. Definimos cinco níveis de severidade, sendo 1 um pequeno desvio e 5 um desvio significativo. Cada imagem no nosso conjunto de dados passa por todas as distorções propostas nesses níveis de severidade.
Para realizar nossa análise, avaliamos quatro modelos de ponta que representam tanto os VFMs quanto os modelos supervisionados tradicionais usados para segmentação. Filtramos esses modelos com base em seu código disponível, pesos e reproduzibilidade.
Os Modelos Selecionados para Avaliação
Focamos em dois Modelos Fundamentais Visuais, ODISE e SAM, ambos treinados em conjuntos de dados extensos.
ODISE
ODISE emprega técnicas aprendidas com Stable Diffusion e CLIP, utilizando um método chamado Mask2Former para gerar máscaras. O modelo captura imagens e usa comandos de texto aprendidos para identificar categorias de objetos. Ele pode ser aplicado a qualquer conjunto de dados para avaliação zero-shot, tornando-se uma opção versátil.
Segment Anything (SAM)
SAM adota um Vision Transformer (ViT) pré-treinado e utiliza vários comandos (como pontos e texto) para delinear objetos desejados. Também é projetado para uso zero-shot, aumentando sua flexibilidade. Avaliamos duas variações do SAM: PromptSAM e GroundedSAM, adaptando-os para tarefas específicas como segmentação de instância.
Também comparamos esses VFMs com modelos supervisionados tradicionais, incluindo MaskDINO e Mask2Former.
Conjuntos de Dados Usados na Avaliação
Usamos dois conjuntos de dados de referência para nossos experimentos: COCO Panoptic e ADE20K. O conjunto de dados COCO contém 80 categorias de "coisas" e 53 categorias de "materiais", enquanto o ADE20K apresenta 100 "coisas" e 50 "materiais". Cada imagem é submetida a várias perturbações, resultando em conjuntos de dados extensos para análise.
Métricas de Avaliação de Desempenho
Avaliamoos os modelos com base em sua capacidade de realizar tarefas de segmentação usando duas métricas:
- Media da Interseção sobre União (mIoU) para segmentação semântica, que indica quão bem o modelo identifica e segmenta diferentes áreas.
- Media da Precisão Média (mAP) para segmentação de instância, que foca na precisão de detectar objetos individuais.
Avaliando a Robustez
Para medir a robustez, usamos duas métricas: robustez absoluta e relativa. A robustez absoluta observa a queda geral no desempenho após a aplicação de distorções, enquanto a robustez relativa mede como o desempenho muda em relação aos dados limpos originais.
Pontuações mais altas indicam melhor resiliência, com uma pontuação de 1 mostrando alta robustez, enquanto uma pontuação de 0 representa nenhuma robustez.
Descobertas sobre o Desempenho dos Modelos
Da nossa análise, vemos que todos os modelos enfrentam desafios com distorções de desfoque. No entanto, os VFMs experimentam robustez particularmente baixa com corrupções relacionadas à compressão. Por exemplo, ambos os modelos lutam significativamente com distorções de compressão JPEG e pixeladas.
Os VFMs demonstram desempenho absoluto mais baixo em comparação com modelos não-VFMs, especialmente sob compressão. No entanto, eles mostram robustez competitiva em cenários zero-shot, ilustrando sua capacidade de se adaptar mais flexivelmente a novas tarefas.
Além disso, observamos que os VFMs exibem maior robustez relativa para certas categorias de objetos, como os de ambientes esportivos ou ao ar livre. Essa vantagem vem de sua abordagem de treinamento de vocabulário aberto, que lhes permite identificar uma gama mais ampla de tipos de objetos.
Análise Detalhada das Categorias de Objetos
Para entender melhor como objetos específicos são afetados sob várias distorções, avaliamos modelos com base em seu desempenho em diferentes categorias. Por exemplo, certos objetos ao ar livre e eletrodomésticos são identificados mais confiavelmente pelos VFMs do que pelos modelos tradicionais, especialmente em condições de compressão e desfoque.
Comparação de Modelos Transformer e CNN
Ao comparar diferentes tipos arquitetônicos, percebemos que modelos baseados em transformer, incluindo VFMs, mostram maior robustez geral em comparação com os colegas baseados em CNN. Essa observação é verdadeira em vários tipos de perturbações, particularmente para distorções baseadas em pixel e compressão.
Recomendações para Pesquisas Futuras
Nossas descobertas sugerem que, embora os VFMs tenham capacidades impressionantes, eles ainda enfrentam desafios em aplicações do mundo real. É evidente que mais exploração é necessária para melhorar sua resiliência, especialmente contra compressão e distorções semelhantes.
O estudo pede mais pesquisas para abordar as deficiências identificadas e melhorar o desempenho e a confiabilidade dos modelos de segmentação fundamentais.
Conclusão
Em conclusão, nossa análise fornece insights críticos sobre a robustez dos Modelos Fundamentais Visuais em comparação com modelos supervisionados tradicionais em tarefas de segmentação. Embora os VFMs geralmente mostrem desempenho competitivo, eles realmente enfrentam dificuldades com distorções específicas como compressão.
Nossa pesquisa destaca a necessidade de avaliação e refinamento contínuos desses modelos para garantir sua eficácia em cenários do mundo real. Este estudo contribui com informações valiosas para o campo da visão computacional e incentiva uma exploração adicional para melhorar a resiliência e adaptabilidade dos modelos.
Título: Robustness Analysis on Foundational Segmentation Models
Resumo: Due to the increase in computational resources and accessibility of data, an increase in large, deep learning models trained on copious amounts of multi-modal data using self-supervised or semi-supervised learning have emerged. These ``foundation'' models are often adapted to a variety of downstream tasks like classification, object detection, and segmentation with little-to-no training on the target dataset. In this work, we perform a robustness analysis of Visual Foundation Models (VFMs) for segmentation tasks and focus on robustness against real-world distribution shift inspired perturbations. We benchmark seven state-of-the-art segmentation architectures using 2 different perturbed datasets, MS COCO-P and ADE20K-P, with 17 different perturbations with 5 severity levels each. Our findings reveal several key insights: (1) VFMs exhibit vulnerabilities to compression-induced corruptions, (2) despite not outpacing all of unimodal models in robustness, multimodal models show competitive resilience in zero-shot scenarios, and (3) VFMs demonstrate enhanced robustness for certain object categories. These observations suggest that our robustness evaluation framework sets new requirements for foundational models, encouraging further advancements to bolster their adaptability and performance. The code and dataset is available at: \url{https://tinyurl.com/fm-robust}.
Autores: Madeline Chantry Schiappa, Shehreen Azad, Sachidanand VS, Yunhao Ge, Ondrej Miksik, Yogesh S. Rawat, Vibhav Vineet
Última atualização: 2024-04-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.09278
Fonte PDF: https://arxiv.org/pdf/2306.09278
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.