Uma Abordagem Prática para Seleção de Modelos em WSOL
Usando caixas pseudo barulhentas pra uma escolha de modelo melhor na localização de objetos com supervisão fraca.
― 8 min ler
Índice
A Localização de Objetos com Supervisão Fraca (WSOL) treina modelos de aprendizado profundo pra classificar e localizar objetos usando só rótulos de classe gerais em vez de dados de Caixas Delimitadoras precisas. Essa falta de dados de caixas delimitadoras dificulta a escolha do modelo certo e o ajuste das configurações. Estudos iniciais nessa área muitas vezes analisavam o desempenho com base em dados de teste, criando uma visão tendenciosa de quão bem os modelos funcionam. Sugestões recentes envolvem reservar um conjunto de imagens com anotações de caixas delimitadoras pra uma melhor Seleção de Modelos. Mas esse método não é prático em situações do dia a dia, onde anotações tão detalhadas nem sempre estão disponíveis.
Nossos achados iniciais sugerem que modelos selecionados usando apenas rótulos de classe de imagem tendem a não ter um desempenho tão bom em comparação com aqueles que usam dados de caixas delimitadoras. Isso implica que ter rótulos de caixas delimitadoras é importante pra escolher o melhor modelo. Este artigo apresenta um novo jeito de validar modelos para WSOL sem precisar de anotações de caixas delimitadoras manuais. Em vez disso, usamos caixas delimitadoras geradas automaticamente a partir de modelos existentes pra ajudar na seleção de modelos.
O Desafio da Seleção de Modelos em WSOL
Na WSOL, os modelos são treinados usando só rótulos de classe e precisam determinar onde na imagem os objetos especificados estão. Como não há anotações de caixas delimitadoras disponíveis durante o treinamento, escolher o melhor modelo se torna muito difícil. Estudos anteriores provavelmente usaram, sem querer, o desempenho do conjunto de teste para afinar os modelos, levando a uma sensação inflacionada de quão bem esses modelos realmente funcionam em cenários do mundo real.
Uma melhoria proposta no processo de avaliação sugere usar um subconjunto de imagens com anotações completas para a seleção de modelos. Embora isso evite usar o conjunto de teste, ainda depende de dados de caixas delimitadoras que geralmente não estão disponíveis em aplicações reais. Isso significa que as métricas de desempenho desses modelos podem não refletir o que aconteceria no mundo real.
Modelos treinados com anotações completas costumam mostrar uma precisão de localização melhor comparados aos que são supervisionados de forma fraca. Além disso, preparar um número limitado de imagens para validação pode se tornar muito caro, especialmente em áreas como imagens médicas onde anotações de especialistas são necessárias.
Um Novo Método de Validação
Dada essas questões, nosso artigo visa estabelecer uma forma mais prática de selecionar modelos para WSOL que se alinhe melhor com situações do mundo real. Em vez de depender de caixas delimitadoras rotuladas manualmente, propomos usar pseudo caixas ruidosas geradas por algoritmos automatizados. Ao usar modelos especificamente projetados pra produzir propostas de região, como Selective-Search, CLIP e RPN, podemos criar anotações que mantêm uma precisão razoável sem exigir intervenção humana.
Usando esse novo método, nossos testes mostram que modelos selecionados com essas pseudo caixas são quase tão eficazes quanto aqueles escolhidos com base em anotações verdadeiras de caixas delimitadoras, e melhores do que modelos que se baseiam apenas em rótulos de classe de imagem.
Como Funciona
Coleta de Dados
Começamos usando dois conjuntos de dados bem conhecidos que são frequentemente usados pra testar modelos de WSOL. O primeiro conjunto tem 200 classes e quase 12.000 imagens. O segundo conjunto é muito maior, com cerca de 1,2 milhões de imagens em 1.000 classes. Pra cada conjunto, seguimos uma estratégia de divisão clara pra garantir justiça em nossas comparações.
Avaliando Métodos
Pra confirmar a eficácia do nosso protocolo, analisamos oito métodos bem conceituados na área de aprendizado supervisionado fraco. Queríamos ver se nosso método usando pseudo caixas delimitadoras poderia entregar resultados comparáveis aos de modelos que usam caixas delimitadoras verdadeiras.
Parada Antecipada e Ajuste de Hiperparâmetros
Durante nossos experimentos, utilizamos um conjunto amplo de hiperparâmetros. Usando um tamanho de lote consistente e redimensionando as imagens, conseguimos ajustar os modelos de forma eficaz. Fizemos isso com várias configurações e monitoramos o desempenho ao longo de diferentes épocas. Isso ajudou a ver quão bem o modelo estava melhorando ao longo do tempo.
Entendendo a Necessidade de Seleção Precisa de Modelos
Em configurações de supervisão fraca, o modelo precisa aprender a localizar objetos com base em informações limitadas. Isso torna o processo de escolher o modelo certo e os parâmetros muito mais complexo em comparação com o aprendizado supervisionado tradicional. Nossa pesquisa indica que usar só rótulos de classe de imagem pode levar a resultados de localização ruins.
O Papel das Pseudo Caixas Ruidosas
Pra validar nossa abordagem, testamos o desempenho de modelos selecionados com pseudo caixas delimitadoras contra aqueles selecionados através de caixas delimitadoras reais. Descobrimos que usar pseudo caixas, apesar do barulho e imprecisões, ainda permitiu uma seleção eficaz de modelos. Isso significa que mesmo com anotações menos que perfeitas, conseguimos um desempenho de localização confiável.
Gerando Pseudo Caixas
Usamos vários modelos pra criar pseudo caixas delimitadoras. O processo envolve gerar propostas que são então filtradas pra manter só as mais relevantes. Isso garante que as caixas que usamos pra seleção de modelos sejam tão precisas quanto possível dadas as circunstâncias.
Diferentes Abordagens para Gerar Caixas
Métodos Não Supervisionados: Esses métodos não precisam de supervisão externa. Eles se baseiam em técnicas que criam caixas com base nas características da imagem apenas.
Supervisionados com Rótulos de Classe de Imagem: Essa abordagem usa modelos treinados em grandes conjuntos de dados onde rótulos de classe gerais são usados. Ao extrair mapas com base nesses rótulos, conseguimos identificar áreas de interesse em uma imagem.
Abordagens Não Específicas de Classe: Aqui, modelos treinados em vários conjuntos de dados fornecem previsões de caixas delimitadoras sem precisar de rótulos de classe específicos, permitindo uma seleção mais generalizada de propostas.
Pra cada abordagem, seguimos um processo estruturado pra escolher as caixas mais apropriadas. Primeiro filtramos as caixas menos relevantes e depois priorizamos aquelas que apresentaram melhor desempenho de acordo com nossos critérios de precisão de localização.
Metodologia Experimental
Pra avaliar a validade do nosso método de seleção proposto, conduzimos uma série de experimentos em ambos os conjuntos de dados, monitorando consistentemente os resultados de desempenho relacionados às nossas pseudo caixas delimitadoras. Ao comparar os modelos selecionados com essas caixas contra aqueles selecionados com caixas delimitadoras verdadeiras, buscamos demonstrar a utilidade e eficácia da nossa abordagem.
Resultados e Discussões
Os resultados indicam que usar pseudo caixas delimitadoras ruidosas pode gerar níveis de desempenho semelhantes aos alcançados através de caixas anotadas manualmente, sugerindo uma alternativa viável pra seleção de modelos em ambientes de supervisão fraca. Nossas descobertas revelam que mesmo ao usar as pseudo caixas que estão sujeitas a ruídos e imprecisões, a seleção confiável de modelos ainda é alcançável.
Conclusão
Estabelecemos um método pra selecionar modelos em localização de objetos com supervisão fraca que não requer anotações manuais. Isso abre novas possibilidades pra uma seleção eficaz de modelos em aplicações do mundo real, onde dados tão detalhados geralmente não estão disponíveis. Nossa pesquisa mostra que mesmo com caixas pseudo delimitadoras, é possível alcançar um desempenho decente na seleção de modelos. Essa mudança pra um protocolo mais realista pavimenta o caminho pra avanços na área, permitindo uma aplicabilidade mais ampla das técnicas de WSOL.
Os trabalhos futuros vão focar em refinar essas estratégias de seleção pra melhorar ainda mais a confiabilidade e aplicabilidade, especialmente em domínios desafiadores como a imagem médica, onde a seleção precisa de modelos é vital. Nossos métodos propostos, junto com as pseudo caixas geradas compartilhadas, podem ajudar significativamente pesquisadores a desenvolver soluções melhores em WSOL.
Título: A Realistic Protocol for Evaluation of Weakly Supervised Object Localization
Resumo: Weakly Supervised Object Localization (WSOL) allows training deep learning models for classification and localization (LOC) using only global class-level labels. The absence of bounding box (bbox) supervision during training raises challenges in the literature for hyper-parameter tuning, model selection, and evaluation. WSOL methods rely on a validation set with bbox annotations for model selection, and a test set with bbox annotations for threshold estimation for producing bboxes from localization maps. This approach, however, is not aligned with the WSOL setting as these annotations are typically unavailable in real-world scenarios. Our initial empirical analysis shows a significant decline in LOC performance when model selection and threshold estimation rely solely on class labels and the image itself, respectively, compared to using manual bbox annotations. This highlights the importance of incorporating bbox labels for optimal model performance. In this paper, a new WSOL evaluation protocol is proposed that provides LOC information without the need for manual bbox annotations. In particular, we generated noisy pseudo-boxes from a pretrained off-the-shelf region proposal method such as Selective Search, CLIP, and RPN for model selection. These bboxes are also employed to estimate the threshold from LOC maps, circumventing the need for test-set bbox annotations. Our experiments with several WSOL methods on ILSVRC and CUB datasets show that using the proposed pseudo-bboxes for validation facilitates the model selection and threshold estimation, with LOC performance comparable to those selected using GT bboxes on the validation set and threshold estimation on the test set. It also outperforms models selected using class-level labels, and then dynamically thresholded based solely on LOC maps.
Autores: Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Eric Granger
Última atualização: 2024-08-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.10034
Fonte PDF: https://arxiv.org/pdf/2404.10034
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.