Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Avanços em Aprendizado Incremental para Detecção de Objetos

Esse artigo fala sobre um novo método de aprendizado incremental em detecção de objetos.

― 7 min ler


Aprendizado IncrementalAprendizado Incrementalem Detecção de Objetosque já foi aprendido.reconhecimento de objetos sem perder oUma nova forma de melhorar o
Índice

No mundo do aprendizado de máquina, especialmente em detecção de objetos, a ideia é fazer com que os computadores reconheçam e localizem objetos em imagens. Mas um grande desafio aparece quando a gente quer que esses sistemas aprendam novos objetos ao longo do tempo sem esquecer os antigos. Essa situação é chamada de Aprendizado Incremental, e fica complicado quando as novas tarefas exigem reconhecer novos objetos enquanto mantém o conhecimento dos anteriores intacto.

Uma forma de lidar com esse problema é reexibir dados antigos enquanto treina com dados novos. Essa reexibição ajuda a manter o conhecimento sobre os objetos antigos. Mas, na reexibição de imagens, se o fundo das imagens antigas contém novos objetos que precisam ser detectados, isso pode confundir o sistema. Essa confusão acontece porque as imagens antigas podem erradamente rotular novos objetos como fundo. Esse problema é conhecido como mudança de primeiro plano.

Para resolver isso, desenvolvemos um método chamado Reexibição de Caixa Aumentada (ABR). Em vez de reexibir imagens inteiras, o ABR foca em reexibir os objetos específicos das tarefas passadas. Assim, evita a complexidade das mudanças de fundo e permite que o modelo aprenda de forma mais eficaz.

Aprendizado Incremental em Detecção de Objetos

O aprendizado incremental é fundamental para aplicações do mundo real onde novos objetos aparecem o tempo todo. Modelos tradicionais geralmente aprendem todos os objetos de uma vez, o que não é prático. Novas técnicas precisam ser desenvolvidas para permitir que os modelos aprendam gradualmente com o tempo.

Quando os modelos enfrentam esquecimento catastrófico, eles esquecem como reconhecer objetos antigos à medida que aprendem novos. Esse esquecimento pode reduzir severamente o desempenho dos modelos em tarefas que requerem conhecimento das classes anteriores. O equilíbrio entre reter o conhecimento antigo (estabilidade) e aprender novas informações (plasticidade) é crucial para um aprendizado incremental bem-sucedido.

A maior parte da pesquisa tradicional focou em técnicas de classificação de imagens. Estudos mais recentes ampliaram esse foco para incluir detecção de objetos e métodos de segmentação semântica. Na detecção incremental de objetos, surgem desafios devido à presença de múltiplas classes de objetos em uma única imagem. Essas classes muitas vezes não são bem anotadas, levando ao que os pesquisadores chamam de mudança de fundo.

Em configurações típicas de classificação de imagens, imagens passadas são armazenadas. Ao usar essas imagens passadas para detecção incremental de objetos, problemas como a mudança de primeiro plano podem surgir, onde classes antigas se tornam mal classificadas na presença de novas.

O Problema da Mudança de Primeiro Plano

A mudança de primeiro plano se torna um problema crítico quando o fundo das imagens reexibidas inclui novos objetos. Nesse caso, esses novos objetos podem ser tratados incorretamente como parte do fundo. Assim, enquanto o modelo foi inicialmente treinado para reconhecer um novo objeto como primeiro plano em imagens atuais, ele pode considerar o mesmo objeto como fundo ao reexibir imagens mais antigas. Essa contradição limita a capacidade do modelo de aprender de forma eficaz.

Para evitar os desafios impostos pela mudança de primeiro plano, propomos nosso método ABR. Ao focar em reexibir apenas os objetos relevantes de tarefas anteriores em vez de imagens inteiras, evitamos as complicações que surgem da confusão entre novas e antigas classes.

Reexibição de Caixa Aumentada (ABR)

O método ABR se concentra em armazenar e reexibir caixas delimitadoras correspondentes às classes de tarefas anteriores. Essa reexibição seletiva alivia os problemas gerados pela reexibição de imagens completas. Podemos armazenar significativamente mais instâncias de objetos usando esse método do que com as técnicas padrão de reexibição de imagens.

O ABR utiliza estratégias inovadoras para melhorar o reconhecimento de objetos. Essas estratégias envolvem as técnicas de mixup e Mosaico, que misturam imagens de objetos anteriores com novas imagens para gerar material de treinamento para a tarefa atual. Isso permite que o modelo mantenha a capacidade de reconhecer classes anteriores enquanto aprende a detectar novos objetos.

Reexibição de Caixa Mixup

A reexibição de caixa mixup combina as imagens de classes já vistas com aquelas da tarefa atual. Essa combinação cria uma nova imagem de treinamento onde o objeto antigo aparece em um contexto natural. Fazendo isso, minimiza a confusão entre objetos antigos e novos. Apenas certas áreas da imagem onde os objetos de caixa anteriores estão localizados são alteradas, garantindo um bom equilíbrio entre preservar as informações antigas e novas.

Reexibição de Caixa Mosaico

A reexibição de caixa mosaico segue uma abordagem diferente criando imagens compostas a partir de diferentes imagens de caixas. Uma grade é dividida dentro da imagem atual, e células específicas são substituídas por imagens de caixa armazenadas anteriormente. Ao combinar imagens dessa forma, o modelo pode aprender a reconhecer objetos anteriores em novos contextos. Esse método melhora bastante a reutilização de informações de tarefas passadas.

Destilação Atenta de RoI

Outro componente crítico do nosso método é a Destilação Atenta de Região de Interesse (RoI). Esse processo ajuda a transferir conhecimento de modelos antigos para novos. Permite que o modelo atual se concentre nas características mais significativas dos objetos antigos enquanto aprende sobre os novos.

O mecanismo de atenção usado nessa abordagem ajuda a garantir que o modelo preste atenção especial a detalhes importantes dos objetos anteriores quando eles são misturados com novos dados. Isso aumenta a capacidade geral do modelo enquanto assegura a retenção do conhecimento antigo crucial.

Benefícios do ABR

O método de Reexibição de Caixa Aumentada traz várias vantagens que contribuem para sua eficácia no aprendizado incremental para detecção de objetos:

  1. Riqueza de Informação: Ao selecionar as caixas de objetos anteriores mais relevantes para o treinamento, o ABR garante que o modelo retenha informações valiosas, o que melhora o desempenho geral.

  2. Generalização: Esse método promove uma melhor generalização ao fornecer fundos diversos para classes antigas e novas, permitindo que o modelo lide com vários cenários de forma mais eficaz.

  3. Eficiência de Memória: Como a abordagem depende de armazenar apenas caixas específicas em vez de imagens completas, isso reduz significativamente os requisitos de memória, tornando-a adequada para grandes conjuntos de dados.

  4. Adaptabilidade: O ABR é projetado para funcionar perfeitamente com diferentes modelos de detecção de objetos, o que amplia sua aplicabilidade em várias tarefas.

Avaliação e Resultados

Para avaliar a eficácia do ABR, realizamos experimentos em conjuntos de dados conhecidos: PASCAL VOC 2007 e MS COCO 2017. Cada conjunto de dados contém uma ampla gama de classes e imagens de objetos, fornecendo uma base sólida para avaliar nosso método.

Durante nossos experimentos, comparamos o ABR com métodos existentes. Os resultados mostraram que nosso método superou os outros em diferentes configurações e cenários.

Em configurações com incrementos únicos, mostrou melhorias consideráveis, especialmente na capacidade de reconhecer novas classes sem perder o conhecimento das mais antigas. Em situações de múltiplos passos, onde o modelo foi exposto a múltiplas novas classes sequencialmente, o ABR manteve seu desempenho consideravelmente melhor do que as alternativas.

Conclusões

Este trabalho destaca a importância de abordar os desafios inerentes ao aprendizado incremental para detecção de objetos. A mudança de primeiro plano se torna um obstáculo significativo quando se depende demais de imagens passadas. O método proposto de Reexibição de Caixa Aumentada serve como uma solução inovadora, permitindo que o modelo armazene e reexiba apenas os objetos relevantes de tarefas anteriores.

Ao aproveitar técnicas de mixup e mosaico, juntamente com estratégias de destilação atenta, o ABR melhora significativamente a capacidade dos modelos de reconhecer tanto classes antigas quanto novas. Nossas descobertas sugerem que o ABR pode abrir caminho para avanços no aprendizado incremental, particularmente em aplicações práticas onde classes de objetos mudam regularmente.

Pesquisas futuras podem explorar como essas técnicas poderiam ser adaptadas a outras áreas, como segmentação semântica, ou serem aplicadas a novas arquiteturas de modelos, como transformers.

Fonte original

Título: Augmented Box Replay: Overcoming Foreground Shift for Incremental Object Detection

Resumo: In incremental learning, replaying stored samples from previous tasks together with current task samples is one of the most efficient approaches to address catastrophic forgetting. However, unlike incremental classification, image replay has not been successfully applied to incremental object detection (IOD). In this paper, we identify the overlooked problem of foreground shift as the main reason for this. Foreground shift only occurs when replaying images of previous tasks and refers to the fact that their background might contain foreground objects of the current task. To overcome this problem, a novel and efficient Augmented Box Replay (ABR) method is developed that only stores and replays foreground objects and thereby circumvents the foreground shift problem. In addition, we propose an innovative Attentive RoI Distillation loss that uses spatial attention from region-of-interest (RoI) features to constrain current model to focus on the most important information from old model. ABR significantly reduces forgetting of previous classes while maintaining high plasticity in current classes. Moreover, it considerably reduces the storage requirements when compared to standard image replay. Comprehensive experiments on Pascal-VOC and COCO datasets support the state-of-the-art performance of our model.

Autores: Liu Yuyang, Cong Yang, Goswami Dipam, Liu Xialei, Joost van de Weijer

Última atualização: 2023-07-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.12427

Fonte PDF: https://arxiv.org/pdf/2307.12427

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes