Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

CORA: Avançando Técnicas de Detecção de Vocabulário Aberto

A CORA desenvolve novos métodos pra melhorar a detecção de objetos em imagens.

― 6 min ler


CORA Melhora a DetecçãoCORA Melhora a Detecçãode Objetosde objetos desconhecidos.Novos métodos melhoram o reconhecimento
Índice

A Detecção de Vocabulário Aberto (OVD) é um jeito de encontrar objetos em imagens que não fazem parte de um conjunto já aprendido. Isso significa que o sistema consegue identificar objetos novos que ele nunca viu antes. Muitas técnicas recentes de OVD usam modelos treinados tanto em imagens quanto em texto, como o CLIP, pra ajudar a reconhecer esses objetos novos. Mas tem dois desafios principais ao usar esses modelos para OVD: o jeito que os modelos são treinados em imagens inteiras e a dificuldade em encontrar objetos que pertencem a categorias desconhecidas.

Pra resolver esses problemas, a gente apresenta um novo método chamado CORA. Esse método modifica o CLIP para OVD usando técnicas chamadas Region Prompting e Anchor Pre-Matching.

O que é CORA?

CORA se baseia em uma arquitetura de detecção que usa transformadores, especificamente um estilo parecido com o DETR (DEtection TRansformer). Ele permite que o modelo identifique e classifique objetos em regiões específicas em vez de só na imagem inteira. Usando o Region Prompting, o CORA diminui a diferença entre reconhecer a imagem toda e as regiões específicas. O Anchor Pre-Matching ajuda a identificar onde novos objetos podem estar sem precisar checar repetidamente cada classe.

Avaliando o CORA

Durante os testes no benchmark COCO OVD, o CORA conseguiu uma pontuação de 41,7 em uma métrica que avalia quão bem ele detecta novas classes. Esse resultado é melhor que qualquer método anterior, melhorando em 2,4 pontos sem precisar de dados de treinamento adicionais. Quando tinha dados de treinamento a mais, o CORA chegou a 43,1 no mesmo benchmark, mostrando sua capacidade de aprender com informações extras.

Entendendo a Detecção de Vocabulário Aberto

A detecção de objetos é uma área importante na visão computacional, focada em encontrar e reconhecer objetos em imagens. Métodos tradicionais só funcionam com um conjunto fixo de categorias, o que significa que eles não conseguem reconhecer novas categorias sem treinamento e anotações extras.

Em contraste, o OVD permite que sistemas detectem objetos de categorias que eles nunca foram treinados. Essa capacidade é importante para aplicações do mundo real, onde novos objetos aparecem o tempo todo.

O progresso recente em modelos de grande escala que aprendem tanto com imagens quanto com texto, como o CLIP, levou a novas maneiras de lidar com o OVD. O CLIP aprende a conectar imagens com suas descrições, permitindo reconhecer objetos visual e linguisticamente.

Desafios ao Usar o CLIP para OVD

Apesar de usar o CLIP para OVD mostrar esperança, existem desafios significativos:

  1. Desajuste de Distribuição: O CLIP é treinado em imagens inteiras, o que significa que não é diretamente adequado para reconhecer regiões específicas. Recortar regiões e tratá-las como imagens separadas não funciona bem porque o contexto é perdido, levando a classificações imprecisas.

  2. Generalização da Localização de Objetos: O modelo precisa identificar novas classes, mas o treinamento muitas vezes é limitado a algumas classes base. Isso dificulta encontrar objetos que pertencem a novas categorias.

A Estrutura CORA

O CORA foi projetado pra melhorar como o CLIP é aplicado em tarefas de OVD. Aqui estão os dois componentes principais da estrutura CORA:

Region Prompting

O Region Prompting é uma técnica que ajuda a diminuir a diferença entre como o CLIP processa imagens inteiras e como ele precisa lidar com regiões específicas. Ajustando as características das regiões analisadas, o CORA aumenta a precisão da classificação.

Nesse processo, uma imagem é primeiro codificada em um mapa de características. Depois, áreas específicas daquela imagem são identificadas, e suas características são aprimoradas usando prompts adicionais. Essa característica ajustada é o que o modelo usa pra classificar as regiões.

Anchor Pre-Matching

O Anchor Pre-Matching foca em melhorar como o modelo localiza objetos em imagens. Ele permite que o modelo associe consultas de objetos com regiões específicas, levando em conta as classes a que pertencem. Essa abordagem evita a necessidade de processar cada classe individualmente.

Na prática, o sistema emparelha caixas de verdade com um conjunto de consultas de objetos. Cada consulta é associada a uma classe específica, permitindo uma localização de objetos mais precisa sem repetições desnecessárias no processamento.

Resultados do CORA nos Benchmarks COCO e LVIS

O CORA foi avaliado em comparação com outros métodos usando os dados COCO e LVIS. No COCO, ele melhorou significativamente a precisão média geral para novas categorias em comparação com métodos anteriores. Isso mostra que o CORA pode aprender a identificar objetos mesmo quando pertencem a classes que ele não foi treinado diretamente.

A avaliação no conjunto de dados LVIS confirma ainda mais a capacidade do CORA de lidar eficientemente com classes de objetos comuns e raras, mostrando sua versatilidade e eficácia em cenários do mundo real.

Desempenho na Classificação de Regiões

Um aspecto importante do OVD é quão bem o modelo pode classificar regiões. Nos testes, o CORA demonstrou melhorias notáveis em relação a simplesmente recortar regiões das imagens. Em vez de tratar regiões como imagens separadas, o CORA processa a imagem inteira, o que mantém o contexto valioso e melhora o desempenho geral.

Trabalhos Relacionados em OVD

O campo de OVD ganhou interesse, levando a vários métodos com foco em melhorar as capacidades de detecção. Alguns métodos anteriores se concentraram em alinhar características de regiões com rótulos textuais diretamente. Outros adotaram abordagens novas, mas enfrentaram desafios em lidar com categorias de objetos novas de forma eficiente.

Uma parte significativa da pesquisa olhou pra ajuste de prompts, onde os modelos são adaptados para se encaixar melhor nas tarefas em questão. Esse processo de ajuste pode melhorar o desempenho ao usar características aprendidas de forma mais focada.

Conclusão

O CORA representa um grande avanço na busca por uma detecção eficaz de vocabulário aberto. Adaptando o modelo CLIP através de técnicas inovadoras como Region Prompting e Anchor Pre-Matching, ele aborda de forma eficiente alguns dos principais desafios enfrentados ao reconhecer novas categorias de objetos.

À medida que o OVD continua a evoluir, métodos como o CORA abrem caminho para avanços que podem levar a sistemas de detecção de objetos mais capazes e eficientes, melhorando, em última análise, como as máquinas percebem e interagem com o mundo ao seu redor.

Fonte original

Título: CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

Resumo: Open-vocabulary detection (OVD) is an object detection task aiming at detecting objects from novel categories beyond the base categories on which the detector is trained. Recent OVD methods rely on large-scale visual-language pre-trained models, such as CLIP, for recognizing novel objects. We identify the two core obstacles that need to be tackled when incorporating these models into detector training: (1) the distribution mismatch that happens when applying a VL-model trained on whole images to region recognition tasks; (2) the difficulty of localizing objects of unseen classes. To overcome these obstacles, we propose CORA, a DETR-style framework that adapts CLIP for Open-vocabulary detection by Region prompting and Anchor pre-matching. Region prompting mitigates the whole-to-region distribution gap by prompting the region features of the CLIP-based region classifier. Anchor pre-matching helps learning generalizable object localization by a class-aware matching mechanism. We evaluate CORA on the COCO OVD benchmark, where we achieve 41.7 AP50 on novel classes, which outperforms the previous SOTA by 2.4 AP50 even without resorting to extra training data. When extra training data is available, we train CORA$^+$ on both ground-truth base-category annotations and additional pseudo bounding box labels computed by CORA. CORA$^+$ achieves 43.1 AP50 on the COCO OVD benchmark and 28.1 box APr on the LVIS OVD benchmark.

Autores: Xiaoshi Wu, Feng Zhu, Rui Zhao, Hongsheng Li

Última atualização: 2023-03-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.13076

Fonte PDF: https://arxiv.org/pdf/2303.13076

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes