Avanços na Detecção de Objetos Zero-Shot
Novos métodos melhoram a detecção de objetos usando vocabulário aberto e alinham recursos visuais e textuais.
― 7 min ler
Índice
No mundo da tecnologia e inteligência artificial, tem uma necessidade urgente de identificar e entender diferentes objetos em imagens. Essa tarefa fica especialmente complicada quando queremos reconhecer objetos que o sistema nunca viu antes durante o treinamento. As abordagens tradicionais de detecção de objetos confiando em um conjunto fixo de classes, ou seja, só conseguem identificar aqueles itens específicos para os quais foram treinadas. Mas, essa limitação pode ser bem restritiva, especialmente quando os usuários querem procurar por vários objetos que podem não estar nos dados de treinamento.
Pra resolver isso, os pesquisadores estão pensando em métodos que permitem que os sistemas detectem objetos com base em um vocabulário aberto. Isso significa que o sistema deveria conseguir reconhecer qualquer objeto com base em uma consulta de texto, mesmo que não tenha sido treinado pra isso. Essa abordagem é chamada de detecção de vocabulário aberto zero-shot. O principal desafio tá em alinhar as características visuais das imagens com as características textuais de palavras ou frases pra que o sistema consiga fazer a tarefa de detecção de forma precisa.
O Problema com Métodos Tradicionais
Os sistemas tradicionais de detecção de objetos trabalham com um conjunto pré-determinado de classes. Por exemplo, imagine um motor de busca onde você só pode procurar uma lista específica de palavras-chave. Se você quiser achar algo fora dessa lista, vai se dar mal. Essa limitação dificulta atender à demanda dos usuários. Além disso, expandir a gama de objetos detectáveis geralmente exige um esforço de anotação extenso e caro, o que não é prático.
Na detecção de vocabulário aberto zero-shot, queremos que o sistema identifique objetos com base em qualquer texto, mesmo que nunca tenha visto aqueles objetos durante o treinamento. A abordagem típica pra construir um sistema desse tipo é modificar métodos de detecção padrão pra acomodar esses novos requisitos. Ao invés de gerar pontuações pra uma lista de classes fixa, o sistema produziria uma pontuação com base na relação entre o texto e as características visuais da imagem.
No entanto, detectar objetos que nunca foram vistos depende muito de quão bem o sistema alinha as representações visuais e textuais. Se o alinhamento for ruim, fica quase impossível detectar novas classes.
Métodos Propostos para Melhoria
Pra lidar com o problema do alinhamento de características entre os recursos visuais e textuais, sugerimos três métodos. Cada método visa melhorar o alinhamento, aumentando assim o desempenho da detecção.
1. Aumento de Embeddings de Texto
O primeiro método envolve aumentar os embeddings de texto usados durante o treinamento. Quando o modelo de linguagem (LM) usado pra entender o texto tá congelado, isso limita a capacidade do sistema de se adaptar às exigências da tarefa. Isso pode levar ao overfitting, onde o modelo fica muito especializado nas classes limitadas que foi treinado, esquecendo as que não viu.
Usando uma técnica chamada dropout junto com o LM congelado, podemos manter suas vantagens sem que ele overfit. Além disso, podemos criar várias variantes de embeddings de classe, permitindo que o modelo escolha entre essas durante cada iteração de treinamento. Isso não só acelera o treinamento, mas também reduz o uso da memória, que é crucial pra lidar com imagens de alta resolução.
2. Modificações Arquiteturais
O segundo método modifica a estrutura do próprio sistema de detecção. Quando modelos de detecção tradicionais são construídos, eles frequentemente adicionam novas camadas que são treinadas do zero, o que pode quebrar o alinhamento entre as características visuais e textuais estabelecidas durante o pré-treinamento.
Introduzindo atalhos treináveis e camadas de controle, podemos garantir que o sistema mantenha esse alinhamento desde o início do processo de treinamento. Isso significa que as características derivadas do modelo visual podem ser enviadas diretamente pra cabeça de detecção, permitindo que o sistema funcione de forma mais eficiente e eficaz desde o começo.
3. Auto-treinamento com Pseudo-anotação
O terceiro método envolve usar auto-treinamento pra melhorar ainda mais o desempenho da detecção. Uma vez que um detector robusto de vocabulário aberto esteja configurado, ele pode ser usado pra rotular dados adicionais de um grande conjunto de imagens e pares de texto coletados da internet. Esse conjunto de dados não tem caixas delimitadoras anotadas por humanos, que normalmente exigem muito esforço pra criar.
O sistema usa o detector pra atribuir uma pseudo-anotação a cada imagem com base na sua legenda de texto. Fazendo isso, o modelo de detecção pode aprender com um conjunto de dados muito maior, o que ajuda a melhorar sua capacidade de reconhecer novas classes. Durante o treinamento, o modelo usa as saídas dessas pseudo-anotações junto com os dados reais de verdade pra refinar sua compreensão.
Avaliação dos Métodos
Os métodos propostos foram avaliados usando o benchmark LVIS, que é um padrão pra medir o desempenho da detecção de objetos. Cada um desses métodos demonstrou benefícios claros. O detector final alcançou resultados de ponta, indicando que essas estratégias foram eficazes em melhorar o desempenho não só na tarefa geral, mas também na detecção de classes raras que não foram vistas no treinamento.
Resultados do Aumento de Embeddings de Texto
O método de aumento de embeddings de texto reduziu significativamente o overfitting e melhorou a capacidade do modelo de reconhecer classes não vistas. Durante os experimentos, usar várias variantes de embeddings de texto levou a melhores métricas de desempenho em comparação com os métodos mais tradicionais de usar um embedding fixo.
Resultados das Modificações Arquiteturais
As mudanças arquiteturais introduzidas pra manter o alinhamento de características resultaram não só em estabilidade, mas também em melhor desempenho. Garantindo que as características do modelo visual fossem efetivamente transmitidas pela rede, o modelo pôde aproveitar o pré-treinamento inicial. Isso permitiu que o modelo se destacasse em tarefas de classificação desde o começo do treinamento.
Resultados do Auto-treinamento
O uso de auto-treinamento com pseudo-anotações deu um impulso considerável no desempenho da detecção, particularmente pra classes não vistas. O modelo aprendeu com os dados em larga escala sem anotações extensivas. A introdução de batch-negatives durante essa fase confirmou ainda mais sua importância em aprimorar o desempenho do modelo.
Trabalho Relacionado
No campo da detecção de objetos, a detecção de vocabulário aberto zero-shot ganhou interesse pela sua potencialidade de escalabilidade e adaptabilidade. Muitas abordagens foram tentadas, focando em modificar diretamente métodos existentes pra tarefas específicas ou empregando várias formas de supervisão.
No entanto, a maioria desses métodos envolve uma compreensão limitada de como interagir efetivamente com classes não vistas. Nosso trabalho se baseia nos métodos existentes, destacando a importância do alinhamento entre representações visuais e textuais.
Conclusão
A jornada de melhorar a detecção de vocabulário aberto zero-shot reflete os desafios mais amplos presentes em inteligência artificial e aprendizado de máquina. A evolução dos sistemas de detecção deve se adaptar às necessidades dos usuários e às complexidades dos dados do mundo real.
Focando em melhorar o alinhamento de características através de métodos novos, como aumento de embeddings de texto, mudanças arquiteturais e auto-treinamento, podemos criar sistemas que não só performam melhor, mas também atendem à crescente demanda por versatilidade em reconhecer objetos diversos. Pesquisas futuras podem se concentrar em refinar ainda mais essas técnicas e explorar um uso ainda mais eficiente dos dados disponíveis, visando uma compreensão mais abrangente dos objetos a partir de contextos visuais e textuais.
Título: Three ways to improve feature alignment for open vocabulary detection
Resumo: The core problem in zero-shot open vocabulary detection is how to align visual and text features, so that the detector performs well on unseen classes. Previous approaches train the feature pyramid and detection head from scratch, which breaks the vision-text feature alignment established during pretraining, and struggles to prevent the language model from forgetting unseen classes. We propose three methods to alleviate these issues. Firstly, a simple scheme is used to augment the text embeddings which prevents overfitting to a small number of classes seen during training, while simultaneously saving memory and computation. Secondly, the feature pyramid network and the detection head are modified to include trainable gated shortcuts, which encourages vision-text feature alignment and guarantees it at the start of detection training. Finally, a self-training approach is used to leverage a larger corpus of image-text pairs thus improving detection performance on classes with no human annotated bounding boxes. Our three methods are evaluated on the zero-shot version of the LVIS benchmark, each of them showing clear and significant benefits. Our final network achieves the new stateof-the-art on the mAP-all metric and demonstrates competitive performance for mAP-rare, as well as superior transfer to COCO and Objects365.
Autores: Relja Arandjelović, Alex Andonian, Arthur Mensch, Olivier J. Hénaff, Jean-Baptiste Alayrac, Andrew Zisserman
Última atualização: 2023-03-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.13518
Fonte PDF: https://arxiv.org/pdf/2303.13518
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://commons.wikimedia.org/wiki/File:Parisian_gargoyle_
- https://commons.wikimedia.org/wiki/File:Venezia-gondola_on_canal_grande.JPG
- https://commons.wikimedia.org/wiki/File:Macaroons_at_Smiths.jpg
- https://commons.wikimedia.org/wiki/File:Round_hay_bales_and_a_hot_air_balloon_somewhere_in_Luxembourg.jpg
- https://commons.wikimedia.org/wiki/File:POOL_HALL_-_NARA_-_543975.jpg
- https://commons.wikimedia.org/wiki/File:Jumping_over_the_moon.jpg
- https://commons.wikimedia.org/wiki/File:Wolves_chasing_a_wapiti,_Yellowstone_River_
- https://commons.wikimedia.org/wiki/File:2020-01-11_Men