Avanços no Rastreamento de Múltiplos Objetos com Vocabulário Aberto
Um novo rastreador identifica e acompanha vários objetos em vídeos de forma eficiente.
― 8 min ler
Índice
- O Problema
- Uma Nova Abordagem
- O Rastreador
- Rastreamento de Múltiplos Objetos Explicado
- Contexto de Rastreamento em Mundo Aberto
- Nossa Proposta: MOT de Vocabulário Aberto
- Características Principais do Rastreador
- Enfrentando a Disponibilidade de Dados
- Resumo das Contribuições
- Trabalho Relacionado
- Treinando Nosso Rastreador
- Estratégia de Alucinação de Dados
- Avaliando o Desempenho do Rastreamento
- Resultados
- Conclusão
- Fonte original
- Ligações de referência
Reconhecer, localizar e rastrear objetos em movimento em vídeos é importante pra várias aplicações da vida real, tipo carros autônomos e robôs. Mas, muitos sistemas que já existem só conseguem acompanhar um número limitado de tipos de objetos que eles foram treinados pra isso. Isso limita a capacidade deles de funcionarem no mundo real, onde muitos tipos diferentes de objetos podem aparecer.
O Problema
Os métodos de rastreamento atuais focam numa lista pequena de tipos de objetos. Isso significa que, se um objeto não tá na lista, o sistema pode não reconhecer ou rastrear legal. Isso é um grande problema quando a intenção é aplicar o rastreamento em várias situações do dia a dia.
Enquanto alguns pesquisadores tão tentando resolver isso criando sistemas que conseguem lidar com mais objetos desconhecidos, eles enfrentam desafios. Identificar todos os objetos num vídeo é caro e consome tempo. Além disso, sem uma definição clara do que conta como um objeto, fica complicado determinar o quão bem um sistema de rastreamento funciona.
Uma Nova Abordagem
Esse artigo apresenta uma nova tarefa chamada Rastreamento de Múltiplos Objetos com Vocabulário aberto (MOT). O objetivo dessa tarefa é rastrear diferentes tipos de objetos que não foram definidos durante o treinamento. Apresentamos um novo rastreador projetado pra lidar com qualquer tipo de objeto.
O rastreador é construído usando duas ideias principais: primeiro, ele usa um modelo que conecta imagens e texto pra ajudar a identificar e conectar objetos; segundo, ele usa um método único pra criar dados de treinamento adicionais a partir de imagens existentes.
O Rastreador
Esse rastreador de vocabulário aberto é eficiente e consegue rastrear uma ampla gama de objetos. Durante o treinamento, ele usa um modelo que conecta visuais com texto pra gerar mais exemplos de treinamento e aprender associações melhores. Quando testando, o rastreador consegue identificar tanto objetos familiares quanto novos, referenciando esse modelo.
Rastreamento de Múltiplos Objetos Explicado
Rastreamento de múltiplos objetos se refere ao processo de reconhecer e seguir vários objetos numa sequência de vídeo. Essa habilidade é fundamental pra analisar cenas dinâmicas, tornando-se essencial pra aplicações como direção autônoma e vigilância por vídeo.
Métodos tradicionais de rastreamento dependem de um conjunto limitado de categorias, o que restringe sua eficácia. Como resultado, muitos sistemas de rastreamento atuais podem não funcionar bem com objetos novos ou em cenários complexos.
Contexto de Rastreamento em Mundo Aberto
Pesquisas anteriores olharam pra rastreamento em um cenário de mundo aberto, onde o sistema precisa identificar objetos numa cena sem saber suas categorias de antemão. Alguns métodos segmentam a cena pra isolar objetos antes de tentar classificá-los. Outros usam localizadores genéricos que não exigem categorias pré-definidas.
No entanto, esse rastreamento em mundo aberto ainda enfrenta desafios significativos. Por exemplo, anotar cada objeto num vídeo não é prático. Além disso, sem categorias claras para objetos, medir a precisão do rastreamento se torna complicado.
Nossa Proposta: MOT de Vocabulário Aberto
O MOT de vocabulário aberto visa rastrear múltiplos objetos sem se limitar a uma lista fixa de categorias. Em vez de ignorar completamente a classificação, assumimos que sabemos quais objetos queremos rastrear na fase de teste. Essa abordagem nos permite usar métricas estabelecidas que medem efetivamente precisão e recall.
Descrevemos um novo sistema para rastreamento de vocabulário aberto, focando em como construir e avaliar tal rastreador. Nosso método é projetado pra lidar com dois desafios principais: expandir além de categorias fixas e lidar com a falta de dados.
Características Principais do Rastreador
Pra rastrear efetivamente uma ampla gama de objetos, substituímos métodos de classificação tradicionais por um sistema que mede similaridades entre objetos e um conjunto amplo de categorias. Conseguimos isso usando modelos existentes que conectam imagens com texto.
Rastreamento robusto depende muito de entender os movimentos e aparências dos objetos. Embora pistas de movimento possam ser não confiáveis em contextos abertos, pistas de aparência são mais confiáveis. Melhorar a forma como representamos as aparências nos permite rastrear melhor, mesmo entre objetos desconhecidos.
Enfrentando a Disponibilidade de Dados
Um grande problema é a disponibilidade de dados de treinamento. Entender como os objetos podem aparecer em situações reais significa que precisamos de uma vasta e diversa gama de exemplos de treinamento. Pra contornar essa questão, aproveitamos os avanços recentes na criação de dados sintéticos através de modelos generativos, que nos permitem produzir novos exemplos de treinamento.
Resumo das Contribuições
Em resumo, desenvolvemos o primeiro rastreador multi-objetos de vocabulário aberto, que usa modelos conectando visão e linguagem pra melhorar a eficiência de rastreamento. Além disso, nossa abordagem inovadora de geração de dados ajuda a lidar com a falta de dados de treinamento.
Nosso rastreador demonstra desempenho impressionante em várias métricas, mostrando que ele consegue lidar efetivamente com múltiplos objetos desconhecidos enquanto supera os sistemas existentes.
Trabalho Relacionado
Métodos de Rastreamento de Objetos Atuais
A maioria dos sistemas de rastreamento de objetos depende de uma técnica chamada rastreamento por detecção. Isso envolve detectar objetos em cada quadro e depois tentar acompanhar eles ao longo do tempo. Muitos estudos focam em melhorar como os dados são associados explorando similaridades visuais e padrões de movimento.
Embora alguns avanços usem redes neurais gráficas ou transformadores pra melhorar a associação, eles ainda enfrentam desafios porque modelos tradicionais muitas vezes são adaptados a categorias específicas que estavam presentes nos dados de treinamento.
Detecção e Rastreamento em Mundo Aberto
Métodos de detecção em mundo aberto visam identificar qualquer objeto notável numa imagem, independentemente da categoria. No entanto, o aspecto de classificação se torna complicado já que novas classes geralmente são desconhecidas. Métodos de mundo aberto contornam esse problema tratando a classificação como um desafio de agrupamento.
Por outro lado, a detecção de vocabulário aberto foca em identificar qualquer classe conhecida durante o teste. Isso levou a conexões entre detecção de objetos e representações textuais pra melhorar o rastreamento.
Indo Além dos Métodos Tradicionais
Embora tenha havido alguma exploração no rastreamento em mundo aberto, muitas abordagens ainda lutam pra avaliar quão bem um rastreador pode identificar um objeto. Geralmente, sabendo as classes que nos interessam durante os testes, podemos medir melhor o desempenho do rastreamento.
Treinando Nosso Rastreador
O rastreador de vocabulário aberto é treinado sem precisar de dados de vídeo rotulados. Em vez disso, usamos imagens estáticas e empregamos um processo de treinamento em duas etapas. A primeira etapa foca em ensinar os componentes de detecção usando apenas imagens estáticas. A segunda etapa ajusta o modelo pra fins de rastreamento.
Nosso desenvolvimento do sistema de rastreamento é feito com um grande e diversificado conjunto de dados de imagens estáticas. O aprendizado ocorre contrastando exemplos similares e diferentes, o que é fundamental pra melhorar nossa capacidade de identificar e rastrear objetos com precisão.
Estratégia de Alucinação de Dados
Pra ajudar a simular a aparência de objetos em vídeos, nosso rastreador utiliza uma técnica de alucinação de dados. Essa estratégia gera variações de imagens introduzindo mudanças aleatórias, permitindo que a gente crie novos exemplos que se assemelhem à diversidade vista em vídeos.
Introduzimos transformações aleatórias nas imagens, aumentando o conjunto de treinamento ao criar instâncias adicionais que podem ocorrer em cenários do mundo real.
Avaliando o Desempenho do Rastreamento
Ao avaliar o desempenho do nosso rastreador, comparamos ele com Rastreadores de conjunto fechado existentes e outros métodos de vocabulário aberto. Medimos o desempenho com base na capacidade de rastrear objetos conhecidos e desconhecidos.
Usando várias métricas, mostramos que nosso rastreador é eficaz em manter habilidades de rastreamento robustas enquanto consegue classificar objetos, especialmente aqueles que não foram vistos durante a fase de treinamento.
Resultados
Nossos resultados indicam que nosso rastreador se sai consideravelmente melhor do que os sistemas existentes. Ele gera pontuações mais altas em várias métricas, demonstrando sua capacidade de rastrear objetos que não foram incluídos durante o treinamento.
Ao comparar nosso método com outros em um conjunto de categorias conhecidas e novas classes, confirmamos que nosso rastreador lida efetivamente com ambos os cenários.
Conclusão
Esse trabalho estabelece o rastreamento de múltiplos objetos com vocabulário aberto como uma abordagem valiosa pra melhorar sistemas de rastreamento. Ao aproveitar as conexões entre informações visuais e textuais, criamos um novo rastreador capaz de gerenciar efetivamente uma ampla gama de classes.
Nossa abordagem enfrenta efetivamente os desafios de disponibilidade de dados e precisão de classificação, abrindo caminho pra futuros avanços nas tecnologias de rastreamento.
Em essência, nosso rastreador prepara o terreno pra aplicações práticas no mundo real, onde objetos diversos e desconhecidos podem ser rastreados com maior precisão e eficiência.
Título: OVTrack: Open-Vocabulary Multiple Object Tracking
Resumo: The ability to recognize, localize and track dynamic objects in a scene is fundamental to many real-world applications, such as self-driving and robotic systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only on a few object categories that hardly represent the multitude of possible objects that are encountered in the real world. This leaves contemporary MOT methods limited to a small set of pre-defined object categories. In this paper, we address this limitation by tackling a novel task, open-vocabulary MOT, that aims to evaluate tracking beyond pre-defined training categories. We further develop OVTrack, an open-vocabulary tracker that is capable of tracking arbitrary object classes. Its design is based on two key ingredients: First, leveraging vision-language models for both classification and association via knowledge distillation; second, a data hallucination strategy for robust appearance feature learning from denoising diffusion probabilistic models. The result is an extremely data-efficient open-vocabulary tracker that sets a new state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while being trained solely on static images. Project page: https://www.vis.xyz/pub/ovtrack/
Autores: Siyuan Li, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan, Fisher Yu
Última atualização: 2023-04-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.08408
Fonte PDF: https://arxiv.org/pdf/2304.08408
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.