Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Adaptando Modelos de Reconhecimento de Ação para Novos Dados

Um novo método melhora o reconhecimento de ações em vídeos usando menos exemplos rotulados.

― 8 min ler


Reconhecimento de AçãoReconhecimento de Açãocom Menos Dadosmelhor reconhecimento de ações.Novo método adapta modelos para uma
Índice

Reconhecer ações em vídeos é super importante em várias áreas, como robótica, esportes e segurança. Isso envolve identificar quais ações estão rolando em uma sequência de imagens capturadas ao longo do tempo. Tradicionalmente, essa tarefa dependia de modelos que precisavam de muitos dados rotulados. Mas conseguir esses dados pode ser caro e demorado. Uma nova abordagem foca em adaptar modelos existentes treinados com dados rotulados para funcionar em novos dados não rotulados.

Neste artigo, vamos falar sobre um método chamado AutoLabel, que ajuda a reconhecer ações em vídeos adaptando-se a situações onde os dados-alvo têm algumas ações novas que o modelo original nunca viu antes. O objetivo é melhorar o reconhecimento de ações sem precisar de uma tonelada de dados rotulados.

Reconhecimento de Ações

Reconhecimento de ações é a capacidade de identificar e categorizar ações a partir de clipes de vídeo. Essa tarefa tem sido muito pesquisada e várias técnicas foram desenvolvidas para torná-la mais fácil e eficaz. A maioria dessas técnicas precisa de grandes conjuntos de dados com rótulos precisos para treinamento. Mas criar esses conjuntos é muitas vezes desafiador e caro.

Reconhecer ações pode envolver treinar um modelo em um conjunto de dados de origem que tenha exemplos rotulados de várias ações e depois aplicar esse modelo em um conjunto de dados-alvo que não tem rótulos. Essa abordagem pode economizar tempo e recursos, mas vem com seus próprios desafios, especialmente quando os tipos de ações presentes no conjunto de dados-alvo são diferentes das do conjunto de dados de origem.

Adaptação de Domínio Não Supervisionada em Vídeos

Quando lidamos com reconhecimento de ações em diferentes conjuntos de dados, encontramos uma situação conhecida como "mudança de domínio". Isso acontece quando as características dos dados de origem diferem significativamente das do dado-alvo. Isso é um desafio porque um modelo treinado em um tipo de dado pode não se sair bem em outro.

Em muitas situações práticas, o conjunto de dados-alvo pode também conter novas categorias de ação que não estavam presentes no conjunto de dados de origem. Abordagens tradicionais muitas vezes têm dificuldades com essas novas categorias, resultando em desempenho fraco. Para resolver isso, foi proposta uma nova abordagem chamada adaptação de domínio não supervisionada em vídeo de conjunto aberto. Esse método permite que os modelos se adaptem e melhorem o reconhecimento de ações, focando nas ações compartilhadas entre os dois conjuntos de dados, enquanto exclui aquelas que são exclusivas do conjunto de dados-alvo.

A Ideia Simples por Trás do AutoLabel

O AutoLabel traz uma maneira prática de enfrentar o problema de adaptar modelos de reconhecimento de ações para novos conjuntos de dados não rotulados. A ideia chave é usar um modelo pré-treinado, que foi treinado em uma grande quantidade de dados de imagem e texto. Esse modelo pode reconhecer uma ampla gama de ações sem precisar de rótulos específicos para cada ação possível.

O AutoLabel funciona gerando nomes possíveis para as novas categorias de ação no conjunto de dados-alvo. Usando atributos relacionados a objetos e pessoas no vídeo, ele pode criar nomes significativos que representam as ações que estão acontecendo no vídeo. Isso permite que o modelo distinga efetivamente entre ações conhecidas do conjunto de dados de origem e novas ações do conjunto de dados-alvo.

Usando CLIP para Reconhecimento de Ações

No coração do AutoLabel está um modelo chamado CLIP, que significa Pré-treinamento Contrastivo de Linguagem e Imagem. O CLIP foi treinado em uma grande coleção de imagens e descrições de texto correspondentes. Esse treinamento ajuda o modelo a entender bem o conteúdo visual e a linguagem.

Quando aplicamos o CLIP à nossa tarefa de reconhecimento de ações, ele pode pegar um vídeo e um conjunto de descrições de ações. Ele calcula como o vídeo combina com cada descrição, permitindo identificar as ações mais prováveis no vídeo. No entanto, isso exige saber os nomes exatos das novas ações, o que pode ser difícil, já que o conjunto de dados-alvo pode não incluir rótulos.

Superando o Desafio de Ações Desconhecidas

Para superar o desafio de não saber os nomes das novas ações, o AutoLabel propõe uma maneira automática de descobrir nomes potenciais para essas ações. Isso é feito analisando os quadros do vídeo para extrair atributos relacionados às ações mostradas. Por exemplo, se um vídeo mostra uma pessoa montando um cavalo, os atributos relevantes poderiam ser "cavalo" e "pessoa".

Usando um modelo de legendagem de imagens, o AutoLabel prevê vários atributos a partir dos quadros do vídeo. Depois de agrupar as sequências de vídeo com base nas características, ele identifica atributos que ocorrem com frequência e que representam possíveis novos rótulos de ação. Isso permite formar nomes candidatos para ações que o CLIP pode usar para identificar e diferenciar ações no conjunto de dados-alvo.

Reduzindo a Redundância nos Rótulos de Ações

Um desafio em gerar nomes candidatos para ações é que pode haver muitos rótulos redundantes ou similares. O AutoLabel resolve isso usando uma técnica de correspondência para comparar os atributos extraídos do conjunto de dados-alvo com os do conjunto de dados de origem. Se um nome candidato corresponder de perto a uma ação conhecida do conjunto de dados de origem, ele pode ser filtrado para evitar confusão.

Focando em nomes candidatos únicos que não se sobrepõem a ações conhecidas, o AutoLabel garante que mantenha clareza na tarefa de reconhecimento. Isso reduz a ambiguidade que poderia surgir de ter muitos rótulos de ação similares.

Pseudo-Rotulação para Aprendizado Aprimorado

Depois que os nomes de ações candidatos são estabelecidos, o próximo passo é usar esses nomes para ajudar a treinar o modelo no conjunto de dados-alvo não rotulado. Isso é feito por meio de um processo chamado pseudo-rotulação. Aqui, o modelo atribui rótulos aos amostras-alvo com base na similaridade entre as características do vídeo e os nomes de ações candidatos.

O modelo é então ajustado usando essas pseudo-rotulações, permitindo que ele aprenda a identificar melhor tanto ações conhecidas quanto desconhecidas. Esse método permite que o AutoLabel aproveite o conhecimento adquirido do conjunto de dados de origem enquanto melhora sua adaptabilidade a novos dados.

Avaliando a Eficácia do AutoLabel

Para avaliar a eficácia do AutoLabel, foram realizados experimentos em vários benchmarks que incluem diferentes conjuntos de dados. Esses benchmarks consistem em categorias de ação compartilhadas entre conjuntos de dados e aquelas exclusivas do conjunto de dados-alvo.

O desempenho do AutoLabel foi comparado com vários métodos de base. Os resultados mostram que o AutoLabel melhora significativamente o reconhecimento de ações em vídeos, provando sua eficácia em se adaptar a novos conjuntos de dados não rotulados. Os resultados destacam como o AutoLabel se sai bem em excluir ações desconhecidas enquanto reconhece com precisão as conhecidas.

Conclusão

O AutoLabel representa um avanço significativo na área de reconhecimento de ações, tornando possível adaptar modelos a novos conjuntos de dados sem a necessidade de muitos dados rotulados. Ao aproveitar as forças de modelos pré-treinados e gerar automaticamente nomes de ações candidatos, o AutoLabel ajuda a conectar os dados rotulados de origem com os dados-alvo não rotulados.

Essa abordagem inovadora não só melhora o desempenho nas tarefas de reconhecimento de ações, mas também oferece uma solução prática para aplicações do mundo real onde dados rotulados podem ser escassos. Através de técnicas como extração de atributos, descoberta de classes candidatas e pseudo-rotulação, o AutoLabel estabelece um novo padrão para lidar com reconhecimento de ações em cenários de conjunto aberto.

Seguindo em frente, a pesquisa pode continuar a refinar esses métodos, explorando maneiras mais sofisticadas de modelar ações e aprimorar as capacidades de reconhecimento. A jornada para entender ações em vídeos está em andamento, e o AutoLabel abre caminho para futuros avanços nesse campo empolgante.

Fonte original

Título: AutoLabel: CLIP-based framework for Open-set Video Domain Adaptation

Resumo: Open-set Unsupervised Video Domain Adaptation (OUVDA) deals with the task of adapting an action recognition model from a labelled source domain to an unlabelled target domain that contains "target-private" categories, which are present in the target but absent in the source. In this work we deviate from the prior work of training a specialized open-set classifier or weighted adversarial learning by proposing to use pre-trained Language and Vision Models (CLIP). The CLIP is well suited for OUVDA due to its rich representation and the zero-shot recognition capabilities. However, rejecting target-private instances with the CLIP's zero-shot protocol requires oracle knowledge about the target-private label names. To circumvent the impossibility of the knowledge of label names, we propose AutoLabel that automatically discovers and generates object-centric compositional candidate target-private class names. Despite its simplicity, we show that CLIP when equipped with AutoLabel can satisfactorily reject the target-private instances, thereby facilitating better alignment between the shared classes of the two domains. The code is available.

Autores: Giacomo Zara, Subhankar Roy, Paolo Rota, Elisa Ricci

Última atualização: 2023-04-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.01110

Fonte PDF: https://arxiv.org/pdf/2304.01110

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes