Simple Science

Ciência de ponta explicada de forma simples

# Informática # Visão computacional e reconhecimento de padrões

Equilibrando o Treinamento de IA para Reconhecimento de Ação

Um novo framework aborda o viés de ação na compreensão de vídeos.

Rohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate

― 6 min ler


Treinamento de IA pra Treinamento de IA pra Bias de Ação de ações em vídeos. Novo framework melhora o reconhecimento
Índice

Imagina que você tá assistindo a um vídeo onde uma pessoa pega um livro e senta numa cadeira. Parece simples, né? Mas no mundo da IA e visão computacional, entender o que tá rolando nesse vídeo não é só reconhecer objetos como "pessoa," "livro" ou "cadeira." É sobre sacar como esses objetos interagem ao longo do tempo. É aí que entram os Spatio-Temporal Scene Graphs (STSGs). Pense nos STSGs como uma forma sofisticada de mapear as ações e relações dos objetos em um vídeo, quase como desenhar uma árvore genealógica, mas ao invés de membros da família, a gente tem várias ações e itens.

O Desafio da Distribuição Longa

Agora, você pode se perguntar, qual é a pegadinha? Bom, na vida real, algumas ações acontecem o tempo todo, enquanto outras são raras. Por exemplo, muita gente pode ser vista lendo um livro, mas quantas vezes você vê alguém equilibrando numa cadeira enquanto faz isso? Em termos técnicos, isso é conhecido como distribuição longa. As ações comuns são como a “cabeça” da cauda, enquanto as raras são a “cauda.”

Quando a gente ensina modelos de IA a entender vídeos, eles tendem a focar muito nas ações comuns e ignorar completamente as raras, que são igualmente importantes. Isso cria uma perspectiva enviesada, fazendo com que os modelos não "vejam" o quadro completo. Precisamos ensinar eles a prestar atenção tanto nas ações populares quanto nas obscuras.

Conheça o ImparTail: O Novo Professor

Para combater esse viés, apresentamos o ImparTail, uma estrutura de treinamento que atua como um professor sábio na escola. Ao invés de deixar os alunos focarem só nas matérias que eles gostam, essa estrutura os guia para dominar também as mais difíceis. Isso é feito através de duas estratégias inteligentes: aprendizado de currículo e mascaramento de perda.

Aprendizado de Currículo

Pense no aprendizado de currículo como uma forma de ensinar crianças começando com matérias mais fáceis e gradualmente passando para as mais complexas. Para a IA, isso significa inicialmente destacar as ações comuns e lentamente mudar o foco para aquelas raras. Em vez de jogar tudo no modelo de uma vez, vamos passo a passo.

Mascaramento de Perda

O mascaramento de perda funciona como um filtro para bloquear ruídos. No nosso caso, ele ajuda o modelo a ignorar as ações comuns que são muito dominantes durante o treinamento. Fazendo isso, conseguimos garantir que toda ação, seja popular ou rara, tenha uma chance justa no processo de aprendizado.

Novas Tarefas de Avaliação: Testando as Águas

Para ver como nossos modelos recém-treinados se saem, criamos duas tarefas novas: Geração Robusta de Grafos de Cena Espacial-Temporal e Antecipação Robusta de Grafos de Cena. Essas tarefas ajudam a avaliar como os modelos lidam com os desafios do mundo real-como mudanças na iluminação ou obstruções súbitas-que podem afetar seu desempenho.

O Conjunto de Dados Action Genome

Para avaliar nossos métodos, escolhemos uma coleção especial de vídeos conhecida como Action Genome dataset. É como uma mina de ouro para entender diferentes ações e relações em vídeos, com uma gama de ações comuns e raras. O conjunto de dados tem 35 classes de objetos (pense nas várias coisas que você pode ver em uma cena) e 25 classes de relação (como esses objetos se conectam), divididas em três categorias: Relações de Atenção, Relações Espaciais e Relações de Contato.

Mergulhando nos Resultados

Vamos dar uma olhada em como nossa estrutura se saiu.

Geração de Grafos de Cena em Vídeo

Os primeiros experimentos focaram na Geração de Grafos de Cena em Vídeo (VidSGG), que visa criar uma sequência de grafos de cena para vídeos observados. Testamos nosso modelo contra alguns modelos base populares e descobrimos que nossa nova abordagem consistentemente superou eles. Imagine seu time favorito fazendo um touchdown-nossa estrutura foi como aquele jogador estrela.

Antecipação de Grafos de Cena

A próxima foi a Antecipação de Grafos de Cena (SGA). Essa tarefa prevê o que pode acontecer a seguir no vídeo. Novamente, nossa estrutura se saiu impressionantemente, mostrando que podemos nos preparar para ações futuras assim como tentar prever o que vai acontecer na próxima reviravolta do seu livro de mistério favorito.

Avaliação de Robustez: Enfrentando a Tempestade

Mas aqui tá a grande sacada: a gente não queria só saber como os modelos se saíram em condições normais. Queríamos ver como eles se comportaram quando as coisas ficavam difíceis. Então, introduzimos vários tipos de “corruptions” ou distúrbios nos vídeos de entrada, como adicionar ruído ou mudar cores.

Para nossa alegria, os modelos treinados com ImparTail mostraram uma capacidade notável de lidar com esses desafios. É como ir a uma festa e descobrir que as roupas dos outros estão se desfazendo enquanto a sua fica intacta-você só brilha mais.

Conclusão: Olhando Pra Frente

Nessa exploração da Geração de Grafos de Cena Espacial-Temporal, enfrentamos um problema significativo: o viés que surge de distribuições longas no reconhecimento de ações. O ImparTail ajuda a criar uma compreensão mais equilibrada das ações, garantindo que nenhuma relação seja deixada de lado. À medida que avançamos, continuaremos aprimorando essas técnicas e explorando novas maneiras de ajudar a IA a entender melhor cenas complexas.

Nos trabalhos futuros, vamos também nos aventurar a aplicar nossa abordagem sem viés a vários cenários, como reconhecimento de erros e antecipação de ações. Então, da próxima vez que você assistir a um vídeo, pense em todas as pequenas interações intricadas que podem estar passando despercebidas-e como estamos trabalhando para garantir que a IA veja todas elas!

Fonte original

Título: Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation

Resumo: Spatio-Temporal Scene Graphs (STSGs) provide a concise and expressive representation of dynamic scenes by modelling objects and their evolving relationships over time. However, real-world visual relationships often exhibit a long-tailed distribution, causing existing methods for tasks like Video Scene Graph Generation (VidSGG) and Scene Graph Anticipation (SGA) to produce biased scene graphs. To this end, we propose ImparTail, a novel training framework that leverages curriculum learning and loss masking to mitigate bias in the generation and anticipation of spatio-temporal scene graphs. Our approach gradually decreases the dominance of the head relationship classes during training and focuses more on tail classes, leading to more balanced training. Furthermore, we introduce two new tasks, Robust Spatio-Temporal Scene Graph Generation and Robust Scene Graph Anticipation, designed to evaluate the robustness of STSG models against distribution shifts. Extensive experiments on the Action Genome dataset demonstrate that our framework significantly enhances the unbiased performance and robustness of STSG models compared to existing methods.

Autores: Rohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate

Última atualização: 2024-11-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.13059

Fonte PDF: https://arxiv.org/pdf/2411.13059

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes