Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Computação e linguagem# Aprendizagem de máquinas

Avanços na Aprendizagem de Tarefas com Vídeos Instrucionais

Novo modelo melhora a aprendizagem de tarefas e a detecção de erros em vídeos instrutivos.

― 13 min ler


Melhorando o AprendizadoMelhorando o Aprendizadode Tarefas em Vídeotarefas de vídeo instrucional.Novo modelo melhora a precisão em
Índice

Com tantos vídeos instrucionais na internet, ensinar máquinas a aprender tarefas em múltiplos passos a partir de vídeos é um objetivo útil. A gente propõe um novo modelo de vídeo chamado VideoTaskformer que foca em entender o significado e a estrutura desses vídeos. Esse modelo é treinado para prever rótulos para passos que foram ocultos (mascarados) em um vídeo. Diferente dos métodos anteriores que analisavam os passos um por um, nossa abordagem considera o vídeo todo, utilizando todos os passos ao redor de um passo específico para ajudar a aprender seu significado.

Com o que o modelo aprendeu, podemos verificar se um vídeo realiza uma tarefa corretamente e prever quais serão os próximos passos que alguém pode dar após um passo específico. A gente também criou dois novos métodos de teste para identificar erros em vídeos instrucionais, como descobrir se um passo está errado ou se os passos foram feitos na ordem certa. Outro benchmark que adicionamos olha para frente para prever passos futuros a partir de um dado passo. Nosso método se saiu melhor que modelos anteriores nessas tarefas, e acreditamos que esses benchmarks vão ajudar a melhorar como medimos a qualidade do aprendizado de tarefas a partir de vídeos.

Métodos anteriores costumavam olhar para clipes de vídeo individualmente, perdendo as conexões entre os passos de uma tarefa. Nosso modelo, VideoTaskformer, aprende sobre os passos em um vídeo considerando todos os passos ao redor, tornando-se ciente dos detalhes e da ordem da tarefa.

Imagina que você está tentando montar uma estante enquanto assiste a um vídeo com vários passos detalhados. Pode ser frustrante pausar o vídeo repetidamente, especialmente quando você não tem certeza se completou os passos corretamente. Felizmente, um assistente interativo pode te guiar, garantindo que você faça cada passo certo e avisando se você cometer um erro.

Montar uma estante envolve várias tarefas menores, como furar buracos e adicionar blocos de apoio. Para categorizar essas atividades corretamente, não é suficiente reconhecer os passos individuais, mas também entender como eles se encaixam em uma estrutura de tarefa maior. Isso inclui saber a ordem dos passos e perceber que pode haver maneiras diferentes de realizar um passo (por exemplo, você pode bater ovos com um garfo ou um batedor).

Um assistente interativo ideal tem um bom entendimento de várias tarefas, além de um entendimento detalhado dos passos específicos necessários, como eles devem ser ordenados e os diferentes métodos de completá-los.

Abordagens anteriores tendiam a focar em passos individuais sem considerar todo o contexto da tarefa, o que pode não ser a melhor abordagem, já que os passos em uma tarefa costumam estar ligados, e entender onde um passo se encaixa na tarefa geral pode fornecer informações importantes.

Para resolver isso, treinamos o VideoTaskformer usando um método que incentiva o modelo a aprender os significados dos passos com base em toda a filmagem do vídeo. Antes não havia benchmarks sólidos para identificar erros em vídeos, o que é importante para verificar se os vídeos instrucionais são precisos. Criamos uma tarefa de detecção de erros e um conjunto de dados para checar se a tarefa demonstrada em um vídeo foi completada corretamente, incluindo verificar se cada passo foi realizado corretamente e na ordem apropriada.

Nosso objetivo é aprender os significados dos passos com base no contexto da tarefa mostrada no vídeo. Para alcançar isso, desenvolvemos o VideoTaskformer usando uma abordagem de treinamento envolvendo passos mascarados. Treinamos o modelo inserindo um vídeo com alguns passos omitidos e pedindo para prever os passos ausentes apenas com base nos passos visíveis restantes.

A partir desse treinamento, aprendemos representações que melhoram o desempenho em tarefas como previsão de passos (prever passos futuros), classificação de passos (identificar passos) e reconhecimento de atividades processuais (entender qual tarefa está sendo realizada).

Esse modelo também nos ajuda a identificar erros. Nosso objetivo original era criar uma ferramenta útil para usuários que seguem vídeos instrucionais. Para avaliar a eficácia do nosso modelo, geramos um conjunto de dados de erros usando anotações existentes para avaliá-lo.

Focamos em dois tipos de erros: erros nos passos mostrados em um vídeo e erros na ordem em que esses passos são apresentados. Para o primeiro tipo, trocamos um passo em um vídeo por um passo de uma tarefa similar. Para o segundo, embaralhamos a ordem dos passos para ver se o modelo conseguia detectar que a sequência estava errada. Nossos resultados mostraram que o novo modelo conseguiu encontrar ambos os tipos de erros e teve um desempenho melhor que métodos antigos.

Testamos o VideoTaskformer em benchmarks existentes, incluindo classificação de passos, reconhecimento de atividades processuais e previsão de passos. Os resultados confirmaram que nosso método supera abordagens anteriores em todos os benchmarks.

Métodos antigos costumavam focar em aprender passos individuais sem considerar o fluxo geral da tarefa, o que significa que perderam detalhes importantes sobre como os passos funcionam juntos. Em contraste, o VideoTaskformer aprende os significados dos passos por meio de todo o contexto do vídeo.

Aprendendo Representações de Passos através de Modelagem Mascarada

O objetivo é aprender representações significativas para passos mostrados em vídeos instrucionais. Para conseguir isso, desenvolvemos o VideoTaskformer, um modelo de vídeo especificamente treinado para aprender representações de passos mascarando certos passos.

O processo de treinamento tem duas partes principais: primeiro, pré-treinamos o modelo usando um conjunto de dados com rótulos fracos e, em seguida, ajustamos ele com dados rotulados para tarefas específicas.

Durante a fase de pré-treinamento, o VideoTaskformer analisa vídeos e aprende a fazer previsões sobre os passos ausentes com base nos visíveis. Na fase de ajuste, ajustamos o modelo pré-treinado usando dados rotulados para cada tarefa específica. Cada tarefa tem um modelo ajustado dedicado.

Vamos resumir os passos do pré-treinamento. Um vídeo instrucional é dividido em clipes que representam passos individuais. Um passo é uma série de quadros de vídeo mostrando uma parte específica da tarefa. Por exemplo, em "Fazendo Torrada Francesa", os passos incluiriam coisas como "Bater a massa" ou "Mergulhar o pão na massa."

Nosso modelo aprende a partir de uma versão mascarada do vídeo, que consiste em vários clipes. Nós mascaramos certos clipes aleatoriamente e treinamos o modelo para prever os rótulos dos passos ausentes com base nos clipes visíveis restantes. O objetivo é produzir representações de passos que capturem os significados e a ordem dos passos.

Agora, vamos olhar para os dois objetivos que usamos para o treinamento: classificação de passos e correspondência de distribuição. O primeiro objetivo envolve prever o melhor rótulo de passo possível para um clipe ausente. O segundo objetivo foca em igualar a previsão do modelo à distribuição real de possíveis rótulos de passos, com base em dados fracamente supervisionados.

Medimos o desempenho do modelo em várias tarefas secundárias, incluindo os novos benchmarks que criamos. Esses benchmarks validam nossa abordagem para aprender representações de passos.

Testando o VideoTaskformer em Novos Benchmarks

Para determinar se o VideoTaskformer captura efetivamente a estrutura e o significado das tarefas, testamos ele em seis tarefas diferentes, incluindo os três novos benchmarks que criamos para detectar erros, e três benchmarks estabelecidos para classificação de passos, reconhecimento de atividades processuais e previsão.

Detecção de Erros: Isso avalia quão precisamente o modelo pode identificar erros nos passos fornecidos. Criamos duas tarefas: uma para encontrar qual passo em um vídeo está incorreto, e outra para checar se os passos estão na ordem certa.

Detecção de Passo Errado: Para essa tarefa, usamos um vídeo com vários passos, onde um passo de outro vídeo substitui um dos passos genuínos. O trabalho do modelo é prever qual passo foi substituído.

Detecção de Ordem Incorreta: Nessa tarefa, checamos se os passos em um vídeo estão na ordem correta. Metade dos vídeos é apresentada na ordem enquanto os outros estão embaralhados. O modelo deve identificar se a ordem está correta ou misturada.

Previsão de Passos: Esse aspecto foca em prever passos futuros. A tarefa de previsão de curto prazo envolve prever o próximo passo com base nos passos anteriores, enquanto a tarefa de previsão de longo prazo desafia o modelo a prever vários passos à frente com base apenas em um passo atual.

Reconhecimento de Atividades Processuais: Essa tarefa atribui um rótulo à atividade geral que está sendo realizada em um vídeo com base em todos os passos visíveis naquele vídeo.

Classificação de Passos: O modelo prevê o rótulo do passo a partir de um único clipe sem contexto dos clipes ao redor. Isso desafia o modelo a identificar passos individuais com precisão.

Para todas as tarefas, usamos dados rotulados para treinar o modelo e medimos consistentemente o quão bem o VideoTaskformer se saiu.

Dados Utilizados para Treinamento

Coletar rótulos de passos para treinar o modelo VideoTaskformer é difícil porque muitos vídeos não têm anotações organizadas. Para superar isso, obtivemos supervisão fraca usando transcrições da fala do vídeo, mapeando-a para os passos encontrados em um conjunto de dados existente com instruções detalhadas.

O conjunto de dados WikiHow fornece uma ampla gama de artigos com instruções claras passo a passo para várias tarefas. Usamos esses artigos para guiar o processo de treinamento do modelo. As transcrições de vídeo ajudam a alinhar as frases faladas aos passos corretos. Cada segmento de vídeo está vinculado a uma frase, o que ajuda a determinar a ação apropriada.

Comparando as transcrições com os passos nos artigos do WikiHow, criamos um sistema para combinar frases de fala com passos de tarefa. Essa supervisão fraca possibilita um treinamento eficaz do modelo, apesar da disponibilidade limitada de dados de vídeo anotados.

Ajuste Fino e Avaliação de Desempenho

Uma vez que treinamos o modelo inicial, fazemos um ajuste fino para várias tarefas. Para tarefas como detecção de passos errados, detecção de ordem errada, previsão de passos a longo e curto prazo, e reconhecimento de atividades processuais, usamos segmentos de vídeo como entrada.

No processo de ajuste fino para a tarefa de classificação de passos, modificamos a camada de saída linear enquanto mantemos as outras camadas do modelo fixas, o que ajuda a melhorar o desempenho no reconhecimento de passos específicos. O modelo é ajustado usando uma taxa de aprendizado consistente e é treinado por várias épocas.

Medir o desempenho do modelo em todas as tarefas fornece uma visão de quão bem ele aprendeu a entender tanto os passos individuais quanto suas relações com tarefas ao redor. Relatamos taxas de precisão para vários modelos e as comparamos com métodos anteriores para mostrar as melhorias que nossa abordagem oferece.

Resultados e Comparação com Outros Modelos

Comparamos os resultados do VideoTaskformer com vários modelos de referência em todas as tarefas. Na tarefa de classificação de passos, nosso modelo obteve uma leve melhoria em relação a abordagens existentes de ponta.

No reconhecimento de atividades processuais, nosso método teve um desempenho levemente melhor que modelos anteriores. Para a tarefa de previsão de curto prazo, notamos uma considerável melhoria, mostrando que a compreensão contextual do modelo sobre a estrutura da tarefa leva a previsões melhores.

Na tarefa de previsão a longo prazo, que é mais desafiadora, nosso modelo demonstrou um ganho significativo em comparação com métodos antigos, confirmando que ele consegue aprender padrões e prever passos futuros com precisão. Nossa avaliação das tarefas de detecção de erros se mostrou particularmente forte, com uma precisão melhorada tanto na detecção de passos errados quanto na de ordem errada.

Esses resultados estabelecem que o VideoTaskformer não só se destaca em tarefas individuais, mas também compreende a estrutura geral da tarefa e pode prever ações futuras com base nas representações aprendidas.

Avaliação Qualitativa do VideoTaskformer

Para ilustrar melhor as capacidades do modelo, realizamos avaliações qualitativas examinando previsões específicas feitas pelo VideoTaskformer em contraste com modelos de referência. Essas comparações revelam como a compreensão contextual do modelo leva a previsões precisas.

Por exemplo, na detecção de passos errados, nosso modelo identificou efetivamente qual passo estava incorreto em vários exemplos de vídeo, enquanto os métodos de referência tiveram dificuldades para identificar os erros com precisão. A habilidade de reconhecer passos incorretos indica uma compreensão profunda da estrutura da tarefa.

Na detecção de ordem errada, o VideoTaskformer identificou corretamente quando a ordem dos passos estava incorreta, enquanto outros modelos erraram na ordem. Isso destaca a consciência do modelo sobre a sequência de ações necessárias para completar uma tarefa corretamente.

Ao prever passos futuros, nosso modelo previu consistentemente os próximos passos lógicos, enquanto outras abordagens frequentemente faziam palpites infundados ou deixavam de fora ações chave. As comparações demonstram que o VideoTaskformer supera métodos existentes em várias dimensões.

Conclusão

Nesse trabalho, introduzimos o VideoTaskformer, um modelo de vídeo que aprende a entender e representar passos em vídeos instrucionais usando uma abordagem de modelagem mascarada. Esse método permite que o modelo aprenda representações contextuais dos passos enquanto mantém a consciência da estrutura geral da tarefa.

Estabelecemos três novos benchmarks para avaliar quão efetivamente o modelo identifica erros e prevê passos futuros, demonstrando que o modelo pode superar significativamente métodos anteriores em várias tarefas.

Por meio de testes minuciosos e avaliações qualitativas, validamos que o VideoTaskformer é capaz de aprender com vídeos instrucionais de uma maneira que pode ajudar os usuários a realizar tarefas de forma mais eficaz. As aplicações potenciais para esse modelo são vastas, oferecendo oportunidades para aprender uma variedade de tarefas complexas apenas observando conteúdo instrucional.

Agradecimentos

Agradecemos o apoio de vários colaboradores que auxiliaram nos experimentos e no processo de escrita desta pesquisa. O trabalho foi sustentado por vários programas que forneceram financiamento e recursos.

Materiais Suplementares

Nesta seção, incluímos detalhes adicionais sobre a implementação do modelo, comparações qualitativas e mais resultados sobre todas as seis tarefas. Fornecemos insights sobre como o modelo foi ajustado e os conjuntos de dados específicos utilizados na avaliação de seu desempenho em vários desafios, enfatizando a minuciosidade de nossa abordagem e a robustez das capacidades do VideoTaskformer.

Fonte original

Título: Learning and Verification of Task Structure in Instructional Videos

Resumo: Given the enormous number of instructional videos available online, learning a diverse array of multi-step task models from videos is an appealing goal. We introduce a new pre-trained video model, VideoTaskformer, focused on representing the semantics and structure of instructional videos. We pre-train VideoTaskformer using a simple and effective objective: predicting weakly supervised textual labels for steps that are randomly masked out from an instructional video (masked step modeling). Compared to prior work which learns step representations locally, our approach involves learning them globally, leveraging video of the entire surrounding task as context. From these learned representations, we can verify if an unseen video correctly executes a given task, as well as forecast which steps are likely to be taken after a given step. We introduce two new benchmarks for detecting mistakes in instructional videos, to verify if there is an anomalous step and if steps are executed in the right order. We also introduce a long-term forecasting benchmark, where the goal is to predict long-range future steps from a given step. Our method outperforms previous baselines on these tasks, and we believe the tasks will be a valuable way for the community to measure the quality of step representations. Additionally, we evaluate VideoTaskformer on 3 existing benchmarks -- procedural activity recognition, step classification, and step forecasting -- and demonstrate on each that our method outperforms existing baselines and achieves new state-of-the-art performance.

Autores: Medhini Narasimhan, Licheng Yu, Sean Bell, Ning Zhang, Trevor Darrell

Última atualização: 2023-03-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.13519

Fonte PDF: https://arxiv.org/pdf/2303.13519

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes