Melhorando a Análise de Vídeo para Interações Sociais
Um novo método melhora a análise das interações sociais em vídeos egocêntricos.
― 6 min ler
Índice
- O Desafio
- Abordagem de Dois Modelos
- Filtrando Dados de Entrada
- Modelo Inicial
- Falta de Etiquetas de Caixa Delimitadora
- Modelos Separados para Áudio e Vídeo
- Processamento de Áudio Aprimorado
- Foco na Qualidade Visual
- Fusão Consciente da Qualidade
- Configuração Experimental
- Resultados
- Comparação com Modelos Anteriores
- Técnicas de Aumento de Dados
- Importância das Pontuações de Qualidade
- Pós-Processamento de Média Móvel
- Lacunas de Desempenho
- Conclusão
- Fonte original
- Ligações de referência
Nos últimos anos, entender interações sociais em Vídeos virou algo super importante, especialmente para assistentes virtuais e robôs. Esse artigo fala sobre uma nova maneira de analisar vídeos onde as pessoas estão conversando, focando em como juntar informações de Áudio e visual de forma eficaz.
O Desafio
A tarefa envolve identificar interações sociais em vídeos gravados da perspectiva de uma pessoa, conhecidos como vídeos egocêntricos. Por exemplo, dado um clipe de vídeo, o objetivo é descobrir se alguém no vídeo tá falando com a pessoa que tá usando a câmera. Os dados para essa tarefa vêm de um grande conjunto de dados que inclui vários vídeos e clipes de áudio. O desafio tá em processar essa informação com precisão, mesmo quando algumas etiquetas estão faltando.
Abordagem de Dois Modelos
Pra lidar com essa tarefa, decidimos usar dois modelos separados: um pra processar os quadros do vídeo e outro pra lidar com o áudio. Assim, conseguimos aproveitar ao máximo os dados de treinamento disponíveis, mesmo as partes que não têm etiquetas específicas pros elementos visuais. Analisando vídeo e áudio separadamente, evitamos problemas potenciais que surgem quando juntamos tudo muito cedo no processo.
Filtrando Dados de Entrada
Um elemento crucial da nossa abordagem é a Qualidade dos dados de entrada. Pra filtrar entradas visuais de baixa qualidade, usamos uma pontuação derivada de um modelo que prevê marcos faciais. Essa pontuação ajuda a avaliar quão claros e utilizáveis os quadros de vídeo são pra treinamento. Focando em imagens de maior qualidade, conseguimos melhorar o desempenho geral do nosso modelo.
Modelo Inicial
Nossa primeira tentativa envolveu uma abordagem chamada AV-joint, onde combinamos as características de áudio e vídeo logo depois de extraí-las. Esse modelo usou redes poderosas pra analisar os dois tipos de dados. No entanto, não teve um desempenho melhor que o modelo básico que estávamos testando. Isso nos levou a investigar mais a fundo por que combinar os dados muito cedo tava causando problemas.
Falta de Etiquetas de Caixa Delimitadora
Descobrimos que uma quantidade significativa de dados de treinamento não tinha etiquetas de caixa delimitadora, que são essenciais pra identificar onde as pessoas estão no quadro. Essa ausência complicou nosso método inicial, já que ele dependia de ter informações completas. Embora tentássemos preencher as lacunas com zeros, essa abordagem não trouxe os melhores resultados.
Modelos Separados para Áudio e Vídeo
Enquanto continuamos a experimentar, percebemos que focar exclusivamente no áudio trouxe resultados melhores que nosso modelo combinado. Essa realização nos levou a processar as informações de áudio e vídeo separadamente. Tratando os dados de áudio de forma independente e utilizando plenamente as etiquetas disponíveis, conseguimos melhorar nosso desempenho.
Processamento de Áudio Aprimorado
Para o modelo de áudio, usamos um sistema forte de reconhecimento de fala. Essa abordagem aproveitou a linguagem falada pra coletar informações importantes. O modelo de áudio processa clipes transformando-os em uma representação visual chamada espectrograma Mel. Isso permite que o modelo capture as características essenciais do som pra análise.
Foco na Qualidade Visual
Do lado visual, a qualidade dos quadros de vídeo é essencial. O modelo de marcos faciais avalia quão provável é ver um rosto em um determinado quadro. A gente faz uma média dessas pontuações em vários quadros pra determinar se os dados são adequados pra treinamento. Se a pontuação de qualidade cair abaixo de um certo ponto, descartamos esses dados pra garantir maior qualidade no nosso conjunto de treinamento.
Fusão Consciente da Qualidade
Pra combinar os resultados dos modelos de áudio e vídeo de forma eficaz, introduzimos um módulo de fusão. Essa parte do modelo considera a qualidade dos dados visuais ao mesclar previsões de ambas as ramificações. Aplicando um sistema ponderado baseado nas pontuações de qualidade, conseguimos tomar decisões mais informadas com nossas previsões finais.
Configuração Experimental
Testamos nossas diferentes configurações de modelo em dados de validação e teste pra determinar quais configurações trouxeram o melhor desempenho. Os resultados destacaram os benefícios de separar o processamento de áudio e visual e usar filtragem de qualidade de forma eficaz.
Resultados
Nosso modelo final, QuAVF, mostrou um desempenho forte tanto em conjuntos de dados de validação quanto de teste. A separação das características de áudio e vídeo provou ser benéfica, já que permitiu que cada modelo se especializasse em sua área sem impactar negativamente o outro. A fusão consciente da qualidade trouxe um impulso significativo aos resultados finais.
Comparação com Modelos Anteriores
Ao comparar nosso método com abordagens anteriores, notamos que nosso modelo QuAVF superou métodos anteriores em precisão e métricas de desempenho. Essa melhoria indica que as estratégias de filtragem de qualidade e processamento independente são formas eficazes de melhorar os resultados nesse campo.
Técnicas de Aumento de Dados
Pra ramificação de áudio, experimentamos várias técnicas pra melhorar a diversidade dos dados. Uma dessas técnicas envolveu adicionar ruído ao áudio, mas não melhorou significativamente o desempenho. Em vez disso, descobrimos que recortar aleatoriamente os clipes de áudio consistentemente melhorou os resultados em diferentes configurações.
Importância das Pontuações de Qualidade
As pontuações de qualidade facial foram particularmente valiosas na filtragem dos dados visuais. Ao quantizar essas pontuações e incorporá-las como características no nosso modelo, vimos ganhos significativos no desempenho. Isso mostra como dados de boa qualidade são cruciais pra treinar modelos eficazes.
Pós-Processamento de Média Móvel
Em nossos experimentos, também usamos uma técnica chamada pós-processamento de média móvel. Esse método ajuda a suavizar as previsões ao fazer a média de vários resultados ao longo de um tamanho de janela definido. Essa etapa trouxe uma melhoria consistente aos nossos resultados.
Lacunas de Desempenho
Apesar de alcançarmos um alto desempenho nos dados de validação, notamos discrepâncias quando testados em dados não vistos. Essa lacuna sugere que, embora nosso modelo funcione bem em dados conhecidos, ele pode não generalizar perfeitamente em diferentes contextos. Trabalhos futuros serão necessários pra identificar e resolver esses desafios.
Conclusão
Nossa abordagem pra identificar interações sociais em vídeos utiliza um modelo separado pra dados de áudio e vídeo, focando na qualidade de cada entrada. Esse método demonstrou resultados eficazes na análise de vídeos egocêntricos, mostrando potencial pra aplicações em assistentes virtuais e robôs sociais. As técnicas que desenvolvemos, particularmente a fusão consciente da qualidade, têm potencial pra novas melhorias nessa área de pesquisa. À medida que a tecnologia continua a evoluir, refinar esses métodos será crucial pra avançar a forma como entendemos e analisamos interações sociais através de vídeo.
Título: QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge
Resumo: This technical report describes our QuAVF@NTU-NVIDIA submission to the Ego4D Talking to Me (TTM) Challenge 2023. Based on the observation from the TTM task and the provided dataset, we propose to use two separate models to process the input videos and audio. By doing so, we can utilize all the labeled training data, including those without bounding box labels. Furthermore, we leverage the face quality score from a facial landmark prediction model for filtering noisy face input data. The face quality score is also employed in our proposed quality-aware fusion for integrating the results from two branches. With the simple architecture design, our model achieves 67.4% mean average precision (mAP) on the test set, which ranks first on the leaderboard and outperforms the baseline method by a large margin. Code is available at: https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23
Autores: Hsi-Che Lin, Chien-Yi Wang, Min-Hung Chen, Szu-Wei Fu, Yu-Chiang Frank Wang
Última atualização: 2023-06-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.17404
Fonte PDF: https://arxiv.org/pdf/2306.17404
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.