Modelos Avançados para Geração de Descrições de Vídeo
Novos modelos produzem descrições de vídeo de alta qualidade de forma eficiente.
― 5 min ler
Índice
- Os Modelos
- Desafios na Descrição de Vídeos
- Procedimento de Treinamento
- Benchmark de Descrição de Vídeo
- Método de Avaliação Automática
- Resultados
- Responder Perguntas sobre Vídeos com Múltipla Escolha
- Responder Perguntas Abertas sobre Vídeos
- Legenda de Vídeo Zero-shot
- Estudos de Ablação
- Conclusão
- Direções Futuras
- Fonte original
- Ligações de referência
Criar descrições detalhadas para vídeos é um baita desafio pra entender o conteúdo dos vídeos. Esse trabalho apresenta um conjunto de modelos grandes de vídeo-linguagem com o objetivo de gerar descrições de alta qualidade para vídeos. Esses modelos usam um método pra processar os quadros dos vídeos individualmente e depois aplicam um modelo de linguagem pra entender a sequência de eventos ao longo do tempo. Essa abordagem mostra uma habilidade incrível em descrever vídeos de forma mais eficaz do que outros modelos existentes.
Os Modelos
Os modelos apresentados aqui usam um método de treinamento em duas partes. A primeira parte foca em treinar o modelo pra entender o conteúdo do vídeo de vários ângulos, enquanto a segunda parte ajusta esse treinamento pra produzir descrições detalhadas. Os resultados mostram que esses modelos superam todos os outros modelos de código aberto e são competitivos com os melhores modelos proprietários. Eles não só geram descrições de vídeo melhores, mas também se saem bem em várias outras tarefas relacionadas à compreensão de vídeo.
Desafios na Descrição de Vídeos
Gerar descrições detalhadas de vídeos exige que os modelos cubram todos os eventos importantes sem adicionar detalhes incorretos. A tarefa fica mais complicada com vídeos que têm movimentos rápidos ou várias ações. Avaliar a qualidade das descrições geradas também é complicado, já que pode haver muitas maneiras corretas de descrever um vídeo.
Procedimento de Treinamento
Nosso processo de treinamento consiste em duas etapas:
Pré-treinamento Multi-tarefa Vídeo-para-Tex: Essa etapa usa várias tarefas, como legendagem de vídeo e resposta a perguntas, para treinar o modelo. Usamos conjuntos de dados de alta qualidade pra garantir que o modelo aprenda com os melhores exemplos.
Ajuste por Instrução: Essa etapa refina o modelo usando tarefas especificamente projetadas pra melhorar sua capacidade de criar descrições detalhadas de vídeos.
Os modelos treinados com essa abordagem mostraram uma melhoria significativa no desempenho, alcançando resultados impressionantes em vários benchmarks.
Benchmark de Descrição de Vídeo
Pra avaliar corretamente os modelos de descrição de vídeo, criamos um novo benchmark que consiste em um conjunto diversificado de clipes de vídeo. Esse conjunto contém clipes de filmes live-action, animações, vídeos de banco de imagens e redes sociais. Cada clipe inclui vários eventos que não podem ser descritos com precisão analisando um único quadro. Esse novo benchmark desafia os modelos a gerar descrições detalhadas e precisas que capturem todas as ações vitais ocorrendo nos clipes.
Método de Avaliação Automática
Desenvolvemos um método pra automatizar a avaliação das descrições de vídeo. Métodos tradicionais tinham dificuldade em avaliar com precisão a qualidade de descrições mais longas. Nosso novo método envolve dois passos principais: extrair eventos importantes das descrições e checar quantos eventos em uma descrição podem ser confirmados pela outra. Isso fornece uma maneira mais clara e estruturada de avaliar a qualidade das descrições.
Resultados
Os modelos superaram todos os modelos de código aberto nas avaliações automáticas, alcançando pontuações de precisão e recall mais altas. Nas avaliações humanas, revisores especialistas preferiram as descrições do nosso modelo em relação às de modelos concorrentes, destacando sua eficácia em capturar com precisão eventos dinâmicos sem detalhes desnecessários.
Responder Perguntas sobre Vídeos com Múltipla Escolha
Quando testado em um cenário onde o modelo precisa responder perguntas baseadas no conteúdo do vídeo, nosso modelo estabeleceu novos resultados de ponta em benchmarks padrão. O desempenho melhorou à medida que o tamanho do modelo aumentou, mostrando que modelos maiores conseguem apoiar melhor as tarefas de compreensão.
Responder Perguntas Abertas sobre Vídeos
O modelo também foi avaliado em tarefas que exigiam respostas livres a perguntas sobre vídeos. Aqui, ele novamente mostrou um desempenho forte, superando muitos modelos existentes e fornecendo respostas detalhadas baseadas no conteúdo do vídeo.
Legenda de Vídeo Zero-shot
Quando testado na geração de legendas sem exposição prévia aos dados de treinamento, os modelos estabeleceram novos recordes em vários benchmarks de legendas, mostrando sua capacidade de generalização.
Estudos de Ablação
Pra entender melhor o que contribui pro sucesso do modelo, realizamos vários testes mudando partes do processo de treinamento. Remover certos elementos levou a um desempenho inferior, sugerindo que nosso pré-treinamento extenso e ajuste cuidadoso desempenham papéis cruciais na eficácia do modelo.
Conclusão
Em conclusão, os modelos apresentados aqui superam os modelos de descrição de vídeo existentes em vários testes. Os métodos de treinamento e o novo benchmark pra avaliação melhoram muito a capacidade deles de entender e descrever com precisão conteúdo de vídeo complexo. Olhando pra frente, há oportunidades de melhorar ainda mais esses modelos ampliando os dados de treinamento e refinando sua capacidade de seguir instruções complicadas.
Direções Futuras
Trabalhos futuros poderiam envolver a expansão ainda mais dos conjuntos de dados de treinamento. Isso poderia incluir a integração de novos pares de vídeo-texto adquiridos de fontes online. Além disso, melhorar o desempenho do codificador visual junto com o modelo de linguagem pode levar a resultados melhores. Por fim, os processos de ajuste poderiam ser refinados pra tornar os modelos mais responsivos a instruções complexas, aumentando ainda mais sua utilidade geral em tarefas de compreensão de vídeo.
Título: Tarsier: Recipes for Training and Evaluating Large Video Description Models
Resumo: Generating fine-grained video descriptions is a fundamental challenge in video understanding. In this work, we introduce Tarsier, a family of large-scale video-language models designed to generate high-quality video descriptions. Tarsier employs CLIP-ViT to encode frames separately and then uses an LLM to model temporal relationships. Despite its simple architecture, we demonstrate that with a meticulously designed two-stage training procedure, the Tarsier models exhibit substantially stronger video description capabilities than any existing open-source model, showing a $+51.4\%$ advantage in human side-by-side evaluation over the strongest model. Additionally, they are comparable to state-of-the-art proprietary models, with a $+12.3\%$ advantage against GPT-4V and a $-6.7\%$ disadvantage against Gemini 1.5 Pro. When upgraded to Tarsier2 by building upon SigLIP and Qwen2-7B, it further improves significantly with a $+4.8\%$ advantage against GPT-4o. Besides video description, Tarsier proves to be a versatile generalist model, achieving new state-of-the-art results across nine public benchmarks, including multi-choice VQA, open-ended VQA, and zero-shot video captioning. Our second contribution is the introduction of a new benchmark -- DREAM-1K (https://tarsier-vlm.github.io/) for evaluating video description models, consisting of a new challenging dataset featuring videos from diverse sources and varying complexity, along with an automatic method specifically designed to assess the quality of fine-grained video descriptions. We make our models and evaluation benchmark publicly available at https://github.com/bytedance/tarsier.
Autores: Jiawei Wang, Liping Yuan, Yuchen Zhang, Haomiao Sun
Última atualização: 2024-09-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.00634
Fonte PDF: https://arxiv.org/pdf/2407.00634
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/bytedance/tarsier
- https://huggingface.co/Vision-CAIR/MiniGPT4-Video/resolve/main/checkpoints/video_mistral_checkpoint_last.pth?download=true
- https://huggingface.co/OpenGVLab/VideoChat2_stage3_Mistral_7B/resolve/main/videochat2_mistral_7b_stage3.pth?download=true
- https://huggingface.co/lmms-lab/LLaVA-NeXT-Video-34B-DPO