Modèles avancés pour la génération de descriptions vidéo
De nouveaux modèles produisent des descriptions vidéo de haute qualité efficacement.
― 6 min lire
Table des matières
Créer des descriptions détaillées pour des vidéos, c’est un vrai casse-tête pour comprendre le contenu vidéo. Ce boulot présente un ensemble de gros modèles vidéo-langue qui visent à générer des descriptions de qualité pour les vidéos. Ces modèles utilisent une méthode pour traiter les images vidéo une par une, puis appliquent un modèle de langage pour comprendre la séquence des événements dans le temps. Cette approche montre une capacité remarquable à décrire les vidéos de manière plus efficace que d'autres modèles existants.
Les Modèles
Les modèles introduits ici utilisent une méthode d'entraînement en deux parties. La première partie se concentre sur l’entraînement du modèle pour comprendre le contenu vidéo sous divers angles, tandis que la deuxième partie peaufine cet entraînement pour produire des descriptions détaillées. Les résultats montrent que ces modèles surpassent tous les autres modèles open-source et sont compétitifs avec les meilleurs modèles propriétaires. Ils génèrent non seulement de meilleures descriptions vidéo, mais ils excellent aussi dans diverses autres tâches liées à la compréhension vidéo.
Défis de Description Vidéo
Générer des descriptions vidéo détaillées nécessite que les modèles couvrent tous les événements importants d'une vidéo sans ajouter de détails incorrects. La tâche devient encore plus difficile avec des vidéos contenant des mouvements rapides ou plusieurs actions. Évaluer la qualité des descriptions générées est aussi compliqué, car il existe de nombreuses façons correctes de décrire une vidéo.
Procédure d'Entraînement
Notre processus d'entraînement se compose de deux étapes :
Pré-entraînement Multi-tâches Vidéo-à-Texte : Cette étape utilise plusieurs tâches, comme la légende vidéo et la réponse à des questions, pour entraîner le modèle. Nous avons utilisé des ensembles de données de haute qualité pour garantir que le modèle apprend à partir des meilleurs exemples.
Affinage des Instructions : Cette étape ajuste le modèle en utilisant des tâches spécialement conçues pour améliorer sa capacité à créer des descriptions vidéo détaillées.
Les modèles entraînés avec cette approche ont montré une amélioration marquée de la performance, atteignant des résultats impressionnants dans plusieurs benchmarks.
Benchmark de Description Vidéo
Pour évaluer correctement les modèles de description vidéo, nous avons créé un nouveau benchmark qui consiste en un ensemble de données diversifié de clips vidéo. Cet ensemble contient des extraits de films en prises de vue réelles, d’animations, de vidéos libres de droits et de réseaux sociaux. Chaque clip inclut plusieurs événements qui ne peuvent pas être décrits avec précision en examinant une seule image. Ce nouveau benchmark met au défi les modèles de générer des descriptions détaillées et précises qui capturent toutes les actions vitales se produisant dans les clips.
Méthode d'Évaluation Automatique
Nous avons développé une méthode pour automatiser l'évaluation des descriptions vidéo. Les méthodes traditionnelles avaient du mal à évaluer la qualité de descriptions plus longues avec précision. Notre nouvelle méthode implique deux étapes principales : extraire des événements importants des descriptions et vérifier combien d'événements dans une description peuvent être confirmés par l'autre. Cela fournit une manière plus claire et structurée d'évaluer la qualité des descriptions.
Résultats
Les modèles ont surperformé tous les modèles open-source dans les évaluations automatiques, atteignant des scores de précision et de rappel plus élevés. Dans les évaluations humaines, des experts ont préféré les descriptions de notre modèle à celles de modèles concurrents, soulignant son efficacité à capturer précisément des événements dynamiques sans détails inutiles.
Réponse à des Questions Vidéo à Choix Multiples
Lorsqu'ils ont été testés dans un cadre où le modèle doit répondre à des questions basées sur le contenu vidéo, notre modèle a établi de nouveaux résultats à la pointe de la technologie dans des benchmarks standard. La performance s'est améliorée à mesure que la taille du modèle augmentait, démontrant que des modèles plus grands peuvent mieux soutenir les tâches de compréhension.
Réponse à des Questions Vidéo Ouvertes
Le modèle a également été évalué sur des tâches nécessitant des réponses libres à des questions concernant les vidéos. Ici, il a encore montré une forte performance, surpassant de nombreux modèles existants et fournissant des réponses détaillées basées sur le contenu vidéo.
Légende Vidéo en Zero-shot
Lorsqu'ils ont été testés sur la génération de légendes sans exposition préalable aux données d'entraînement, les modèles ont établi de nouveaux records dans divers benchmarks de légende, montrant leur capacité de généralisation.
Études d'Ablation
Pour mieux comprendre ce qui contribue au succès du modèle, nous avons effectué plusieurs tests en changeant des parties du processus d'entraînement. En retirant certains éléments, la performance a diminué, ce qui suggère que notre pré-entraînement approfondi et notre réglage minutieux jouent des rôles cruciaux dans l’efficacité du modèle.
Conclusion
En conclusion, les modèles présentés ici surpassent les modèles de description vidéo existants dans divers tests. Leurs méthodes d'entraînement et le nouveau benchmark d'évaluation améliorent considérablement leur capacité à comprendre et à décrire avec précision des contenus vidéo complexes. En regardant vers l'avenir, il y a des opportunités pour améliorer encore ces modèles en augmentant les données d'entraînement et en affinant leur capacité à suivre des instructions complexes.
Directions Futures
Les futurs travaux pourraient impliquer d'élargir encore plus les ensembles de données d'entraînement. Cela pourrait inclure l'intégration de nouvelles paires vidéo-texte acquises à partir de sources en ligne. De plus, améliorer la performance de l'encodeur visuel en parallèle du modèle de langage pourrait mener à de meilleurs résultats. Enfin, les processus de réglage pourraient être raffinés pour rendre les modèles plus réactifs aux instructions complexes, améliorant ainsi leur utilité globale dans les tâches de compréhension vidéo.
Titre: Tarsier: Recipes for Training and Evaluating Large Video Description Models
Résumé: Generating fine-grained video descriptions is a fundamental challenge in video understanding. In this work, we introduce Tarsier, a family of large-scale video-language models designed to generate high-quality video descriptions. Tarsier employs CLIP-ViT to encode frames separately and then uses an LLM to model temporal relationships. Despite its simple architecture, we demonstrate that with a meticulously designed two-stage training procedure, the Tarsier models exhibit substantially stronger video description capabilities than any existing open-source model, showing a $+51.4\%$ advantage in human side-by-side evaluation over the strongest model. Additionally, they are comparable to state-of-the-art proprietary models, with a $+12.3\%$ advantage against GPT-4V and a $-6.7\%$ disadvantage against Gemini 1.5 Pro. When upgraded to Tarsier2 by building upon SigLIP and Qwen2-7B, it further improves significantly with a $+4.8\%$ advantage against GPT-4o. Besides video description, Tarsier proves to be a versatile generalist model, achieving new state-of-the-art results across nine public benchmarks, including multi-choice VQA, open-ended VQA, and zero-shot video captioning. Our second contribution is the introduction of a new benchmark -- DREAM-1K (https://tarsier-vlm.github.io/) for evaluating video description models, consisting of a new challenging dataset featuring videos from diverse sources and varying complexity, along with an automatic method specifically designed to assess the quality of fine-grained video descriptions. We make our models and evaluation benchmark publicly available at https://github.com/bytedance/tarsier.
Auteurs: Jiawei Wang, Liping Yuan, Yuchen Zhang, Haomiao Sun
Dernière mise à jour: 2024-09-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.00634
Source PDF: https://arxiv.org/pdf/2407.00634
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/bytedance/tarsier
- https://huggingface.co/Vision-CAIR/MiniGPT4-Video/resolve/main/checkpoints/video_mistral_checkpoint_last.pth?download=true
- https://huggingface.co/OpenGVLab/VideoChat2_stage3_Mistral_7B/resolve/main/videochat2_mistral_7b_stage3.pth?download=true
- https://huggingface.co/lmms-lab/LLaVA-NeXT-Video-34B-DPO