Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Calcul et langage# Apprentissage automatique

Nouveau benchmark améliore la compréhension vidéo-langue

Un nouveau repère améliore la compréhension des modèles sur les longues vidéos et le langage.

― 7 min lire


Nouveau benchmark vidéoNouveau benchmark vidéorévélédu contenu vidéo étendu.Évaluer la performance des modèles sur
Table des matières

Ces dernières années, la combinaison de la vidéo et de la compréhension du langage a attiré beaucoup d'attention dans le domaine de l'intelligence artificielle. Avec l'augmentation du nombre de Vidéos qu'on crée et qu'on partage en ligne, la capacité à traiter et répondre aux infos qu'elles contiennent est devenue de plus en plus essentielle. Ça a entraîné le besoin de références qui peuvent évaluer à quel point les modèles comprennent les longues vidéos et le langage qui va avec.

Le Défi des Longues Vidéos

Les vidéos varient en longueur, et comprendre des vidéos longues pose des défis uniques. La plupart des modèles existants se concentrent sur des clips courts, rendant difficile l'évaluation de la Performance sur des contenus plus longs. Quand une vidéo dure une heure ou plus, récupérer des détails spécifiques et raisonner à leur sujet peut être compliqué. Dans ces longues vidéos, le modèle doit identifier des moments clés, comprendre les relations entre les scènes et répondre aux Questions de manière efficace.

Introduction d'une Nouvelle Référence

Pour relever ces défis, un nouveau système de référence a été créé. Ce système inclut une collection de vidéos allant jusqu'à une heure de longueur, accompagnées de sous-titres. La référence est conçue pour évaluer la performance des modèles face à des vidéos longues et à des questions complexes. L'objectif est de créer un système d'évaluation complet qui reflète les tâches réelles de compréhension vidéo.

Caractéristiques Clés de la Référence

Cette référence inclut des milliers de vidéos collectées sur le web dans divers thèmes. Les vidéos sont accompagnées de sous-titres, qui sont cruciaux pour aider les modèles à comprendre le contenu. La référence est divisée en plusieurs groupes de durée, garantissant une large représentation des longueurs de vidéos.

La Tâche de Raisonnement Référent

Au cœur de cette référence se trouve une nouvelle tâche appelée raisonnement référent. Cette tâche est conçue pour défier les modèles à réfléchir sur des parties spécifiques de la vidéo lorsqu'ils répondent à des questions. Chaque question contient une requête référente qui pointe vers des moments particuliers dans la vidéo, connus sous le nom de contexte référé. Le modèle doit extraire des informations pertinentes de ce contexte pour fournir des réponses précises.

Structure des Questions de Raisonnement Référent

Les questions de raisonnement référent sont structurées d'une manière qui facilite l'évaluation des différents aspects de la compréhension d'un modèle. Les questions sont divisées en deux niveaux :

  1. Niveau de Perception (L1) - Ces questions se concentrent sur des moments individuels dans la vidéo. Elles demandent au modèle d'identifier des éléments visuels spécifiques, comme des objets ou des actions, dans une scène donnée.

  2. Niveau de Relation (L2) - Ces questions nécessitent que les modèles analysent plusieurs moments de la vidéo. Ici, le modèle doit comprendre l'ordre des événements ou les relations entre différentes scènes.

Catégories de Questions Diverses

Pour améliorer encore l'évaluation, les questions sont catégorisées en 17 types détaillés. Chaque type aborde différents aspects de la compréhension vidéo, garantissant que les modèles sont testés sur une variété de tâches. Par exemple, certaines questions peuvent porter sur des actions, tandis que d'autres peuvent nécessiter que les modèles suivent des objets à travers des scènes.

Collecte du Jeu de Données

Un effort significatif a été consacré à la collecte des vidéos et à la création des paires question-réponse. Le processus incluait le téléchargement de vidéos de haute qualité, en s'assurant qu'elles avaient des sous-titres précis, et en les préparant pour l'évaluation des modèles. Des annotateurs humains ont été employés pour créer des questions de haute qualité liées aux vidéos, garantissant encore plus la fiabilité de la référence.

Importance de l'Annotation Humaine

Les annotateurs humains ont joué un rôle crucial dans le développement de cette référence. Ils ont été formés pour comprendre comment formuler des questions qui reflètent fidèlement le contenu des vidéos. Chaque question a été soigneusement révisée pour maintenir un niveau élevé. Cette attention au détail est ce qui distingue cette référence des autres.

Évaluation de la Performance des Modèles

Pour tester les modèles, un processus d'évaluation rigoureux a été développé. Plusieurs modèles de pointe ont été évalués en utilisant la référence, y compris des systèmes propriétaires et open-source. Les résultats ont mis en lumière des écarts de performance significatifs entre les modèles lors du traitement de longues vidéos et de la gestion de questions complexes.

Résultats Clés

L'évaluation a révélé plusieurs insights importants sur les capacités des modèles :

  1. Les Longs Inputs Comptent - L'évaluation a montré que les modèles performent mieux lorsqu'ils peuvent traiter des entrées vidéo plus longues. Cette amélioration est particulièrement évidente chez les modèles propriétaires.

  2. Les Modèles Open-Source Accusent un Retard - De nombreux modèles open-source ont eu du mal à rivaliser avec la performance des modèles propriétaires. Ils n'ont pas montré d'améliorations notables lorsqu'ils ont reçu des entrées vidéo plus longues.

  3. Les Vidéos Longues Sont Difficiles - À mesure que la longueur des vidéos augmentait, les modèles ont rencontré des défis plus grands. Cela souligne la valeur de la référence pour évaluer la compréhension dans le monde réel.

  4. Les Inputs Entrelacés Sont Difficiles - L'inclusion de sous-titres avec les images de la vidéo a posé des difficultés supplémentaires. Les modèles open-source ont trouvé plus compliqué d'intégrer efficacement les informations textuelles avec le contenu visuel.

  5. L'Information Visuelle est Cruciale - Les résultats ont clairement montré que les éléments visuels des vidéos sont vitaux pour une performance précise. Enlever des données visuelles a considérablement réduit l'efficacité des modèles.

Implications des Résultats

Ces résultats sont cruciaux pour guider la recherche future dans la compréhension vidéo-langage. Ils révèlent les limitations actuelles des modèles existants et soulignent le besoin d'améliorations, notamment dans la gestion de contenus vidéo plus longs et plus complexes. La référence fournit une voie claire pour les chercheurs cherchant à améliorer la performance des modèles.

Directions Futures

Alors que le domaine de la compréhension vidéo-langage continue d'évoluer, il est essentiel d'élargir la référence pour inclure des types de vidéos plus divers et des durées plus longues. De plus, intégrer des modèles plus avancés et explorer leurs capacités aidera à faire avancer les choses dans ce domaine.

Conclusion

L'introduction de cette nouvelle référence marque un pas en avant significatif dans l'évaluation de la capacité des modèles à comprendre des vidéos longues et leur langage associé. En se concentrant sur le raisonnement référent et en créant des questions variées et de haute qualité, cette référence est prête à défier et améliorer les capacités des modèles multimodaux actuels et futurs. Alors que les chercheurs et les développeurs continuent d'explorer ce domaine, les insights tirés de cette référence seront déterminants pour façonner l'avenir des technologies de compréhension vidéo.

Source originale

Titre: LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding

Résumé: Large multimodal models (LMMs) are processing increasingly longer and richer inputs. Albeit the progress, few public benchmark is available to measure such development. To mitigate this gap, we introduce LongVideoBench, a question-answering benchmark that features video-language interleaved inputs up to an hour long. Our benchmark includes 3,763 varying-length web-collected videos with their subtitles across diverse themes, designed to comprehensively evaluate LMMs on long-term multimodal understanding. To achieve this, we interpret the primary challenge as to accurately retrieve and reason over detailed multimodal information from long inputs. As such, we formulate a novel video question-answering task termed referring reasoning. Specifically, as part of the question, it contains a referring query that references related video contexts, called referred context. The model is then required to reason over relevant video details from the referred context. Following the paradigm of referring reasoning, we curate 6,678 human-annotated multiple-choice questions in 17 fine-grained categories, establishing one of the most comprehensive benchmarks for long-form video understanding. Evaluations suggest that the LongVideoBench presents significant challenges even for the most advanced proprietary models (e.g. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), while their open-source counterparts show an even larger performance gap. In addition, our results indicate that model performance on the benchmark improves only when they are capable of processing more frames, positioning LongVideoBench as a valuable benchmark for evaluating future-generation long-context LMMs.

Auteurs: Haoning Wu, Dongxu Li, Bei Chen, Junnan Li

Dernière mise à jour: 2024-07-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.15754

Source PDF: https://arxiv.org/pdf/2407.15754

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires