Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Calcul et langage

Youku-mPLUG : Un nouveau dataset pour la recherche vidéo-langage en chinois

Youku-mPLUG propose 10 millions de paires vidéo-texte pour faire avancer les systèmes vidéo-langue en chinois.

― 5 min lire


Systèmes de vidéo-langueSystèmes de vidéo-langueen progrèsrecherche multimédia en Chine.Le dataset Youku-mPLUG transforme la
Table des matières

Youku-mPLUG est un gros dataset conçu pour entraîner et tester des systèmes capables de comprendre à la fois des vidéos et du texte en chinois. Ce dataset comprend 10 millions de paires de vidéos et de textes extraits de Youku, une plateforme de partage de vidéos populaire en Chine. L'objectif est d'aider les chercheurs à améliorer la manière dont les machines traitent et comprennent les vidéos avec leur texte descriptif.

Le besoin d'un dataset vidéo-langue chinois

Dans le domaine de l'informatique, surtout pour les tâches liées à la vidéo et à la langue, avoir des datasets de haute qualité est super important. La plupart des datasets existants sont en anglais, ce qui crée un manque de ressources pour les chercheurs chinois. L'introduction de ce dataset est significative car elle répond au besoin d'une collection large, diversifiée et accessible au public de paires vidéo-texte spécifiquement pour la langue chinoise.

Aperçu du dataset

Le dataset Youku-mPLUG a été créé en filtrant 400 millions de vidéos brutes pour sélectionner 10 millions qui répondent à des standards de qualité stricts. Ces normes se concentrent sur la sécurité, la Diversité et la qualité. Le dataset inclut des vidéos dans 45 catégories différentes, offrant une large gamme de contenu pour les chercheurs.

Sécurité

Pour s'assurer que les vidéos du dataset ne contiennent pas de contenu nuisible, un système de détection des risques à plusieurs niveaux a été employé. Ce système aide à filtrer les vidéos liées à la violence, à la pornographie, ou à d'autres sujets sensibles.

Diversité

Une variété de sujets et de genres est couverte dans le dataset. Les vidéos sont classées en 45 catégories pour s'assurer que les chercheurs peuvent accéder à un mélange équilibré de contenu.

Qualité

Des vérifications de qualité ont été effectuées à la fois au niveau des vidéos et des textes. Les titres des vidéos devaient répondre à des exigences spécifiques, garantissant qu'ils contiennent suffisamment d'informations tout en évitant le contenu inutile. Les vidéos ont également été sélectionnées en fonction de leur clarté et de leur complétude.

Évaluation des performances

Pour mesurer la performance des modèles utilisant le dataset Youku-mPLUG, une série de benchmarks a été créée. Ces benchmarks incluent trois tâches principales :

  1. Recherche cross-média : Cette tâche évalue la capacité d'un système à récupérer des vidéos pertinentes en fonction de requêtes textuelles et vice versa.
  2. Génération de sous-titres vidéo : Ici, les modèles doivent générer un texte descriptif en fonction du contenu d'une vidéo.
  3. Classification des catégories vidéo : Dans cette tâche, l'objectif est de classer correctement les vidéos dans leurs catégories correspondantes.

La création de ces benchmarks permet une évaluation complète de différents modèles utilisant le dataset Youku-mPLUG.

Modèles développés avec le dataset

Plusieurs modèles ont été développés en s'appuyant sur le dataset Youku-mPLUG pour l'entraînement. Parmi eux, on trouve ALPRO et mPLUG-2, qui sont conçus pour améliorer la compréhension vidéo-langue. Un nouveau modèle, basé sur une structure uniquement de décodeur, a également été proposé, montrant d'importantes améliorations de performance lorsqu'il est entraîné sur ce dataset.

Résultats de performance

Les modèles entraînés sur Youku-mPLUG ont montré des résultats impressionnants dans diverses tâches. Par exemple, un modèle a atteint une précision de 80,5 % dans la classification correcte des vidéos. En ce qui concerne la génération de sous-titres vidéo, un autre modèle a obtenu de bons scores sur plusieurs métriques d'évaluation, ce qui indique sa capacité à générer des descriptions de haute qualité du contenu vidéo.

Combler les lacunes de la recherche actuelle

Les ressources actuelles dans le domaine de la compréhension vidéo-langue sont principalement en anglais. Cela limite les chercheurs travaillant dans le contexte chinois. La sortie de Youku-mPLUG répond à cette lacune, fournissant une ressource dont on a vraiment besoin qui ouvre des portes pour une recherche et un développement plus inclusifs dans le domaine du traitement vidéo et langage en chinois.

Directions futures

Il reste encore du travail à faire dans ce domaine. Le dataset actuel a des limites en ce qui concerne son ancienneté et le contexte culturel qu'il représente. La langue et le contenu évoluent toujours, et il est important que les datasets suivent le rythme. Les futures versions du dataset pourraient intégrer du contenu plus récent et s'adapter à l'évolution de la langue.

Un autre domaine à développer est la création de modèles plus avancés qui peuvent mieux comprendre les complexités du langage et du contenu visuel. À mesure que les modèles continuent de s'améliorer, ils peuvent aider à réduire l'écart entre la compréhension vidéo et le traitement du langage encore plus.

Conclusion

Youku-mPLUG est une contribution significative au domaine du traitement vidéo-langue, particulièrement pour la langue chinoise. En offrant un dataset large et de haute qualité ainsi que des benchmarks, il permet aux chercheurs de créer des modèles avancés qui peuvent comprendre et générer du contenu vidéo plus efficacement. Le développement continu dans ce domaine apporte de l'espoir pour des systèmes plus robustes capables de traiter le contenu multimédia de manière holistique.

Source originale

Titre: Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Résumé: To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.

Auteurs: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang

Dernière mise à jour: 2023-06-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.04362

Source PDF: https://arxiv.org/pdf/2306.04362

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires