Prédire les moments les plus rejoués des vidéos YouTube
Utiliser le machine learning pour prédire quels segments de vidéos les gens re-regardent le plus.
― 7 min lire
Table des matières
- Pourquoi prédire les données les plus rejouées ?
- Le jeu de données YTMR500
- Modèles de deep learning pour la prédiction
- Méthodes de prédiction des données
- Insights de l'étude utilisateur
- Entraînement et évaluation des modèles
- L'importance du jeu de données YTMR500
- Conclusion et orientations futures
- Source originale
- Liens de référence
Dans le monde numérique d'aujourd'hui, le streaming vidéo est devenu une grande partie de notre communication en ligne. YouTube, qui est une plateforme majeure, voit un énorme trafic chaque jour. En plus des vidéos, YouTube collecte plein d'infos sur la manière dont les gens regardent et ce qu'ils aiment. Un des trucs récents, c'est la donnée "Les plus rejoués", qui montre les parties d'une vidéo que les utilisateurs regardent en boucle. Ces infos peuvent être utiles pour plusieurs raisons, comme mieux placer des pubs et donner des retours aux créateurs de contenu sur les parties de leurs vidéos qui pourraient ne pas accrocher.
Pourquoi prédire les données les plus rejouées ?
Prédire quelles parties d'une vidéo les utilisateurs vont revoir peut vraiment aider. Pour les annonceurs, connaître ces infos leur permet de placer des pubs aux meilleurs moments pour maximiser leurs profits. Pour les créateurs de contenu, ça veut dire qu'ils peuvent éditer leurs vidéos avant de les sortir, évitant ainsi d'être gênés en publiant quelque chose qui n'accroche pas les spectateurs. Cela soulève la question : peut-on prédire les données les plus rejouées pour les vidéos YouTube ?
Le jeu de données YTMR500
Pour répondre à cette question, on a créé un jeu de données appelé YTMR500. Cette collection comprend 500 vidéos YouTube, axées spécifiquement sur les vlogs et le contenu de voyage. Chaque vidéo dans ce jeu de données est annotée pour ses données de plus rejouées. Ça veut dire qu’on a noté quelles sections de chaque vidéo sont les plus vues. Avec ce jeu de données, on peut mieux comprendre comment prédire les données les plus rejouées en utilisant des techniques de machine learning.
Modèles de deep learning pour la prédiction
On a utilisé différents modèles basés sur le deep learning, qui est une forme d'intelligence artificielle, pour voir à quel point ils pouvaient prédire les données les plus rejouées. On a testé deux modèles principaux : un modèle entièrement connecté et un autre qui utilise un mécanisme d'attention. Le modèle entièrement connecté est simple, où les données passent à travers des couches sans tenir compte de l'ordre ou du timing des segments vidéo. Le modèle d'attention, en revanche, examine les relations entre différents segments, lui permettant de prendre le contexte en compte.
Évaluation de la performance des modèles
Pour évaluer à quel point ces modèles fonctionnent, on a réalisé des études détaillées. On a comparé les résultats de nos modèles à la capacité des gens à prédire les données les plus rejouées. Ça s'est fait à travers une étude utilisateur où on a demandé aux participants de deviner quelles sections de vidéos ils pensaient être rejouées le plus souvent.
Nos découvertes ont montré que bien que les modèles de machine learning aient mieux performé que des devinettes au hasard, leur performance n'était pas aussi bonne qu'on l'espérait. De plus, les participants humains de notre étude ont eu du mal avec la tâche, prouvant que prédire les données les plus rejouées n'est pas simple pour personne.
Méthodes de prédiction des données
Le but de notre modèle de prédiction est d'apprendre une fonction qui prend une séquence de segments vidéo et prédit lesquels seront les plus rejoués. Pour ça, le modèle doit comprendre l'entrée, qui consiste en des caractéristiques vidéo extraites des vidéos elles-mêmes. La sortie est un ensemble de scores indiquant la probabilité de replay pour chaque segment.
Au lieu d'essayer de prédire les valeurs exactes des données les plus rejouées, notre modèle se concentre sur le Classement des segments les uns par rapport aux autres. On utilise des fonctions de perte spécifiques pendant l'entraînement qui aident le modèle à s'ajuster selon la qualité de son classement par rapport aux données de référence.
Insights de l'étude utilisateur
L'étude utilisateur a offert des insights précieux sur la difficulté de prédire les données les plus rejouées. On a simplifié la tâche pour les participants en divisant chaque vidéo en moins de segments, réduisant ainsi la complexité de ce qu'ils devaient évaluer. Les participants devaient comparer des paires de segments vidéo et deviner lequel aurait un score de replay plus élevé.
Il s'est avéré que même avec ces simplifications, les gens ont toujours trouvé la tâche difficile. La précision moyenne des utilisateurs était basse, montrant que c'est un problème difficile pour les humains, tout comme pour les modèles qu'on a formés.
Entraînement et évaluation des modèles
On a entraîné nos modèles en utilisant un total de 500 vidéos divisées en ensembles d'entraînement et de test. Bien que nos modèles s'adaptent bien aux données d'entraînement, leur performance sur les données de test n'était que légèrement mieux que des devinettes au hasard. Cela suggère que même si les modèles de deep learning peuvent capturer certains motifs, ils ne sont pas encore capables de comprendre pleinement les nuances qui rendent un segment rejouable.
L'évaluation était basée sur une métrique de classement qui mesure à quel point les modèles prédisent les meilleurs segments. Cependant, notre recherche indique que des modèles plus complexes ne performent pas nécessairement mieux que des plus simples. Par exemple, bien que le modèle d'attention aurait dû être supérieur grâce à son contexte supplémentaire, il n'a pas montré de gain de performance significatif par rapport au modèle entièrement connecté.
L'importance du jeu de données YTMR500
Le jeu de données YTMR500 est crucial pour les recherches futures sur la prédiction des données les plus rejouées. Il permet aux chercheurs d'explorer différentes méthodes pour améliorer la précision des prédictions. Au fur et à mesure qu'on continue d'étudier ces motifs, on espère découvrir des techniques plus efficaces qui peuvent utiliser à la fois des infos vidéo et audio pour améliorer les prédictions.
Conclusion et orientations futures
En conclusion, prédire les données les plus rejouées à partir des segments vidéo est une tâche complexe qui présente des défis tant pour l'intelligence artificielle que pour les observateurs humains. Bien que nos modèles de deep learning aient montré une certaine capacité à surpasser des prédictions aléatoires, il reste encore beaucoup de place pour l'amélioration.
Les efforts futurs pourraient inclure l'exploration d'approches multimodales qui intègrent audio, texte et autres données pertinentes en plus des caractéristiques vidéo. En faisant cela, on pourrait mieux capturer les facteurs qui rendent certains moments de vidéos fréquemment rejoués.
On encourage la communauté de recherche à utiliser le jeu de données YTMR500 pour continuer ce travail important. En partageant des insights et en faisant avancer notre compréhension du comportement des spectateurs, on peut aider à améliorer la création de contenu vidéo et les stratégies publicitaires dans le paysage en évolution des médias en ligne.
Titre: Can we predict the Most Replayed data of video streaming platforms?
Résumé: Predicting which specific parts of a video users will replay is important for several applications, including targeted advertisement placement on video platforms and assisting video creators. In this work, we explore whether it is possible to predict the Most Replayed (MR) data from YouTube videos. To this end, we curate a large video benchmark, the YTMR500 dataset, which comprises 500 YouTube videos with MR data annotations. We evaluate Deep Learning (DL) models of varying complexity on our dataset and perform an extensive ablation study. In addition, we conduct a user study to estimate the human performance on MR data prediction. Our results show that, although by a narrow margin, all the evaluated DL models outperform random predictions. Additionally, they exceed human-level accuracy. This suggests that predicting the MR data is a difficult task that can be enhanced through the assistance of DL. Finally, we believe that DL performance on MR data prediction can be further improved, for example, by using multi-modal learning. We encourage the research community to use our benchmark dataset to further investigate automatic MR data prediction.
Auteurs: Alessandro Duico, Ombretta Strafforello, Jan van Gemert
Dernière mise à jour: 2023-09-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.06102
Source PDF: https://arxiv.org/pdf/2309.06102
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://pytorch.org/docs/2.0/generated/torch.nn.MarginRankingLoss.html
- https://newsroom.cisco.com/press-release-content?articleId=1955935
- https://www-statista-com.tudelft.idm.oclc.org/statistics/289658/youtube-global-net-advertising-revenues/
- https://github.com/Benjamin-Loison/YouTube-operational-API
- https://github.com/v-iashin/video
- https://github.com/Duico/YTMR500
- https://github.com/ombretta/most-replayed-data