Avancées dans la reconnaissance vidéo longue traîne
Améliorer la reconnaissance vidéo pour des actions moins courantes grâce à de meilleurs datasets et méthodes.
― 6 min lire
Table des matières
Cet article parle de comment améliorer la Reconnaissance vidéo pour les actions moins courantes, connues sous le nom de reconnaissance vidéo de long terme. La plupart des systèmes de reconnaissance vidéo ont du mal à identifier ces actions rares parce qu'il y a souvent très peu d'exemples disponibles pour elles. L'objectif est de créer de meilleures méthodes et tests pour aider les systèmes à apprendre d'un plus large éventail d'actions, surtout celles qu'on voit pas souvent.
Examiner les défis actuels
Dans le monde de la reconnaissance vidéo, beaucoup de Jeux de données utilisés pour entraîner les systèmes visent un équilibre. Ça veut dire qu'il y a à peu près le même nombre d'exemples pour chaque action. Mais dans la vraie vie, cet équilibre n'existe pas. Certaines actions sont beaucoup plus courantes que d'autres. Quand les systèmes sont formés sur ces jeux de données déséquilibrés, ils ont tendance à oublier comment reconnaître les actions moins courantes. C'est un peu comme certains livres qui attirent beaucoup d'attention, tandis que d'autres qui sont tout aussi bons sont ignorés.
La plupart des jeux de données vidéo disponibles aujourd'hui ne reflètent pas correctement ce déséquilibre du monde réel, surtout pour les actions rares. Cette manque de variété rend difficile pour les systèmes d'apprendre assez d'exemples pour bien reconnaître ces actions moins courantes.
Créer de meilleurs jeux de données vidéo
Pour résoudre ce problème, il faut créer de nouveaux jeux de données vidéo qui reflètent la vraie distribution des actions. Un bon jeu de données devrait inclure un mélange d'actions courantes, rares et très rares. L'objectif est d'avoir un ensemble d'entraînement qui reflète la façon dont les actions se présentent dans la vie réelle.
En ce moment, on remarque que certains jeux de données vidéo n'ont aucun exemple de ces actions rares, ce qui est un gros oubli. La recherche montre que pour reconnaître efficacement les actions moins courantes, les systèmes doivent apprendre à partir d'exemples dans la partie longue de la distribution. En gros, il faut leur donner la chance de voir ces actions inhabituelles pendant l'entraînement.
Introduire de nouveaux repères
Pour combler ce vide, deux nouvelles versions de jeux de données existants ont été proposées. Ces jeux de données, appelés SSv2-LT et VideoLT-LT, sont spécialement conçus pour tester la capacité d'un système à reconnaître les actions de long terme. Ils ont été soigneusement construits pour inclure un large éventail d'exemples, en mettant particulièrement l'accent sur la représentation des actions rares.
Les nouveaux repères permettent aux chercheurs de tester leurs systèmes face à des défis réels. En utilisant ces jeux de données, ils peuvent évaluer comment leurs systèmes se comportent non seulement sur les actions les plus courantes mais aussi sur celles qu'on voit moins souvent.
Une nouvelle méthode d'apprentissage
En plus de créer de meilleurs jeux de données, une nouvelle méthode a été développée pour aider les systèmes à apprendre plus efficacement. Cette méthode s'appelle la reconstruction mixte de long terme. Elle vise à aider le système à ne pas se concentrer trop sur les actions courantes et à mieux apprendre des exemples rares et peu fréquents.
La méthode fonctionne en prenant des exemples des actions plus courantes et en les mélangeant avec des rares. Cette combinaison aide à recréer les actions rares d'une manière qui donne au système une meilleure chance d'apprendre à partir d'une variété de sources. Ça crée un pont entre les classes communes et rares, permettant un meilleur apprentissage global.
Évaluer la performance
Pour voir à quel point les solutions proposées fonctionnent, des tests ont été réalisés en utilisant les nouveaux jeux de données. Les résultats ont montré que les systèmes utilisant la méthode de reconstruction mixte de long terme ont obtenu de meilleurs scores en précision de classe moyenne lors de la reconnaissance des actions. Ça veut dire qu'ils étaient meilleurs pour identifier à la fois les actions courantes et rares par rapport à ceux entraînés avec des méthodes traditionnelles.
Les tests ont aussi examiné comment les systèmes se comportaient sur différents types d'actions. Les résultats étaient prometteurs, montrant que les nouvelles méthodes aidaient les systèmes non seulement à se souvenir des actions courantes mais aussi à reconnaître celles qui sont plus difficiles à trouver.
L'importance des actions rares
Reconnaître les actions rares est important pour plein d'applications dans la vie réelle. Par exemple, dans la surveillance vidéo, reconnaître un événement rare peut être crucial pour garantir la sécurité. Dans le sport, capturer des actions uniques peut améliorer les meilleurs moments. Donc, améliorer la façon dont les systèmes apprennent à partir de jeux de données déséquilibrés peut avoir de grands avantages.
Concevoir des méthodes d'apprentissage efficaces
La proposition souligne le besoin de méthodes efficaces qui aident les systèmes à apprendre de tous les types d'actions, pas seulement des courantes. De cette façon, on peut créer des systèmes robustes, capables et prêts à gérer une variété de scénarios auxquels ils pourraient faire face dans le monde réel.
Conclusion
En résumé, le travail en cours sur la reconnaissance vidéo de long terme est essentiel pour améliorer la façon dont nous reconnaissons les actions dans divers contextes. En abordant les défis posés par des jeux de données déséquilibrés et en introduisant de nouvelles méthodes et benchmarks, on peut améliorer la performance des systèmes de reconnaissance vidéo. Ce progrès mènera à des modèles plus intelligents et plus capables qui peuvent reconnaître un plus large éventail d'actions, les rendant plus utiles dans des applications pratiques.
Avec la recherche et le développement continus, on peut s'attendre à voir plus d'avancées qui aideront à combler le fossé entre ce que les systèmes de reconnaissance vidéo peuvent actuellement réaliser et les défis du monde réel qu'ils doivent relever.
Titre: Use Your Head: Improving Long-Tail Video Recognition
Résumé: This paper presents an investigation into long-tail video recognition. We demonstrate that, unlike naturally-collected video datasets and existing long-tail image benchmarks, current video benchmarks fall short on multiple long-tailed properties. Most critically, they lack few-shot classes in their tails. In response, we propose new video benchmarks that better assess long-tail recognition, by sampling subsets from two datasets: SSv2 and VideoLT. We then propose a method, Long-Tail Mixed Reconstruction, which reduces overfitting to instances from few-shot classes by reconstructing them as weighted combinations of samples from head classes. LMR then employs label mixing to learn robust decision boundaries. It achieves state-of-the-art average class accuracy on EPIC-KITCHENS and the proposed SSv2-LT and VideoLT-LT. Benchmarks and code at: tobyperrett.github.io/lmr
Auteurs: Toby Perrett, Saptarshi Sinha, Tilo Burghardt, Majid Mirmehdi, Dima Damen
Dernière mise à jour: 2023-04-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.01143
Source PDF: https://arxiv.org/pdf/2304.01143
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.