Une nouvelle approche s'attaque à la segmentation d'actions dans de longues vidéos en utilisant le transport optimal.
― 8 min lire
La science de pointe expliquée simplement
Une nouvelle approche s'attaque à la segmentation d'actions dans de longues vidéos en utilisant le transport optimal.
― 8 min lire
Une nouvelle méthode améliore la précision de la mesure du rythme cardiaque dans les vidéos compressées.
― 8 min lire
Cette étude montre comment les schémas de regard personnels influencent les interactions humain-robot.
― 6 min lire
Une plongée profonde dans les modèles de fondation vidéo et leur importance dans l'analyse vidéo.
― 8 min lire
Découvrez comment le DMD améliore la détection de mouvement dans les flux vidéo pour les applications de sécurité.
― 5 min lire
CinePile défie la compréhension des vidéos longues avec 305 000 questions variées.
― 7 min lire
BIMM apprend le contenu vidéo en imitant les chemins neuronaux du cerveau humain.
― 7 min lire
JOSENet améliore la détection en temps réel de la violence dans les vidéos de surveillance en utilisant des méthodes avancées.
― 9 min lire
Une nouvelle méthode améliore l'estimation de mouvement en utilisant des maillages finis adaptatifs.
― 6 min lire
Une étude sur la reconnaissance des actions en utilisant l'apprentissage avec peu d'exemples et des données multimodales.
― 6 min lire
De nouvelles méthodes améliorent la compréhension par les machines des interactions dynamiques dans le contenu vidéo.
― 9 min lire
Le benchmark MLVU vise à améliorer la compréhension des vidéos longues par les machines.
― 8 min lire
Une nouvelle méthode améliore la précision de détection des actions dans des scènes vidéo qui se chevauchent.
― 9 min lire
Une nouvelle approche pour la segmentation d'objets vidéo améliore la précision en limitant l'utilisation de la mémoire.
― 10 min lire
Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.
― 8 min lire
Un nouveau modèle améliore la compréhension vidéo en fusionnant des encodeurs d'images et de vidéos.
― 10 min lire
VANE-Bench améliore la détection des anomalies dans les vidéos malgré la montée du contenu AI.
― 7 min lire
Un nouveau jeu de données pour améliorer la compréhension des récits dans les courts-métrages.
― 10 min lire
Un nouveau benchmark vise la compositionnalité dans la compréhension vidéo et les modèles de langage.
― 7 min lire
Présentation d'une méthode pour des classifications vidéo rapides basées sur l'analyse des premières images.
― 7 min lire
VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.
― 8 min lire
Une nouvelle méthode améliore la reconnaissance des actions dans les vidéos en utilisant le langage contextuel.
― 10 min lire
Une nouvelle approche améliore la prédiction des images vidéo en utilisant des connaissances du domaine.
― 8 min lire
Les recherches montrent que la vidéo aide à améliorer la reconnaissance vocale dans des environnements bruyants.
― 6 min lire
DeepMoveSORT améliore l'efficacité du suivi d'objets, surtout dans des scénarios de mouvement complexes.
― 5 min lire
Une nouvelle méthode améliore la gestion des données vidéo pour une meilleure compréhension et efficacité.
― 7 min lire
Une nouvelle méthode améliore la précision pour répondre aux questions basées sur des vidéos.
― 8 min lire
Une nouvelle méthode améliore le suivi des objets en gérant la mémoire de manière efficace.
― 7 min lire
FeatureSORT améliore la précision de suivi et la flexibilité dans des environnements dynamiques.
― 9 min lire
VideoEval établit une nouvelle référence pour évaluer efficacement les modèles de base vidéo.
― 7 min lire
Une nouvelle méthode améliore la compréhension du contenu vidéo par l'IA.
― 7 min lire
TrCAM-V propose une nouvelle façon de localiser des objets dans des vidéos avec un minimum d'infos.
― 7 min lire
Une nouvelle méthode améliore la segmentation d'objets dans les vidéos avec des données faiblement étiquetées.
― 7 min lire
Utiliser des vidéos non étiquetées pour améliorer la reconnaissance d'actions dans des vidéos longues.
― 7 min lire
Utiliser la technologie NeRF pour recréer des scènes de crime à partir de vidéos.
― 7 min lire
Combiner des infos audio et visuelles aide à mieux reconnaître les objets dans les vidéos.
― 8 min lire
Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.
― 8 min lire
ActionSwitch détecte des actions dans des vidéos en streaming sans avoir besoin d'infos de classe au préalable.
― 5 min lire
LookupViT améliore les tâches de reconnaissance visuelle grâce à un traitement efficace des tokens.
― 7 min lire
Une nouvelle approche améliore la compréhension des vidéos longues, en s'attaquant à des défis clés.
― 7 min lire