Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.
― 8 min lire
La science de pointe expliquée simplement
Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.
― 8 min lire
Un nouveau modèle améliore la compréhension vidéo en fusionnant des encodeurs d'images et de vidéos.
― 10 min lire
VANE-Bench améliore la détection des anomalies dans les vidéos malgré la montée du contenu AI.
― 7 min lire
Un nouveau jeu de données pour améliorer la compréhension des récits dans les courts-métrages.
― 10 min lire
Un nouveau benchmark vise la compositionnalité dans la compréhension vidéo et les modèles de langage.
― 7 min lire
Présentation d'une méthode pour des classifications vidéo rapides basées sur l'analyse des premières images.
― 7 min lire
VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.
― 8 min lire
Une nouvelle méthode améliore la reconnaissance des actions dans les vidéos en utilisant le langage contextuel.
― 10 min lire
Une nouvelle approche améliore la prédiction des images vidéo en utilisant des connaissances du domaine.
― 8 min lire
Les recherches montrent que la vidéo aide à améliorer la reconnaissance vocale dans des environnements bruyants.
― 6 min lire
DeepMoveSORT améliore l'efficacité du suivi d'objets, surtout dans des scénarios de mouvement complexes.
― 5 min lire
Une nouvelle méthode améliore la gestion des données vidéo pour une meilleure compréhension et efficacité.
― 7 min lire
Une nouvelle méthode améliore la précision pour répondre aux questions basées sur des vidéos.
― 8 min lire
Une nouvelle méthode améliore le suivi des objets en gérant la mémoire de manière efficace.
― 7 min lire
FeatureSORT améliore la précision de suivi et la flexibilité dans des environnements dynamiques.
― 9 min lire
VideoEval établit une nouvelle référence pour évaluer efficacement les modèles de base vidéo.
― 7 min lire
Une nouvelle méthode améliore la compréhension du contenu vidéo par l'IA.
― 7 min lire
TrCAM-V propose une nouvelle façon de localiser des objets dans des vidéos avec un minimum d'infos.
― 7 min lire
Une nouvelle méthode améliore la segmentation d'objets dans les vidéos avec des données faiblement étiquetées.
― 7 min lire
Utiliser des vidéos non étiquetées pour améliorer la reconnaissance d'actions dans des vidéos longues.
― 7 min lire
Utiliser la technologie NeRF pour recréer des scènes de crime à partir de vidéos.
― 7 min lire
Combiner des infos audio et visuelles aide à mieux reconnaître les objets dans les vidéos.
― 8 min lire
Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.
― 8 min lire
ActionSwitch détecte des actions dans des vidéos en streaming sans avoir besoin d'infos de classe au préalable.
― 5 min lire
LookupViT améliore les tâches de reconnaissance visuelle grâce à un traitement efficace des tokens.
― 7 min lire
Une nouvelle approche améliore la compréhension des vidéos longues, en s'attaquant à des défis clés.
― 7 min lire
VARS utilise l'analyse vidéo pour aider les arbitres à tous les niveaux du football.
― 7 min lire
Utiliser la technologie pour améliorer les procédures médicales d'urgence et soutenir les intervenants.
― 7 min lire
Une nouvelle méthode améliore la compréhension des vidéos en séparant les caractéristiques dynamiques et statiques.
― 6 min lire
Un ensemble de données qui donne des aperçus sur les interactions des piétons dans des situations de circulation.
― 8 min lire
Un nouveau repère améliore la compréhension des modèles sur les longues vidéos et le langage.
― 7 min lire
Un aperçu de comment la segmentation d'action améliore notre compréhension des comportements animaux.
― 8 min lire
Ego-VPA simplifie l'adaptation pour l'analyse vidéo égocentrique, améliorant l'efficacité et la performance.
― 8 min lire
SANGRIA améliore l'analyse vidéo chirurgicale en utilisant des graphes de scènes dynamiques et des annotations minimales.
― 7 min lire
Cette étude améliore la détection d'actions vidéo en se concentrant sur le contexte et la classification.
― 8 min lire
Une nouvelle méthode améliore le suivi des points en liant le langage avec des données visuelles.
― 7 min lire
SAM-2 améliore l'analyse vidéo chirurgicale, gérant des défis comme la fumée et un éclairage faible.
― 7 min lire
Ce modèle prédit le mouvement des objets et analyse le contenu vidéo de manière efficace.
― 7 min lire
Un nouveau jeu de données et une méthode améliorent le grounding vidéo pour des récits complexes.
― 10 min lire
YOWOv3 améliore la détection d'action dans les vidéos avec efficacité et précision.
― 6 min lire