VideoEval établit une nouvelle référence pour évaluer efficacement les modèles de base vidéo.
― 7 min lire
La science de pointe expliquée simplement
VideoEval établit une nouvelle référence pour évaluer efficacement les modèles de base vidéo.
― 7 min lire
Une nouvelle méthode améliore la compréhension du contenu vidéo par l'IA.
― 7 min lire
TrCAM-V propose une nouvelle façon de localiser des objets dans des vidéos avec un minimum d'infos.
― 7 min lire
Une nouvelle méthode améliore la segmentation d'objets dans les vidéos avec des données faiblement étiquetées.
― 7 min lire
Utiliser des vidéos non étiquetées pour améliorer la reconnaissance d'actions dans des vidéos longues.
― 7 min lire
Utiliser la technologie NeRF pour recréer des scènes de crime à partir de vidéos.
― 7 min lire
Combiner des infos audio et visuelles aide à mieux reconnaître les objets dans les vidéos.
― 8 min lire
Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.
― 8 min lire
ActionSwitch détecte des actions dans des vidéos en streaming sans avoir besoin d'infos de classe au préalable.
― 5 min lire
LookupViT améliore les tâches de reconnaissance visuelle grâce à un traitement efficace des tokens.
― 7 min lire
Une nouvelle approche améliore la compréhension des vidéos longues, en s'attaquant à des défis clés.
― 7 min lire
VARS utilise l'analyse vidéo pour aider les arbitres à tous les niveaux du football.
― 7 min lire
Utiliser la technologie pour améliorer les procédures médicales d'urgence et soutenir les intervenants.
― 7 min lire
Une nouvelle méthode améliore la compréhension des vidéos en séparant les caractéristiques dynamiques et statiques.
― 6 min lire
Un ensemble de données qui donne des aperçus sur les interactions des piétons dans des situations de circulation.
― 8 min lire
Un nouveau repère améliore la compréhension des modèles sur les longues vidéos et le langage.
― 7 min lire
Un aperçu de comment la segmentation d'action améliore notre compréhension des comportements animaux.
― 8 min lire
Ego-VPA simplifie l'adaptation pour l'analyse vidéo égocentrique, améliorant l'efficacité et la performance.
― 8 min lire
SANGRIA améliore l'analyse vidéo chirurgicale en utilisant des graphes de scènes dynamiques et des annotations minimales.
― 7 min lire
Cette étude améliore la détection d'actions vidéo en se concentrant sur le contexte et la classification.
― 8 min lire
Une nouvelle méthode améliore le suivi des points en liant le langage avec des données visuelles.
― 7 min lire
SAM-2 améliore l'analyse vidéo chirurgicale, gérant des défis comme la fumée et un éclairage faible.
― 7 min lire
Ce modèle prédit le mouvement des objets et analyse le contenu vidéo de manière efficace.
― 7 min lire
Un nouveau jeu de données et une méthode améliorent le grounding vidéo pour des récits complexes.
― 10 min lire
YOWOv3 améliore la détection d'action dans les vidéos avec efficacité et précision.
― 6 min lire
COM Kitchens propose des vidéos de cuisine non montées pour étudier les processus de préparation des aliments.
― 7 min lire
MATR améliore la détection d'actions dans des vidéos non montées grâce à une technologie augmentée par la mémoire.
― 9 min lire
mPLUG-Owl3 améliore la compréhension des images et des vidéos pour des réponses plus efficaces.
― 8 min lire
Une nouvelle méthode améliore la classification des actions en utilisant le contexte historique dans les vidéos.
― 8 min lire
Ce cadre améliore la localisation d'actions dans les vidéos en utilisant une représentation probabiliste et le contexte.
― 7 min lire
Une méthode pour résumer des vidéos de différentes cultures et sources d'info.
― 6 min lire
Les benchmarks actuels sous-estiment la capacité des modèles à relier les données audio et visuelles.
― 6 min lire
Une nouvelle méthode améliore le suivi d'objets dans des vidéos à la première personne en utilisant une conscience 3D.
― 7 min lire
De nouvelles méthodes améliorent la précision et l'efficacité de la segmentation vidéo pour diverses applications.
― 7 min lire
De nouvelles méthodes améliorent la détection d'action dans les vidéos grâce à des techniques de formation innovantes.
― 7 min lire
Examiner le pouvoir des modèles de fond dans les tâches de suivi de point efficaces.
― 8 min lire
Une nouvelle méthode localise des événements vidéo en utilisant de grands modèles pré-entraînés sans formation spécifique.
― 10 min lire
Cette étude améliore la reconnaissance d'action en fusionnant des cartes de profondeur avec des images vidéo RGB.
― 7 min lire
ConsistencyTrack améliore le suivi des objets dans les vidéos en utilisant des techniques innovantes de gestion du bruit.
― 7 min lire
Une nouvelle approche améliore la détection d'actions dans les vidéos en s'attaquant à l'effondrement de l'attention.
― 8 min lire