LLaVA-3D mélange des infos 2D et 3D pour un raisonnement spatial plus poussé.
― 7 min lire
La science de pointe expliquée simplement
LLaVA-3D mélange des infos 2D et 3D pour un raisonnement spatial plus poussé.
― 7 min lire
Explorer l'utilisation de données synthétiques pour améliorer le DRL dans des applications réelles.
― 11 min lire
InterNet améliore l'estimation de l'homographie en apprenant à partir d'images sans données étiquetées.
― 5 min lire
Apprends des techniques de débruitage d'image pour améliorer la clarté et la qualité.
― 7 min lire
Un nouveau jeu de données traite des changements de point de vue dans l'estimation de profondeur pour la conduite autonome.
― 8 min lire
Une méthode qui combine les données d'événements et des images traditionnelles pour une meilleure analyse du mouvement.
― 8 min lire
Une nouvelle méthode améliore le processus d'apprentissage entre les modèles d'enseignant et d'élève.
― 9 min lire
Une nouvelle méthode pour équilibrer les connaissances générales et l'adaptation spécifique aux tâches dans les modèles.
― 9 min lire
AP-VLM améliore la perception des robots et leur interaction grâce à des techniques de perception active.
― 6 min lire
P4Q combine le fine-tuning et la quantification pour une performance efficace des modèles visuels-langages.
― 6 min lire
Voici TA-Cleaner, une méthode pour améliorer les défenses des modèles multimodaux contre l'empoisonnement des données.
― 10 min lire
Un nouveau cadre pour un suivi d'objet visuel léger et efficace.
― 8 min lire
CAMOT améliore le suivi multi-objets en estimant les angles de caméra et les profondeurs.
― 8 min lire
SimVG améliore l'ancrage visuel en liant le texte à des zones spécifiques de l'image de manière plus efficace.
― 7 min lire
Le modèle et le dataset EAGLE améliorent la compréhension des vidéos égocentriques.
― 6 min lire
Une nouvelle méthode améliore la précision du comptage de foule et la fiabilité du modèle.
― 6 min lire
Examiner comment les modèles SSL mémorisent des points de données et ses implications.
― 10 min lire
De nouvelles méthodes améliorent l'efficacité et la précision des modèles de vision basés sur SSM.
― 7 min lire
Une nouvelle méthode améliore la précision des formes 3D dans des scènes dynamiques.
― 6 min lire
De nouvelles méthodes améliorent la vitesse et la qualité des tâches de défloutage d'image.
― 7 min lire
Une nouvelle méthode améliore le transfert de connaissances dans les modèles d'apprentissage automatique.
― 7 min lire
Présentation d'une méthode pour que l'IA génère des images sans avoir besoin de gros jeux de données étiquetés.
― 9 min lire
GeCo améliore le comptage d'objets avec moins d'exemples, ce qui augmente la précision et la fiabilité.
― 7 min lire
CION améliore la réidentification des personnes en se concentrant sur les corrélations d'identité à travers les vidéos.
― 8 min lire
Une nouvelle méthode améliore la détection de la cible du regard avec moins de données étiquetées.
― 9 min lire
Un nouveau cadre améliore le marquage des pixels en s'attaquant à l'incertitude dans la segmentation sémantique.
― 9 min lire
Cette étude évalue l'efficacité des modèles pré-entraînés dans les applications d'observation de la Terre.
― 8 min lire
Une nouvelle méthode améliore l'alignement des données, surtout avec des ensembles de données bruyants.
― 6 min lire
Un aperçu de comment les CNN apprennent les caractéristiques des images et leurs similitudes universelles.
― 9 min lire
Explorer des méthodes pour améliorer les modèles multimodaux dans l'analyse des questions visuelles.
― 8 min lire
TrojVLM expose des vulnérabilités dans les modèles de langage visuels aux attaques de backdoor.
― 9 min lire
Un nouveau cadre améliore la génération de données à partir de plusieurs sources en utilisant des modèles basés sur l'énergie.
― 7 min lire
SATA renforce la robustesse et l'efficacité des Vision Transformers pour les tâches de classification d'images.
― 5 min lire
Une nouvelle méthode améliore la reconnaissance d'objets en utilisant des masques sans étiquettes détaillées.
― 6 min lire
Les PPLNs améliorent le traitement des données des caméras événementielles pour de meilleures capacités de vision machine.
― 7 min lire
Analyser les effets des méthodes de taille sur la performance et l'interprétabilité de GoogLeNet.
― 6 min lire
Méthodes innovantes pour améliorer les cartes de profondeur essentielles à la réalité augmentée et virtuelle.
― 8 min lire
Une méthode pour améliorer les performances du modèle malgré des étiquettes de données incorrectes.
― 9 min lire
FlipClass propose une nouvelle méthode pour mieux apprendre dans la Découverte de Catégories Généralisées.
― 7 min lire
Une nouvelle méthode améliore l'identification des personnes à travers les caméras avec moins de supervision.
― 6 min lire