Combiner des infos audio et visuelles aide à mieux reconnaître les objets dans les vidéos.
― 8 min lire
La science de pointe expliquée simplement
Combiner des infos audio et visuelles aide à mieux reconnaître les objets dans les vidéos.
― 8 min lire
Une nouvelle méthode combine des indices audio et textuels pour une meilleure identification des objets.
― 6 min lire
Une nouvelle approche génère des vidéos d'actions humaines de haute qualité avec des infos de profondeur.
― 11 min lire
Nouveau jeu de données améliore la reconnaissance d'objets grâce à des annotations détaillées des parties.
― 5 min lire
De nouvelles méthodes améliorent l'estimation de mouvement grâce à la technologie des caméras événementielles.
― 11 min lire
Une nouvelle approche axée sur la profondeur par objet améliore la précision de détection 3D.
― 7 min lire
SEED améliore la détection d'objets 3D en utilisant la sélection de requêtes doubles et l'attention à grille déformable.
― 7 min lire
Une nouvelle méthode pour une segmentation d'image efficace en utilisant des techniques d'apprentissage auto-supervisé.
― 8 min lire
De nouvelles techniques améliorent la précision de localisation des robots dans les espaces intérieurs en utilisant l'apprentissage profond.
― 10 min lire
Cet article parle de l'utilisation des réseaux de neurones siamois pour le positionnement de robots mobiles.
― 8 min lire
Un aperçu de comment CLIP gère la négation dans le langage.
― 8 min lire
Un aperçu des méthodes pour améliorer la qualité des images affectées par la brume.
― 8 min lire
Une nouvelle méthode améliore les systèmes pour répondre à des questions liées aux images en utilisant des connaissances externes.
― 9 min lire
Présentation d'une nouvelle méthode pour améliorer la résolution des images en champ lumineux.
― 6 min lire
Une nouvelle approche aide les modèles à s'adapter efficacement à des environnements de données imprévisibles.
― 6 min lire
De nouvelles méthodes améliorent la récupération de mouvement en utilisant des caméras basées sur des événements dans des environnements dynamiques.
― 9 min lire
Analyser comment VPT, un agent IA, prend des décisions dans le gameplay de Minecraft.
― 6 min lire
Les réseaux Tiled Bit optimisent les modèles d'apprentissage profond pour une meilleure efficacité et performance.
― 6 min lire
Examiner les vulnérabilités et les attaques potentielles sur la technologie NeRF.
― 6 min lire
De nouvelles méthodes améliorent la représentation d’image et l’efficacité du traitement.
― 9 min lire
Une nouvelle méthode qui combine les atouts de Sliced et Tree Wasserstein pour l'analyse de données dynamiques.
― 9 min lire
Une nouvelle méthode améliore les empreintes digitales floues pour une meilleure précision d'identification.
― 8 min lire
Découvrez les dernières avancées dans le suivi des objets en mouvement dans différentes applications.
― 7 min lire
Un nouveau modèle renforce la connexion entre les vidéos et leurs descriptions textuelles.
― 7 min lire
Une nouvelle méthode améliore la précision de la détection des points clés en vision par ordinateur.
― 9 min lire
Un nouveau cadre combine différents types de guidance pour améliorer les performances de segmentation.
― 8 min lire
Crowd-SAM améliore la détection d'objets dans des environnements chargés avec moins d'images étiquetées.
― 7 min lire
Une nouvelle méthode améliore la génération d'images en organisant l'espace latent dans les modèles de diffusion.
― 7 min lire
Une nouvelle méthode améliore la précision dans l'estimation de la profondeur avec l'imagerie à champ lumineux.
― 9 min lire
Une nouvelle métrique améliore la précision de la reconnaissance d'images tout en réduisant les coûts informatiques.
― 10 min lire
Découvrez comment l'apprentissage par transfert améliore les résultats des modèles en utilisant des connaissances provenant de tâches connexes.
― 9 min lire
LookupViT améliore les tâches de reconnaissance visuelle grâce à un traitement efficace des tokens.
― 7 min lire
Le cadre CHOSEN améliore les Vision Transformers pour une utilisation efficace des FPGA.
― 6 min lire
Une nouvelle méthode améliore la segmentation semi-supervisée en se concentrant sur des pseudo-étiquettes fiables.
― 9 min lire
Une nouvelle méthode combine les données des caméras d'événements et des caméras classiques pour une meilleure détection d'objets.
― 6 min lire
Cet article examine l'efficacité des modèles multimodaux en utilisant des données linguistiques et visuelles.
― 10 min lire
Développer des méthodes adaptatives pour la segmentation de données 3D afin d'identifier de nouvelles classes d'objets.
― 8 min lire
Présentation d'une nouvelle méthode pour une meilleure segmentation d'images sans avoir besoin de beaucoup d'étiquetage.
― 8 min lire
GLARE améliore les images en basse lumière grâce à une approche de codebook unique et des contrôles utilisateur.
― 7 min lire
Cette étude examine comment les méthodes VPR modernes améliorent la fusion de sous-cartes dans les systèmes SLAM visuels.
― 8 min lire