RayMVSNet et sa mise à jour améliorent la précision de la modélisation 3D à partir d'images 2D.
― 7 min lire
La science de pointe expliquée simplement
RayMVSNet et sa mise à jour améliorent la précision de la modélisation 3D à partir d'images 2D.
― 7 min lire
Explore le fonctionnement et les améliorations des Transformers dans différentes tâches de traitement de données.
― 5 min lire
Présentation d'une nouvelle méthode pour une animation fluide des poses humaines dans les vidéos.
― 7 min lire
ReSample utilise des modèles de diffusion latente pour améliorer la reconstruction d'images dans diverses applications.
― 10 min lire
Comment les modèles pré-entraînés impactent la performance sur de nouvelles données.
― 6 min lire
Une nouvelle méthode améliore les patchs adversariaux, combinant efficacité de mélange et apparence naturelle.
― 10 min lire
SEED relie les images et le texte, améliorant la façon dont les machines traitent l'info visuelle et écrite.
― 6 min lire
Nouvelle méthode améliore la détection de plusieurs objets en mouvement dans les images.
― 6 min lire
Explorer le potentiel des modèles à poids liés multi-masque en apprentissage automatique.
― 7 min lire
Un nouveau cadre améliore la détection d'objets 3D en s'attaquant aux défis de l'adaptation au domaine.
― 7 min lire
Une nouvelle méthode améliore l'appariement de graphes sans données étiquetées en utilisant la cohérence des cycles.
― 8 min lire
Une nouvelle méthode améliore l'efficacité et la performance dans les tâches vision-langage.
― 8 min lire
Une nouvelle technique pour une classification d'image plus efficace avec des données limitées.
― 7 min lire
Une nouvelle méthode utilise des maths basiques pour analyser le contenu vidéo de manière efficace.
― 6 min lire
Une nouvelle méthode améliore la vision par ordinateur en faible luminosité sans données d'entraînement nocturne.
― 6 min lire
Explorer des modèles de diffusion pour la génération et la classification d'images.
― 7 min lire
Un nouveau modèle améliore les connexions entre le texte, les images et l'audio.
― 8 min lire
Un nouveau modèle qui améliore la performance des tâches visuelles en combinant des CNN et des Transformers.
― 7 min lire
Le cadre MonoLiG améliore la détection 3D en utilisant des caméras monoculaires et des données LiDAR.
― 8 min lire
NORIS améliore la sélection d'images pour entraîner des modèles de détection d'objets de manière efficace.
― 9 min lire
Robust-Depth améliore l'estimation de la profondeur dans différentes conditions météorologiques.
― 10 min lire
Une nouvelle méthode améliore la génération d'images en utilisant des données étiquetées et non étiquetées moins fiables.
― 8 min lire
Le cadre HST montre des améliorations significatives dans le suivi des objets à travers les images vidéo.
― 7 min lire
LOAF propose un nouveau jeu de données pour détecter des personnes en utilisant des caméras fisheye aériennes.
― 9 min lire
Une nouvelle méthode améliore la façon dont les machines répondent aux questions sur les images.
― 7 min lire
SDS-CLIP améliore les capacités de raisonnement image-texte de CLIP.
― 8 min lire
RepViT combine des CNN et des ViTs pour des appli de vision mobile efficaces.
― 7 min lire
Le modèle ConViT améliore la reconnaissance des actions humaines sur des images fixes en utilisant l'apprentissage profond.
― 8 min lire
Des recherches montrent un nouveau jeu de données qui améliore la performance des modèles VQA au fil du temps.
― 7 min lire
OnlineRefer améliore la segmentation d'objets vidéo en reliant les images grâce à la propagation de requêtes.
― 8 min lire
Cette étude évalue l'efficacité des modèles VQA pour les scénarios de conduite.
― 7 min lire
Une méthode pour le ancrage visuel 3D utilisant un minimum d'annotations.
― 6 min lire
Une nouvelle méthode améliore l'identification des personnes dans les images grâce à une extraction de caractéristiques avancée.
― 7 min lire
LW PLG-ViT offre une performance efficace pour les tâches visuelles sur des appareils avec des ressources limitées.
― 6 min lire
Un nouveau module améliore l'estimation de pose en 3D en intégrant des infos sur l'action.
― 7 min lire
Une nouvelle méthode améliore la régression ordinale en distinguant mieux les catégories proches.
― 6 min lire
Une nouvelle méthode améliore les nuages de points pour une meilleure analyse 3D.
― 5 min lire
Cet article parle d'un nouveau modèle pour améliorer la perception de la profondeur des robots en utilisant plusieurs capteurs.
― 11 min lire
De meilleures légendes peuvent améliorer la performance des modèles multimodaux en utilisant des images trouvées sur le web.
― 8 min lire
Un ensemble de données révolutionnaire vise à améliorer la précision du rendu humain dans les médias numériques.
― 5 min lire