Découvrez DOMA, un modèle pour prédire le mouvement dans des scènes 3D.
― 8 min lire
La science de pointe expliquée simplement
Découvrez DOMA, un modèle pour prédire le mouvement dans des scènes 3D.
― 8 min lire
Un nouveau cadre améliore l'enregistrement de nuages de points en utilisant des marqueurs fiduciaires LiDAR.
― 8 min lire
Une nouvelle méthode améliore la précision des petits modèles en utilisant des données synthétiques.
― 8 min lire
Une nouvelle méthode améliore la classification d'images en utilisant des descriptions textuelles détaillées.
― 9 min lire
MambaDepth propose une nouvelle façon d'estimer la profondeur à partir d'images uniques.
― 10 min lire
Une méthode pour équilibrer la précision et le coût dans les modèles de classification d'images.
― 12 min lire
Une nouvelle méthode crée rapidement des modèles 3D détaillés à partir d'images uniques.
― 8 min lire
Examiner le rôle des neurones dans les modèles CLIP et leurs interactions.
― 9 min lire
Ce document explore comment les MLLMs stockent et transfèrent des informations pour répondre à des questions visuelles.
― 8 min lire
MASA apprend le suivi d'objets en utilisant des images non étiquetées, ce qui améliore son adaptabilité dans des situations variées.
― 7 min lire
ReDistill propose une solution innovante pour réduire la mémoire maximale dans les réseaux de neurones.
― 9 min lire
Cet article examine comment les modèles de diffusion améliorent la génération et la manipulation d'images.
― 8 min lire
Une nouvelle méthode améliore la segmentation d'images en permettant un étiquetage textuel flexible.
― 8 min lire
Un système qui crée et édite des objets tenus par des mains sur des images.
― 13 min lire
Une nouvelle méthode améliore le rendu des images aériennes en utilisant moins d'entrées.
― 11 min lire
Un aperçu de l'intersection entre les systèmes de vidéo et de compréhension du langage.
― 9 min lire
Une étude sur l'efficacité de différents modèles légers dans la classification d'images.
― 9 min lire
Une nouvelle méthode améliore les attaques ciblées en utilisant des échantillons faciles dans les réseaux de neurones.
― 7 min lire
Cette étude explore des méthodes pour améliorer les modèles vision-langage en utilisant des images générées.
― 7 min lire
F-LMM combine des compétences de conversation avec un ancrage visuel pour améliorer les interactions avec l'IA.
― 8 min lire
Gentle-CLIP améliore l'alignement des données en utilisant de nouvelles méthodes et réduit le besoin de données étiquetées.
― 6 min lire
H-GLaD améliore la distillation des jeux de données, rendant l'entraînement des modèles plus efficace et performant.
― 9 min lire
Une nouvelle méthode améliore l'apprentissage continu en IA en réduisant l'oubli.
― 7 min lire
Un aperçu des erreurs dans le SLAM et le rôle des Jacobiennes dans l'optimisation.
― 8 min lire
Une nouvelle approche améliore la précision des systèmes de localisation en s'attaquant aux changements de perspective des capteurs.
― 9 min lire
Une nouvelle méthode améliore la précision de détection des actions dans des scènes vidéo qui se chevauchent.
― 9 min lire
Analyser l'efficacité des ViTs pour la reconnaissance des textures par rapport aux méthodes traditionnelles.
― 10 min lire
De nouvelles techniques améliorent les tâches de contrôle robotique grâce aux Vision Transformers.
― 7 min lire
De nouvelles méthodes réduisent les artefacts pour une restauration d'image plus claire.
― 8 min lire
De nouvelles méthodes améliorent la précision de l'estimation de la profondeur en utilisant des données synthétiques et du monde réel.
― 10 min lire
Un nouveau cadre améliore la visibilité des objets dans des images complexes grâce à des méthodes innovantes.
― 9 min lire
Un nouveau modèle améliore la façon dont les robots comprennent leur environnement en 3D.
― 10 min lire
Une nouvelle approche améliore l'apprentissage à partir de données image-texte entrelacées.
― 9 min lire
BBQ mélange des données visuelles et du langage pour une meilleure récupération d'objets en 3D.
― 8 min lire
NutNet améliore les systèmes de détection d'objets en identifiant efficacement les patchs adverses.
― 9 min lire
De nouvelles méthodes améliorent la reconnaissance d'images pour identifier les gens dans différents environnements.
― 7 min lire
Un nouveau point de référence évalue comment les LVLM s'appuient sur les connaissances linguistiques.
― 8 min lire
Un nouveau système permet de créer des modèles 3D à partir d'images réelles uniques.
― 7 min lire
Une nouvelle approche pour la segmentation d'objets vidéo améliore la précision en limitant l'utilisation de la mémoire.
― 10 min lire
ConSoR améliore la compréhension des connexions sociales grâce à l'analyse du contexte visuel.
― 9 min lire