Une nouvelle méthode utilise des points extrêmes pour une segmentation d'instance efficace avec un minimum d'annotation.
― 8 min lire
La science de pointe expliquée simplement
Une nouvelle méthode utilise des points extrêmes pour une segmentation d'instance efficace avec un minimum d'annotation.
― 8 min lire
Cette étude examine comment de petits changements peuvent induire en erreur les CNN dans des tâches critiques.
― 6 min lire
Une plongée profonde sur comment l'incertitude affecte les prédictions des réseaux de neurones.
― 8 min lire
Un nouveau cadre améliore l'adaptabilité des modèles aux données inattendues en vision par ordinateur.
― 9 min lire
Cette étude explore de nouvelles méthodes pour détecter les piétons par mauvais temps.
― 8 min lire
DroneVis simplifie les tâches de vision par ordinateur pour les drones, améliorant l'utilisabilité et la fonctionnalité.
― 9 min lire
Une nouvelle méthode améliore la performance des modèles vision-langage avec des classes connues et inconnues.
― 8 min lire
Une étude sur la performance des modèles de diffusion par rapport aux GANs pour l'amélioration de la qualité des images.
― 9 min lire
Explorer des méthodes pour améliorer la précision de localisation dans les images aériennes.
― 7 min lire
Diff-Tuning améliore les modèles de diffusion pour une meilleure génération d'images et d'adaptation.
― 6 min lire
Combiner des modèles de langage visuel avec l'apprentissage par renforcement améliore l'efficacité d'accomplissement des tâches.
― 7 min lire
De nouvelles méthodes améliorent la compréhension par les machines des interactions dynamiques dans le contenu vidéo.
― 9 min lire
De nouvelles méthodes améliorent l'estimation de l'orientation de la tête pour plus de précision dans des situations réelles.
― 12 min lire
TransCLIP améliore les prédictions en intégrant des données visuelles et textuelles dans les modèles de vision-langage.
― 8 min lire
Cette étude évalue les trackers à transformateur face aux attaques adversariales dans le suivi d'objets.
― 7 min lire
SpatialRGPT améliore la compréhension de l'agencement des objets dans les Modèles de Langage Visuel.
― 9 min lire
Un cadre pour relier le traitement d'images et l'interprétation de texte dans les modèles de vision.
― 7 min lire
Une méthode utilisant MCMC pour une génération efficace d'échantillons négatifs dans l'apprentissage contrastif.
― 7 min lire
Cette étude examine les méthodes de regroupement d'images sur de grands ensembles de données, mettant en évidence les variations de performance.
― 8 min lire
Un nouveau modèle améliore les prédictions des interactions entre objets en utilisant des vidéos et des images.
― 7 min lire
Présentation de CUT, un cadre pour la génération d'anomalies réalistes et diversifiées sans formation supplémentaire.
― 8 min lire
Cette recherche montre comment les images et le texte interagissent dans les tâches de raisonnement.
― 9 min lire
Une nouvelle méthode pour améliorer les mécanismes d'attention dans le traitement de données complexes.
― 9 min lire
Open-YOLO 3D améliore la segmentation d'instances 3D avec rapidité et précision.
― 8 min lire
Une nouvelle approche améliore l'apprentissage visuel en intégrant la représentation d'objets en 3D.
― 10 min lire
Cette étude examine comment les modèles préentraînés regroupent des données invisibles.
― 8 min lire
Découvre comment MetaMixer transforme l'efficacité et l'adaptabilité des modèles.
― 8 min lire
Des recherches montrent comment les patchs de déclenchement influencent la génération d'images dans les modèles de diffusion.
― 8 min lire
DiffCut propose une nouvelle façon de segmenter les images sans données étiquetées.
― 6 min lire
Gear-NeRF améliore le rendu de scènes 3D dynamiques en utilisant des techniques sensibles au mouvement.
― 9 min lire
Découvrez DOMA, un modèle pour prédire le mouvement dans des scènes 3D.
― 8 min lire
Un nouveau cadre améliore l'enregistrement de nuages de points en utilisant des marqueurs fiduciaires LiDAR.
― 8 min lire
Une nouvelle méthode améliore la précision des petits modèles en utilisant des données synthétiques.
― 8 min lire
Une nouvelle méthode améliore la classification d'images en utilisant des descriptions textuelles détaillées.
― 9 min lire
MambaDepth propose une nouvelle façon d'estimer la profondeur à partir d'images uniques.
― 10 min lire
Une méthode pour équilibrer la précision et le coût dans les modèles de classification d'images.
― 12 min lire
Une nouvelle méthode crée rapidement des modèles 3D détaillés à partir d'images uniques.
― 8 min lire
Examiner le rôle des neurones dans les modèles CLIP et leurs interactions.
― 9 min lire
Ce document explore comment les MLLMs stockent et transfèrent des informations pour répondre à des questions visuelles.
― 8 min lire
MASA apprend le suivi d'objets en utilisant des images non étiquetées, ce qui améliore son adaptabilité dans des situations variées.
― 7 min lire