Adapter DINOv2 améliore la segmentation BEV pour des voitures autonomes plus sûres.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 6 min lire
La science de pointe expliquée simplement
Adapter DINOv2 améliore la segmentation BEV pour des voitures autonomes plus sûres.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 6 min lire
Un nouveau dataset regroupe des données RGB et de caméras événementielles pour améliorer l'analyse faciale.
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 11 min lire
SteeredMarigold améliore les cartes de profondeur, aidant les robots à naviguer et interagir.
Jakub Gregorek, Lazaros Nalpantidis
― 7 min lire
Voici GRIN, un nouveau modèle pour l'estimation de profondeur avec des données éparses.
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 9 min lire
NVLM améliore la compréhension du langage et des visuels par l'IA pour des tâches variées.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 7 min lire
Ce boulot booste la précision de CLIP en s'attaquant au chevauchement intra-modal avec des adaptateurs légers.
Alexey Kravets, Vinay Namboodiri
― 7 min lire
Un nouveau cadre améliore la segmentation avec peu d'exemples.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 7 min lire
SLAck propose une nouvelle façon de suivre des objets variés dans les vidéos.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 8 min lire
Un référentiel pour la segmentation à faible échantillonnage généralisée en télédétection est introduit.
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 6 min lire
Une nouvelle méthode améliore l'estimation de pose en utilisant des images RGB avec des données de profondeur.
Alessandro Simoni, Francesco Marchetti, Guido Borghi
― 8 min lire
La méthode TRIM réduit les tokens d'image dans les modèles de langage multimodaux tout en maintenant la performance.
Dingjie Song, Wenjun Wang, Shunian Chen
― 6 min lire
Un nouveau cadre estime avec précision la profondeur à partir d'images uniques floues.
Jinchang Zhang, Ningning Xu, Hao Zhang
― 7 min lire
Une nouvelle méthode améliore l'efficacité de la capture de données 3D pour diverses applications.
Zhizhou Jia, Shaohui Zhang, Qun Hao
― 8 min lire
WaveMixSR-V2 transforme les images basse résolution en sorties de haute qualité de manière efficace.
Pranav Jeevan, Neeraj Nixon, Amit Sethi
― 6 min lire
Ce papier compare les Vision Transformers et les CNN pour classifier des images de sonar latéral.
BW Sheffield, Jeffrey Ellen, Ben Whitmore
― 8 min lire
Une nouvelle méthode améliore la façon dont les robots prédisent les futures scènes et les interactions entre objets.
Juana Valeria Hurtado, Riya Mohan, Abhinav Valada
― 8 min lire
Une nouvelle approche à double voie améliore la reconnaissance des objets pour les robots dans des environnements difficiles.
Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat
― 7 min lire
Un aperçu des méthodes pour détecter des données inattendues dans les modèles d'IA.
Shuo Lu, Yingsheng Wang, Lijun Sheng
― 8 min lire
Une nouvelle méthode améliore l'estimation de la position de la caméra dans des conditions d'éclairage et de surface difficiles.
Lei Cheng, Junpeng Hu, Haodong Yan
― 6 min lire
Une nouvelle méthode améliore l'apprentissage de nouvelles classes avec peu de données.
Ye Wang, Yaxiong Wang, Guoshuai Zhao
― 10 min lire
RockTrack améliore le suivi d'objets 3D avec flexibilité et précision dans différents environnements.
Xiaoyu Li, Peidong Li, Lijun Zhao
― 7 min lire
Un nouveau concept évalue l'utilité des caractéristiques d'image pour améliorer les tâches de vision par ordinateur.
Yash Turkar, Timothy Chase, Christo Aluckal
― 8 min lire
MGSO améliore la cartographie en temps réel et la localisation pour les robots en utilisant une technologie à caméra unique.
Yan Song Hu, Nicolas Abboud, Muhammad Qasim Ali
― 7 min lire
Cette recherche teste un outil pour améliorer la précision des modèles de langage basés sur le trafic.
Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu
― 6 min lire
Un nouveau cadre améliore la détection des relations entre objets dans les vidéos, rendant ça plus précis et adaptable.
Yongqi Wang, Shuo Yang, Xinxiao Wu
― 8 min lire
Une nouvelle méthode pour améliorer la précision de détection des défauts industriels.
Geonuk Kim
― 8 min lire
AllMatch utilise efficacement des données non étiquetées pour améliorer l'apprentissage 3D.
Sneha Paul, Zachary Patterson, Nizar Bouguila
― 7 min lire
Une nouvelle méthode améliore l'apprentissage des petits modèles à partir des plus grands en utilisant la similitude d'espace.
Aditya Singh, Haohan Wang
― 8 min lire
Une nouvelle approche améliore le nettoyage des données pour un meilleur entraînement des modèles.
Steven Grosz, Rui Zhao, Rajeev Ranjan
― 8 min lire
GCC-UNet améliore la segmentation des vaisseaux rétiniens pour un meilleur diagnostic des maladies.
Xinxu Wei, Xi Lin, Haiyun Liu
― 10 min lire
Une nouvelle méthode pour segmenter des images sans se baser sur des classes prédéfinies.
Sebastian Dille, Ari Blondal, Sylvain Paris
― 7 min lire
Les techniques d'IA améliorent la détection des points clés pour des interactions robotiques au top.
Niloufar Amiri, Guanghui Wang, Farrokh Janabi-Sharifi
― 8 min lire
Cet article examine de nouvelles approches pour améliorer les LLM en utilisant des fonctions de perte de la vision par ordinateur.
Daniele Rege Cambrin, Giuseppe Gallipoli, Irene Benedetto
― 8 min lire
MaPPER propose une nouvelle méthode pour une compréhension image-texte efficace.
Ting Liu, Zunnan Xu, Yue Hu
― 7 min lire
Une nouvelle méthode améliore la précision de détection de texte en se concentrant sur les caractères individuels.
Xingtao Lin, Heqian Qiu, Lanxiao Wang
― 7 min lire
Cette étude analyse la performance des KAN dans l'apprentissage continu en utilisant le dataset MNIST.
Alessandro Cacciatore, Valerio Morelli, Federica Paganica
― 7 min lire
Une nouvelle méthode pour améliorer les modèles de deep learning contre les attaques adversariales.
Hossein Goli, Farzan Farnia
― 8 min lire
FullAnno améliore les annotations d'image pour un meilleur entraînement des modèles multimodaux.
Jing Hao, Yuxiang Zhao, Song Chen
― 7 min lire
Une nouvelle méthode pour débruiter les vidéos qui améliore la qualité sans jeux de données appariés.
Zixuan Fu, Lanqing Guo, Chong Wang
― 7 min lire
Un nouveau cadre améliore la planification de l'IA en renforçant la compréhension visuelle et le raisonnement.
Yew Ken Chia, Qi Sun, Lidong Bing
― 7 min lire