Cette méthode améliore l'interprétabilité en segmentation sémantique en utilisant des prototypes et une représentation multi-échelle.
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 6 min lire
La science de pointe expliquée simplement
Cette méthode améliore l'interprétabilité en segmentation sémantique en utilisant des prototypes et une représentation multi-échelle.
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 6 min lire
MAC-VO améliore l'estimation de la position de la caméra dans des environnements difficiles.
Yuheng Qiu, Yutian Chen, Zihao Zhang
― 6 min lire
Une étude compare des CNN pré-entraînés et des modèles de base pour la récupération d'images médicales.
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia
― 9 min lire
FKAN améliore la représentation d'images et de formes 3D en utilisant des fonctions d'activation apprenables.
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari
― 7 min lire
Une nouvelle méthode améliore la compréhension des actions humaines par l'IA grâce à des données spécialisées.
Dewen Zhang, Wangpeng An, Hayaru Shouno
― 9 min lire
Cette méthode estime les orientations sans données étiquetées en utilisant l'apprentissage profond.
Shiqi Li, Jihua Zhu, Yifan Xie
― 6 min lire
Ce papier évalue la capacité des VLM à raisonner sur les tailles et les distances.
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler
― 7 min lire
Aperçu des techniques pour détecter et classer les actions humaines.
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1
― 6 min lire
SparX améliore le traitement d'images en imitant le système visuel humain.
Meng Lou, Yunxiang Fu, Yizhou Yu
― 7 min lire
Des recherches montrent le potentiel des LLM pour reconnaître des objets dans des visuels basés sur des événements.
Zongyou Yu, Qiang Qu, Xiaoming Chen
― 8 min lire
L'intégration des infos de mouvement améliore la précision de détection d'objets dans les images.
Cagri Gungor, Adriana Kovashka
― 7 min lire
ScaleFlow++ améliore l'estimation de mouvement 3D avec des caméras monoculaires pour différentes applis.
Han Ling, Yinghui Sun, Quansen Sun
― 7 min lire
NSSR-DIL transforme les images de mauvaise qualité efficacement sans avoir besoin de gros ensembles de données.
Sree Rama Vamsidhar S, Rama Krishna Gorthi
― 6 min lire
Une approche d'apprentissage machine qui utilise le mouvement pour un apprentissage visuel efficace des données.
Simone Marullo, Matteo Tiezzi, Marco Gori
― 9 min lire
Ce cadre permet d'apprendre rapidement de nouvelles catégories d'objets avec peu de données.
Yanan Jian, Fuxun Yu, Qi Zhang
― 7 min lire
Un nouveau système améliore la vitesse et la précision du marquage vidéo.
Alexandru Bobe, Jan C. van Gemert
― 7 min lire
KAT améliore l'apprentissage profond en utilisant des KANs avancés pour remplacer les MLPs.
Xingyi Yang, Xinchao Wang
― 7 min lire
Un nouveau cadre améliore la compréhension des actions humaines grâce aux données de squelette.
Lehong Wu, Lilang Lin, Jiahang Zhang
― 8 min lire
Une nouvelle méthode améliore la capacité des robots à saisir des objets en utilisant des commandes en langage naturel.
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri
― 7 min lire
FOLK améliore l'apprentissage auto-supervisé grâce à un masquage de fréquence adaptatif et un design professeur-étudiant.
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi
― 6 min lire
Adapter DINOv2 améliore la segmentation BEV pour des voitures autonomes plus sûres.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 6 min lire
Un nouveau dataset regroupe des données RGB et de caméras événementielles pour améliorer l'analyse faciale.
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 11 min lire
SteeredMarigold améliore les cartes de profondeur, aidant les robots à naviguer et interagir.
Jakub Gregorek, Lazaros Nalpantidis
― 7 min lire
Voici GRIN, un nouveau modèle pour l'estimation de profondeur avec des données éparses.
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 9 min lire
NVLM améliore la compréhension du langage et des visuels par l'IA pour des tâches variées.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 7 min lire
Ce boulot booste la précision de CLIP en s'attaquant au chevauchement intra-modal avec des adaptateurs légers.
Alexey Kravets, Vinay Namboodiri
― 7 min lire
Un nouveau cadre améliore la segmentation avec peu d'exemples.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 7 min lire
SLAck propose une nouvelle façon de suivre des objets variés dans les vidéos.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 8 min lire
Un référentiel pour la segmentation à faible échantillonnage généralisée en télédétection est introduit.
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 6 min lire
Une nouvelle méthode améliore l'estimation de pose en utilisant des images RGB avec des données de profondeur.
Alessandro Simoni, Francesco Marchetti, Guido Borghi
― 8 min lire
La méthode TRIM réduit les tokens d'image dans les modèles de langage multimodaux tout en maintenant la performance.
Dingjie Song, Wenjun Wang, Shunian Chen
― 6 min lire
Un nouveau cadre estime avec précision la profondeur à partir d'images uniques floues.
Jinchang Zhang, Ningning Xu, Hao Zhang
― 7 min lire
Une nouvelle méthode améliore l'efficacité de la capture de données 3D pour diverses applications.
Zhizhou Jia, Shaohui Zhang, Qun Hao
― 8 min lire
WaveMixSR-V2 transforme les images basse résolution en sorties de haute qualité de manière efficace.
Pranav Jeevan, Neeraj Nixon, Amit Sethi
― 6 min lire
Ce papier compare les Vision Transformers et les CNN pour classifier des images de sonar latéral.
BW Sheffield, Jeffrey Ellen, Ben Whitmore
― 8 min lire
Une nouvelle méthode améliore la façon dont les robots prédisent les futures scènes et les interactions entre objets.
Juana Valeria Hurtado, Riya Mohan, Abhinav Valada
― 8 min lire
Une nouvelle approche à double voie améliore la reconnaissance des objets pour les robots dans des environnements difficiles.
Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat
― 7 min lire
Un aperçu des méthodes pour détecter des données inattendues dans les modèles d'IA.
Shuo Lu, Yingsheng Wang, Lijun Sheng
― 8 min lire
Une nouvelle méthode améliore l'estimation de la position de la caméra dans des conditions d'éclairage et de surface difficiles.
Lei Cheng, Junpeng Hu, Haodong Yan
― 6 min lire
Une nouvelle méthode améliore l'apprentissage de nouvelles classes avec peu de données.
Ye Wang, Yaxiong Wang, Guoshuai Zhao
― 10 min lire