Cette étude évalue comment les grands modèles gèrent plusieurs objets dans les images.
― 8 min lire
La science de pointe expliquée simplement
Cette étude évalue comment les grands modèles gèrent plusieurs objets dans les images.
― 8 min lire
Une nouvelle méthode améliore la compréhension du contenu vidéo par l'IA.
― 7 min lire
Une nouvelle méthode améliore le timing et l'efficacité de l'entraînement des CNN.
― 6 min lire
Un aperçu de comment les modèles d'apprentissage profond apprennent et priorisent les caractéristiques.
― 6 min lire
Explorer LaFAM : Une méthode sans étiquette pour mieux comprendre les décisions de l'IA.
― 7 min lire
TrCAM-V propose une nouvelle façon de localiser des objets dans des vidéos avec un minimum d'infos.
― 7 min lire
RHRSegNet améliore la segmentation sémantique pour les images de nuit, super important pour la conduite autonome.
― 7 min lire
Une nouvelle méthode améliore la segmentation des parties du corps dans des images complexes.
― 6 min lire
Une nouvelle méthode améliore la segmentation d'objets vidéo en s'appuyant sur les relations contextuelles.
― 8 min lire
Une nouvelle méthode améliore la segmentation d'objets dans les vidéos avec des données faiblement étiquetées.
― 7 min lire
De nouvelles méthodes améliorent la détection des objets inclinés dans les images aériennes.
― 7 min lire
L'Architecture Réseau Dynamique propose une nouvelle approche des systèmes visuels intelligents.
― 5 min lire
Une étude montre un meilleur appariement des véhicules grâce à des zones de capture d'images stratégiques.
― 8 min lire
Une nouvelle approche améliore la compression des ensembles de données et l'efficacité de l'entraînement des modèles.
― 8 min lire
Utiliser des vidéos non étiquetées pour améliorer la reconnaissance d'actions dans des vidéos longues.
― 7 min lire
Une méthode pour aider les robots à évaluer les formes et les positions des objets.
― 9 min lire
Une nouvelle méthode s'attaque à la surconfiance dans les systèmes qui reconnaissent plusieurs étiquettes.
― 7 min lire
Améliorer la détection avec des images RGB et de profondeur pour relever les défis du monde réel.
― 9 min lire
Un nouveau modèle combine les ConvNets et les Transformers pour améliorer la classification d'images.
― 6 min lire
Le cadre CEIA améliore la compréhension entre les données d'événements et les images.
― 7 min lire
Une nouvelle méthode améliore l'augmentation de données pour une meilleure qualité d'image.
― 7 min lire
Un aperçu des méthodes d'apprentissage profond pour la modélisation 3D à partir d'images.
― 8 min lire
Une nouvelle méthode améliore la précision dans l'alignement des images au fil du temps.
― 7 min lire
MambaVision combine Mamba et Transformers pour une meilleure reconnaissance d'image.
― 6 min lire
Une nouvelle méthode qui améliore la détection d'objets en utilisant des étiquettes bruitées venant de crowdsourcing.
― 8 min lire
Nouvelle approche aide les robots à apprendre des tâches en générant des images d'actions.
― 10 min lire
OV-DINO améliore la détection d'objets en reconnaissant des noms pas vus pendant l'entraînement.
― 8 min lire
Une nouvelle approche améliore l'identification des véhicules sous différents angles de caméra.
― 8 min lire
PaliGemma combine compréhension d'image et de texte pour des applications polyvalentes.
― 8 min lire
Améliorer les images synthétiques pour booster les performances des systèmes de reconnaissance faciale.
― 9 min lire
DisMAE améliore la généralisation des modèles entre les domaines en utilisant des données non étiquetées.
― 6 min lire
Le DINO suisse améliore la reconnaissance des objets personnels dans les robots domestiques et les appareils mobiles.
― 8 min lire
Une nouvelle méthode pour combiner plusieurs scans afin d'améliorer la précision de l'enregistrement des nuages de points.
― 8 min lire
Des méthodes innovantes améliorent la classification des champignons toxiques grâce au deep learning.
― 7 min lire
Une nouvelle méthode réduit la dépendance aux annotations humaines dans la segmentation d'images.
― 7 min lire
LAPT simplifie la détection OOD, rendant l'IA plus fiable dans des situations incertaines.
― 6 min lire
Le framework KGpose améliore la reconnaissance d'objets en estimant des poses 6D à partir d'images.
― 8 min lire
Un aperçu des techniques et applications dans le suivi multi-objets.
― 8 min lire
BiEquiFormer améliore l'enregistrement de nuages de points pour un alignement 3D précis.
― 7 min lire
Les modèles VQA peuvent révéler des infos privées malgré des techniques avancées.
― 6 min lire