AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.
― 7 min lire
La science de pointe expliquée simplement
AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.
― 7 min lire
Une nouvelle méthode améliore la reconnaissance des personnes en utilisant des données faiblement étiquetées.
― 8 min lire
Cette étude examine une nouvelle méthode de correspondance d'images axée sur les zones texturées.
― 9 min lire
Cet article parle d'une méthode pour apprendre des caractéristiques visuelles à partir de données vidéo.
― 8 min lire
Cette étude se concentre sur l'amélioration des méthodes d'apprentissage continu dans les tâches sémantiques en 3D.
― 9 min lire
Une nouvelle approche pour améliorer les performances du modèle dans différentes conditions de données.
― 6 min lire
MIM-Refiner améliore la performance du modèle MIM grâce à un apprentissage des caractéristiques affiné.
― 7 min lire
Une nouvelle approche pour clarifier comment les images influencent les décisions des réseaux neuronaux.
― 6 min lire
SpLiCE aide à clarifier les données denses de CLIP pour mieux comprendre.
― 7 min lire
De nouvelles méthodes améliorent la compréhension des scènes 3D grâce à une conscience sémantique dans les NeRFs.
― 9 min lire
Une méthode pour l'estimation de la posture 3D du corps qui gère les problèmes d'occlusion.
― 7 min lire
Une nouvelle méthode améliore la détection d'objets dans les documents en utilisant des structures de graphes.
― 11 min lire
Une nouvelle approche améliore les tâches de reconnaissance visuelle grâce à des mécanismes d'attention résiduelle.
― 11 min lire
Un aperçu du potentiel et des défis des capteurs neuromorphiques pour l'analyse faciale.
― 11 min lire
Une étude sur comment l'IA apprend les relations entre objets à travers des tâches de raisonnement visuel.
― 10 min lire
Les caméras basées sur des événements améliorent la lecture de codes-barres flous et de panneaux.
― 8 min lire
Utiliser des caméras et des repères améliore le suivi de localisation dans des environnements sans GPS.
― 8 min lire
De nouvelles méthodes aident les robots à naviguer en utilisant des entrées visuelles sans cartes complexes.
― 12 min lire
Cet article explore comment l'augmentation de données améliore l'apprentissage dans l'apprentissage par renforcement profond.
― 9 min lire
Une nouvelle méthode améliore la façon dont les robots comprennent leur environnement pour une meilleure navigation.
― 9 min lire
Examiner comment l'auto-attention impacte la performance du modèle dans différentes tâches.
― 8 min lire
Une nouvelle approche améliore les prédictions pour des structures de graphes diverses en utilisant PM-FGW.
― 9 min lire
Un aperçu de comment les VLMs combinent le traitement d'images et de textes.
― 8 min lire
Une nouvelle méthode pour un suivi de mouvement 3D précis en utilisant des données vidéo.
― 9 min lire
Une nouvelle approche améliore la détection de données invisibles dans les modèles d'apprentissage automatique.
― 10 min lire
Cet article parle des défis et des solutions pour améliorer la performance de l'apprentissage par renforcement visuel.
― 9 min lire
Exploiter les composants visuels et textuels de CLIP améliore les méthodes de détection des deepfakes.
― 10 min lire
Explorer l'impact des nuages de points 3D sur les industries et les applications d'apprentissage profond.
― 7 min lire
MuLan améliore la génération d'images à partir de texte en décomposant les tâches en étapes plus simples.
― 7 min lire
Présentation de la distance de Wasserstein tranchée sphérique stéréographique pour une comparaison efficace des données sphériques.
― 6 min lire
Améliorer la compréhension des images et du texte par les ordinateurs grâce à des techniques d'entraînement avancées.
― 10 min lire
Un nouveau modèle améliore la compréhension 3D en utilisant des ensembles de données variés pour de meilleures performances.
― 8 min lire
Explorer les avancées et les applications des transformateurs linéaires dans l'apprentissage automatique.
― 6 min lire
DeiSAM améliore la compréhension des images en combinant des réseaux de neurones avec un raisonnement logique.
― 8 min lire
Des techniques innovantes améliorent l'unicité des légendes d'images en utilisant des références de vérité terrain.
― 8 min lire
De nouveaux solveurs améliorent la comparaison de données à travers différents espaces.
― 7 min lire
Une nouvelle méthode améliore la précision de la détection des ombres dans les zones peu éclairées.
― 9 min lire
De nouvelles méthodes améliorent la façon dont les modèles apprennent des données pour de meilleures prédictions.
― 7 min lire
Nouveau jeu de données qui améliore la capacité des machines à traiter des questions liées aux images.
― 7 min lire
Un nouveau modèle améliore la génération de graphes de scènes dans les contextes chirurgicaux.
― 10 min lire