GMSF propose une nouvelle façon d'estimer le mouvement dans l'espace 3D.
― 7 min lire
La science de pointe expliquée simplement
GMSF propose une nouvelle façon d'estimer le mouvement dans l'espace 3D.
― 7 min lire
De nouvelles méthodes améliorent la reconstruction 3D des surfaces réfléchissantes en utilisant des techniques de rendu neural.
― 9 min lire
Cet article explore la nécessité du composant de requête dans les modèles de transformateurs.
― 4 min lire
Un nouveau modèle améliore la génération de données à partir de plusieurs types d'entrée.
― 8 min lire
T2FNorm améliore la capacité des réseaux de neurones à détecter des données inconnues.
― 9 min lire
Découvre le YOLO pour la détection d'objets en temps réel.
― 6 min lire
Apprends à créer un système qui identifie les roues de véhicules dans différentes conditions.
― 8 min lire
Les chercheurs utilisent des images pour apprendre aux robots comment interagir avec le monde.
― 6 min lire
Un nouveau cadre améliore la précision de la localisation d'objets 3D avec une seule caméra.
― 7 min lire
Cette étude examine comment les modèles d'apprentissage profond interprètent la logique dans les diagrammes en utilisant des illusions visuelles.
― 8 min lire
Nouveau jeu de données améliore la capacité de questions sur les images dans le traitement de la langue hausa.
― 7 min lire
Caterpillar est une nouvelle architecture MLP pour capturer les détails locaux des images.
― 8 min lire
Une nouvelle méthode pour faire tourner le modèle X3D sur des FPGA pour une analyse vidéo efficace.
― 8 min lire
Un cadre pour améliorer les modèles génératifs en utilisant des modèles de diffusion pré-entraînés.
― 10 min lire
Une nouvelle approche combine les méthodes par noyau avec l'apprentissage profond pour de meilleures performances.
― 7 min lire
Une nouvelle méthode améliore les modèles vision-langage grâce à des retours en temps réel pour de meilleures performances.
― 7 min lire
LayoutMask améliore l'interaction entre le texte et la mise en page pour une meilleure compréhension des documents.
― 7 min lire
Une nouvelle approche pour améliorer la génération de graphes de scènes pour une meilleure compréhension visuelle.
― 13 min lire
PaLI-X combine des compétences en vision et en langage, excelle dans plein de tâches différentes.
― 9 min lire
Cette étude évalue différentes techniques pour détecter des formes 3D en rotation.
― 10 min lire
De nouveaux réseaux de neurones apprennent les transformations directement à partir des données, ce qui améliore l'efficacité et la compréhension des symétries.
― 9 min lire
SlimFit réduit l'utilisation de mémoire pour les modèles de transformeurs pendant le fine-tuning.
― 7 min lire
Cette méthode améliore les modèles de vision et de langage sans avoir besoin d'images étiquetées.
― 8 min lire
Une nouvelle méthode améliore la capacité des modèles d'IA à détecter des objets en utilisant le contexte.
― 8 min lire
Une méthode pour améliorer l'efficacité des transformateurs de vision sans sacrifier la performance.
― 5 min lire
Nouvelle approche qui améliore la façon dont l'IA reconnaît les combinaisons uniques d'attributs et d'objets.
― 5 min lire
ReSup améliore la reconnaissance des émotions en gérant efficacement les étiquettes bruyantes.
― 6 min lire
Nouveau cadre améliore la correspondance d'images pour des applis variées en vision par ordinateur.
― 8 min lire
Occ-BEV améliore la perception des véhicules grâce à une modélisation 3D multi-caméra et à l'intégration de données.
― 8 min lire
Une revue des petits Vision Transformers adaptés aux applis mobiles.
― 7 min lire
Une nouvelle méthode améliore la façon dont on traite les données complexes en reconnaissant les symétries.
― 7 min lire
Une nouvelle méthode combine NeRF et MDE pour améliorer la modélisation 3D à partir de quelques images.
― 10 min lire
Des méthodes innovantes révèlent des failles dans les modèles de reconnaissance d'images.
― 10 min lire
DisCLIP améliore la précision des descriptions d'images en utilisant des modèles visuels-linguistiques avancés.
― 10 min lire
Présentation d'un modèle qui intègre différents types de données pour des tâches complexes.
― 7 min lire
Une nouvelle méthode améliore la précision de la réponse à des questions visuelles en utilisant des connaissances externes.
― 7 min lire
Une nouvelle méthode améliore la précision pour estimer les poses humaines à partir de vidéos.
― 7 min lire
Une nouvelle méthode améliore la précision pour reconnaître des classes moins courantes dans des ensembles de données déséquilibrés.
― 8 min lire
Un nouveau modèle s'attaque aux défis de l'adaptation de domaine pour l'apprentissage automatique.
― 8 min lire
Une nouvelle méthode améliore la précision de la reconnaissance de l'écriture manuscrite en bangla.
― 6 min lire