Recherche sur l'amélioration de l'estimation de la posture humaine grâce à des ensembles de données variés et à l'agrandissement des modèles.
― 8 min lire
La science de pointe expliquée simplement
Recherche sur l'amélioration de l'estimation de la posture humaine grâce à des ensembles de données variés et à l'agrandissement des modèles.
― 8 min lire
Une comparaison des mesures de qualité d'image dans la génération d'images moderne.
― 6 min lire
Cet article parle de l'intégration de l'apprentissage auto-supervisé et des modèles basés sur l'énergie dans l'apprentissage automatique.
― 8 min lire
Le nouveau modèle GazeCLIP améliore l'estimation du regard en combinant des données visuelles et des insights linguistiques.
― 8 min lire
GD-NeRF s'attaque au flou d'image dans la synthèse de nouvelles vues.
― 7 min lire
Une nouvelle méthode améliore la segmentation sémantique sans avoir besoin de données sources pendant l'adaptation.
― 6 min lire
Un nouveau modèle de réseau de neurones améliore la reconnaissance de texte dans divers tâches et domaines.
― 13 min lire
Nouveau cadre qui booste la performance des modèles avec des données de qualité.
― 9 min lire
Explore comment les modèles de diffusion améliorent la super-résolution dans différents domaines.
― 7 min lire
Une nouvelle méthode améliore l'estimation de la profondeur à partir d'images RGB uniques pour mieux détecter les objets en 3D.
― 9 min lire
De nouvelles techniques améliorent la performance des modèles en utilisant peu de données étiquetées.
― 10 min lire
Une nouvelle méthode améliore la génération d'échantillons positifs dans l'apprentissage auto-supervisé.
― 9 min lire
Un nouveau cadre améliore le raisonnement visuel en utilisant des modèles de langage comme contrôleurs.
― 7 min lire
Une nouvelle approche améliore la capacité des modèles génératifs à créer des images réalistes.
― 10 min lire
Examiner le rôle de l'apprentissage avec peu d'exemples dans les modèles de base multi-modaux.
― 10 min lire
Une nouvelle méthode améliore l'apprentissage de nouvelles classes avec moins de données.
― 5 min lire
Un nouveau dataset améliore la reconnaissance de personnes sous différents angles de caméra.
― 9 min lire
Cette recherche améliore la classification d'images en utilisant des descriptions détaillées générées par des modèles de langage.
― 7 min lire
ProText améliore les modèles de vision-langage en utilisant seulement des données textuelles pour mieux gérer les tâches.
― 7 min lire
Un aperçu du cadre MacCap et son impact sur la légende d'images.
― 7 min lire
Cet article parle des méthodes pour réduire les artefacts de bruit dans les Vision Transformers pour améliorer la qualité des caractéristiques.
― 8 min lire
Un nouveau cadre optimise les Réseaux Neuraux Tensoriels pour une meilleure efficacité et performance.
― 8 min lire
Nouveau modèle génère du texte en utilisant des représentations de pixels, améliorant la clarté et la performance.
― 14 min lire
RePGARS améliore la reconnaissance d'activité en utilisant des poses rendues sans dépendre d'un suivi précis.
― 8 min lire
IATS améliore la détection de texte en s'attaquant aux défis de la reconnaissance de texte inversé.
― 7 min lire
SeTformer améliore l'efficacité dans le traitement des images et du langage.
― 8 min lire
STAIR améliore la réponse aux questions vidéo en décomposant les requêtes en tâches faciles à gérer.
― 8 min lire
Cet article traite des techniques améliorées pour suivre des objets transparents dans des séquences vidéo.
― 12 min lire
Une nouvelle méthode améliore les performances des Vision Transformers dans les tâches de reconnaissance d'images.
― 8 min lire
NeRFmentation améliore l'estimation de profondeur monoculaire en utilisant des données synthétiques pour un meilleur entraînement du modèle.
― 10 min lire
Surf combine des méthodes explicites et implicites pour améliorer la modélisation 3D.
― 7 min lire
Nouveau modèle améliore le suivi et la reconnaissance de texte dans le contenu vidéo.
― 5 min lire
Un nouveau jeu de données pour améliorer la reconnaissance d'images et de textes dans le e-commerce.
― 9 min lire
DiffSketch permet aux artistes de créer des croquis stylisés à partir d'un seul exemple.
― 7 min lire
Une nouvelle architecture améliore efficacement le traitement des données visuelles basées sur des événements.
― 8 min lire
Cette recherche présente une nouvelle méthode pour détecter des objets de manière fiable dans des environnements complexes.
― 11 min lire
Une nouvelle approche utilisant des modèles de diffusion pour une meilleure représentation des scènes vidéo.
― 8 min lire
Examiner comment différents modèles pour les images et le texte peuvent fonctionner ensemble efficacement.
― 9 min lire
TRIPS améliore l'efficacité des tâches vision-langage en sélectionnant les morceaux d'images pertinents.
― 9 min lire
Les recherches mettent en avant l'utilisation du pré-entraînement auto-supervisé dans l'analyse d'images GIE.
― 9 min lire