Une nouvelle méthode utilise des maths basiques pour analyser le contenu vidéo de manière efficace.
― 6 min lire
La science de pointe expliquée simplement
Une nouvelle méthode utilise des maths basiques pour analyser le contenu vidéo de manière efficace.
― 6 min lire
RefineBox améliore la précision de la localisation dans les modèles de détection d'objets de type DETR.
― 6 min lire
BGA-MNER améliore les connexions texte-image pour une meilleure reconnaissance des entités.
― 7 min lire
MA-CLIP améliore la reconnaissance d’actions avec peu d’exemples et une meilleure intégration du vidéo et du texte.
― 8 min lire
Une nouvelle méthode améliore le rendu des scènes dynamiques en utilisant des techniques de déformation avant.
― 7 min lire
Un nouveau cadre améliore la segmentation des objets en se basant sur des descriptions en langage naturel.
― 7 min lire
Un nouveau cadre propose une détection de texte améliorée sur plusieurs formats et granularités.
― 10 min lire
BEVSpread améliore la précision de la détection d'objets pour conduire plus sûr.
― 7 min lire
De nouvelles méthodes améliorent les animations faciales réalistes synchronisées avec l'audio.
― 8 min lire
Une nouvelle méthode pour évaluer les modèles texte-vidéo se concentre sur la dynamique.
― 9 min lire
Une nouvelle approche axée sur la profondeur par objet améliore la précision de détection 3D.
― 7 min lire
SEED améliore la détection d'objets 3D en utilisant la sélection de requêtes doubles et l'attention à grille déformable.
― 7 min lire
Une nouvelle méthode pour créer des avatars numériques réalistes à partir de vidéos.
― 5 min lire
Une nouvelle méthode améliore la précision et l'efficacité dans la détection d'objets 3D en utilisant un RNN de groupe linéaire.
― 6 min lire
Add-SD simplifie l'édition d'images en permettant d'ajouter des objets réalistes grâce à des invites textuelles.
― 7 min lire
ReSyncer améliore la qualité vidéo et la flexibilité des mouvements des lèvres synchronisés avec l'audio.
― 6 min lire
FullAnno améliore les annotations d'image pour un meilleur entraînement des modèles multimodaux.
― 7 min lire
Cet article présente un nouveau modèle qui combine la génération de texte et d'images en un seul système.
― 7 min lire
FlipClass propose une nouvelle méthode pour mieux apprendre dans la Découverte de Catégories Généralisées.
― 7 min lire
ALoRE optimise l'entraînement des modèles pour une reconnaissance d'images efficace et des applications plus larges.
― 8 min lire