Une nouvelle méthode pour évaluer les modèles texte-vidéo se concentre sur la dynamique.
― 9 min lire
La science de pointe expliquée simplement
Une nouvelle méthode pour évaluer les modèles texte-vidéo se concentre sur la dynamique.
― 9 min lire
Une nouvelle approche axée sur la profondeur par objet améliore la précision de détection 3D.
― 7 min lire
SEED améliore la détection d'objets 3D en utilisant la sélection de requêtes doubles et l'attention à grille déformable.
― 7 min lire
Une nouvelle méthode pour créer des avatars numériques réalistes à partir de vidéos.
― 5 min lire
Une nouvelle méthode améliore la précision et l'efficacité dans la détection d'objets 3D en utilisant un RNN de groupe linéaire.
― 6 min lire
Add-SD simplifie l'édition d'images en permettant d'ajouter des objets réalistes grâce à des invites textuelles.
― 7 min lire
ReSyncer améliore la qualité vidéo et la flexibilité des mouvements des lèvres synchronisés avec l'audio.
― 6 min lire
FullAnno améliore les annotations d'image pour un meilleur entraînement des modèles multimodaux.
― 7 min lire
Cet article présente un nouveau modèle qui combine la génération de texte et d'images en un seul système.
― 7 min lire
FlipClass propose une nouvelle méthode pour mieux apprendre dans la Découverte de Catégories Généralisées.
― 7 min lire
ALoRE optimise l'entraînement des modèles pour une reconnaissance d'images efficace et des applications plus larges.
― 8 min lire