Jingdong Wang

Une nouvelle méthode pour évaluer les modèles texte-vidéo se concentre sur la dynamique.

2025-07-21T10:07:48+00:00 ― 9 min lire

Une nouvelle approche axée sur la profondeur par objet améliore la précision de détection 3D.

2025-07-13T06:12:36+00:00 ― 7 min lire

SEED améliore la détection d'objets 3D en utilisant la sélection de requêtes doubles et l'attention à grille déformable.

2025-07-13T06:04:42+00:00 ― 7 min lire

Une nouvelle méthode pour créer des avatars numériques réalistes à partir de vidéos.

2025-07-09T12:48:30+00:00 ― 5 min lire

Une nouvelle méthode améliore la précision et l'efficacité dans la détection d'objets 3D en utilisant un RNN de groupe linéaire.

2025-07-07T03:32:00+00:00 ― 6 min lire

Add-SD simplifie l'édition d'images en permettant d'ajouter des objets réalistes grâce à des invites textuelles.

2025-07-05T02:09:30+00:00 ― 7 min lire

ReSyncer améliore la qualité vidéo et la flexibilité des mouvements des lèvres synchronisés avec l'audio.

2025-07-01T12:18:42+00:00 ― 6 min lire

FullAnno améliore les annotations d'image pour un meilleur entraînement des modèles multimodaux.

2025-06-08T20:15:54+00:00 ― 7 min lire

Cet article présente un nouveau modèle qui combine la génération de texte et d'images en un seul système.

2025-06-06T22:34:36+00:00 ― 7 min lire

FlipClass propose une nouvelle méthode pour mieux apprendre dans la Découverte de Catégories Généralisées.

2025-06-03T10:26:30+00:00 ― 7 min lire

ALoRE optimise l'entraînement des modèles pour une reconnaissance d'images efficace et des applications plus larges.

2025-03-20T03:48:36+00:00 ― 8 min lire