Hanwang Zhang

Cet article parle du biais de longueur de cadre dans la recherche texte-vidéo et d'une nouvelle méthode pour y remédier.

2025-09-25T15:12:54+00:00 ― 8 min lire

VcEdit améliore l'édition 3D en garantissant la cohérence sur plusieurs vues.

2025-08-28T06:37:48+00:00 ― 6 min lire

DTC123 améliore la génération de modèles 3D à partir d'images uniques en utilisant des modèles d'enseignement.

2025-08-21T20:42:42+00:00 ― 8 min lire

Une nouvelle méthode réduit le temps et le coût de formation des modèles de diffusion.

2025-08-06T10:27:54+00:00 ― 10 min lire

Setokim améliore la fusion de la compréhension visuelle et textuelle grâce à une tokenisation innovante.

2025-08-01T00:06:54+00:00 ― 10 min lire

Une nouvelle méthode optimise la segmentation d'image en diversifiant les exemples de contexte.

2025-07-13T20:33:42+00:00 ― 7 min lire

Une nouvelle stratégie combine l'entraînement génératif et discriminatif dans les modèles Vision-Language.

2025-06-02T08:06:30+00:00 ― 6 min lire

Une nouvelle méthode améliore la performance du modèle sur divers types de données.

2025-05-25T14:01:03+00:00 ― 6 min lire