Gangshan Wu

Une nouvelle méthode améliore la capacité des modèles Vision-Language à s'adapter à de nouvelles tâches.

2025-10-06T20:44:12+00:00 ― 6 min lire

JointFormer améliore le VOS en intégrant l'extraction de caractéristiques, la correspondance et la gestion de la mémoire.

2025-10-04T14:21:30+00:00 ― 7 min lire

SportsHHI se concentre sur les interactions humaines dans les vidéos de basket et de volley pour une analyse améliorée.

2025-08-21T20:58:30+00:00 ― 7 min lire

Un nouveau cadre améliore l'adaptabilité des modèles vision-langage grâce à un traitement de données intelligent.

2025-07-18T17:05:12+00:00 ― 8 min lire

Une nouvelle méthode améliore la séparation des voix dans des environnements bruyants avec plusieurs intervenants.

2025-07-09T16:53:50+00:00 ― 6 min lire

Self-TPT simplifie le réglage des prompts pour les modèles vision-langage, améliorant la vitesse et l'efficacité.

2025-06-29T10:40:24+00:00 ― 10 min lire