Gangshan Wu

Eine neuartige Methode verbessert die Fähigkeit von Vision-Language-Modellen, sich an neue Aufgaben anzupassen.

2025-10-06T20:44:12+00:00 ― 5 min Lesedauer

JointFormer verbessert VOS, indem es Merkmalsextraktion, Matching und Speicherverwaltung integriert.

2025-10-04T14:21:30+00:00 ― 6 min Lesedauer

SportsHHI konzentriert sich auf menschliche Interaktionen in Basketball- und Volleyballvideos für bessere Analysen.

2025-08-21T20:58:30+00:00 ― 6 min Lesedauer

Ein neues Framework verbessert die Anpassungsfähigkeit von Vision-Sprach-Modellen durch smarte Datenverarbeitung.

2025-07-18T17:05:12+00:00 ― 7 min Lesedauer

Eine neue Methode verbessert die Sprachtrennung in lauten Umgebungen mit mehreren Sprechern.

2025-07-09T16:53:50+00:00 ― 5 min Lesedauer

Self-TPT vereinfacht das Prompt-Tuning für Vision-Sprach-Modelle und verbessert Geschwindigkeit und Effizienz.

2025-06-29T10:40:24+00:00 ― 8 min Lesedauer