Cihang Xie

Un nuovo benchmark valuta come i modelli video-linguistici gestiscono efficacemente le imprecisioni.

2025-07-24T17:47:18+00:00 ― 7 leggere min

Un modello che migliora la segmentazione di parti e oggetti nelle immagini.

2025-06-18T12:55:12+00:00 ― 5 leggere min

Un framework che usa token di memoria migliora la comprensione e l'interazione con i video.

2025-06-18T08:10:48+00:00 ― 7 leggere min