LongLLaVA verbessert das Verständnis von mehreren Bildern für verschiedene Anwendungen.
Xidong Wang, Dingjie Song, Shunian Chen
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
LongLLaVA verbessert das Verständnis von mehreren Bildern für verschiedene Anwendungen.
Xidong Wang, Dingjie Song, Shunian Chen
― 5 min Lesedauer
Die TRIM-Methode reduziert Bildtokens in multimodalen Sprachmodellen, während die Leistung erhalten bleibt.
Dingjie Song, Wenjun Wang, Shunian Chen
― 5 min Lesedauer
Ein neues Framework erkennt, wann multimodale Modelle ungeeignete Trainingsdaten verwenden.
Dingjie Song, Sicheng Lai, Shunian Chen
― 5 min Lesedauer