Dingjie Song

Neue Benchmarks zeigen Herausforderungen für MLLMs bei realen Aufgaben mit langen Kontexten.

2025-08-15T10:16:00+00:00 ― 8 min Lesedauer

LongLLaVA verbessert das Verständnis von mehreren Bildern für verschiedene Anwendungen.

2025-06-17T07:57:12+00:00 ― 5 min Lesedauer

Die TRIM-Methode reduziert Bildtokens in multimodalen Sprachmodellen, während die Leistung erhalten bleibt.

2025-06-10T11:06:24+00:00 ― 5 min Lesedauer

Ein neues Framework erkennt, wann multimodale Modelle ungeeignete Trainingsdaten verwenden.

2025-05-29T07:11:33+00:00 ― 5 min Lesedauer