Ein neuer Benchmark zeigt Lücken im visuellen Verständnis von grossen Sprachmodellen.
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Ein neuer Benchmark zeigt Lücken im visuellen Verständnis von grossen Sprachmodellen.
― 7 min Lesedauer
Das Einbeziehen von nicht-englischen Daten verbessert die Leistung von Vision-Language-Modellen und das kulturelle Verständnis.
― 6 min Lesedauer
Eine neue Methode verbessert, wie KI-Modelle räumliche und zeitliche Zusammenhänge interpretieren.
― 6 min Lesedauer
Forscher verwandeln gewöhnliche Videos mit KI-Technologie in immersive 3D-Szenen.
― 8 min Lesedauer