Vision-Language-Modelle haben Schwierigkeiten, die Sprachstruktur für Bild-Text-Aufgaben zu verstehen.
Sri Harsha Dumpala, David Arps, Sageev Oore
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Vision-Language-Modelle haben Schwierigkeiten, die Sprachstruktur für Bild-Text-Aufgaben zu verstehen.
Sri Harsha Dumpala, David Arps, Sageev Oore
― 7 min Lesedauer