Ludwig Schmidt

Diese Forschung konzentriert sich darauf, das Training von Sprachmodellen zu optimieren und deren Leistung in der realen Welt vorherzusagen.

2025-08-29T16:12:18+00:00 ― 4 min Lesedauer

Diese Studie konzentriert sich darauf, die räumliche Genauigkeit bei der Text-zu-Bild-Generierung zu verbessern.

2025-08-23T15:53:54+00:00 ― 7 min Lesedauer

Eine Studie hebt hervor, dass CLIP sich bei der Bilderkennung auf scheinbare Merkmale verlässt.

2025-08-19T07:53:04+00:00 ― 4 min Lesedauer

Das Einbeziehen von nicht-englischen Daten verbessert die Leistung von Vision-Language-Modellen und das kulturelle Verständnis.

2025-08-06T05:35:36+00:00 ― 6 min Lesedauer

VLMs haben Schwierigkeiten mit der Bildklassifizierung, aber eine bessere Datenintegration kann ihre Fähigkeiten verbessern.

2025-08-05T22:05:18+00:00 ― 4 min Lesedauer

Die Nutzung von Sprachmodellen verbessert die Vorhersagen für tabellarische Daten in verschiedenen Bereichen.

2025-07-27T22:01:24+00:00 ― 7 min Lesedauer

MINT-1T ist der grösste Open-Source-Datensatz zum Trainieren von multimodalen Modellen.

2025-07-27T13:20:00+00:00 ― 6 min Lesedauer

Ein Leitfaden zur Verbesserung des Trainings von Sprachmodellen mit begrenzten Ressourcen.

2025-07-23T08:44:24+00:00 ― 8 min Lesedauer

Eine neue Methode verbessert die Qualität synthetischer Daten für eine bessere Ausrichtung von Sprachmodellen.

2025-06-30T13:24:06+00:00 ― 6 min Lesedauer

xGen-MM verbessert multimodale Modelle für ein besseres Lernen von Bildern und Texten.

2025-06-27T00:04:54+00:00 ― 6 min Lesedauer

KALE kombiniert Bilder mit reichhaltigen Beschreibungen für ein besseres Verständnis.

2025-05-26T04:48:27+00:00 ― 6 min Lesedauer