Ludwig Schmidt

Objaverse-XL offers over 10 million diverse 3D objects for advanced technology development.

2025-10-21T11:21:54+00:00 ― 6 min read

Better captions can enhance multimodal model performance using web-sourced images.

2025-10-18T05:01:24+00:00 ― 6 min read

This study examines how pre-training data affects model robustness in various tasks.

2025-10-16T07:28:00+00:00 ― 7 min read

OpenFlamingo offers a versatile platform for training models that connect images and text.

2025-10-13T05:28:12+00:00 ― 5 min read

Discover the impact of data filtering networks on machine learning datasets and model performance.

2025-09-20T06:42:30+00:00 ― 6 min read

This research focuses on optimizing language model training and predicting their real-world performance.

2025-08-29T16:12:18+00:00 ― 4 min read

This study focuses on enhancing spatial accuracy in text-to-image generation.

2025-08-23T15:53:54+00:00 ― 6 min read

A study highlights CLIP's reliance on spurious features in image recognition.

2025-08-19T07:53:04+00:00 ― 4 min read

Including non-English data improves vision-language model performance and cultural understanding.

2025-08-06T05:35:36+00:00 ― 5 min read

VLMs struggle with image classification, but better data integration can enhance their capabilities.

2025-08-05T22:05:18+00:00 ― 4 min read

Leveraging language models improves predictions for tabular data across various fields.

2025-07-27T22:01:24+00:00 ― 6 min read

MINT-1T is the largest open-source dataset for training multimodal models.

2025-07-27T13:20:00+00:00 ― 5 min read

A guide to improving language model training with limited resources.

2025-07-23T08:44:24+00:00 ― 7 min read

A new method enhances synthetic data quality for better language model alignment.

2025-06-30T13:24:06+00:00 ― 5 min read

xGen-MM enhances multimodal models for better image and text learning.

2025-06-27T00:04:54+00:00 ― 6 min read

KALE combines images with rich captions for better understanding.

2025-05-26T04:48:27+00:00 ― 6 min read