Ludwig Schmidt

Objaverse-XL offre oltre 10 milioni di oggetti 3D diversi per lo sviluppo di tecnologie avanzate.

2025-10-21T11:21:54+00:00 ― 6 leggere min

Delle didascalie migliori possono migliorare le performance dei modelli multimodali usando immagini prese dal web.

2025-10-18T05:01:24+00:00 ― 6 leggere min

Questo studio esamina come i dati di pre-addestramento influenzano la robustezza del modello in diversi compiti.

2025-10-16T07:28:00+00:00 ― 7 leggere min

OpenFlamingo offre una piattaforma versatile per addestrare modelli che collegano immagini e testo.

2025-10-13T05:28:12+00:00 ― 5 leggere min

Scopri l'impatto delle reti di filtraggio dei dati sui dataset di machine learning e sulle prestazioni del modello.

2025-09-20T06:42:30+00:00 ― 7 leggere min

Questa ricerca si concentra sull'ottimizzazione dell'addestramento dei modelli linguistici e sulla previsione delle loro prestazioni nel mondo reale.

2025-08-29T16:12:18+00:00 ― 4 leggere min

Questo studio si concentra sul miglioramento dell'accuratezza spaziale nella generazione di immagini a partire dal testo.

2025-08-23T15:53:54+00:00 ― 7 leggere min

Uno studio mette in evidenza quanto CLIP si basi su caratteristiche spurie nel riconoscimento delle immagini.

2025-08-19T07:53:04+00:00 ― 4 leggere min

Includere dati non in inglese migliora le prestazioni dei modelli visione-linguaggio e la comprensione culturale.

2025-08-06T05:35:36+00:00 ― 6 leggere min

I VLM faticano con la classificazione delle immagini, ma una migliore integrazione dei dati può migliorare le loro capacità.

2025-08-05T22:05:18+00:00 ― 4 leggere min

Sfruttare i modelli linguistici migliora le previsioni per i dati tabellari in diversi settori.

2025-07-27T22:01:24+00:00 ― 7 leggere min

MINT-1T è il più grande dataset open-source per addestrare modelli multimodali.

2025-07-27T13:20:00+00:00 ― 6 leggere min

Una guida per migliorare l'addestramento dei modelli di linguaggio con risorse limitate.

2025-07-23T08:44:24+00:00 ― 8 leggere min

Un nuovo metodo migliora la qualità dei dati sintetici per un migliore allineamento dei modelli linguistici.

2025-06-30T13:24:06+00:00 ― 6 leggere min

xGen-MM migliora i modelli multimodali per un apprendimento migliore di immagini e testo.

2025-06-27T00:04:54+00:00 ― 6 leggere min

KALE combina immagini con didascalie ricche per una comprensione migliore.

2025-05-26T04:48:27+00:00 ― 5 leggere min